最小誤り率訓練

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 最小誤り率訓練

Transcript

最小誤り率訓練

19. 最小誤り率訓練
内山将夫@NICT
[email protected]
1
SMT の構成要素
ê = arg max
e
X
i
λihi(e, f )
• 探索： arg maxe なる ê の探索
• モデリング：良い素性 hi(e, f ) の設計
• パラメタ調整：λi の学習
最小誤り率訓練 (MERT, Minimum Error Rate Training)
は，パラメタ調整に利用される．
2
パラメタ調整の枠組
• 訓練データ： hi(e, f ) を獲得する
• 開発データ： λi を獲得する
• テストデータ：翻訳性能を測定する
3
パラメタ調整の原則
• 翻訳性能を最大化するパラメタが欲しい
翻訳性能を BLEU で測定するとすると，BLEU を最
大化するようなパラメタが欲しい．
開発データにおける入力文を
F = {f1, f2, ...}
参照用の翻訳文を
R = {r1, r2, ...}
F を機械翻訳した結果を
E = {e1, e2, ...}
としたとき，
λ̂ = arg max BLEU(R, E)
λ
なるパラメタ λ̂ が欲しい．
4
最適化としての λ̂ の探索
1. λm = 適当な初期値, Ci = φ
2. for fi ∈ F
(a) Ci0 = {ei,s| スコア P λmhm(e, fi) が大きい n 翻訳文 }
(b) Ci = Ci ∪ Ci0. (これまでの翻訳候補に加えて，今
の λ を利用して得られた翻訳候補を追加する)
3. λ を更新する
(a) 今の λ を利用して，拡張された Ci の中から一番ス
P
コアが高い ei = arg maxe lambdamhm(e, fi) なる
ei を得ることにより，fi に対する，今のパラメタ
での翻訳文とする．
(b) E = {ei| 上記で選ばれた翻訳文 } を利用して，λ に
対応する BLEU(E, R; λ) を得る．
(c) これにより，λ → BLEU(E, R; λ) の関係が計算で
きるので，λ を少しずつ変えながら，現在の翻訳
文集合 Ci から，なるべく BLEU が大きくなるよう
に，ei を選択できるような λ を探す
4. goto 2 or exit
5
多変量最適化の方法
• Simplex 法，Powell 法等のノンパラメトリック法 (関
数勾配が不要な方法)
cf. Numerical Recipes in C
• 対数線形モデルに特有な方法
6
対数線形モデルに特有な方法
• ある方向 d について，1 次元最適化をする
• 上記を，たくさんの方向に繰り返して，少しずつ解
を改善して，最適解を求める．
1 次元最適化を高速化する．
7
最小誤り率訓練
BLEU 最大化の代りに，より簡単な，誤り個数最小化の
問題を考える．これを，あとで，BLEU 最大化に拡張す
る
8
誤り個数 E(rs1, es1) の定義
E(rs1, es1)
=
S
X
s=1
E(rs, es)
参照文のリスト = {r1, r2, ..., rS }
翻訳文のリスト = {e1, e2, ..., eS }





1 (rs 6= es)
 0 (rs = es )
E(rs, es) = 
この E(rs, es) が，文が完全に一致するときに 0 で，そう
でないときに 1 となっているので，翻訳文の評価として
は，ずいぶんと簡略化されている．
9
誤り個数を最小化するパラメタ λ̂
λˆM
1 = arg min
M
λ1
es =
e(fs; λM
1 )
Cs
λm
hm(e, fs)
fs
S
X
E(rs, e(fs; λM
1 ))
s=1
= arg max
M
X
e∈Cs m=1
=
=
=
=
λmhm(e, fs)
n 個の翻訳候補
素性 m の重み
素性 m の値
入力文
10
誤り個数の性質
E(rs1, es1)
=
S
X
s=1
E(rs, es)
• E(rs, es) の和が全体の値となる
• したがって，個々の誤り E(rs, es) と λM
1 の関係がわか
れば，それを加算すれば，全体の誤りと λM
1 の関係
がわかる．
さて，一次元の最適化では，ある方向 d に向けての最適
化をする．その方向を M 次元ベクトル dM
1 により表現す
る．すると，ある定数ベクトル g1M を利用することによ
り，素性ベクトル λM
1 は
M
M
λM
1 = g1 + γd1
と表現できる．
M
したがって，λM
1 を，ある与えられた方向 d1 に最適化
するとは，E(rs1, es1) が最小となるような，g1M と γ を求
めることである．
ここで，
es = e(fs; λM
1 ) = arg max
M
X
e∈Cs m=1
λmhm(e, fs)
により，候補 Cs から es を選んで，それにより，E(rs, es)
M
が決まる．この es が，λM
1 ，つまり，g1 と γ により異
なる．
したがって，es と g1M ，γ の関係が知りたい．
11
es と g1M ，γ の関係
素性値のベクトルを hM
1 = {h1 (e, f ), ...} とする．する
と，翻訳文集合 Cs 中の候補を ei とすると，そのスコア
si は，
si =
M
X
λmhm(ei, fs)
m=1
M
λM
·
h
1
1
M
(g1M + γdM
)
·
h
1
1
M
(g1M · hM
1 + γd1 ·
=
=
=
= (bi + γai)
hM
1 )
ただし，
bi = g1M · hM
1
M
ai = dM
·
h
1
1
(1)
である．つまり，スコア si は，ある定数 ai と bi から定め
られる直線 ai + γbi の上にある．すなわち，ei のスコア
si は，γ を変えると変わる．
12
γ の変化による es = arg maxei si の変化
Score
S3
b3
S2
S
b
a3
b2
a2
a1
• (−∞, γ1] のときはスコア S1 が最大なので文 e1 が選
ばれる．
• (−γ1, γ2] のときは，e2 が選ばれる
• (−γ2, ∞] のときは，e3 が選ばれる
初期値 = E(γ = −∞) = E(r, e1)
左から右に動いていって，
γ1 になったら ∆E = E(r, e2) − E(r, e1)
γ2 になったら ∆E = E(r, e3) − E(r, e2)
のように，γ の変化と，その時点での ∆E を記録する．
すると，ある参照文 r について，γ を動かしていったと
きに，どの時点で，誤りの個数が変化するかがわかる．
13
各入力文についての結果を統合する
• 入力文 1
γ11 → ∆E11
γ21 → ∆E21
...
• 入力文 2
γ12 → ∆E12
γ22 → ∆E22
...
これらをみんなあわせると
γ1 → ∆E1
γ2 → ∆E2
...
のように，どの γ において，どの程度，誤りの個数が変
化したかがわかる．
これより，γ = −∞ のときの誤り個数に対して，γ1, γ2,
... と γ を変えていったときの誤りの個数の変化がわか
るので，そのときの最小誤りのところの γ を利用する．
この γ を利用すると，一次元方向での最小化が達成でき
る．そのため，この結果を利用することにより，多次元
の最適化ができる．
14
BLEU への拡張
log pn
BLEU = BP (·) exp(
)
n=1 N
N
X
(2)
BP (·) = 長さの短い文へのペナルティ
N = 4
pn = ngram 精度
P
P
MT 訳 MT 訳の ngram 共有 ngram 数
=
P
P
MT 訳 MT 訳の ngram ngram 数
拡張へのポイントは，BLEU においては，pn のような部
分が，共有する ngram の各文に対する総和として表され
ることである．したがって，誤りの場合と同様に γ が変
化するたびに，共有する ngram の総和が変化するので，
そのたびに，共有する ngram の総和等から pn 等を計算
すれば，γ が変化するたびの BLEU の変化がわかる．
したがって，単純な誤り個数の場合と同様に，BLEU が
最大となる γ がわかる．
15
MERT の繰り返し回数と BLEU の関係
0.27
’class/itr-mert.txt’
0.26
0.25
BLEU
0.24
0.23
0.22
0.21
0.2
0.19
0.18
0
2
4
6
8
Iteration
10
12
14
16
BLEU の変化が大きいことがわかる．パラメタ値の調整
は，質の良い翻訳を達成するために，必要不可欠であ
る．
16
繰り返し回数と訳文の変化 1
Input: thus , the left input data of node nd15
is obtained .
Reference: これにより、ノードＮＤ１
５の左入力データが得られたことにな
る。
itr1: したがって、左入力データがノードＮ
Ｄ１５が得られる。
itr2: 以上のようにして構成されてい
るがされているノードＮＤ１５のよ
うにして得られたままに放置してい
るとされてい
るのが、、、、
のデータのデータのようにして、入
力されているようにされている。
itr3: このようにして、ノードＮＤ１
５の左入力データが得られるようになっ
ているようになっている。
itr4: これにより、ノードＮＤ１５の左入
力データが得られる。
17
繰り返し回数と訳文の変化 2
Input: the system arrangement shown in fig. 1
will be described in more detail below .
Reference: 図１のシステム構成について更
に詳細に説明する。
itr1: この構成に詳しく説明する。
itr2: より以上のように構成されてい
るのは、図１の第１の図に示
すよ
うにした場合について説明したよ
うに構成されているされているシステ
ムの詳細な説明されるようになってい
るの下方に位置して説明するように構
成されているようにされている。
itr3: 図１に示すように構成されて、
システムのより詳細に説明する以下のよ
うになっている。
itr4: 図１に示すように構成され、システ
ムの更に詳細に説明する。
itr5: 図１に示すシステム構成の詳しく説
明する。
itr6: 図１に示す構成のシステム詳しく説
明する。
itr7: 図１に示すシステム構成の更に詳
細に説明する。
18
まとめ
• BLEU が最大化するようにパラメタを調整すること
により，評価値に沿ったパラメタを獲得できる
これより，適正な評価を与えることが重要であること
がわかる．
• 自動的に適正な評価を与えることができれば，その
評価を最大化するようにパラメタを調整することに
より，良いシステムを作成することができる．
19