Comments
Description
Transcript
June 23, 2009
The Mathematics of Statistical Machine Translation: Parameter Estimation Peter E Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, Robert L. Mercer Computational Linguistics, Vol 19‐2, 1993, ACL, pp.263‐311 (Jun.,23,2009 揚石担当) 目的 • 背景 – 統計機械翻訳に注目 • 利用可能なパラレルコーパスが増大 • 過去の研究により、有用性確認 • 統計モデルの提案 – 文対からのパラメタ推定 • 単語アラインメント 5つのmodelを提案 アラインメントの種類 英単語が独立 フランス単語が独立 一般的 統計翻訳 • フランス語Fから英語Eへの翻訳 – P(e|f) が最大となるようなe^が最尤な翻訳 • – ベイズの定理より • – P(f)は無視⇒入力に対し、一定値 – P(e) :language model – P(f|e) :translation model ⇒これに注目 翻訳モデル • アラインメントを導入 – – • 英文: • 仏文: • アラインメント: – a1=2 それぞれ 0からlの間の値を持つ Model1 • – 様々な仮定を適用 • Pr(m|e) • • • = 仏文の長さ(単語数)がmである確率 = ある定数ε =j 番目の仏単語がつながるのが aj番目の英単語の確率 = どの場所にも同確率 =(l+1)‐1 =j 番目の仏単語がfjの確率 = fjとeajのみで決まる = Model1 • • aについて和をとる – (j:1~m、aj:0~l) – 上式で推定すべきパラメタはt()のみ – 制約条件: より ラグランジュの未定乗数法を用いて極値を求める – • t(f|e)で偏微分 – – これを0として eとfがaで繋がっている回数 • • 両辺にt()が出現 – EMアルゴリズムによりt()を求める • 簡単化 よりt(f|e)は – – – 期待値を定義 • • Pr(a|e,f)=Pr(f,a|e)/Pr(f|e)を用いλePr(f|e)をλeとすると – – S個のデータセットでは λe:正規化項 計算量の問題 • (l+1)m回の計算が必要 を導入 • – 計算量:(l+1)m⇒m(l+1) – m = 3,l = 1として • 左辺:t10t20t30 +t10t20t31 +…+ t11t21t30 + t11t21t31 • 右辺:(t10+t11) (t20+t21) (t30+t31) – また、Pr(f|e)は • 偏微分の再計算 • • これにより – 重み – 計算量:l+m fとeの対応数 パラメタ推定アルゴリズム 1. t(f|e)の初期化 2. 各文sについて、 3. 各eについて、λeを計算 – 4. 各fについて、t(f|e)を更新 – 5. 繰り返し を計算 実行例 – 私 は 、 皆 と 喜び を 分かち 合う こと の 中 に 1 2 3 4 5 6 7 8 9 10 11 12 13 共同 の 冒険 が ある こと を 主張 し たい 。 14 15 16 17 18 19 20 21 22 23 24 – NULL ({ 2 24 }) I ({ 1 }) call ({ 5 7 20 22 }) for ({ }) a ({ 3 17 }) collective ({ 18 }) adventure ({ 16 }) in ({ 11 13 15 }) generalized ({ 4 8 9 10 12 14 19 21 23 }) joy ({ 6 }) Model2 • Model1:単語の位置を考慮しない ⇒単語の位置考慮で精度向上の可能性 • Mode1を変更 – • (l+1)m⇒ • 制約条件を追加: – – Model2 の変更 • – 期待値: – Model1と同様に • • – 効率化 • • これにより、期待値は – – Model2 • Model1 – Model2の特殊なケース • a(i|j,m,l)=(l+1)m • Model2 – 複数の極大値を持つ=最適解の保証はなし – 初期値をModel1によって計算 Model3 • Model1、Model2 – 1対1の単語対応を想定 – 実際の翻訳 • 1対多 または 1対なし がありえる • “the” ⇒ “le lo,…” or “ ” • “only” ⇒ “seulement” or “ne…que” • Model3 – これを扱う明示的なパラメータを導入 • “fertility”:繁殖力 Model3のパラメタ • n(φ|ei) :繁殖確率(fertility probabilities) – 英単語eがφ個の仏単語に対応する確率 • t(f|ei):翻訳確率 (translation probabilities) – 英単語eが仏単語fに翻訳される確率 • d(j|i,l,m):歪み確率(distortion probabilities) – 英文長がl、仏文長がm で、i番目の英単語がj の 仏単語に翻訳される確率 Model3のパラメタ • e0の繁殖確率φ0:別の確率を仮定 – 翻訳されない語数⇒仏文長に依存 – • p0+p1=1 • 翻訳されない語数=翻訳されない回数 Model3 • Model3の構成 1. 繁殖確率で単語をコピー – n(φ|ei) 2. Null生成 – 3. 単語ごとに翻訳確率で翻訳 – t(f|ei) 4. 歪み確率で位置決定 – d(j|i,l,m) 計算量の問題 • Model1,2と同様に計算すると – – 膨大な計算量⇒近似的に求める ビタビアライメントと近傍の定義 • ビタビアライメント(Viterbi alighment) – 対訳ペア中の全アライメントで、確率最大アライメント • 近傍 – あるアライメントa • 一つの仏単語fの対応先 – 別の英単語に移動させたことによって得られるアライメントa’ • aの二つの仏語単語の対応先 – 交換することによって得られるアライメントa – a’はaの近傍 効率的な計算 • i⇒i’の変更によって得られる近傍アラインメントa’ – 効率的な計算 • i⇒i’の変更によって得られる近傍アラインメントa’ – 変更先の繁殖力 効率的な計算 • i⇒i’の変更によって得られる近傍アラインメントa’ – 変更先の繁殖確率 効率的な計算 • i⇒i’の変更によって得られる近傍アラインメントa’ – 変更前の繁殖確率 効率的な計算 • i⇒i’の変更によって得られる近傍アラインメントa’ – 変更先の翻訳確率 効率的な計算 • i⇒i’の変更によって得られる近傍アラインメントa’ – 変更先の歪み確率 – aをModel2によって計算 • 近傍を探索することにより効率化 Model4 • Model3 – 単語の位置(歪み確率):絶対位置 • Model4 – 相対位置 – 単語同士の位置も考慮 • 英語:形容詞+名詞 • 仏語:名詞+形容詞 Model4の歪み確率 • head – ある英単語に対応する仏単語の中で、最も先頭 に近いもの CE NE EST PAS CLAIR It is not clear Model4の歪み確率 • head – ある英単語に対応する仏単語の中で、最も先頭 に近いもの • headの場合 – – Θi‐1:i‐1番目の英単語が対応する仏単語の位置 • Θi‐1:3 • d1(‐1|A(e),B(f))が高くなるのが望ましい CE NE EST PAS CLAIR It is not clear A,B:単語クラス Model4の歪み確率 • head – ある英単語に対応する仏単語の中で、最も先頭 に近いもの • それ以外 – – π[i]k‐1:同じ英単語に対応している直前の仏単語 • notの翻訳:ne pas でもしばしば動詞が挿入 • d>1(2|B(pas))が高確率 CE NE EST PAS CLAIR It is not clear Model5 • Model4 – 単語位置:直前の語のみ考慮 • 複数の単語を同じ位置に配置する可能性 • Model5 – 単語を空白部分に配置するよう改善 • vj:j番目までの空白数 • • jが空白:1 それ以外:0 IBM Model まとめ • • • • • Model1:翻訳確率のみ Model2:Model1+単語位置(絶対) Model3:Model2+繁殖確率 Model4:Model3+単語位置(相対) Model5:Model4+単語位置(相対)の改良