Comments
Description
Transcript
須藤 克仁 - NTTコミュニケーション科学基礎研究所
機械翻訳技術「超」概説 須藤 克仁 NTTコミュニケーション科学基礎研究所 © 2012 NTT Corporation. All rights reserved. はじめに • 機械翻訳の技術を概説 • と言ってもほぼ「統計的機械翻訳」 • 統計的音声認識と気分は似ています • 一部の手前味噌はご容赦ください 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 2 機械翻訳の大きな分類 • 知識ベース • 規則に基づく翻訳 • コーパスベース • 用例に基づく翻訳 • 統計的機械翻訳 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 3 統計的機械翻訳の課題 • モデル化 • 様々な統計モデルと学習法 • デコード • 探索の「サボり方」 • 評価 • 翻訳の「良さ」を定義する 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 4 統計的機械翻訳の課題 • モデル化 • 様々な統計モデルと学習法 • デコード • 探索の「サボり方」 • 評価 • 翻訳の「良さ」を定義する 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 5 Noisy Channel 翻訳モデル • 英語を送ったら仏語に化けた! f : 仏語(source)の単語列, e : 英語(target)の単語列 ê = argmax p(e|f ) = argmax p(f |e)p(e) e e 翻訳モデル 原言語と目的言語の文ペア (パラレルコーパス)から学習 言語モデル 目的言語のコーパスから学習 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 6 p( f |e)のモデル化 (Brown+ 1990) • 多対1の単語対応をモデル化 f f f f f f f 1 2 He is 3 a 4 5 high 6 school a3=0 7 student . a2=4 φ e0 彼 e1 単語翻訳確率 p(fj | ei) は e2 高校生 e3 です e4 。 e5 単語対応確率 p(aj | f, e) 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 7 p(aj | f, e)のモデル化 • 通称 IBM Model (Brown+ 1990) • Model 1: 一様分布 • Model 2: j, |f|, |e|の関数 • Model 3: Model 2+繁殖確率 • Model 4: 単語クラスと相対位置の導入 • Model 5: Model 4+単語位置重複問題の修正 • HMM Model (Vogel+ 1996): Model 1+相対位置 絶対的な位置だけで 決める...とてもスパース 一個の英単語に何個の 仏単語が対応するか? 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 8 単語対応付け (word alignment) • • IBM/HMM Modelsで対訳文の単語対応を決める • • モデルを学習 → Viterbi探索 多対多対応を得るため双方向重ねあわせ 公開ツール • • GIZA++ • • MGIZA++ (GIZA++のmulti-thread対応改造版) Chaski (Hadoop用wrapper) Berkeley Aligner 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 9 単語から句へ 彼 は 高校生 です 。 a hig h sch oo stu l den t . is He • 翻訳単位を単語から句に拡張 (Koehn+ 2003) • 単語対応付け結果から句の対応を列挙 • 単語対応と矛盾しないように 彼 → He 句翻訳確率 p(f | e) を学習 彼 は → He 高校生 → high school student 高校生 です → is a high school student 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 10 Log-linear 翻訳モデル • 任意個のサブモデル(特徴量)を組み合わせる ê = argmax p(e|f ) = argmax exp e e X 重みは開発セットを ! 用いて最適化する wk hk (f , e) k • 句翻訳確率 p(f| e), p(e| f ) • 句の並べ替え確率 • 言語モデル確率 p(e) などなど サブモデル 複数の制約を 効果的に利用 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 11 X1 is X2 a He . X S X2 . sch oo l stu den です 。 高校生 は hig h 高校生 彼 → He 高校生 → high school student 彼 は 高校生 です 。 → He is a high school student . X X1 彼 は high school student 彼 a He S is • 文の階層的構造を考慮 (Chiang 2007) t 句から階層的句へ です 。 X1 は X2 です 。→ X1 is a X2 . 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 12 構文木に基づく翻訳 • 構文の制約を活用 (Galley+ 2004, 通称GHKM) S NP VP P VP → is NP | NP です NP NP → a NP | NP NP He is a high S → NP VP P | NP は VP P school NP → high school student | 高校生 student . 構文的に妥当な翻訳が可能 彼 は 高校生 です 。 木→単語列 / 単語列→木 / 木→木 など 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 13 重みの学習 • 開発セットに対して最適化 ê = argmax p(e|f ) = argmax exp e e X k 重みは開発セットを ! 用いて最適化する wk hk (f , e) • いくつかの手法 • Minimum Error Rate Training [Och 2003] • Margin Infused Relaxed Alg. [Watanabe+ 2007] • Pairwise Ranking Optimization [Hopkins+ 2011] 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 14 翻訳モデルのまとめ • 単語→句→階層的句 / 構文木 と着実に進化 • 「単語対応付け」はすべての基本 • 本質的な多対多対応は未解決 • 表現力の高さとスパースネスのトレードオフ • ベイズ的手法も最近多く試みられています • モデルの重みは開発セットで最適化 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 15 統計的機械翻訳の課題 • モデル化 • 様々な統計モデルと学習法 • デコード • 探索の「サボり方」 • 評価 • 翻訳の「良さ」を定義する 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 16 翻訳デコーディング • 以下の式を満足する ê を探索する ê = argmax p(e|f ) = argmax exp e e X wk hk (f , e) k ! • チョー適当に解くと O(n n!) • n単語がそれぞれm個の翻訳候補を持つ • n単語の順列を考える m 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 17 句翻訳デコーダ • マルチスタックデコーダ [Koehn 2003] • 翻訳済み単語数毎のスタックで仮説管理 • 目的言語側の先頭から順に解く 彼 は 高校生 です 。 彼 は→He was .. 彼→His 彼 は→He is .. .. .. 彼→He 彼 は→He 彼 は です→He is 彼 は 高校生 です 彼 は 高校生 です 。 翻訳済=1 翻訳済=2 翻訳済=3 翻訳済=4 翻訳済=5 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 18 階層的句翻訳デコーダ • 構文解析と同等 [Chiang 2007, Zollmann 2006] S S → NP VP P | NP は VP P VP NP VP → is NP | NP です NP → a NP | NP NP NP → He | 彼 He NP is high a school P student . S NP → high school student | 高校生 VP P → .| 。 NP NP 彼 NP は 高校生 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) P です 。 19 計算量の問題 • 並べ替えの探索が大変 ... 最悪 O(n!) • 並べ替え距離を制限する • 計算量は劇的に削減,だが... He lost his wallet in the airport yesterday . 彼 は 昨日 空港 で 彼 の 財布 を なくし た 。 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 20 Moses • オープンソースの翻訳ソフトウェア • Philipp Koehn (U. Edinburgh)を中心に開発 • 学習・デコードの各種手法を実装済み • http://www.statmt.org/moses/ • 何か対訳データを用意すればすぐ使えます Footer 21 デコードのまとめ • 基本的に計算をサボらないと解けない • モデルは良いのに翻訳結果が悪い • 特に語順を正しく訳そうとすると大変 • オープンソース翻訳ソフトウェア Moses • 多くの手法が実装済みでとても助かる • 細かいアルゴリズムは教科書を参照 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 22 統計的機械翻訳の課題 • モデル化 • 様々な統計モデルと学習法 • デコード • 探索の「サボり方」 • 評価 • 翻訳の「良さ」を定義する 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 23 翻訳の品質評価 • 人手評価 - 正確さ, 流暢さ等を人間が採点 • Pros: 自然で納得感のある評価 • Cons: 評価の揺れ, 評価コスト(お金・時間) • 自動評価 - 参照(正解)訳と比較し機械が採点 • Pros: 簡便さ, 再現性, 最適化用目的関数 • Cons: 人手評価との乖離 = うさんくさい 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 24 BLEU • IBMが考案 (Papineni+ 2002): de-facto standard • n-gramの精度「のみ」に着目 翻訳結果 参照訳 We are delighted to inform you that your paper has been accepted . We are sorry 1-gram: 10/13 BLEU = s n Y n to inform you that your paper was not 2-gram: 7/12 ✓ 3-gram: 4/11 length(output) pn ⇥ min 1, length(ref erence) n-gram精度の幾何平均 brevity penalty ◆ イカサマ防止 accepted . 4-gram: 3/10 注: BLEUは文書単位で計算する 文単位BLEUは人手評価との相関が低いと 言われている 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 25 いろいろな尺度 • WER (Word Error Rate) • PER (Position-independent WER) • 句の並べ替えを考えると少し乱暴 • TER (Translation Edit Rate) • 句単位の並べ替えのコストを下げる • METEOR • 同義語や語幹で単語の正解判定 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 26 RIBES (ライビーズ) • NTTで考案 (Isozaki+ 2010, 平尾 2011) • 語順の誤りに大きなペナルティをかける 翻訳結果 参照訳 My I paper drunk was so rejected much today because because BLEU: 0.74 I drunk my so paper much was today . rejected . RIBES: 0.47 Kendall’s τ : 順位相関係数 1 + ⌧kendall ↵ RIBES = ⇥ p1 ⇥ BP 2 単語正解率 brevity penalty GPLv2で公開中 http://www.kecl.ntt.co.jp/icl/lirg/ribes/index-j.html RIBES NTT Search * α=0.25, β=0.1 をデフォルトにしている 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 27 BLEU vs. RIBES • メタ評価(人手評価と自動評価の相関) 表: 人手評価(正確性)と自動評価尺度との相関(Spearman’s ρ) 英→日 中→英 英→日 BLEU 0.931 0.511 -0.029 RIBES 0.949 0.929 0.716 (含規則ベース) NTCIR-9 PatentMT 評価結果より引用 (Goto+ 2011) • RIBESは語順の差の大きな言語対で有効 • でも結局みんなBLEUで生きています 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 28 評価のまとめ • 機械翻訳の進化のための重要課題の一つ • 自動評価はうさんくさくても使われている • 最適化の目的関数として必要 • 言語非依存で簡便なものが望ましい • 人手評価も万能ではないので注意 • 何に注目するかはタスク依存 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 29 その他の話題 • 対訳文書収集,対訳文対応付け • ドメイン適応 • 音声翻訳,画像中の文字翻訳 • 音声認識・文字認識との統合 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 30 Further Reading... Philipp Koehn, Statistical Machine Translation Cambridge University Press, 2010 2000年代の劇的な統計翻訳の進化をおおむねカバーできる? 金明哲ほか, 「統計科学のフロンティア」10 言語と心理の統計 岩波書店, 2003 (重判未定らしい) IBMモデルを含む単語ベース翻訳について解説あり (p.100∼) 国際会議: ACL, NAACL, EACL, EMNLP, IJCNLP, AMTA, EAMT, MT Summit, ... 論文誌: Computational Linguistics, Machine Translation, ACM TALIP, ... 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 31 おわりに • (統計的)機械翻訳とは? • 自然言語処理の実用的アプリケーション • 数理的な記号処理の基礎研究課題 • 全然紹介しきれてませんが... (特に最近の話) • 翻訳研究で日本の占める位置はまだ小さいです • みなさまの参戦をお待ちしております 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 32 参考文献 • P. F. Brown et al., A Statistical Approach to Machine Translation, Computational Linguistics, vol. 16, no. 2 (1990) • S.Vogel et al., HMM-Based Word Alignment in Statistical Translation, Proc. COLING (1996) 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 33 参考文献 • P. Koehn et al., Statistical Phrase-Based Translation, Proc. NAACL (2003) • M. Galley et al., What’s in a translation rule?, Proc. NAACL (2004) • D. Chiang, Hierarchical Phrase-Based Translation, Computational Linguistics, vol. 33, no. 2 (2007) 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 34 参考文献 • F. J. Och, Minimum Error Rate Training in Statistical Machine Translation, Proc. ACL (2003) • T. Watanabe et al., Online Large Margin Training for Statistical Machine Translation, Proc. EMNLP (2007) • M. Hopkins and J. May, Tuning as Ranking, Proc. EMNLP (2011) 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 35 参考文献 • K. Papineni et al., BLEU: a Method for Automatic Evaluation of Machine Translation, Proc. ACL (2002) • H. Isozaki et al., Automatic Evaluation of Translation Quality for Distant Language Pairs, Proc. EMNLP (2010) • 平尾 et al., RIBES: 順位相関に基づく翻訳の自動評価 法, 言語処理学会年次大会 (2011) • I. Goto et al., Overview of the Patent Machine Translation Task at the NTCIR-9 Workshop, Proc. NTCIR-9 (2011) 機械翻訳技術「超」概説@第4回若手研究者フォーラム (2012/12/23) 36