Comments
Description
Transcript
翻訳自動評価法 翻訳 質 推定 技術 進化
翻訳 翻訳自動評価法 質 推定 技術 進化 磯崎 秀樹 岡山県立大学 2016 年 11 月 25 日 第 4 回特許情報 翻訳 改良 翻訳 作成 、 悪 、新 。 色 人手評価 、出力 思 訳 文 訳 人間 見 、以下 2 • 妥当性 (adequacy): 訳 低 、近年 、全体的 採点 必要 。 評価尺度 有名。 忠実 流暢 人手評価 。 確認 原文 • 流暢性 (fluency): 訳 信頼性 作業 本当 訳 「人手評価」 ( 改善 変更 副作用 。 古 訳 、 見 1-0 好 評価。 。) 評価。 自動評価 必要性 翻訳 出力 人件費 時間 、「自動評価」 2-0 何千 。 考案 文 、人手 評価 。 、人間 理想的 訳「参照訳」 作 翻訳 出力 大変。 訳「機械訳」 。 参照訳 類似度 世界 標準的 用 類似度 、IBM (BiLingual Evaluation Understudy))。 提案 計算。 BLEU 初期 BLEU Rate) 自動評価法 前 使 3-0 、音声認識分野 。 使 WER 、機械訳 書 換 参照訳 単語 追加・削除・置換 操作 回数 基 機械訳 参照訳 同 違 WER 大 間違 必要 、 尺度。 WER = 0.0 、 、1 − WER 類似度 、語順 近 欧米言語間 WER 語順 間違 厳 、語順 WER (Word Error 大目 、逐語訳 批判 見 尺度 求 。 、 。 。 PER TER 4-0 、WER 、語順 違 甘 。 • PER (Position-independent word Error Rate): 文 単語 集合 、語順 完全 無視。 • TER (Translation Edit Rate): (Sover et al. 2006) 複数語 語順 違 磯崎 語順 関 「語順 重要 英語 語順 苦労 欧米 一部 一度 動 大目 見 論文 問題 研究者 1 操作 。 国際会議 投稿 」 書 査読者 、 日本人 認識 、 信 。 。 、 BLEU (単語 n 適合率) 5-0 Papineni et al. 2002 機械訳 参照訳 間 訳 、 単語 n √ 4 p p p p 1 2 3 4 参照訳: 単語 、共通 考 方 適合率 pn 単語 。 表 、p1 。 多 p4 相乗平均 4/7 John went to the Okayama University Hospital 再現率 岡大病院 適合率 機械訳: John went to OkaMasaru Hospital 参照訳: John went to the Okayama University Hospital p1 = 4/5 2/6 再現率 単語 機械訳: 、 適合率 John went to OkaMasaru Hospital p2 = 2/4 BLEU (複数参照訳) 6-0 p4 、共通 単語 4 √ 4 BLEU = p1 p2 p3 p4 0 点 参照訳: 存在 0点 。 再現率 適合率 John went to OkaMasaru Hospital 参照訳 一 BLEU 参照訳 0/4 John went to the Okayama University Hospital 単語 4 機械訳: 、 、BLEU 使 、 用意 p2 = 0/2 0点 文 多 0点 。 、 。 BLEU (Brevity Penalty) 複数参照訳 自信 、BLEU 再現率 使 部分 出力 防 文 長 7-0 適合率 、BLEU 、短 、 上 。 機械訳 与 比「機械訳 長 /参照訳 長 」 。 x 、以下 BP (Brevity Penalty) 掛 、短 訳 点数 下 。 √ def BP(x) = min (1, exp (1 − 1/x)) , BLEU = BP × 4 p1 p2 p3 p4 BP 1.0 0.8 0.0 ≤ BLEU ≤ 1.0 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 短 1.0 1.2 1.4 長 x BLEU (人手評価 相関 低 ) NTCIR 特許翻訳 英日翻訳 日英翻訳 実験結果 、BLEU 、 人手評価 NTCIR-7 日英翻訳 場合、 BLEU 人手評価 順位相関 (Spearman’s ρ) BLEU 大局的 語順 BLEU 、因果関係 逆 訳 原文 彼 雨 濡 相関 低 0.5 程度 考慮 、風邪 8-0 。 。 原因。 高 点数 与 引 。 。 妥当性 BLEU 参照訳 He caught a cold because he got soaked in the rain. 〇 1.00 機械訳1 He caught a cold because he had gotten wet in the rain. 〇 0.53 機械訳2 He got soaked in the rain because he caught a cold. × 0.74 RIBES(人手評価 相関 高 ) 9-0 Isozaki et al. EMNLP-2010, 平尾 磯崎 、大局的 語順 考慮 RIBES 人手評価 相関 高 。 NTCIR-7 日英翻訳 2011 提案。 RIBES 人手評価 自動評価 順位相関 (Spearman’s ρ) 自動評価法 RIBES BLEU 原文 彼 雨 濡 、風邪 引 妥当性 0.947 0.515 流暢性 0.879 0.500 。 妥当性 BLEU RIBES 参照訳 He caught a cold because he got soaked in the rain. 〇 1.00 1.00 機械訳1 He caught a cold because he had gotten wet in the rain. 〇 0.53 0.93 機械訳2 He got soaked in the rain because he caught a cold. × 0.74 0.38 RIBES(大局的語順 考慮) RIBES 語順 語順 近 参照訳: 機械訳2: 10-0 近 類似度。 、Kendall’s τ he 1 caught 2 6 he 7 got a 3 8 soaked cold 4 9 in 順位相関係数 because 5 10 the 11 rain he 6 got 7 5 because 測定。 soaked 8 1 he 機械訳 語順 、[6,7,8,9,10,11,5,1,2,3,4] 表 。 in 9 2 caught the 10 rain 11 3 a 4 cold 整数 RIBES(NKT) 整数 割合 11-0 、整数 2 取 出 NKT (Normalized Kendall’s τ ) 場合、要素 11 個 、昇順 呼 。 、11 C2 = 55 。 昇順 6 7 8 9 10 11 5 1 2 3 降順 昇順 4 C2 = 6 、6∼11 部分 合計 21 6 C2 = 15 、1∼4 部分 、NKT = 21/55 = 0.38。 NKT 日英翻訳 自動評価 使 人手評価 高 相関 判明。 、 4 RIBES( ) 12-0 、参照訳 機械訳 間 共通 単語 (i.e., p1 ) NKT 過大 (過少) 評価 、 弱点 。 、単語適合率 p1 α乗 、適合率 自信 。 、BP β 乗 以上 、RIBES 掛 出 掛 以下 式 少 、 。 方法 上 。 定義 。 def RIBES = NKT × P α × BPβ α = 0.25, β = 0.1。 RIBES( RIBES ) 語順 類似度 訳 13-0 評価。 、日本語 語順 、比較的自由。 以下 2 文 同 意味 、 。 1 彼 東京 水族館 見 。 2 東京 水族館 彼 見 。 RIBES 、 3 語順 重視 、悪 点 、 1 参照訳、 2 、人手評価 。 係 解決 限 受 解析 質 高 、機械訳 係 採点 受 解析 。 語順 水族館 太郎 見 機械訳 。次 文 意味 変 。 。 RIBES( ) 対応 日本語 head-final 修飾 表現 先 、係 受 木 兄弟 一意 定 水族館 見 。 自動 増 。 語順。 、修飾 postorder 順 出力 。 東京 彼 、参照訳 呼 出 13-1 表現 (head) 出力 、 • • • • • • 後 出 他 自由度 彼 東京 水族館 彼 東京 水族館 東京 水族館 彼 東京 水族館 彼 彼 東京 水族館 東京 水族館 彼 。 。 、語順 見 見 見 見 見 見 。 。 。 。 。 。 RIBES( postorder ) 出力 参照訳: 彼 本 文 中 買 後 彼 本 13-2 、誤解 、友人 招 。 電話 。 買 後 、 友人 電話 。 PO 文: 友人 彼 本 買 友人 後 彼 、電話 本 修飾先 買 後 、 電話 。 。 変 NG RIBES( ) Isozaki and Kouchi WMT-2015 参照訳 自動的 増 機械訳 1 係 受 解析器 使 2 木 postorder 3 自動生成 残 文 13-3 、参照訳 係 係 受 木 文 修飾先 変 PO文1 係 受 解析 係 受 解析 係 受 解析 PO文2 係 受 解析 PO文3 RIBES 評価 、 作成。 出力 、 文 係 受 解析 参照訳 加 。 参照訳 受 解析 対応。 人手評価 文 生成。 文 除去。 入力 同 ×修飾先 違 ⃝ 子 順番 違 係 受 相関 同 向上。 最近 翻訳自動評価 動向 14-0 、英日・日英翻訳 翻訳自動評価 欧米 WMT 対 BLEU 不満 声 話 、国際会議 Workshop on Statistical Machine Translation −→ Conference on Machine Translation 、新 翻訳自動評価 手法 活発 研究 2010 年 、 LRscore 自動評価法 独立 提案 中英 実験 、RIBES 効果 RIBES 。 同 2010∼2012 年 欧米 翻訳自動評価法 、以下 資料 。 Kendall’s τ 、語順 近 。 参照。 磯崎:最近 自動評価法 研究動向 RIBES、AAMT/Japio 特許翻訳研究会、 特許文書 機械翻訳結果評価方法検討会資料集, 2012. http://aamtjapio.com/kenkyu/files/discussion01/AAMT Japio discus(20120907)-02.pdf 最近 翻訳自動評価 動向 14-1 他 研究分野同様、翻訳自動評価 利用 。 分野 、最近 • Neubig et al. WAT-2015: 、文法 使 減少。 • Shah et al. WMT-2016: 参照訳 QE 、 • Kim et al. WMT-2016: 単語 RNN 訳文 評価 、最終的 品質 正 判定 訳 RNN WMT 素性 利用。 判定 評価。 今後 課題 15-0 • 欧米 標準的 用 BLEU 日英・英日翻訳 人手評価 相関 低 翻訳自動評価法 。 • 、語順 近 注目 自動評価法 RIBES 提案 RIBES 人手評価 相関 高 。 • 参照訳 係 受 木 用 参照訳 増 日本語 対応 。 RIBES • RIBES 日英・英日翻訳 、以下 問題点 指摘 目的関数 • 、SMT 必要。 間違 多 翻訳研究者 。 利用 難 。 、 。 用 NMT (Neural Machine Translation) 傾向 異 、NMT 合 改良