...

翻訳自動評価法 翻訳 質 推定 技術 進化

by user

on
Category: Documents
4

views

Report

Comments

Transcript

翻訳自動評価法 翻訳 質 推定 技術 進化
翻訳
翻訳自動評価法
質 推定
技術 進化
磯崎 秀樹
岡山県立大学
2016 年 11 月 25 日 第 4 回特許情報
翻訳
改良
翻訳
作成
、
悪
、新
。
色
人手評価
、出力
思
訳
文 訳
人間
見
、以下
2
• 妥当性 (adequacy): 訳
低
、近年
、全体的
採点
必要
。
評価尺度 有名。
忠実
流暢
人手評価
。
確認
原文
• 流暢性 (fluency): 訳
信頼性
作業
本当
訳
「人手評価」
(
改善
変更 副作用
。
古 訳
、
見
1-0
好
評価。
。)
評価。
自動評価 必要性
翻訳
出力
人件費 時間
、「自動評価」
2-0
何千
。
考案
文
、人手
評価
。
、人間 理想的 訳「参照訳」 作
翻訳
出力
大変。
訳「機械訳」
。
参照訳 類似度
世界 標準的 用
類似度 、IBM
(BiLingual Evaluation Understudy))。
提案
計算。
BLEU
初期
BLEU
Rate)
自動評価法
前
使
3-0
、音声認識分野
。
使
WER 、機械訳 書 換
参照訳
単語 追加・削除・置換 操作 回数 基
機械訳 参照訳 同
違
WER 大
間違
必要 、
尺度。
WER = 0.0 、
、1 − WER 類似度
、語順 近 欧米言語間
WER 語順 間違
厳
、語順
WER (Word Error
大目
、逐語訳
批判
見
尺度 求
。
、
。
。
PER
TER
4-0
、WER
、語順 違
甘
。
• PER (Position-independent word Error Rate):
文 単語 集合
、語順 完全 無視。
• TER (Translation Edit Rate): (Sover et al. 2006)
複数語
語順 違
磯崎 語順 関
「語順
重要
英語
語順 苦労
欧米 一部
一度 動
大目 見
論文
問題
研究者
1 操作
。
国際会議 投稿
」 書
査読者
、
日本人
認識
、
信
。
。
、
BLEU (単語 n
適合率)
5-0
Papineni et al. 2002
機械訳 参照訳 間
訳
、
単語 n
√
4 p p p p
1 2 3 4
参照訳:
単語
、共通
考 方
適合率
pn
単語
。
表 、p1
。
多
p4
相乗平均
4/7
John went to the Okayama University Hospital
再現率
岡大病院
適合率
機械訳:
John went to OkaMasaru Hospital
参照訳:
John went to the Okayama University Hospital
p1 = 4/5
2/6
再現率
単語
機械訳:
、
適合率
John went to OkaMasaru Hospital
p2 = 2/4
BLEU (複数参照訳)
6-0
p4 、共通
単語 4
√
4
BLEU = p1 p2 p3 p4 0 点
参照訳:
存在
0点
。
再現率
適合率
John went to OkaMasaru Hospital
参照訳 一
BLEU
参照訳
0/4
John went to the Okayama University Hospital
単語 4
機械訳:
、
、BLEU
使
、
用意
p2 = 0/2
0点 文 多
0点
。
、
。
BLEU (Brevity Penalty)
複数参照訳
自信
、BLEU
再現率 使
部分 出力
防
文 長
7-0
適合率
、BLEU
、短
、
上
。
機械訳
与
比「機械訳 長 /参照訳 長 」
。
x
、以下
BP (Brevity Penalty) 掛
、短
訳 点数 下
。
√
def
BP(x) = min (1, exp (1 − 1/x)) ,
BLEU = BP × 4 p1 p2 p3 p4
BP
1.0
0.8
0.0 ≤ BLEU ≤ 1.0
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
短
1.0
1.2
1.4
長
x
BLEU (人手評価
相関
低 )
NTCIR 特許翻訳
英日翻訳 日英翻訳
実験結果
、BLEU
、
人手評価
NTCIR-7 日英翻訳
場合、
BLEU 人手評価 順位相関 (Spearman’s ρ)
BLEU
大局的 語順
BLEU
、因果関係 逆 訳
原文
彼 雨
濡
相関 低
0.5 程度
考慮
、風邪
8-0
。
。
原因。
高 点数 与
引
。
。
妥当性 BLEU
参照訳 He caught a cold because he got soaked in the rain.
〇
1.00
機械訳1 He caught a cold because he had gotten wet in the rain.
〇
0.53
機械訳2 He got soaked in the rain because he caught a cold.
×
0.74
RIBES(人手評価
相関
高 )
9-0
Isozaki et al. EMNLP-2010, 平尾
磯崎 、大局的 語順 考慮
RIBES 人手評価 相関 高 。
NTCIR-7 日英翻訳
2011
提案。
RIBES
人手評価 自動評価
順位相関
(Spearman’s ρ)
自動評価法
RIBES
BLEU
原文
彼 雨 濡
、風邪
引
妥当性
0.947
0.515
流暢性
0.879
0.500
。
妥当性 BLEU RIBES
参照訳 He caught a cold because he got soaked in the rain.
〇
1.00
1.00
機械訳1 He caught a cold because he had gotten wet in the rain.
〇
0.53
0.93
機械訳2 He got soaked in the rain because he caught a cold.
×
0.74
0.38
RIBES(大局的語順 考慮)
RIBES
語順
語順 近
参照訳:
機械訳2:
10-0
近
類似度。
、Kendall’s τ
he
1
caught
2
6
he
7
got
a
3
8
soaked
cold
4
9
in
順位相関係数
because
5
10
the
11
rain
he
6
got
7
5
because
測定。
soaked
8
1
he
機械訳 語順 、[6,7,8,9,10,11,5,1,2,3,4]
表
。
in
9
2
caught
the
10
rain
11
3
a
4
cold
整数
RIBES(NKT)
整数
割合
11-0
、整数 2 取 出
NKT (Normalized Kendall’s τ )
場合、要素
11 個
、昇順
呼
。
、11 C2 = 55
。
昇順
6
7
8
9
10
11
5
1
2
3
降順
昇順
4 C2 = 6
、6∼11 部分
合計 21
6 C2
= 15
、1∼4 部分
、NKT = 21/55 = 0.38。
NKT 日英翻訳 自動評価 使
人手評価 高 相関
判明。
、
4
RIBES(
)
12-0
、参照訳 機械訳 間 共通
単語 (i.e., p1 )
NKT 過大 (過少) 評価
、
弱点
。
、単語適合率 p1
α乗
、適合率 自信
。
、BP β 乗
以上
、RIBES
掛
出
掛
以下 式
少
、
。
方法 上
。
定義
。
def
RIBES = NKT × P α × BPβ
α = 0.25, β = 0.1。
RIBES(
RIBES
)
語順
類似度
訳
13-0
評価。
、日本語 語順 、比較的自由。
以下 2
文 同 意味 、
。
1
彼 東京 水族館
見
。
2
東京 水族館 彼
見
。
RIBES
、
3
語順 重視
、悪 点
、 1 参照訳、 2
、人手評価
。
係
解決
限
受 解析
質 高
、機械訳 係
採点
受
解析
。
語順
水族館 太郎 見
機械訳
。次 文 意味 変
。
。
RIBES(
)
対応
日本語
head-final
修飾
表現 先
、係
受 木
兄弟
一意 定
水族館
見
。
自動 増
。
語順。
、修飾
postorder
順 出力
。
東京
彼
、参照訳
呼
出
13-1
表現 (head)
出力
、
•
•
•
•
•
•
後
出
他
自由度
彼 東京 水族館
彼
東京 水族館
東京 水族館 彼
東京 水族館
彼
彼 東京 水族館
東京 水族館 彼
。
。
、語順
見
見
見
見
見
見
。
。
。
。
。
。
RIBES(
postorder
)
出力
参照訳: 彼 本
文
中
買
後
彼
本
13-2
、誤解
、友人
招
。
電話
。
買
後
、
友人
電話
。
PO 文: 友人
彼
本
買
友人
後
彼
、電話
本
修飾先
買
後
、
電話
。
。
変
NG
RIBES(
)
Isozaki and Kouchi WMT-2015
参照訳 自動的 増
機械訳
1
係 受
解析器 使
2
木
postorder
3
自動生成
残
文
13-3
、参照訳
係
係
受 木
文
修飾先 変
PO文1
係
受 解析
係
受 解析
係
受 解析
PO文2
係
受
解析
PO文3
RIBES
評価
、
作成。
出力 、
文 係 受 解析
参照訳 加
。
参照訳
受 解析
対応。
人手評価 文
生成。
文 除去。
入力 同
×修飾先
違
⃝ 子 順番 違
係 受
相関
同
向上。
最近
翻訳自動評価 動向
14-0
、英日・日英翻訳 翻訳自動評価
欧米
WMT
対
BLEU
不満 声
話
、国際会議
Workshop on Statistical Machine Translation
−→ Conference on Machine Translation
、新
翻訳自動評価
手法 活発
研究
2010 年 、
LRscore
自動評価法 独立 提案
中英 実験
、RIBES
効果
RIBES
。
同
2010∼2012 年 欧米
翻訳自動評価法
、以下
資料
。
Kendall’s τ
、語順 近
。
参照。
磯崎:最近 自動評価法 研究動向 RIBES、AAMT/Japio 特許翻訳研究会、
特許文書 機械翻訳結果評価方法検討会資料集, 2012.
http://aamtjapio.com/kenkyu/files/discussion01/AAMT Japio discus(20120907)-02.pdf
最近
翻訳自動評価 動向
14-1
他 研究分野同様、翻訳自動評価
利用
。
分野
、最近
• Neubig et al. WAT-2015:
、文法
使
減少。
• Shah et al. WMT-2016: 参照訳
QE
、
• Kim et al. WMT-2016: 単語
RNN
訳文 評価
、最終的 品質
正
判定
訳
RNN
WMT
素性 利用。
判定
評価。
今後 課題
15-0
• 欧米
標準的 用
BLEU
日英・英日翻訳
人手評価 相関 低
翻訳自動評価法
。
•
、語順 近
注目
自動評価法 RIBES 提案
RIBES 人手評価 相関 高 。
• 参照訳 係 受 木 用
参照訳 増
日本語
対応
。
RIBES
• RIBES
日英・英日翻訳
、以下 問題点 指摘
目的関数
•
、SMT
必要。
間違
多
翻訳研究者
。
利用
難
。
、
。
用
NMT (Neural Machine Translation)
傾向 異
、NMT 合
改良
Fly UP