S - WordPress.com

by user

on 28 марта 2017

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download S - WordPress.com

Transcript

S - WordPress.com

目次
• 写真で見るIJCNLP2013
• Best Paperのちょっと詳しい紹介
• いくつかの機械翻訳論文のざっくりとした紹
介
• まとめ
• 宣伝
名古屋国際会議場
Welcome Reception
@ ANA Crown Plaza Hotel
Banquet
@ 名古屋港水族館
その他
夜のお楽しみ
BEST PAPERのちょっと詳しい紹介
SuMT: A Framework of
Summarization and MT
• Carnegie Mellon University in Qatarの研究グ
ループ
• 言語横断文書要約の研究
– 英語の文書をアラビア語で高精度に要約
1. 入力の英語文書を、文ごとに機械翻訳で
アラビ
アラヒア語に翻訳（普通の
ア語に翻訳（普通のPBSMT）
S ）
2. 翻訳品質を自動推定し、スコア付け
3. 翻訳品質を加味しつつ入力の英語文書を
extractive に要約し、これに対応するアラビ
ア語翻訳を出力することで、アラビア語によ
る要約を生成
1. 入力の英語文書を、文ごとに機械翻訳で
アラビ
アラヒア語に翻訳（普通の
ア語に翻訳（普通のPBSMT）
S ）
2. 翻訳品質を自動推定し、スコア付け
3. 翻訳品質を加味しつつ入力の英語文書を
extractive に要約し、これに対応するアラビ
ア語翻訳を出力することで、アラビア語によ
る要約を生成
1. 入力の英語文書を、文ごとに機械翻訳で
アラビ
アラヒア語に翻訳（普通の
ア語に翻訳（普通のPBSMT）
S ）
2. 翻訳品質を自動推定し、スコア付け
3. 翻訳品質を加味しつつ入力の英語文書を
extractive に要約し、これに対応するアラビ
ア語翻訳を出力することで、アラビア語によ
る要約を生成
1. 入力の英語文書を、文ごとに機械翻訳で
アラビ
アラヒア語に翻訳（普通の
ア語に翻訳（普通のPBSMT）
S ）
2. 翻訳品質を自動推定し、スコア付け
3. 翻訳品質を加味しつつ入力の英語文書を
extractive に要約し、これに対応するアラビ
ア語翻訳を出力することで、アラビア語によ
る要約を生成
機械翻訳品質の自動推定
• SVMを用いた手法[Mohit and Hwa, 2007]
– 分離平面からの距離を、各文の品質スコアとする
• 素性
– General features: 単語数、入力と出力の単語数の比、
句読点数字内容語
句読点、数字、内容語
– Language model scores: 出力文の言語モデルによる
尤度
– MT-based scores: 出力文中の未知語数と割合、出力
文で detokenization が行われた割合
– Morphosyntactic features: 入力文と出力文での POS
タグ順の違い、名詞・動詞・固有名詞の割合
– Document-level features: 上記の素性を文書レベル
で平均したもの
SVMの教師データの作り方
• 各翻訳文に、精度が <高い、低い> の2値のラ
ベルを自動で付与
– 翻訳文、参照訳、翻訳自動評価尺度TERを利用
• 文書全体のTERスコアをTER(Doc)
文書全体のTERスコアをTER(Doc)、各文のTER
各文のTER
スコアをTER(Sent)とすると、
– もし TER(Sent) > TER(Doc) ならば、Sentは <低い>
– そうでなければ、Sentは <高い>
TER
(Translation Edit Rate)
• 翻訳文と参照訳との近さを編集距離と同様の
方法で測定
• 編集距離は「削除」「挿入」「置換」操作を使う
が TERはさらに「シフト」操作がある
が、TERはさらに「シフト」操作がある
– Pros: かたまりでの語順変化に対するペナル
ティーを下げる効果
– Cons: 動的計画法による最適解の発見が不可能
• TERの値が小さいほど近い＝良い翻訳
翻訳の質を考慮した要約
• ベースラインシステム： MEAD [Radev+, 2004]
– extractiveな要約手法 (cf. abstractiveな手法)
– 3つのスコアの線形和で各文をランキング
Rank(S
R
k(SiENN ) = α ⋅ position(S
iti (SiENN ) + β ⋅ centroid(S
t id(SiENN ) +
λ ⋅ length(SiEN )
• 提案システム： MEAD + 翻訳品質スコア
Rank(SiEN ) = α ⋅ position(SiEN ) + β ⋅ centroid(SiEN ) +
λ ⋅ length(SiEN ) + γ ⋅Qscore
i
※ 要約研究に関しては「NLP2014の東工大高村さんのチュートリアル」や
「NTT西川さんのスライド、YouTube」を参照ください
実験設定
• English-Arabic NISTコーパスを翻訳・要約に
– 訓練、開発: NIST2008,2009 (259文書、2670文対)
– テスト: NIST2005 (100文書、1056文対)
• 要約の正解データ
要約の正解デタ
– NIST2005の100文書をそれぞれ言語独立に、文
数が50%となるように、母語話者が要約を生成
• 翻訳としての精度評価と、要約としての精度
評価を行う
比較する要約システム
Length: 短い文から順に選択
MEAD: ベースラインシステム
Classifier: 翻訳精度推定結果で <良い>
Interpol: informativenessスコア(*0.7)と翻訳
精度スコア(*0.3)の線形和 [Wan+, 2010]
• SuMT: 提案システム
• Oracle: 翻訳精度が最もよい文集合を選択
•
•
•
•
システムごとに
要約として選択
する文が異なる
文書全体での値
機械翻訳評価
要約評価
英語側の要約精度
アラビア語側の要約精度
機械翻訳論文のざっくりとした紹介
Meta-level Statistical Machine
Translation [Ebrahimi+]
• Stacked Generalization (Stacking) を機械翻訳
に適用
Hypothesis Refinement Using Agreement
Constraints in Machine Translation [Gandhe+]
• 言語モデルやフレーズペアだけでは扱いきれ
ないような、遠い位置にある語に影響される
動詞の活用などを正しく翻訳したい
• 入
入力文の情報から、
文情報
、出力文の主語・目的語・
文
語目語
動詞の正しい形を推定
– 合致しないフレーズペアを翻訳時に削除したりペ
ナルティーをかけるなどする
• 正しい形のフレーズペアが存在しない場合
– 適切な活用を含むフレーズペアを生成して利用
中間言語を利用した翻訳
• Ensemble Triangulation for Statistical Machine
Translation [Razmara+]
– 直接の翻訳と、複数の中間言語を介した翻訳を
組み合わせる
• Selective Combination of Pivot and Direct
Statistical Machine Translation Models [El
Kholy+]
– 巨大になりがちな、中間言語を介した場合のフ
レーズテーブルを精度を落とさずに小さくする
てまえみそ
• Robust Transliteration Mining from Comparable
Corpora with Bilingual Topic Models [John+]
– トピ
ックモデルを用いたコンパラブルコーパスからの
翻字マイニング
• Accurate Parallel Fragment Extraction from
Quasi–Comparable Corpora using Alignment
Model and Translation Lexicon [Chu+]
– コンパ
ラブルコーパスから対訳断片を高精度に獲得
まとめ
• 台風の影響で空の便が乱れ、発表時間に
間に合わない人が続出
– 発表順の変更や他のセッションへの移動が随
所で発生急遽新たなセッションも作られた
所で発生、急遽新たなセッションも作られた
りした
• acceptance rate
– long: 23.4%
– + short&poster: 38.0%
• Submission数1位はIE、2位はMT
機械翻訳
(自然言語処理シリーズ4)
• 監修: 奥村学
• 著者: 渡辺太郎、今村賢治、
賀沢秀人、Graham Neubig、
中澤敏明
• ISBN: 978-4-339-02754-9
• 出版社: コロナ社
• 定価：4,410円（本体4,200円
＋税5%)
購入は増税前の今がチャンス！予算消化にぜひ！！
ASPEC
(Asian Scientific Paper Excerpt Corpus)
• 世界初の大規模な論文対訳コーパス
– ASPEC-JE: 日英論文抄録コーパス約300万対訳文
– ASPEC-JC: 日中論文抜粋コーパス約68万対訳文
• 商用利用は不可
商用利用は不可、研究利用ならば無料
研究利用ならば無料
（ただし利用規約に同意が必要）
• 詳細は
– http://orchid.kuee.kyoto-u.ac.jp/ASPEC/
ASPECを利用した新しい評価型機械翻訳ワークショップ
WAT(Workshop on Asian Translation)を9月頃に開催予定
ありがとう
ございました