Comments
Description
Transcript
S - WordPress.com
目次 • 写真で見るIJCNLP2013 • Best Paperのちょっと詳しい紹介 • いくつかの機械翻訳論文のざっくりとした紹 介 • まとめ • 宣伝 名古屋国際会議場 Welcome Reception @ ANA Crown Plaza Hotel Banquet @ 名古屋港水族館 その他 夜のお楽しみ BEST PAPERのちょっと詳しい紹介 SuMT: A Framework of Summarization and MT • Carnegie Mellon University in Qatarの研究グ ループ • 言語横断文書要約の研究 – 英語の文書をアラビア語で高精度に要約 1. 入力の英語文書を、文ごとに機械翻訳で アラビ アラヒア語に翻訳(普通の ア語に翻訳(普通のPBSMT) S ) 2. 翻訳品質を自動推定し、スコア付け 3. 翻訳品質を加味しつつ入力の英語文書を extractive に要約し、これに対応するアラビ ア語翻訳を出力することで、アラビア語によ る要約を生成 1. 入力の英語文書を、文ごとに機械翻訳で アラビ アラヒア語に翻訳(普通の ア語に翻訳(普通のPBSMT) S ) 2. 翻訳品質を自動推定し、スコア付け 3. 翻訳品質を加味しつつ入力の英語文書を extractive に要約し、これに対応するアラビ ア語翻訳を出力することで、アラビア語によ る要約を生成 1. 入力の英語文書を、文ごとに機械翻訳で アラビ アラヒア語に翻訳(普通の ア語に翻訳(普通のPBSMT) S ) 2. 翻訳品質を自動推定し、スコア付け 3. 翻訳品質を加味しつつ入力の英語文書を extractive に要約し、これに対応するアラビ ア語翻訳を出力することで、アラビア語によ る要約を生成 1. 入力の英語文書を、文ごとに機械翻訳で アラビ アラヒア語に翻訳(普通の ア語に翻訳(普通のPBSMT) S ) 2. 翻訳品質を自動推定し、スコア付け 3. 翻訳品質を加味しつつ入力の英語文書を extractive に要約し、これに対応するアラビ ア語翻訳を出力することで、アラビア語によ る要約を生成 機械翻訳品質の自動推定 • SVMを用いた手法[Mohit and Hwa, 2007] – 分離平面からの距離を、各文の品質スコアとする • 素性 – General features: 単語数、入力と出力の単語数の比、 句読点 数字 内容語 句読点、数字、内容語 – Language model scores: 出力文の言語モデルによる 尤度 – MT-based scores: 出力文中の未知語数と割合、出力 文で detokenization が行われた割合 – Morphosyntactic features: 入力文と出力文での POS タグ順の違い、名詞・動詞・固有名詞の割合 – Document-level features: 上記の素性を文書レベル で平均したもの SVMの教師データの作り方 • 各翻訳文に、精度が <高い、低い> の2値のラ ベルを自動で付与 – 翻訳文、参照訳、翻訳自動評価尺度TERを利用 • 文書全体のTERスコアをTER(Doc) 文書全体のTERスコアをTER(Doc)、各文のTER 各文のTER スコアをTER(Sent)とすると、 – もし TER(Sent) > TER(Doc) ならば、Sentは <低い> – そうでなければ、Sentは <高い> TER (Translation Edit Rate) • 翻訳文と参照訳との近さを編集距離と同様の 方法で測定 • 編集距離は「削除」「挿入」「置換」操作を使う が TERはさらに「シフト」操作がある が、TERはさらに「シフト」操作がある – Pros: かたまりでの語順変化に対するペナル ティーを下げる効果 – Cons: 動的計画法による最適解の発見が不可能 • TERの値が小さいほど近い=良い翻訳 翻訳の質を考慮した要約 • ベースラインシステム: MEAD [Radev+, 2004] – extractiveな要約手法 (cf. abstractiveな手法) – 3つのスコアの線形和で各文をランキング Rank(S R k(SiENN ) = α ⋅ position(S iti (SiENN ) + β ⋅ centroid(S t id(SiENN ) + λ ⋅ length(SiEN ) • 提案システム: MEAD + 翻訳品質スコア Rank(SiEN ) = α ⋅ position(SiEN ) + β ⋅ centroid(SiEN ) + λ ⋅ length(SiEN ) + γ ⋅Qscore i ※ 要約研究に関しては「NLP2014の東工大高村さんのチュートリアル」や 「NTT西川さんのスライド、YouTube」を参照ください 実験設定 • English-Arabic NISTコーパスを翻訳・要約に – 訓練、開発: NIST2008,2009 (259文書、2670文対) – テスト: NIST2005 (100文書、1056文対) • 要約の正解データ 要約の正解デ タ – NIST2005の100文書をそれぞれ言語独立に、文 数が50%となるように、母語話者が要約を生成 • 翻訳としての精度評価と、要約としての精度 評価を行う 比較する要約システム Length: 短い文から順に選択 MEAD: ベースラインシステム Classifier: 翻訳精度推定結果で <良い> Interpol: informativenessスコア(*0.7)と翻訳 精度スコア(*0.3)の線形和 [Wan+, 2010] • SuMT: 提案システム • Oracle: 翻訳精度が最もよい文集合を選択 • • • • システムごとに 要約として選択 する文が異なる 文書全体での値 機械翻訳評価 要約評価 英語側の要約精度 アラビア語側の要約精度 機械翻訳論文のざっくりとした紹介 Meta-level Statistical Machine Translation [Ebrahimi+] • Stacked Generalization (Stacking) を機械翻訳 に適用 Hypothesis Refinement Using Agreement Constraints in Machine Translation [Gandhe+] • 言語モデルやフレーズペアだけでは扱いきれ ないような、遠い位置にある語に影響される 動詞の活用などを正しく翻訳したい • 入 入力文の情報から、 文 情報 、 出力文の主語・目的語・ 文 語 目 語 動詞の正しい形を推定 – 合致しないフレーズペアを翻訳時に削除したりペ ナルティーをかけるなどする • 正しい形のフレーズペアが存在しない場合 – 適切な活用を含むフレーズペアを生成して利用 中間言語を利用した翻訳 • Ensemble Triangulation for Statistical Machine Translation [Razmara+] – 直接の翻訳と、複数の中間言語を介した翻訳を 組み合わせる • Selective Combination of Pivot and Direct Statistical Machine Translation Models [El Kholy+] – 巨大になりがちな、中間言語を介した場合のフ レーズテーブルを精度を落とさずに小さくする てまえみそ • Robust Transliteration Mining from Comparable Corpora with Bilingual Topic Models [John+] – トピ ックモデルを用いたコンパラブルコーパスからの 翻字マイニング • Accurate Parallel Fragment Extraction from Quasi–Comparable Corpora using Alignment Model and Translation Lexicon [Chu+] – コンパ ラブルコーパスから対訳断片を高精度に獲得 まとめ • 台風の影響で空の便が乱れ、発表時間に 間に合わない人が続出 – 発表順の変更や他のセッションへの移動が随 所で発生 急遽新たなセッションも作られた 所で発生、急遽新たなセッションも作られた りした • acceptance rate – long: 23.4% – + short&poster: 38.0% • Submission数1位はIE、2位はMT 機械翻訳 (自然言語処理シリーズ4) • 監修: 奥村 学 • 著者: 渡辺 太郎、今村 賢治、 賀沢 秀人、Graham Neubig、 中澤 敏明 • ISBN: 978-4-339-02754-9 • 出版社: コロナ社 • 定価:4,410円 (本体4,200円 +税5%) 購入は増税前の今がチャンス!予算消化にぜひ!! ASPEC (Asian Scientific Paper Excerpt Corpus) • 世界初の大規模な論文対訳コーパス – ASPEC-JE: 日英論文抄録コーパス約300万対訳文 – ASPEC-JC: 日中論文抜粋コーパス約68万対訳文 • 商用利用は不可 商用利用は不可、研究利用ならば無料 研究利用ならば無料 (ただし利用規約に同意が必要) • 詳細は – http://orchid.kuee.kyoto-u.ac.jp/ASPEC/ ASPECを利用した新しい評価型機械翻訳ワークショップ WAT(Workshop on Asian Translation)を9月頃に開催予定 ありがとう ございました