...

課題研究 日本語機能表現を利用した機械翻訳のための 重文と複文の

by user

on
Category: Documents
3

views

Report

Comments

Transcript

課題研究 日本語機能表現を利用した機械翻訳のための 重文と複文の
NAIST-IS-MR0951002
課題研究
日本語機能表現を利用した機械翻訳のための
重文と複文の文型パターンの獲得
雨宮 尚範
2011 年 3 月 17 日
奈良先端科学技術大学院大学
情報科学研究科 情報処理学専攻
本報告書は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した課題研究の報告書である。
雨宮 尚範
審査委員:
松本 裕治 教授
(主指導教員)
鹿野 清宏 教授
(副指導教員)
新保 仁 准教授
(副指導教員)
小町 守 助教
(副指導教員)
日本語機能表現を利用した機械翻訳のための
重文と複文の文型パターンの獲得∗
雨宮 尚範
内容梗概
統計翻訳には言語構造の異なる言語間では性能を発揮しにくいという特性があ
る.この問題を解消するために様々な手法が提案されている.しかし,既存の手
法では重文や複文をうまく扱うことが難しい.これは表現の多様さや構造の複雑
さによるものである.この問題を解消するためには,節単位の統語構造を扱うこ
とが重要である.
本論文ではパターンを用いた文分割に基づく翻訳手法を提案し,この問題の解
決を目指す.そして,文分割パターンを得るための第一段階として,重文・複文を
構成する文・節の関係を示すパターンを定義する.パターンは述語を中心とした
節同士の関係を反映させるため,文節の表現およびそれらの係り受け構造として
記述する.そして例文から節関係パターンを獲得し,被覆率の測定によりパター
ンの有効性を示す.
キーワード
文型パターン, 知識獲得, 機械翻訳, 重文, 複文
∗
奈良先端科学技術大学院大学 情報科学研究科 情報処理学専攻 課題研究, NAIST-ISMR0951002, 2011 年 3 月 17 日.
i
Automatic Acquisition of Syntactic Patterns for
Machine Translation Using Japanese Functional
Expression∗
Naonori Amemiya
Abstract
Existing statistical machine translation systems typically do not perform well
between languages with different linguistic structure such as English and Japanese.
To solve this problem, various techniques have been proposed, but these techniques still fail to handle compound or complex sentences well. The difficulty lies
in the wide variety of expressions and the complexity of syntactic structures in
these types of sentences. A key feature to overcome this difficulty is to identify
the syntactic structure of clause in the sentences.
We propose a “divide-and-conquer” translation architecture, which first divide
the input sentence into constituent clauses, translate these clauses separately,
and finally merge the translated clauses back to form a sentence. As a first step
towards this architecture, this thesis elicit typical clause-relation patterns observed in Japanese compound and complex sentences. To reflect the relation of
the clauses centered on the predicates, these patterns are described as “bunsetsuphrase-expression” and syntactic dependency. The collected clause-relation patterns shows a high coverage on sample sentences, which suggests the validity of
our pattern-based approach.
∗
Master’s Report, Department of Information Processing, Graduate School of Information
Science, Nara Institute of Science and Technology, NAIST-IS-MR0951002, March 17, 2011.
ii
Keywords:
sentence pattern, knowledge acquisition, machine translation, compound sentence, complex sentence
iii
目次
1. はじめに
1
1.1 研究背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 研究目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3 論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2. 関連研究
6
2.1 文分割による重文および複文の翻訳 . . . . . . . . . . . . . . . . .
6
2.2 機械翻訳におけるパターンの利用 . . . . . . . . . . . . . . . . . .
6
2.3 文型パターンの獲得 . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.4 意味的等価クラスに基づいた階層的機能表現 . . . . . . . . . . . .
7
2.5 機械翻訳における意味的等価クラス,機能表現の利用 . . . . . . .
8
3. 文分割に基づく翻訳手法
9
3.1 手法の提案 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.2 実現に向けて . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
4. 重文・複文の調査
11
4.1 調査対象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
4.2 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
4.3 実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
4.4 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
5. 節関係パターンの獲得
17
5.1 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
節関係パターン . . . . . . . . . . . . . . . . . . . . . . . .
17
5.2 実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
5.3 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
5.1.1
6. おわりに
22
6.1 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
22
6.2 今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
謝辞
23
参考文献
24
付録
26
A. 分割翻訳の例
26
v
図目次
1
ルールベース方式の例(構文トランスファ方式) . . . . . . . . .
1
2
用例ベース方式の例(文型パターン翻訳) . . . . . . . . . . . . .
2
3
統計翻訳システムの構造 . . . . . . . . . . . . . . . . . . . . . . .
3
4
言語構造の類似と翻訳性能 . . . . . . . . . . . . . . . . . . . . . .
3
5
単文と複文の日英アラインメント . . . . . . . . . . . . . . . . . .
4
6
並べ替えによるアラインメントの改善
. . . . . . . . . . . . . . .
4
7
分割翻訳システム . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
8
パターン処理による文分割 . . . . . . . . . . . . . . . . . . . . . .
9
9
パターン処理による文分割 . . . . . . . . . . . . . . . . . . . . . .
10
10
節関係パターンの生成 . . . . . . . . . . . . . . . . . . . . . . . .
17
11
パターンマッチ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
表目次
1
つつじに記載されている機能表現の数
. . . . . . . . . . . . . . .
12
2
文の種類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3
節の長さ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
4
述語文節の表現 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
5
従属文節の表現 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
6
パターンマッチの結果 . . . . . . . . . . . . . . . . . . . . . . . .
20
vi
1. はじめに
1.1 研究背景
機械翻訳(自動翻訳)は古くからある自然言語処理の課題である.その性能向
上のためにこれまで数多くの研究がなされてきた.提案された種々の方法のうち,
現在では大きく分けて 3 種類の手法が用いられている.
一つ目はルールベースの方法である(図 1).つまり,人手で作成した翻訳規
則と辞書に基づいて文の変換を行うという方式である.ルールベースの手法は規
則の追加により,状況に応じて柔軟な処理を行うことができる.そのため,規則
のカバーできる問題においては高い性能を発揮できる.しかし,翻訳規則の作成
は人手で行う必要があるため,人的コストが高くなるという問題を抱えている.
NP → N
VP → VP NP
VP → V
S → NP VP
名詞句 → 名 助
形動句 → 名詞句 形動句
形動句 → 形動 助動
文 → 名詞句 形動句
文
S
形動句
VP
名詞句 名詞句 形動句
名 助 名 助 形動 助動
花子 は 野球 が 好き です
NP
VP
NP
N
V
N
Hanako likes baseball
図 1 ルールベース方式の例(構文トランスファ方式)
構文解析された原言語の文を一度対応する目的言語の構文と語彙に変換し,そこから目的言語の
文を生成する.構文の変換には規則が用いられる.
二つ目は用例ベースの方法である(図 2).これは,コーパスとして蓄積した
翻訳例から翻訳対象の文に類似したものを検索し,一部を置き換えて文を生成す
るという方式である.例文がほぼそのまま出力文に用いられるため,適切な例文
を利用できた場合の翻訳品質は極めて高い.しかし,根本的な問題として,対応
1
する例文が存在する文だけしか翻訳することができない.つまり,システムの構
築には巨大なコーパスが必要になる.
太郎はカレーライスが好きです。
Taro likes curry and rice.
文型パターン化
N1はN2が好きです。
N1 likes N2.
花子は野球が好きです。
Hanako likes baseball.
図 2 用例ベース方式の例(文型パターン翻訳)
あらかじめ置き換え可能な部分の変数化を行い,例文から文型パターン作成しておく.パターン
にマッチした原言語の文について変数部分を辞書により翻訳し,置き換えることで,目的言語の
文を生成する.
三つ目は統計ベースの方法である(図 3).これは,例文から翻訳知識を獲得
することを狙った方式である.コーパスから学習したモデルを用いてデコーダを
構築し,それを用いて原言語の文に対する目的言語の文を探索する.この方式は
次のような特徴を持つ.対訳コーパスがあればシステムを構築できるので,言語
に依存しない.翻訳規則の作成を自動的に行うことができる.例文から学習する
ため,辞書が不要である.このため,高い性能を持つシステムを他の方式と比較
して短期間に構築することができる.また,用例ベースの方式と同じように例文
を必要とするが,統計ベースの方式は学習データにない形の入力文に対しても文
を生成することができる.これらの性質から現在研究の主流となっている.
統計翻訳における問題として,重文1 と複文2 の処理の困難さをあげることがで
きる.これらの文は単文3 に比べて構造的に複雑であるため処理が難しい.
統計翻訳の分野では複雑な構造に対応するために句ベース [4, 3] や階層的句ベー
ス [1] の翻訳手法が提案されている.これらの手法では翻訳を単一のモデルで処
理している.しかし,重文および複文に含まれる,文や節レベルの統語的関係は,
1
「独立した二つ以上の文が、対等の資格で結合した文」[11]
「主語・述語の関係が成り立っている文で、さらにその構成部分に主語・述語の関係が見ら
れるもの」[11]
3
「主語・述語の関係が一回だけで成り立っているもの」[11]
2
2
花子は野球が好き。
デコーダ
翻訳モデル
(翻訳らしさ)
対訳コーパス
学習
言語モデル
(言語らしさ)
目的言語コーパス
Hanako likes baseball.
図 3 統計翻訳システムの構造
デコーダは翻訳モデルと言語モデルを組み合わせて構成される.翻訳モデルと言語モデルは 翻
訳らしさと言語らしさを評価するものである.それぞれ対訳コーパスと目的言語コーパスで学習
したものが用いられる.デコーダ内部ではモデルによる評価を用いて仮説の探索が行われ,調べ
た仮説の中で最も尤度の高いものが目的言語の文として出力される.
統語構造を用いない句ベースや階層的句ベースの手法では捉えることができな
い.また,統計翻訳には言語構造が異なると性能を発揮しにくいという問題があ
る.例えば Greenberg の語順による分類 [2] に基づくと,日本語と英語はそれぞ
れ SOV 型と SVO 型となり,互いに異なる構造をもつ.また,日本語には主語が
しばしば省略されるという特徴もある.実際に,日本語と英語の機械翻訳は今だ
実用レベルに達していない.これは,日本語と韓国語,英語とスペイン語のよう
に似た言語同士の機械翻訳が実用レベルであることと対照的である(図 4).
英語
日本語
?
スペイン語
韓国語
SVO型
SOV型
図 4 言語構造の類似と翻訳性能
類似した構造の言語同士では実用的であるが,言語の構造が大きく異なると性能を発揮できない.
3
この原因としてはアラインメント学習の難しさがあげられる.統計翻訳はアラ
インメントに基づく位置の対応を学習する必要がある.単文のときはそうでもな
いが,重文,特に複文になるとリンクの交差が増えるため,複雑な対応を学習す
る必要がある(図 5).
太郎 は カレーライス が 好き です。
単文
Taro likes curry and rice.
複文
太郎 は 母 の 作っ た カレーライス が 好き です 。
Taro likes curry and rice cooked by his mother .
図 5 単文と複文の日英アラインメント
複文は単文に比べてリンクの交差が多い.このため,語の対応は複雑である.
こうした言語構造の違いを吸収するために,統計翻訳においては並べ替え(リ
オーダリング)が行われている(図 6).並べ替えにより原言語の語の並びを目
的言語の語の並びに合わせ,アラインメントの学習を容易にしている.近年では
文分割と分割単位での翻訳を組み合わせた手法が Sudoh らにより提案され,英日
翻訳においてその有効性が示された [5].
並べ替え
太郎 は が 好き です カレーライス 作っ た の 母 。
Taro likes curry and rice cooked by his mother .
図 6 並べ替えによるアラインメントの改善
語の並べ替えによってリンクの交差が解消される.語の対応は簡単なものになる.
4
1.2 研究目的
我々は,統計翻訳における重文・複文の問題の解決として,文分割で文の簡易化
を行う手法に着目した.この手法では統語構造に基づいて分割を行うことで統語
構造を保持することができる.また,分割単位の翻訳に句ベースや階層的句ベー
スの手法を用いれば,構造的に単純になるので,分割前よりも高い性能が発揮さ
れると期待される.
本研究ではこの文分割に基づく翻訳手法を提案し,その実現に向けて,必要な
要素の獲得を目指す.
1.3 論文の構成
2 章で関連研究を紹介する.3 章で文分割に基づく翻訳手法の提案を行う.4 章
で重文と複文の調査について述べる.5 章で前章の結果を元に行った節関係パター
ンの獲得について述べる.6 章で現状のまとめと今後の課題について述べる.
5
2. 関連研究
2.1 文分割による重文および複文の翻訳
本研究の先行研究としては Sudoh らの研究 [5] があげられる.Sudoh らは構造
の異なる言語間における翻訳性能の向上を目指し,図 7 のようなしくみで重文・
複文に対して大域的な並べ替えを実現している.この手法において文の翻訳は三
構文解析&節分割
英語文
節の結合
統計翻訳による
節翻訳
節
節の訳
節
節の訳
節
節の訳
日本語文
図 7 分割翻訳システム
つの段階から行われる.一つ目の段階では,構文解析器により入力文から節が切
り出される.このとき,節が接続していたところは接続末端に置き換えられる.
二つ目の段階では,切り出された節それぞれが別々に翻訳される.三つ目の段階
では,節の訳それぞれが接続末端の情報をもとに結合される.結合されてできた
文が出力文となる.このような処理を行うことで構造的差違の大きな言語同士に
おいても有効な翻訳能力を実現している.
2.2 機械翻訳におけるパターンの利用
池原らは訳文の意味的な正しさを実現するため以下のような翻訳方式を提案し
た [7].池原らは,まず文中で意味的に置き換えられる部分を線形要素(構成的要
素),そうでない部分を非線形要素(非構成的要素)と定義した.そして両言語
ともに非構成的要素については対応する概念を記述して意味類型パターン「言語
表現をその表す概念を変えない範囲で抽象化したもの [7]」として定義した.両
言語の意味類型パターンを共通の論理的意味範疇の概念毎にグループ化しておく
6
ことで,入力文を解析し原言語側の意味類型パターンに当てはめられれば,自動
的に対応する目的言語のパターンが得られる.そこで得られたパターンを,原言
語文の文脈情報などを利用して状況に応じた動的な選択,あるいはあらかじめデ
フォルトのパターンを決めておく静的な選択を行うことで適切なパターンが得ら
れる.重文および複文については,単語,句,節毎の意味類型パターンを作成し
ておき,上位の概念から下位の概念にかけて繰り返し翻訳の仕組みが適用される.
2.3 文型パターンの獲得
池原らは,意味的等価変換方式による翻訳方式に必要な「意味類型パターン辞
書」を作成するため,非構成的な重文複文の表現4 に対する文型パターン辞書を
作成した [6].
非線形な表現とは,非線形な要素を含む表現のことである.非線形な要素とは
線形でない要素のことで,線形要素には「一つ以上の代替要素が存在し,その要
素に置き換えても表現全体の意味が変化しないような要素」とより具体的な定義
が与えられた.
パターン獲得は以下のような方法で行われた.述部を 2 つまたは 3 つ持つ文が
集められ,非構成的要素を含む文について人手による汎化が行われ,文型パター
ンが作成された.汎化は変数化,関数化,記号化の 3 種類の方法で行われた.特
に,変数化は語レベル,句レベル,節レベルで行われた.一つ以上の代替表現の
ある語・句・節が構成的要素とみなされ,変数化された.ただし,語レベルでは
自立語のみが変数化された.
2.4 意味的等価クラスに基づいた階層的機能表現
本研究の翻訳手法に間接的に関わる研究として松吉らの研究があげられる [9].
松吉らは後述する機能表現の形態的な異形の多さに着目し,計算機で扱うために
機能表現の異形を網羅した辞書を作成した.機能表現とは機能語(助詞,助動詞,
接続詞,形式名詞)と機能的な複合辞をあわせたものである.そして機能的な複
4
単文については「日本語語彙大系」[8] がすでに開発されている
7
合辞とは「にたいして」や「なければならない」のような複数の語からなるが,
一つの機能語のようにはたらくものである.
松吉らは異形を体系的に整理するために,9 つの階層からなる階層構造を用い
た.L1 階層は見出し語を集めたもので,最も抽象度が高い.L2 階層は意味によ
り L1 階層の表現を区別したものである.L3 –L9 階層は異形カテゴリーで分類した
ものであり,各階層に含まれる表現は,親階層の表現をその階層のカテゴリーで
展開したものである.異形カテゴリーは異形間の差違の大きさに基づいて順序を
定められている.L1 階層を除く各階層の表現には,接続情報,意味カテゴリー,
難易度,文体などの情報が付加されている.
こうして階層的に整理したことで,機能表現の出現形でもある L9 階層の表現
およそ 17,000 が L1 階層の 341 の表現にまとめられた.
機能表現と同一の表記であるが内容的な意味をもつ表現が存在する.注連らは
機械学習により機能表現の検出を行う方式を提案した [13].長坂らは,学習のた
めの用例を自動的に得るために,そのような表現と機能表現を識別するための手
法を提案した [10].その手法はつつじの階層性を利用し,表現を一度上位の階層
の表現(代表表現)に言い換えた後,用法判定を行うという方式である.
2.5 機械翻訳における意味的等価クラス,機能表現の利用
坂本らは,日本語機能表現を網羅的に集約的英訳する手法を提案した [12].こ
の手法は,山本らの提案した手法の考えに基づいている [14].山本らの手法の骨
子は,表記ゆれを代表形に集約し,少ない翻訳規則で様々な文を翻訳するという
ものである.坂本らの手法はは意味的等価クラスを日英翻訳用に調整し,各クラ
スに翻訳規則を定めることで,集約的な翻訳を行う.
また,劉らは日中翻訳において坂本らと同様の手法で日本語機能表現の集約的
翻訳規則を作成し,性能の評価を行った [15].作成された規則は,機能表現の翻
訳において既存の日中機械翻訳ソフトウェアを上回る精度を示した.
8
3. 文分割に基づく翻訳手法
3.1 手法の提案
日本語と英語という構造の大きく異なる言語の組み合わせにおいて,文分割に
よる節単位翻訳の有効性が Sudoh らにより示された.この手法は言語構造の違い
を吸収できるだけでなく,構文解析を行うことで節レベルの統語構造を用いるこ
とができる.また,翻訳方式自体は統計翻訳以外であっても組み合わせられると
いう点で意義がある.
我々は,彼らの分割式翻訳の考えに基づき,文分割にパターンを用いる重文・
複文の翻訳方式を提案する(図 8).我々の手法は,彼らの手法と同じく原言語
の文を構文解析することにより,統語構造に基づいた節を単位として分割するこ
とができる.我々の手法が Sudoh らと異なっている部分は,パターン化すること
で,節間の構造を有限の数に限定することができるという点である.これにより,
実体のあるパターンについて最適な対訳パターンを考えることができるようにな
る.分割パターンに対訳パターンが与えられれば,目的言語のパターンにあわせ
る形で節の訳を組み合わせて訳文を生成できる.
原言語文
原言語
パターン
目的言語
パターン
節
節の訳
節
節の訳
目的言語文
図 8 パターン処理による文分割
分割する単位は節(重文における文を含める)とし,獲得するパターンは節の
関係と表現を反映したものを目指す(図 9).
研究にあたっては,パターン処理で対応でき,かつ出現頻度の高い重文・複文
文型を探ることが重要である.そのような文型が存在し,かつパターンで網羅で
きたならば,パターンで処理するのが効率的であるということも考えられる.仮
9
彼は貧乏だが、嘘は言わない。
CL1が
が、CL2。
。
CL1のにCL2。
たとえCL1でもCL2。
もしCL1ならば、CL2。
嘘は言わない
彼は貧乏だ
図 9 パターン処理による文分割
にパターンの網羅性が低くても,パターン処理の有効な文型を区別することがで
きれば有用である.
獲得する分割パターンとしては,抽象度が高く,多くの表現をまとめて表せる
ものを目指す.また,意味的な排他性が備わっていれば,分割パターンを用いる
ことで意味的な分類も可能になる.節レベルのパターンであれば数はそれほど多
くならないと考えられ,人手で他言語のパターンと対応ができれば,節間の構造
を正しくとらえた訳が期待できる.
3.2 実現に向けて
提案手法の実現のためには分割パターンを得る必要がある.他言語のパターン
と対応付けることを考えると,節の関係をとらえておくことが重要である.そこ
で,まず節関係のパターンを作り,それに手を加えることで分割パターンを得る
という方針が考えられる.我々は,本論文の以降の章において節関係パターンの
獲得を目指す.
10
4. 重文・複文の調査
節関係パターンの獲得のためには,まず,重文や複文に含まれる表現を調べ,
パターン化に適した部分を明らかにする必要がある.我々は文節末尾の表現に着
目し,述語文節とその従属文節における表現について調査した.重文・複文につ
いては,考察を簡単にするため述語を 2 つだけ含む文を用いた.
4.1 調査対象
調査のために京都大学テキストコーパス Version 4.0 から重文と複文を抽出し
て用いた.つつじに記載された機能表現の階層性を利用して表現をまとめる(圧
縮する)ことも考え,抽出された文の語句について,つつじ機能表現での置き換
えを行った.
利用したコーパスと辞書の概要を示す.
京都大学テキストコーパス Version 4.0 「毎日新聞の記事に各種言語情報を人
手で付与したテキストコーパスです。95 年 1 月 1 日から 17 日までの全記事、
約 2 万文、1 月から 12 月までの社説記事、約 2 万文、計約 4 万文に対して、
形態素・構文情報を付与しています。これらの情報は、形態素解析システム
JUMAN、構文解析システム KNP で自動解析を行い、その結果を人手で修
正したものです。さらに、このうちの 5,000 文に対しては、格関係、照応・
省略関係、共参照の情報を付与しています。」(京都大学テキストコーパス
のウェブサイト5 より引用)
つつじ:日本語機能表現辞書 9 つの形態階層構造からなる日本語機能表現辞書で
ある.機能表現とは機能語(助詞,助動詞,接続詞,形式名詞)と機能的
な複合辞6 を合わせたものである(表 1).
データの処理は以下のように行った.
5
http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/corpus.html
「「にたいして」や「なければならない」のような複数の語で構成されているが全体として一
つの機能語として働く表現のことである」[9]
6
11
表 1 つつじに記載されている機能表現の数
階層
L1
L2
L3
L4
L5
L6
L7
L8
L9
表現数
見出し語
意味
派生
機能語の交替
音韻的変化
とりたて詞の挿入
活用
「です/ます」の有無
表記のゆれ
341
435
555
774
1,187
1,810
6,870
9,722
16,801
つつじ機能表現の接続情報には日本語の形態素解析器 MeCab7 で使用されてい
る形式で形態素情報が記述されている.京都大学テキストコーパスに記述されて
いる形態素・構文情報の形式はつつじのものとは異なっており,品詞体系もそれ
ぞれ IPA(つつじ)JUMAN(京都大学テキストコーパス)に基づくものである
ため,単純な変換で利用することができない.そのため,まず,MeCab と同じ形
式で情報を出力できる日本語係り受け解析器 Cabocha8 を用いて京都大学テキス
トコーパスの再解析を行った.
次に,得られた形態素・構文解析結果に元のデータから係り受け情報を復元し
た.復元は文節区切りの位置に基づいて行った.CaboCha の解析結果で元のデー
タにおける文節同士が結合したものについては末尾の文節についていた係り受け
情報を復元した.ただし,元のデータにない文節区切りが現れた文については自
動解析結果をそのまま用いた.
次に,得られた結果から述語文節を 2 つもつ文を抽出した.以下の条件のいず
れかに合致した文節を述語文節とした.
• 句点を含んでいる
• 動詞を含んでいる
7
8
http://mecab.sourceforge.net/
http://chasen.org/~taku/software/cabocha/
12
• 係助詞を末尾に持つ文節からの係り受けがある
• 格助詞を末尾に持つ文節からの係り受けがある
次に,得られた結果に対して,つつじ機能表現への置き換えを行った.置き換
えは単語列を結合した表記文字列と L9 階層機能表現の表記データとの最長一致
の結果および機能表現の接続情報を用いて行った.置き換えた結果,文節同士が
結合した場合には,末尾の文節の係り受け情報を採用した.述語文節が,前に位
置する文節と結合した場合,述語としての扱いを止めた.
最後に,得られた結果から,述語文節が一つだけになった文を取り除いた.結
果として 9,969 文が述部を 2 つ持つ重文・複文として得られた.
4.2 実験方法
以下の素性について出現数を数え上げ,出現傾向を調べた.
• 文の種類(重文か複文か)
• 節の長さ(文節数)
• 述語文節の文節末表現
• 従属文節の文節末表現
文の種類については前の述語文節が後の述語文節に並列に直接係っている場合
を重文とし,それ以外の場合は複文とした.
節の長さは述語文節および述語文節に係る文節の数である.重文については前
の述語文節が後の述語文節に係っているため,節の数が増えるので 1 だけ差し引
いて数えた.
文節末尾の表現については最後尾の自立語の品詞および,そこから文節末尾ま
での範囲に含まれるつつじ機能表現,助詞,助動詞,接続詞の列と定義し,あら
かじめ全ての例文から表現を抽出して用いた.
13
4.3 実験結果
文の種類と出現回数を表 2 に示す.9,969 文を調べた結果,重文として分類さ
れたものは 1,334 文だった.また,複文と分類されたものは 8,635 文だった.
表 2 文の種類
重文
複文
1,334
8,635
合計
9,969
節の長さと出現回数を表 3 に示す.節の長さは平均 2.93 で,3 文節のものが
7,165 回で最も多く出現した.それに次いで 2 文節のものが 7102 回出現した.
表 3 節の長さ
文節数
出現回数
1
530
2
7102
3
7165
4
3748
5
1132
6
222
7 8 9
36 2 1
L9 階層の機能表現を用いた述語文節の表現と出現回数を表 4 に示す.述語文節
の表現は 1,510 種あった.そのうち 50 回以上出現したものは 39 種あった.それ
らは述語文節の表現すべての出現回数のうち 77 %を占めていた.L1 階層の機能
表現を用いた場合,表現は 1390 種まで圧縮された.
表 4 述語文節の表現
「n」は名詞,
「v」は動詞,
「adj」は形容詞を示す.
「/格」,
「/機」は直前の語の注釈であり,それ
ぞれ格助詞,機能表現であることを示す.
≥1000
≥500
≥200
≥100
≥50
v(4442), v た (3017), n(1385), v ている (1035)
v ない (695), v て (523), adj(503)
n だ (453), n である (314), n の (218), v ていた (217)
n に/機 (160), n だった (154), v てきた (151), v たい (150), v ば (119), v たのは (118),
v のは (116), v なかった (101)
v たが (96), v と/格 (94), n で (92), n が (91), v だ (88), n は (85), v と/機 (82), n も
(78), v られる (74), v たと (69), v てほしい (67), adj た (66), v ても (64), adv(61), v
ず (58), v う (57), n を (55), v べきだ (54), n と/格 (50), n な (50)
14
従属文節の表現と出現回数を表 5 に示す.従属文節の表現は 1297 種あった.そ
のうち 100 回以上出現したものは 35 種である.それらは従属文節の表現すべて
の出現回数のうち 84 %を占めていた.L1 階層の機能表現を用いた場合,表現は
1239 種まで圧縮された.
表 5 従属文節の表現
「n」は名詞,
「v」は動詞,
「adj」は形容詞,
「adv」は副詞を示す.
「/格」,
「/並」,
「/機」,
「/体化」,
「/副化」は直前の語の注釈であり,それぞれ格助詞,並立助詞,機能表現,連体化助詞,副詞化
助詞であることを示す.
≥1000
≥500
≥200
≥100
n を/機 (5271), n は (4555), n が/機 (4192), n に/機 (4003), n(2264), n で (2030),
adv(1610), v(1387), n も (1121)
n の/体化 (811), n から (659)
n に/副化 (497), v て (488), n には (482), n では (472), n と/機 (413), adj(371), n と/
格 (317), しかし (248), n として (236), n にも (204)
n を/格 (188), n の/機 (159), v た (158), n まで (143), n な (136), n と/並 (135), ま
た (130), だが (127), n が/格 (119), v たのは (118), v ば (117), v のは (116), n でも
(109), n による (106)
4.4 考察
今回抽出したデータは約 1 万文である.京都大学コーパスは約 4 万文からなる
コーパスであるから,述語を 2 つだけ持つ文だけで全体のおよそ 4 分の 1 の割合
を占めている計算になる.
抽出したデータにおける重文と複文の割合は,それぞれおよそ 13 %,87 %と
なった.重文に比べて複文はずっと大きな割合を占めていることが分かる.その
ため,複文の分析が重要であると考えられる.
節の長さは 2 と 3 の出現回数が特に大きい.また,節の長さが長くなるほど出
現回数は減少する傾向を示した.ただし,長さ 1 の節,つまり述語文節のみで構
成される節の出現回数は長さ 2 や 3 の場合に比べてずっと少なかった.
つつじ機能表現を用いた表現の統合は表現の圧縮効果を示した.しかし,高い
圧縮率を達成することはできなかった.この理由として予想されうる 2 つの状況
について考えた.一つは,機能表現の量がそれほど多くないという場合である.
15
機能表現でない部分の割合が大きいと,機能表現が一般化されても文節表現をま
とめることは難しい.もう一つは,派生により表現が多様化している場合である.
ある表現にさらに語が組み合わさることで,多様な表現が派生するため,まとめ
ることができなくなる.例えば「n だから」から「n だからだ」や「n だからであ
る」といった形で派生することが考えられる.もし,こうした性質が強い場合は,
派生の規則を明かにすることが必要になるだろう.
文節末表現は述語文節と従属文節で異なる出現傾向を示した.述語文節の表現
は動詞を中心に構成されており,従属文節の表現は名詞を中心に構成されている
ことが確認できた.述語文節で名詞が文節末にきているような表現が比較的高い
頻度で現れるが,これは新聞で比較的よく観察される体言止めであると考えられ
る.逆に,従属文節でも「v て」や「v たのは」のように動詞を含む表現も得ら
れた.こちらは,従属節の述語文節を兼ねた表現であったと考えられる.
従属文節には「また」
「だが」
「しかし」といった単一の接続詞からなる表現が
低頻度で現れた.これは主に前の文と接続している表現であると考えられる.他
の言語のパターンに対応させる場合を考えると,この部分は節と切り離して扱う
べきかもしれない.
述語文節も従属分節も 40 種程度の表現で約 8 割をカバーできることがわかっ
た.しかし,人手で言語間のパターン同士を対応付けるということを考えると,
パターンの数は抑える必要がある.従属文節の表現をパターンに組み込むと,組
み合わせが複雑になり,パターン数が爆発的に増えると考えられる.また,節の
述語を中心とした統語構造は,構文解析により得られるため,述語分節に注目す
ることが重要である.したがって,以降のパターン獲得では述語文節を節の代表
として用いることにする.
16
5. 節関係パターンの獲得
前章で抽出した重文・複文,9969 文を用いて,節関係パターンの獲得を試みた.
また,被覆率を求めることで,得られるパターンの有効性を明らかにした.
5.1 実験方法
5.1.1 節関係パターン
我々は,節関係パターンを述語文節における文節末表現の列として定義する.
節間の関係は係り受け構造により記述され,節の範囲は述語文節を根として持つ
統語構造で表現されるとする.以下に節関係パターン獲得の例を示す(図 10).
上からそれぞれ前の述語が後ろの述語に直接係っている複文,前の述語が後ろの
つけたのは
マスコミである
vたのは
nである
火を
眺めている
抜け出た
自分が
自分を
vた
vている
身体から
九期保持し
八一年まで
以来
連続
得た
v
資格を
十六世名人の
図 10 節関係パターンの生成
17
vた
述語に間接的に係っている複文,そして重文の例である.通常の係り受けは矢印,
並列の係り受けは線,パターン獲得時につける便宜的な係り受けは破線で示され
ている.
5 分割交差検定を行い,節関係パターンの被覆率を評価する.被覆率はパター
ンに完全適合したものの割合とする.
パターンマッチの方法は以下の通り(図 11).
• 入力文の述語文節と節関係パターンの述語文節の表現を前から順に対応さ
せる
• 対応した述語文節と文節末表現が一致するか調べる
• 係り受け情報の比較を行う
• 全ての述語文節について文節末の表現が一致し,係り受け情報も一致する
場合完全適合したと考える
• いずれかの述語文節について文節末の表現が一致し,係り受け情報も一致
した場合,部分適合したと考える
• 上記以外を適合しなかったと考える
18
vたのは
nである
躍り出たのは
要因である
名目資金が トップクラスに 言うまでもなく 円高が 大きな
日本の
世界の
vている
vた
たまった
捨てます
水は
必ず
v
vた
優勝し
就いた
結果 木村が 実力制名人の座に
その
受け皿に
vたのは
nである
見て
様子を
送る
観客は 拍手喝さいを
その
図 11 パターンマッチ
19
初の
表 6 パターンマッチの結果
完全適合率(%)
部分適合率(%)
L9 階層表現
72.4
27.4
L1 階層表現
73.7
26.1
5.2 実験結果
全 9,969 文から得られた L1 階層の機能表現を用いたパターンの数は 3,592 だっ
た.実験では約 8,000 文から約 3,000 パターンが得られた.パターンマッチの結
果を表 6 に示す.部分適合率は 27.4 %で完全適合率(被覆率)は 72.4 %となった.
L1 階層のつつじ機能表現で表現の圧縮を行ったところ,部分適合率は 26.1 %で完
全適合率は 73.7 %となった.
5.3 考察
完全適合の割合は約 7 割である.一方,完全適合と部分適合を合わせたものの
割合はほぼ 100 %になる.部分適合したパターンを利用することができれば,ほ
とんどすべての文について対応できることになる.部分適合したパターンを利用
するためには,同様に使える文節表現をまとめる,あるいは複数のパターンを組
み合わせて新しいパターンを作るという解決が考えられる.
文節表現をまとめるためには,表現同士の意味的な類似性を見る必要がある.
そのための方法としては,得られたパターンと他言語のパターンを対応付けてお
き,他言語のパターンが共通しているパターン同士について文節表現の意味的類
似性を認めるということが考えられる.
複数のパターンを組み合わせる方法としては,一致した文節表現を入力文に合
う形で接続するということが考えられる.問題となるのは,組み合わせた部分の
表現が,元の例文で同じ使われ方であるかどうかである.表現の使われ方を評価
する必要がある.
人手で他言語のパターンと対応付け,翻訳規則を作成することを考えると,ま
20
だパターン数が多すぎる状態である.パターン数が増えてしまった理由として考
えられるのは述語文節の表現が多様であるということである.述語文節の表現は
全部で 1,510 種あるが,文節の表現全てで 2,060 種であることを考えると約 4 分
の 3 となり,非常に多様な表現からなっていることが分かる.
分割式翻訳の有効性を確認するために,50 件の実例を添付する(付録 A).
21
6. おわりに
6.1 まとめ
文分割パターンを用いた節単位の分割式翻訳手法を提案した.文分割パター
ンを得るために,まず節関係をとらえたパターンを獲得することにし,京都大学
コーパス Version 4.0 から,2 文からなる重文および複文を抽出し,機能表現辞書
つつじを利用して節関係パターンを生成した.9,969 文を用いた交差検定による
評価では被覆率 72.4 %となった.つつじ機能表現を L1 階層機能表現まで抽象化
した場合被覆率は 73.7 %となった.
6.2 今後の課題
人手での対応を与えるには,未だパターン数が多すぎるのが現状である.パ
ターン数削減のためには述語文節の表現数を今よりも減らす必要がある.
翻訳でパターンを利用するためには,より精密な文の範囲を定めることが重要
である.本論文における節関係パターンでは文節区切りの表現を利用した.しか
し,文節区切りの要素は必ずしも文の区切りには合致しない.例えば次のような
複文を考えるとする.
• 罪科を/問われるべきは/加害者の/家族ではない.
この文の述語文節は「問われるべきは」と「家族ではない」である.しかし,節
の部分である「罪科を/問われるべきは」は文とはならない.節と節を接続する
「つなぎ」となる部分が存在していることが分かる.
「つなぎ」部分の種類や範囲
を明らかにし,翻訳に適した形への変換を探ることも今後の課題となる.
22
謝辞
研究以外においても多くのことを教えてくださり,本研究を進めるにあたって
はご多忙の中ご指導およびご助言を賜りました松本裕治教授に心から感謝の意を
表します.
ゼミナール発表でご助言をいだだき,またご多忙の中,本研究の副査を引き受
けてくださった鹿野清宏教授に厚くお礼申し上げます.
研究会などでいつも的確かつ大変参考になるご指摘とご助言をいただきました
新保仁准教授に厚くお礼申し上げます.
いろいろと相談に乗ってくださり,ことあるごとに私のことを気にかけてくだ
さった小町守助教,学生生活でもお世話になった浅原正幸助教,適切なご助言を
いただいた松吉俊特任助教に深く感謝致します.
学生生活を送る上で様々な支援をしていただきました.秘書の北川祐子氏に深
く感謝致します.
研究を進めるにあたり貴重なご意見をいただきました林克彦氏,近藤修平氏に
感謝致します.学生生活を共にした諸先輩方,後輩の皆様,そして同期生の皆様
に感謝致します.
重ねて厚く謝意を表し,謝辞と致します.
23
参考文献
[1] David Chiang. A hierarchical phrase-based model for statistical machine
translation. In Proceedings of the 43rd Annual Meeting on Association for
Computational Linguistics, ACL ’05, pp. 263–270. Association for Computational Linguistics, 2005.
[2] Joseph Harold Greenberg. Some universals of grammar with particular reference to the order of meaningful elements. Universals of Language, Vol. 2,
pp. 73–113, 1963.
[3] Philipp Koehn. Pharaoh: A beam search decoder for phrase-based statistical
machine translation models. In Proceedings of the 6th Conference of the
Association for Machine Translation in the Americas, AMTA ’04, pp. 115–
124, 2004.
[4] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based
translation. In Proceedings of the 2003 Conference of the North American
Chapter of the Association for Computational Linguistics on Human Language Technology, Vol. 1 of NAACL ’03, pp. 48–54. Association for Computational Linguistics, 2003.
[5] Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, Tsutomu Hirao, and
Masaaki Nagata. Divide and translate: improving long distance reordering
in statistical machine translation. In Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR, WMT ’10, pp.
418–427. Association for Computational Linguistics, 2010.
[6] 池原悟, 徳久雅人, 村上仁一, 佐良木昌, 池田尚志, 宮崎正弘. 非線形な重文複
文の表現に対する文型パターン辞書の開発. 情報処理学会研究報告. 自然言
語処理研究会報告, Vol. 2005, No. 117, pp. 157–164, 2005.
24
[7] 池原悟, 佐良木昌, 宮崎正弘, 池田尚志, 新田義彦, 白井諭, 柴田勝征. 等価的
類推思考の原理による機械翻訳方式. 電子情報通信学会技術研究報告. TL,
思考と言語 a, Vol. 102, No. 491, pp. 7–12, November 2002.
[8] 池原悟, 宮崎正弘, 白井諭, 横尾昭男, 中岩浩巳, 小倉健太郎, 大山芳史, 林良
彦(編). 日本語語彙大系. 岩波書店, 1997.
[9] 松吉俊, 佐藤理史, 宇津呂武仁. 日本語機能表現辞書の編纂. 自然言語処理,
Vol. 14, No. 5, pp. 123–146, October 2007.
[10] 長坂泰治, 宇津呂武仁, 土屋雅稔. 大規模日本語機能表現辞書の階層性を利用
した機能表現検出. 言語処理学会第 14 回年次大会発表論文集, pp. 837–840,
March 2008.
[11] 松村明(編). 大辞林 第三版. 三省堂, 2006.
[12] 坂本明子, 宇津呂武仁, 松吉俊. 日本語機能表現の集約的英訳. 言語処理学会
第 15 回年次大会発表論文集, pp. 654–657, March 2009.
[13] 注連隆夫, 土屋雅稔, 松吉俊, 宇津呂武仁, 佐藤理史. 日本語機能表現の自動
検出と統計的係り受け解析への応用. 言語処理学会第 13 回年次大会発表論
文集, Vol. 14, No. 5, pp. 167–197, March 2007.
[14] 山本和英, 白井諭, 坂本仁, 張玉潔. Sandglass: 両言語換言機構を基軸とす
る音声翻訳. 言語処理学会第 7 回年次大会発表論文集, pp. 221–224, March
2001.
[15] 劉颯, 長坂泰治, 宇津呂武仁, 松吉俊. 意味的等価クラスを用いた日本語機能
表現の集約的日中翻訳規則の作成と分析. 言語処理学会第 16 回年次大会発
表論文集, pp. 194–197, March 2010.
25
付録
A. 分割翻訳の例
鳥バンク9 の 2 つの節からなるパターンを用いて分割翻訳を行った例を示す.
日本語パターン,英語パターン,日本語の例文,一括翻訳の結果,分割翻訳の
結果を示す.パターンは無作為に 50 を抽出して用いた.例文は京都大学テキスト
コーパス Version 4.0 と鳥バンクから抽出して用いた。パターンマッチは日本語
文に対してのみ人手で行った。翻訳には Google 翻訳10 を用いた.節の翻訳は分割
した節の末尾を適当な形に変換して行った.
1.
パターン
例文
一括翻訳
分割翻訳
2.
パターン
例文
一括翻訳
分割翻訳
3.
パターン
例文
一括翻訳
分割翻訳
4.
パターン
例文
一括翻訳
分割翻訳
9
10
CL1ˆrenyouCL2.kako。
CL1, and CL2.
政権内部での存在感が希薄で自民党と官僚主導の政権に見えた。
LDP and the bureaucracy-led government appeared to dilute their presence within the government.
The interior is sparse presence in the government, and LDP and the
bureaucracy-led government seemed.
CL1ˆrentai ことができるためには CL2 なければならない。
In order that CL1, CL2.
君が召使を持つことができるためにはだれか貧乏な人がいなければならな
い。
To be able to have a servant you must be poor people who?
In order that you have a servant, there are poor people who?
CL1.kako が、CL2.kako。
CL1ˆpast, but CL2ˆpast.
病院に運ばれたが、すでに死亡していた。
Was taken to hospital but was dead on.
Was taken to hospital, but already died.
CL1ˆrentai(まで | 迄)CL2.you。
CL2 till CL1.
彼が来るまで待とう。
Wait till he comes.
I’ll wait till he will come.
http://unicorn.ike.tottori-u.ac.jp/toribank/
http://translate.google.co.jp/
26
5.
パターン
例文
一括翻訳
分割翻訳
6.
パターン
例文
一括翻訳
分割翻訳
7.
パターン
例文
一括翻訳
分割翻訳
8.
パターン
例文
一括翻訳
分割翻訳
9.
パターン
例文
一括翻訳
分割翻訳
10.
パターン
例文
一括翻訳
分割翻訳
CL1.teiru と CL2。
If CL1, CL2ˆfuture.
テレビで悲惨な画面を見ていると心身が冷たくなった。
Mind and body become so cold and miserable to look at the screen on
TV.
If Mind and body was cold, view disastrous screen TV.
CL1ˆrenyou(て | で)CL2.kako。
CL1ˆpast and CL2ˆpast.
知り合って約七年で結婚した。
Known each other for about seven years of marriage.
Meet and married about seven years.
CL1ˆkatei ば、(CL2.#da.you|CL2ˆdesu.you)。
If CL1 CL2.
この中で百人未満に限れば平均六千円台の賃上げで終わるだろう。
In the end it drives average wage increases far as six thousand yen less
than one hundred people in this.
If limited to less than one hundred people in this the pay raise over six
thousand yen on average.
CL1ˆkatei ば CL2。
If CL1, CL2.
部課長が遊ぶようになれば生活大国は実現する。
Once that living power play department head will be realized.
If as department head play, living power will be realized.
(CL1.#da|CL1ˆdesu)(.genzai|.kako) が、(CL2.desu|CL2ˆdesu)(.genzai|.kako)。
CL1, but CL2.
このドレスは前あきボタンだが私のは後ろ開きです。
This is my dress, but the button is held before the perforated back.
Aki is a button front dress, but my back is open.
CL1ˆkatei、CL2。
If CL1, then CL2ˆpast.
日本との友好を維持したいなら、大統領は日本国民の声に謙虚に耳を傾け
てほしい。
If you want to maintain friendly relations with Japan, the president wants
to listen humbly to the voice of the Japanese people.
If want to maintain friendly relations with Japan, the president wants to
listen humbly to the voice of the Japanese people.
27
11.
パターン
例文
一括翻訳
分割翻訳
12.
パターン
例文
一括翻訳
分割翻訳
13.
パターン
例文
一括翻訳
分割翻訳
14.
パターン
例文
一括翻訳
分割翻訳
15.
パターン
例文
一括翻訳
分割翻訳
16.
パターン
例文
一括翻訳
分割翻訳
CL1.teiru(.kako|.genzai)ˆrentai ので (却って | 反って | 返って | かえっ
て)CL2(.kako|.genzai)。
CL2 all the more because CL1.
彼は黙っていたのでかえって我々の注意を引いた。
He drew our attention because it was rather silent.
Our attention all the more because he was silent.
CL1.kako が CL2.kako。
CL1, but CL2.
生徒はこの大学を受験したが合格しなかった。
The student did not pass the university exam.
The students take the university, but did not pass.
CL1[.masu].hitei.#da.kako が、CL2.joutaihenka[.masu].kako。
CL1, but CL2.
前はそんなに名高い所ではありませんでしたが、このごろ急に名高くなり
ました。
At the previous results were not so famous, these days suddenly became
renowned.
The former is not very famous place, but these days suddenly became
renowned.
CL1ˆrenyou(て | で)CL2.kako。
CL2ˆpast as if CL1ˆpast.
ニッサンはマーチの仕様を変更して発売した。
Nissan has launched a march to change the specification.
Was released as if changing the design of the Nissan March.
CL1.tekuru と CL2.teiru[.masu].kako。
When CL1, CL2.
夫は帰ってくると娘の寝顔をしばし眺めていました。
My husband looked at her sleeping face and often to come back.
My husband comes home, often looked at the sleeping face of her daughter.
CL1ˆrentai ので CL2.teiru。
Since CL1ˆing, CL2ˆing.
彼らは体操の競技会に参加するので猛練習を続けている。
They have been practicing so hard to join the gymnastics competition.
They will participate in the gymnastics competition, continue to practice
hard.
28
17.
パターン
例文
一括翻訳
分割翻訳
18.
パターン
例文
一括翻訳
分割翻訳
19.
パターン
例文
一括翻訳
分割翻訳
20.
パターン
例文
一括翻訳
分割翻訳
21.
パターン
例文
一括翻訳
分割翻訳
22.
パターン
例文
一括翻訳
分割翻訳
CL1ˆsyushi が、CL2.teiru(.genzai|.kako)。
CL1, but CL2.
日本の進路についての考え方は違うが、小沢さんの明確さには敬意を表し
ている。
Japanese way of thinking about career paths are different, to be clear that
Ozawa’s honor.
Japanese way of thinking about a different course, but Ozawa’s clarity on
that honor.
CL1.kakoˆrentai だけに CL2.teiru。
As CL1ˆpast, CL2.
事無きに世に生きただけに彼の事業は殊に際立っている。
He lived in the business world to nil only thing that stands out in particular.
As no such thing in the world live, his business in particular stands out.
CL1ˆkatei ば CL2[.masu]。
If CL1, CL2.
通訳を募集すればボランティアの人々が必ず集まる。
Always meet people you can recruit a volunteer translator.
If to recruit interpreters, volunteers are always together.
CL1.tekuru と CL2.joutaihenka.kako。
CL2 as CL1ˆpast.
裁判官が入ってくると部屋は静かになった。
The judge enters the room became quiet.
The room became quiet as judge enters.
CL1.hitei.#da(CL2ˆmeirei|CL2.meireigo)。
CL1ˆbase; CL2ˆbase.
箱は重ねないで横に並べなさい。
Overlap side by side in your box.
Overlap in the box; do side by side.
CL1ˆsyushi が、CL2(.genzai|.kako)。
CL1, but CL2(ˆpresent|ˆpast).
政府は幾つもの細かい雇用推進、確保の施策を持っているが、各省でバラ
バラに実施している。
The government has also promoted a number of small employers, have
policies that ensure that implemented in the province apart.
The government has also promoted a number of small employers, the
measures have ensured, but are carried out in the provinces apart.
29
23.
パターン
例文
一括翻訳
分割翻訳
24.
パターン
例文
一括翻訳
分割翻訳
25.
パターン
例文
一括翻訳
分割翻訳
26.
パターン
例文
一括翻訳
分割翻訳
27.
パターン
例文
一括翻訳
分割翻訳
28.
パターン
例文
一括翻訳
分割翻訳
CL1ˆrenyou(て | で)CL2.kako。
CL1 and CL2.
風呂敷が解けて中の物が落ちた。
Melts in the fall of a pipe dream.
Solve the wrapping cloth and objects have fallen inside.
CL1.kakoˆCL2.gimu.#da。
CL2 when CL1.
新制度も悪いと思ったらいつでも変えるべきだ。
Too bad you think should change whenever a new system.
Should change at any time when too bad I thought the new system.
CL1.soudaCL2.kako。
CL2ˆpast, as if CL1ˆpast.
犬が食い付きそうに僕の足をかいた。
I drew on my feet a dog bite.
Drew my legs, as if the dog likely to bite.
CL1、(CL2.#da|CL2ˆdesu)。
CL1, and CL2.
同時期の全人口の増加率は10%程度で、外国人居住者の急増ぶりは明ら
かだ。
Population growth rate of 10% in the same period was about the first time
in the proliferation of foreign residents is clear.
The population growth rate of around 10% for the same period, and surge
of first time foreign residents is clear.
CL1ˆrentai ため、CL2.teiru.hitei.kako。
Since CL1, CL2.
彼の店は不便な所にあるため、はやっていなかった。
His shop for inconveniently located, was not popular.
Since his shop is in an inconvenient place, was not popular.
CL1CL2.kako。
CL2 since CL1ˆpast.
彼が郷里を離れて長い時が経った。
Long time has passed him off his hometown.
Long time has passed since he left his hometown.
30
29.
パターン
例文
一括翻訳
分割翻訳
30.
パターン
例文
一括翻訳
分割翻訳
31.
パターン
例文
一括翻訳
分割翻訳
32.
パターン
例文
一括翻訳
分割翻訳
33.
パターン
例文
一括翻訳
分割翻訳
34.
パターン
例文
一括翻訳
分割翻訳
35.
パターン
例文
一括翻訳
分割翻訳
CL1.hitei.kakoˆrentai のは CL2.kako[.noda]。
CL2 that CL1.
君がそこにいなかったのは運がよかったのだ。
There was not it lucky you are.
It was lucky that you were not there.
CL1 から (CL2ˆmeirei|CL2.meireigo)。
CL2, because CL1.
この壷は家宝だから大切に扱いなさい。
Treat your pot is important because this family heirloom.
Treat it carefully, because this pot is a family heirloom.
CL1ˆsyushi と CL2.teshimau(.genzai|.kako)。
CL2 when CL1.
ある一定のレベルまで達すると急に冷めてしまう。
They cool down rapidly reaches a certain level.
Suddenly get cold when reaches a certain level.
CL1ˆrenyou(て | で)CL2.kako。
CL2ˆpast when CL1ˆpast.
真相を聞いて頭のもやもやがすっきりした。
Refreshing to hear the truth of the cloud head.
The cloud of mind clutter when I heard the truth.
CL1.kakoˆrentai ので CL2[.teyaru].kako。
CL1ˆpast so CL2ˆpast.
夫がわたしをののしったのでやり返してやった。
Comeback to me because I did cursed her husband.
I swore to her husband so done to comeback.
CL1.kakoˆrentai(隙 | スキ) に、CL2.rareru.teshimau.kako。
CL2ˆpast when CL1ˆpast.
ちょっと目を離した隙に、猫に魚をとられてしまった。
Second chance to release the little fish had been taken to the cat.
Cat fish had been taken when released a glance.
CL1ˆkatei ば (CL2.#da|CL2ˆdesu)。
When CL1 CL2.
改正の主要な点を改めて要約すれば次の通りだ。
It can be summarized as follows: the main points of the amendment again.
When to summarize the main points of the amendment again is as follows.
31
36.
パターン
例文
一括翻訳
分割翻訳
37.
パターン
例文
一括翻訳
分割翻訳
38.
パターン
例文
一括翻訳
分割翻訳
39.
パターン
例文
一括翻訳
分割翻訳
40.
パターン
例文
一括翻訳
分割翻訳
CL1.utosuru(.kako|.genzai) が CL2(.kako|.genzai)。
CL1ˆpast, but CL2ˆpast.
通産省は当初、需給のバランスなどから紙製の容器をはずそうとしたが、厚
生省の反対ですべての包装容器が法案の対象とされた。
The ministry initially tried to Hazusou container and paper from the
supply-demand balance, the bill was the subject of opposition from the
ministry of all packaging materials.
MITI, originally from the paper and container Hazusou including the balance of supply and demand, but the bill is subject to all other packing
containers, the Ministry of Health.
CL1.kako が、CL2.rareru.hitei。
CL1ˆpast, but CL2.
新知事は公約の重さ、信義の大切さに言及したが、公金の無駄遣いもまた、
許されない。
The new governor promised weight, but referred to the importance of
Yoshi Nobu, is also a waste of public money, are not allowed.
The weight of the new governor pledged, referring to the importance of
faith, but also a waste of public money, are not allowed.
CL1 から CL2。
As CL1, CL2.
非常に遅いから家に帰らなければなりません。
Must return home very late.
As very slow, must return home.
CL1.kako.#daˆkatei、CL2.hitei.kako.#darou。
If CL1ˆpsp, CL2.
君の助けがなかったならば、僕は成功できなかっただろう。
But for your help, I could not have succeeded.
If there was no help for you, I could not have succeeded.
CL1.kakoˆkatei(直ぐ | すぐ)(CL2ˆmeirei|CL2.meireigo)。
CL2 as soon as CL1.
朝起きたらすぐこの薬をお上がりなさい。
Take your medicine now rise the morning.
Take your medicine rise as soon as morning.
32
41.
パターン
例文
一括翻訳
分割翻訳
42.
パターン
例文
一括翻訳
分割翻訳
43.
パターン
例文
一括翻訳
分割翻訳
44.
パターン
例文
一括翻訳
分割翻訳
45.
パターン
例文
一括翻訳
分割翻訳
46.
パターン
例文
一括翻訳
分割翻訳
CL1(.kako|.genzai)ˆrentai とき CL2.teiru.hitei(.kako|.genzai)。
CL2 when CL1ˆpast.
私が着いたときオフィスは開いていなかった。
Office was not open when I arrived.
Office was not open when I have arrived.
CL1.tekuruˆrentai 間 CL2。
CL2 while CL1.
ポーターを呼んでくる間ここで待っていてください。
Please wait while coming here called the porter.
Please wait here while Porter comes calling.
CL1(けれど | けど)CL2.hitei。
CL1, but CL2.
何も言わないけれどその態度には優しさがあふれている。
To say nothing but that attitude is full of tenderness.
Say anything, but that attitude is full of tenderness.
CL1ˆrentai(まで | 迄) に、CL2 きっていなかった。
CL2 before CL1ˆpast.
それらの作業員が足場の上に戻るまでに、セメントは充分に養生しきって
いなかった。
Back to top of the scaffold before those workers, the cement was not fully
cured and happy.
Cement was not fully cured and happy before workers back on their footing.
CL1 から、CL2[.masu]。
As CL1, CL2ˆfuture.
時間がありませんから、それの詳しい説明は別の機会に譲ります。
Time is not a clear explanation of it is postponed to another time.
There is no time, yield a detailed description of it at another time.
CL1 から、CL2.you。
CL2, as CL1.
丁度4人いるから、テニスのダブルスをしよう。
Just because four people, let’s tennis doubles.
Let’s tennis doubles, as are exactly four.
33
47.
パターン
例文
一括翻訳
分割翻訳
48.
パターン
例文
一括翻訳
分割翻訳
49.
パターン
例文
一括翻訳
分割翻訳
50.
パターン
例文
一括翻訳
分割翻訳
CL1ˆrentai うちに CL2。
CL2 while CL1.
時間があるうちに引き返せ。
Ees saved while there’s still time.
Ees saved while I have time.
CL1.kaisi.kakoˆrentai ので CL2.kako。
CL2ˆpast because CL1ˆpast.
二人が殴り合いの喧嘩をはじめたので警察に知らせた。
I informed the police that two people fist fighting began.
Informed the police because two people fist fighting began.
CL1.kakoˆrentai(頃 | ころ)CL2.kako。
CL2ˆpast when CL1ˆpast.
あの人は小さかった頃よく泣いた。
He often cried little time.
I cried often when he was small.
CL1.nisuru と (CL2.#da.you|CL2ˆdesu.you)。
CL2 if CL1.
スカートをもう少し長くすると落ち着くだろう。
You will settle down a little longer skirt.
Will settle down if a little longer skirt.
34
Fly UP