Comments
Description
Transcript
自然言語処理の意味解析における曖昧性解消
平成 21年度 卒業研究発表会 自然言語処理の意味解析における曖昧性解消 研究者:倉橋宏幸 1. はじめに 自然言語とは、私たちが日常的に使っている日本語や英語な どの言語である。それらをコンピュータに理解させるための処 理を自然言語処理という。 自然言語処理とは、知識処理の分野における一つの重要な課 題であり、大別して構文解析と意味解析に分かれる。特に後者 は「言葉の曖昧さ」があるため難しく、本研究では単語の多義 性を主な問題として扱う。 2. 意味解析 意味解析とは、単一の文を人間が読んで唯一に解釈出来る 場合に、文中の単語間の意味的整合性をチェックして曖昧性 を解消することである。 ・用例を用いた解析 あらかじめ計算機に図1のような用例を記憶させておき、 その用例と入力文とを比較する。それに最も類似した用例を 入力文に対して適切なものであるとして選択する。 <用例1> ~を取る <用例2> ~を捕まえる <用例3> ~を予約する <入力文> John Cat Bob ↕ Marry 指導教員:加藤省三 ここで dc は入力された単語と用例の共通の上位語の深さ、 di, dj はそれぞれの語の深さを表す ( 1 ) 。 4.多義性の解消 4.1 シソーラスの検討 前年度まではシソーラスの木構造の深さが 3 までのもの が定義されていた。正確な解析をするには、シソーラスの木 構造を改訂する必要があると考え、本研究ではシソーラスに WordNet を用いることとした。 WordNet は、Princeton 大学で開発され、データベースは約 15 万語を収録している。深さは語によって異なり、例えば pencil(鉛筆)という単語の場合、深さが 9 の構造を持つ。 前年度のシソーラスと WordNet を用いた場合とを比較評価 するために、 4つの動詞について30の文を解析し比較した。そ の結果、図 3 で示すようになり、WordNet を用いた場合の方が 解析精度が高いことが分かり、解析精度の向上につながった。 takes a pen. takes a mouse. takes a seat. ↕ takes a fox. 動作主格 動詞 対象格 図 1 take の用例を用いた例 図 3 シソーラスの比較 図 1 の場合、用例と入力文について、動作主格と対象格の 類似度を計算し、その類似度の和が最大のものを動詞の意味 として決定する。この場合<take>は「 ~を捕まえる 」とい う意味と判断される。 4.2 用例の保存方法 用例の保存方法について、 2 つの方法を考え比較評価した。 (1)動詞を介した格同士の共起性を考慮したまま保存する方法 (2)動詞を介した格同士の共起性を考慮せずに保存する方法 保存方法の具体例を述べる。 「~を捕まえる(take)」という意味について ・John takes a fox. ・Cat takes a mouse. という 2 つの文を用例として保存する場合を考える。この 2 つの文についてそれぞれの用例の保存方法を図 4 に示す。 ※( )でひとまとまりの情報として保存する。 3. 類似度の計算 類似度の計算にはシソーラスの木構造を用いる。シソーラ スとは、単語の上位/下位関係、部分/全体関係、同義関係、 類義関係などによって単語を分類し、体系づけた辞書である。 図 2 にそのシソーラスの木構造の例を示す。 ・共起性を考慮したまま保存する場合 (動作主格:John 目的格: fox) (動作主格:Cat 目的格: mouse) ・共起性を考慮せずに保存する場合 (動作主格:John , Cat) (目的格 :fox , mouse) 図 4 用例の保存方法 図 2 シソーラスの木構造 このシソーラスをもとに、次の式で類似度を求める。 dc 2 類似度 ・・・ (1) di dj このように、共起性の考慮の有無で用例の保存方法の考え 方が変わり、後者は共起性を無視することで用例追加の手間 が軽くなるという利点をもつ。このことからプログラムの行 数を減らすことが可能である。 平成 21年度 卒業研究発表会 また、上記の情報をもとに類似度の計算を行うが、2 つの 方法では類似度の計算方法が異なる。具体的に“ Cheetah takes a zebra. ”という動作主格が「cheetah」 、対象格が 「zebra」という入力文が与えられた場合を考え、これを図 5 に示す。 ※A ⇔ B は A と B の類似度を表すものとする |: svoo. |: John makes his brother a new chair. translate(john, ha, ,(kareno, kyoudai), ni, ,(aru, ,(atarasii, isu)), wo, tukutteyaru) 図 7 実行結果の例 (SVOO の文型) ・共起性を考慮したまま保存する場合 John ⇔ Cheetah + fox ⇔ zebra = 類似度① Cat ⇔ Cheetah + mouse ⇔ zebra = 類似度② 類似度①と類似度②を比較し、類似度の大きいものを、その 意味での類似度とする。 ・共起性を考慮せずに保存する場合 John ⇔ Cheetah と Cat ⇔ Cheetah を比較し、類似度の大 きいものを類似度①とする。 fox ⇔ zebra と mouse ⇔ zebra を比較し、類似度の大 きいものを類似度②とする。 類似度① + 類似度② をその意味での類似度とする。 図 5 用例の保存方法~類似度の計算~ この 2 つの方法について 3 つの意味が登録されている 4 つ の動詞を対象に 100 の文を解析し比較した。但し、ひとつの 意味につき用例は 3 つまで登録できるものとする。その結果、 図 6 に示すようになり、同程度の精度が得られることが分か った。 図 6 用例の保存方法の比較 共起性を考慮せずに保存する場合、用例追加の手間が軽く なる利点を持ち、解析精度も同程度であることから、以後の 研究ではこの方法を用いた。 4.3 基本 5 文型の解析 これまでの研究では、第3文型SVOの文型のみで解析を 行ってきた。この場合は、動作主格と対象格のみで動詞の意 味を決定する形となる。そこで本研究では、基本5文型をも とに、格という概念ではなく、主語(S)、目的語(O)、補語(C) といった文を構成する要素が、動詞の意味決定にどの程度影 響するのか解析評価を行った。 また、本研究で対象とする文は「現在形の肯定文で前置詞 を含まない単文」という単純な文のみに絞って行った。文型 については、構文解析にて得られているものとし、あらかじ め文と共に文型についても入力するものとした。 例として、SVOO の文型について研究対象の動詞の 1 つ”make”を含んだ文を入力し、解析させた結果を図 7 に示 す。図中の 部分が解析された動詞の意味である。 今回の解析評価で得られた、基本5文型が動詞の意味決定 に与える影響について以下にまとめる。 (1)動詞の意味決定に与える影響について、文の要素として は、目的語(特に直接目的語)が与える影響が非常に大きい ことが分かった。 (2)類似度の重みとして、主語×1.0、目的語×1.7 とするの が最適な値であることが分かった。 (3)「前置詞を含まない現在形の肯定文」では、間接目的語 に「人」を表す単語の出現率が高く、動詞の意味決定に与え る影響は小さいことが分かった。 (4)文の要素(主語、目的語、補語)が動詞の意味決定に与 える影響を考えたが、文の構造自体が与える影響というもの を考えることで、意味を決定できることが分かった。 また、今回の解析評価では複数の文を入力する必要があっ たが、これを手動で行うのは大変手間である。そのため、フ ァイルから文の読み込みを行えるようにプログラムを作成 した。多義性の解消とは直接的な関係はないが、研究成果と して記しておく。 5. まとめ 5.1 本研究の成果 (1)シソーラスについて検討し、WordNet を用いることとし た。このことで意味を正しく判断できる確率が高くなり、多 義性の解消につながった。 (2)用例の保存方法に共起性を考慮した場合と考慮しない場 合を考え、比較を行った。共起性を考慮しない場合の方が、 プログラムの行数が減らせるなどの利点が多いために、こち らの考えを用いた。 (3)英文の基本5文型について解析評価を行い、類似度の重 みの最適な値や、文の構造が動詞の意味に与える影響などに ついて成果を得ることが出来た。 5.2 今後の課題 (1)解析対象を「前置詞を含まない現在形の肯定文」に限定 してプログラムを作成した。今後は前置詞を含むような、複 雑な英文にも対応できるように拡張を図る。 (2)現在は WordNet の辞書を手動で登録しているが、解析作 業の効率があがるため、これを自動でプログラムから定義で きるように改良を加える。 6.参考文献 (1)長尾真「自然言語処理」岩波書店 (1996) (2)野口正一 監修、牧野武則著 「図解自然言語処理」オーム社 (1991) (3)鈴木希明「高校総合英語 Harvest」桐原書店 (2002) (4)PRINCETON UNIVERSITY 「WordNet」 http://wordnet.princeton.edu/ (5)奥村紗智子 「自然言語処理による意味解析の曖昧性解消」 平成 20 年度卒業研究