Comments
Description
Transcript
ツール班協力者:東京工業大学大学院情報理工 - 松本研究室
BCCWJ に対する 述語項構造と照応関係のアノテーション 小町 守(ツール班分担者:奈良先端科学技術大学院大学情報科学研究科)∗ 飯田 龍 (ツール班協力者:東京工業大学大学院情報理工学研究科) Annotating Predicate-Argument Structure and Anaphoric Relations to BCCWJ Mamoru Komachi (Nara Institute of Science and Technology) Ryu Iida (Tokyo Institute of Technology) 1 はじめに 形態素解析・統語解析の研究が成熟しつつある中、意味・談話解析の研究も近年発展を遂 げている。たとえば、Gildea and Jurafsky (2002) は英語の述語に対する深層格解析のタスク を意味役割付与 (Semantic role labeling) と呼び、Fillmore and Baker (2000) に基づいた自動解 析手法を提案した。また、PropBank (Palmer et al., 2005) は意味役割を大規模にアノテート した初めてのコーパスである。 これらの自動解析手法は CoNLL (Conference on Computational Natural Language Learning) の共通評価タスクによって取り上げられ(2004–2005, 2008–2009)、様々な解析手法が検討 された。そして、本年開催される CoNLL 2011 の共通評価タスクでは、PropBank を含む英 中アラビア語の OntoNotes コーパス (Hovy et al., 2006) を用いた共参照解析タスクが設定さ れるなど、意味解析を要素技術とする次の基盤技術の研究も盛んになってきた。また、述語 項構造は情報抽出 (Harabagiu et al., 2005; Surdeanu et al., 2003) など広く応用先のある要素技 術である。 一方、動詞や形容詞以外にも事態を表す名詞(事態性名詞と呼ぶ)があることが知られて おり、Meyers et al. (2004a) は NomBank (Meyers et al., 2004c,b) コーパスを作成した。日本語 におけるゼロ照応(省略)解析は事態性名詞の解析タスクと類似しており、英語の事態性名 詞の項構造解析を取り扱った (Gerber and Chai, 2010) が ACL でベストペーパーを飾るなど、 事態性名詞の解析も注目されている。 日本語においては京都テキストコーパス 4.0 (Kawahara et al., 2002) が形態素情報・統語情 報に加え、「関係タグ」と呼ばれる共参照や照応関係も含んださまざまな情報を付与してい るほか、GDA コーパス (Hasida, 2005) も agent や theme などの意味役割や共参照の情報が付 与されている。また、NAIST テキストコーパス (飯田他, 2010) には、京都テキストコーパス 3.0 に対し、照応・共参照・述語項構造の情報が付与されている。解析済みブログコーパス 『KNB コーパス』(橋本他, 2009) はブログ記事を対象に京都テキストコーパス同様の格・省 略・照応情報を付与したものである。 我々は乾・飯田 (2009) が述べるように、網羅性の高くかつ多様な分野のテキストに重層 的な意味情報を付与することを目的とし、BCCWJ に照応と述語項構造のアノテーションを 行なった。タグ付与基準に関しては (飯田他, 2010) で述べた NAIST テキストコーパスの仕 様を踏襲し、語彙概念構造辞書 (竹内, 2004) を参照してアノテートした。 ∗ [email protected] 表 1: BCCWJ の述語項構造のアノテーションにおいて助動詞とした語 補助動詞系 可能 受け身 使役 願望 パターン 例 V てあげる、V てもらう、など V できる、V れる、V られる V れる、V られる V せる、V させる V たい 代筆してあげる、食べてもらう 説得できる、行かれる、見られる 騙される、認められる 喋らせる、論じさせる 食べたい 2 BCCWJ に対するアノテーション 2.1 述語項構造のアノテーション 述語項構造については、述語の基本形にその項となる表現を表層格(ガ格、ヲ格、 ニ格)レベルでタグ付与する。 我々は BCCWJ に対して述語項構造のアノテーションをする際、NAIST テキストコーパ ス 1.5β(飯田他, 2010) のタグ付与基準1 に従ってタグ付与を行なった。アノテーションマニュ アルは随時ウェブページ上2 で更新している。 述語の格要素に関しては、agent や theme などの意味役割(深層格)、PropBank で付与され ている ARG0 や ARG1 といった意味役割相当のラベルなどが考えられるが、我々は NAIST テキストコーパスに従い、表層格レベルから格交替だけを原形に戻し、タグ付与を行なうこ とにした。たとえば、 (1) 太郎は次郎にカレーを食べさせた。 という文で、京都テキストコーパス 4.0 では述語「食べさせた」に対して<ガ=太郎, ヲ=カ レー, ニ=次郎>という格構造でタグ付与するのに対し、我々は述語「食べ」に対し<ガ=次 郎, ヲ=カレー>という項構造でタグを付与する。ただ、この場合使役者と述語の間に関係 を認定することができないため、格要素を増やす助動詞に対して<追加ガ(ニ)>というタ グを付与する3 。つまり、助動詞「させた」に対し、<追加ガ=太郎>のようにタグを付与す る。今回認定した助動詞のリストを表 1 にまとめる。一方、 (2) 太郎はカレーが好きだ。 のような動詞や可能動詞を含む二重主語構文においては、<ハ>と<ガ>を用いてタグを付 与した。上記の場合、述語「好き」に対して<ハ=太郎, ガ=カレー>となる。 また、NAIST テキストコーパスのタグ付与において、FrameNet や NOMLEX (Macleod et al., 1997, 1998) のような述語項構造を示す辞書を用いなかったことによる反省を踏まえ、 必須格と任意格の曖昧性がある場合、青山他 (2007); 大西他 (2008) および語彙概念構造辞 書4 (竹内, 2004) の知識を参考にし、必須格かどうかの判定を行なった。 必須格が曖昧な事例として、たとえば (3) 私は彼に搾り取られた。 http://cl.naist.jp/∼ryu-i/coreference tag.html https://sites.google.com/site/naistcorpus/predicate tag 3 格の交替あるいは格の追加がない単語には「助動詞」タグを付与しない 4 http://cl.it.okayama-u.ac.jp/rsc/lcs 1 2 という文があり、語彙概念構造辞書ではカラ格が必須格として「私カラ彼ガ搾り取る」とし て記述されているが、現在ガヲニの 3 格のみを必須格としてアノテーションしているため、 述語「絞り取る」に対して<ガ=彼>、そして助動詞「れる」に対して<ガ=私>としてアノ テーションする。同様に、 (4) 私は今日来なくてよいと言われた。 という文に対しても、語彙概念構造辞書ではニ格は必須格ではないとされているが、後継の 動詞項構造シソーラス 0.902 5 (竹内他, 2007) では必須格とされており、必須格かどうかの判 定に辞書を使うと辞書の揺れによってアノテーションが左右されてしまうため、述語項構造 を揺れなくつけるためには辞書の精錬も必要である。 2.2 事態性名詞のアノテーション 事態性名詞についても、述語と同様に表層格レベルで項を付与する。 事態性名詞については、モノを指す表現にも項を付与する。 事態性名詞のうち、モノを指す表現には、どの種類かタグ付与する。 冒頭で述べたように、我々は述語だけではなく事態性名詞に関しても項構造を付与した。 たとえば、 (5) 太郎の採用は不当だ。 という文に関して、述語6 「不当だ」のガ格になっている事態性名詞採用のヲ格として「太 郎」をアノテートする。また、 (6) 太郎の料理はまずい。 という文で、料理は「太郎ガ料理スル」という事態を表すとともに、太郎が料理した結果物 を指している。このように、事態性名詞の中には体系的に事態とモノの両方を指しうる種類 のものがあるため、飯田他 (2010) で提案したように、 「内容/結果物」 「モノ」 「役割」 「ズレ」 という 4 種類の分類を行い、モノを指しうる事態性名詞にアノテートした。 2.3 照応関係のアノテーション また、我々は BCCWJ に対して照応関係のアノテーションを行なった。照応とは代名詞や 指示詞などの照応詞によって他の表現を指す機能のことを指す。照応と似た関係として、共 参照がある。共参照とは、2 つの表現が可能世界において同一の実態を指す機能のことを言 う。たとえば、 (7) 太郎は iPhone を買った。彼はずっと欲しがっていたのだ。 において、太郎と彼は照応関係かつ共参照関係である。一方、 (8) 太郎は iPad を買った。次郎もそれ を買った。 において、iPad と それ は照応関係にあるが共参照関係にはない。 Mitkov (2002) によると、前者のように照応関係かつ共参照関係にある場合は identity-ofreference anaphora (IRA)、後者のように照応関係にあるが共参照関係にない場合を identityof-sense anaphora (ISA) と呼ぶ。 5 6 http://cl.it.okayama-u.ac.jp/rsc/data/index.html 動詞、形容詞、「名詞 + だ」を述語と認定する 表 2: BCCWJ の 4 ジャンルのコアデータに対する照応・述語項構造アノテーションの進捗 PN PB OW OC (新聞) (書籍) (白書) (知恵袋) 記事数 文数 単語数 コアデータ 478 55 30 938 5,730 4,691 2,414 6,402 127,077 113,399 100,396 103,188 A まで完了 A まで完了 A まで完了 B まで完了 今回 BCCWJ においてタグ付与を行なったのは、NAIST コーパス (飯田他, 2010) と同様、 以下の基準に従う。 照応関係については、IRA の関係のみを対象として照応の関係を認定する。 また、NAIST コーパスには bridging reference や間接照応の情報 (Inoue et al., 2010) が付与 されているが、BCCWJ においては付与していない。NAIST コーパスとの比較のためにこれ らの情報をつけることは今後の課題である。 2.4 アノテーションの進捗 2011 年 2 月 7 日現在、BCCWJ に対して完了している述語項構造と照応関係のアノテー ションの進捗について表 2 で示す。単語数は UniDic 1.3.127 を用いて MeCab 0.988 で自動解 析した結果なので、人手解析結果と一致しない。また、雑誌コアおよびブログコアについて は未着手である。 このうち新聞コアデータに関しては、複数の作業者間で一致率を見た。用いたデータは 新聞記事 9 記事(90 文,1,653 語)である。一致率を求める手順は飯田他 (2010) と同様に、 一方の作業者のタグ付与の結果を正解、他方の作業結果をシステムの出力とみなし、再現率 と精度で評価して表 3 に示した。このうち作業者 A は NAIST テキストコーパスのアノテー ションに従事した熟練の作業者、作業者 B,C は自然言語処理分野の大学院生である。 作業者 A-B 間の一致率を見ると、飯田他 (2010) が報告しているように、それぞれのタグ 付与は多くの場合 8 割を超える品質で作業ができている。一方、A-C 間の一致率を見ると、 多くの場合 A-B 間の一致率に比べて精度・再現率ともに低い。作業者 C に聞き取り調査を してみると、いつ辞書を参照してよいかが分からない、という意見が得られた。これは、作 業者 A-C 間ではガ格と比較してヲ格、ニ格のタグ付与の一致率が低いことからも、項構造 の決定の際の辞書参照に任意性があることを示す。今後は辞書引きをアノテーションツール の機能として組み込むなど、辞書引きの不統一をなくすことで解決できると考えられる。 また、述語に比べて事態性名詞のラベル付与の一致率が低い原因の一つも、既存の動詞 項構造シソーラスなどの辞書が述語を中心に作られており、事態性名詞の項構造のアノテー ションに必ずしも助けにならない、という点も挙げられる。NomBank のように、事態性名 詞に関する項構造のリソース (小町他, 2010) も、動詞項構造シソーラス同様構築していく必 要がある。 7 8 https://www.tokuteicorpus.jp/dist/index.php http://mecab.sourceforge.net/ 表 3: 作業者間の新聞コアデータにおける一致率(精度と再現率) 精度 作業者 A-B 間 再現率 精度 作業者 A-C 間 再現率 述語 ガ格 ヲ格 ニ格 87.1 80.4 96.3 82.1 (155/178) (123/153) (77/80) (23/28) 89.6 100.0 98.7 88.5 (155/173) (123/123) (77/80) (23/26) 80.1 96.2 85.3 90.5 (133/166) (101/105) (58/68) (19/21) 76.9 100.0 96.7 59.4 (133/173) (101/101) (58/60) (19/32) 事態 ガ格 ヲ格 ニ格 93.9 83.5 59.0 77.8 (93/99) (76/91) (13/22) (7/9) 84.5 100.0 100.0 100.0 (93/110) (76/76) (13/13) (7/7) 72.9 80.0 52.4 50.0 (70/96) (32/40) (11/21) (4/8) 63.6 100.0 73.3 100.0 (70/110) (32/32) (11/15) (4/4) 3 照応と述語項構造のアノテーション 京都テキストコーパスや NAIST テキストコーパスでは新聞記事の分野しかカバーできな かったが、BCCWJ において、基本的なアノテーション方針は NAIST テキストコーパスの 基準を踏襲しつつ、さまざまな分野に照応と述語項構造のアノテーションを拡充することが できた。また、動詞の項構造辞書を用いることで、述語項構造関係のアノテーションの支援 を図り、一定の改善を見ることができた。 OntoNotes コーパス (Hovy et al., 2006) は BCCWJ のように様々なジャンルのテキストに 対し、統語構造と述語項構造、語義と共参照の情報をアノテートしたものである。彼らの目 標は、機械学習の訓練データとして使うために、90%の一致率でアノテートをする、という ものである。BCCWJ や NAIST コーパスのアノテーション基準においても、全ての項構造を 90%という高い一致率でアノテートすることができない。さらなる仕様の洗練と、Slate (徳 永他, 2010) のようなアノテーションツールを組み合わせ、質の高いコーパスを作ることで、 様々な応用の可能性が開けるであろう。 今後は作成されたコーパスを用いて述語項構造と照応関係の同時学習や、文書全体の大域 的情報を用いた全体最適化、新聞記事で訓練されたモデルからの転移学習など、大規模で多 様な分野のコーパスが整備されることで、解析技術の発展も期待できる。コーパスや辞書の 拡充を続けつつ、意味解析の実用化に取り組んでいきたい。 参考文献 Fillmore, Charles J. and Collin F. Baker (2000) “FrameNet: Frame semantics meets the corpus,” in Proceedings of the 74th Annual Meeting of the Linguistic Society of America. Gerber, Matthew and Joyce Y. Chai (2010) “Beyond NomBank: a Study of Implicit Arguments for Nominal Predicates,” in Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pp. 1583–1592. Gildea, Daniel and Daniel Jurafsky (2002) “Automatic Labeling of Semantic Roles,” Computational Linguistics, Vol. 28, No. 3, pp. 245-288. Harabagiu, Sanda, Cosmin Adrian Bejan, and Paul Morarescu (2005) “Shallow Semantics for Relation Extraction,” in Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence (IJCAI ’05), pp. 1061–1066. Hasida, Koiti (2005) 「GDA 日本語アノテーションマニュアル 草稿 第 0.74 版」. http://i-content.org/gda/tagman.html. Hovy, Eduard, Mitchell Marcus, Martha Palmer, Lance Ramshaw, and Ralph Weischedel (2006) “OntoNotes: The 90% Solution,” in Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pp. 57–60. Inoue, Naoya, Ryu Iida, Kentaro Inui, and Yuji Matsumoto (2010) “Resolving Direct and Indirect Anaphora for Japanese Definite Noun Phrases,” Journal of Natural Language Processing, Vol. 17, No. 1, pp. 221– 246. Kawahara, Daisuke, Sadao Kurohashi, and Koiti Hasida (2002) “Construction of a Japanese Relevancetagged Corpus,” in Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC), pp. 2008–2013. Macleod, Catherine, Ralph Grishman, Adam Meyers, Leslie Barrett, and Ruth Reeves (1998) “NOMLEX: A Lexicon of Nominalizations,” in Proceedings of Euralex98, pp. 187–193. Macleod, Cathrine, Adam Meyers, Ralph Grishman, Leslie Barret, and Ruth Reeves (1997) “Designing a Dictionary of Derived Nominals,” in Proceedings of Recent Advances in Natural Language Processing, pp. 142–151. Meyers, Adam, Ruth Reeves, Catherine Macleod, Rachel Szekely, Veronika Zielinska, Brian Young, and Ralph Grishman (2004a) “Annotating Noun Argument Structure for NomBank,” in Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC), pp. 803–806. Meyers, Adam, Ruth Reeves, and Catherine Macleod (2004b) “NP-External Arguments: A Study of Argument Sharing in English,” in Proceedings of the ACL 2004 Workshop on Multiword Expressions: Integrating Processing, pp. 96-103. Meyers, Adam, Ruth Reeves, Catherine Macleod, Rachel Szekely, Veronika Zielinska, Brian Young, and Ralph Grishman (2004c) “The NomBank Project: An Interim Report,” in Proceedings of the HLT/NAACL 2004 Workshop Frontiers in Corpus Annotation, pp. 24–31. Mitkov, Ruslan ed. (2002) Anaphora Resolution, Studies in Language and Linguistics: Peason Education. Palmer, Martha, Paul Kingsbury, and Daniel Gildea (2005) “The Proposition Bank: An Annotated Corpus of Semantic Roles,” Computational Linguistics, Vol. 31, No. 1, pp. 71–106. Surdeanu, Mihai, Sanda Harabagiu, John Williams, and Paul Aaseth (2003) “Using Predicate-Argument Structures for Information Extraction,” in Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), pp. 8–15. 乾健太郎・飯田龍 (2009) 「日本語書き言葉コーパスへの重層的意味情報付与∼照応・共参照,述語 項構造,モダリティ,談話関係∼」, 『科研費特定研究「日本語コーパス」平成 21 年度全体会議予 稿集』. 橋本力・河原大輔・黒橋禎夫・新里圭司 (2009) 「構文・照応・評判情報つきブログコーパスの構築」, 『言語処理学会第 15 回年次大会論文集』,614–617 頁.http://nlp.kuee.kyoto-u.ac.jp/ ∼hasimoto/KNBC v1.0 090925.tar.bz2 よりダウンロード可能. 小町守・飯田龍・乾健太郎・松本裕治 (2010) 「名詞句の語彙統語パターンを用いた事態性名詞の項 構造解析」, 『自然言語処理』,第 17 巻,第 1 号,141–159 頁. 青山桜子・阿部修也・大西良明・乾健太郎・松本裕治 (2007) 「事態間関係の獲得のための動詞語釈 文の構造化」, 『言語処理学会第 13 回年次大会論文集』,286–289 頁. 大西良明・乾健太郎・松本裕治 (2008) 「事態間関係知識の整備と含意文生成への応用」, 『言語処理 学会第 14 回年次大会論文集』,1152–1155 頁. 竹内孔一 (2004) 「語彙概念構造による動詞辞書の作成」, 『言語処理学会第 10 回年次大会論文集』, 576–579 頁. 竹内孔一・乾健太郎・藤田篤・竹内奈央 (2007) 「語彙概念構造に基づく事態上位オントロジーの構 築」, 『言語処理学会第 13 回年次大会論文集』,859–862 頁. 徳永健伸・Dain Kaplan・飯田龍 (2010) 「汎用アノテーションツール Slate」, 『情報処理学会研究報告. 自然言語処理研究会』,第 2010-NL-199 巻,1–10 頁. 飯田龍・小町守・井之上直也・乾健太郎・松本裕治 (2010) 「述語項構造と照応関係のアノテーショ ン: NAIST テキストコーパス構築の経験から」, 『自然言語処理』,第 17 巻,第 2 号,25–50 頁.