...

形容詞用例データベースの構築

by user

on
Category: Documents
26

views

Report

Comments

Transcript

形容詞用例データベースの構築
第5回コーパス日本語学ワークショップ予稿集
(2014年3月,国立国語研究所)
形容詞用例データベースの構築
山口昌也 (国立国語研究所言語資源研究系)
†
Building a Database of Japanese Adjective Examples
Masaya YAMAGUCHI (Dept. Corpus Studies, NINJAL)
1
はじめに
本稿では,日本語形容詞の用例データベースの構築方法と構築結果を報告する。本用例データベー
ス (以後,用例 DB) の構築目的は,用法を指定した形容詞の分析である。対象とする用法は連体用
法,叙述的用法,副詞的用法とし,語,および,用法によらず,分析に十分な用例が収集できるよう
な用例 DB の構築を目指す。
以上のような用例 DB を構築する場合に問題となる事柄として,生起確率の低い語・用法の用例収
集が挙げられる。特に,単一のコーパスから用例収集すると,収集可能量はコーパスの規模に依存し
てしまい,生起確率の低い語や用法は十分な量の用例を収集できない恐れがある。実際,約 11 億語
を収録する『筑波ウェブコーパス』(今井ら 2013) を NINJAL-LWP for TWC1 を用いて,
「美しい」
「すばしこい」を検索すると,用例数は次のようになる 2 。
• 「美しい」(総数:97540 例,
「美しい」+名詞:46855 例,
「美しく」+動詞:11642 例)
• 「すばしこい」(総数:85 例,
「すばしこい」+名詞:22 例,
「すばしこく」+動詞:23 例)
このように,生起確率が高い「美しい」は容易に多量の用例を収集できるが,生起確率の低い「す
ばしこい」では,十分な量の用例を収集しているとは言いがたい。また,2 節で示すように,語形の
違いでも生起確率の差異がある。
そこで,本稿では,単一のコーパスから用例を収集するのではなく,語,および,語形ごとに専用
の Web コーパスを構築し,そこから用例を収集する。この方法の利点は,大規模なコーパスを構築
する必要がないこと,また,用例の不足が明らかになった時点で,再収集するのが容易なことであ
る。筆者は複合動詞に対しても同様の試み (山口 2013) を行い,約 3900 語の複合動詞用例 DB を構
築した。このうち,約 1800 語については 1000 例以上の用例が収集されているが,基本形のみでし
か用例を収集していない。本稿では,複数の語形で用例収集が可能かどうかを検証する。
この後の節では,2 節で収集対象の形容詞,および,用法を定め,3 節で用例収集のための Web
コーパスの構築方法を示す。次に,4 節では Web コーパスから抽出された用例を用法別に分析し,ど
の程度の用例を収集できるかを明らかにする。さらに,5 節で用例 DB を Web 上で利用するための
システムについて紹介し,6 節で本稿をまとめる。
2
用例の収集対象
ここでは,用例収集の形容詞とその用法について説明する。
まず,用例対象の形容詞は,形態素解析システム JUMAN(ver.6.0)
3
用の辞書に登録されているイ
形容詞約 500 語,ナ形容詞約 1700 語 (品詞細分類が「ナノ形容詞」の形容詞も含む) とした。なお,
同一の代表表記を持つ辞書項目が複数ある場合は,検索エンジン 4 の検索総数を参考にして,一つに
限定している。
† http://www2.ninjal.ac.jp/masaya
1 http://corpus.tsukuba.ac.jp/
2 2014-01-30
に検索
3 http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN
4 http://www.bing.com/
を用いた。
147
第5回コーパス日本語学ワークショップ予稿集
(2014年3月,国立国語研究所)
対象とする用法は,次の三つとした。3 節で述べるように,本研究で用いるコーパス構築手法は,
収集対象の形容詞に対して単一の表記を指定しなければならないが,個々の用法は複数の語形で表現
しうる。例えば,連体修飾用法であれば,
「白い皿」「白かった皿」で表現できる。そこで,今回はそ
れぞれの語形の生起確率を調査し,生起確率の高い語形の用例をコーパス構築対象とする。
連体修飾用法: 体言を修飾する用法 (例:白い皿)
副詞的用法: 用言を修飾する用法 (例:白く光る)
叙述的用法: 述語としての用法 (例:その皿の色は白い)
語形ごとの生起確率の調査には,無作為抽出文コーパス (3.2 節参照) を用いた。このコーパスは,
Web から収集したページから無作為に文を抽出・集積した Web コーパスで,約 3.8 億形態素 5 を含
む。イ形容詞,ナ形容詞の出現語形の分布 (相対頻度で上位 5 語形まで) を表 1,2 に示す。なお,活
用形の名称は,JUMAN に準じる。
表 1: イ形容詞の活用形ごとの分布
活用
相対度数
語例
表 2: ナ形容詞の活用ごとの分布
活用
相対度数
語例
基本形
0.586
白い
語幹
0.409
きれい
基本連用形
0.248
白く
ダ列基本連用形
0.186
きれいに
語幹
0.078
白
ダ列特殊連体形
0.175
最短の
タ形
0.044
白かった
ダ列基本連体形
0.136
きれいな
タ系連用テ形
0.002
白くて
デス列基本形
0.003
きれいです
総形態素数
総形態素数
3855383
2205650
表 1 を見ると,イ形容詞は基本形と基本連用形の上位 2 語形で全体の 83.4%を占める。基本形は連
体修飾用法と叙述用法を,基本連用形は副詞的用法を表現しうる。一方,タ系の活用形は上記の二つ
の活用形よりも生起確率が低い。したがって,基本形,基本連用形を用例収集の対象とする。
一方,ナ形容詞はトップの「語幹」を除けば,上位 3 語形は語尾が「ダ」の系列であり,
「デス」
「デ
アル」系列の生起確率は低いことがわかる。また,
「ダ」の系列の中で見てみると,(タ系ではなく)
基本系が上位を占めている。したがって,まず「ダ列基本連用形」「ダ列基本連体形」を収集対象の
活用形と決める。これらは,それぞれ副詞的用法,連体修飾用法に対応する。これに伴い,叙述的用
法も,同じ「ダ」系列の基本形 (例:きれいだ,相対頻度は 0.003) の用例を収集することにする。さ
らに,
「ダ列特殊連体形」が3番目に挙がっているので,生起確率を考慮し,
「ダ列特殊連体形」も連
体修飾用法の語形として用例収集する。
以上をまとめると,収集対象の活用形は,次のようになる。なお,活用形の名前の煩雑さを避ける
ため,カッコ付きの活用形は,以後,カッコ内の表記で記す。
イ形容詞: 基本形,基本連用形 (連用形)
ナ形容詞: ダ列基本連用形 (連用形),ダ列基本連体形 (連体形 A),基本形,ダ列特殊連体形 (連
体形 B)
用例 DB の構築
3
3.1
Web コーパスの構築と用例 DB への登録
前節で述べた形容詞と活用形に対して,個別に専用の Web コーパスを構築する。本稿で用いた構築手
法は,Web 検索エンジンを用いた Web コーパス構築手法 (Baroni・Bernardini(2004),Sharoff(2006))
を基本としている。これらの手法は,Web 検索エンジンに与えるランダムキーワードを与えること
により,収集される Web ページに特定の偏りが生じないようにしているが,本研究では対象語を検
5 形態素解析システム
JUMAN ver.7.0 による
148
第5回コーパス日本語学ワークショップ予稿集
(2014年3月,国立国語研究所)
索キーに含めることにより,対象語の用例を効率的に収集できるようにしている。なお,本稿で用い
た手法は,山口 (2013) とほぼ同一である。
Web コーパスの構築と用例 DB への登録手順を次に示す。この手順は,個々の形容詞の個別の活
用形に対して適用される。したがって,イ形容詞は 1 語当り 2 個,ナ形容詞は 1 語当り 4 個のコー
パスを構築することになる。
(1) 検索エンジン 6 に対して,収集対象の語 (語形を指定) とランダムキーワードを与えて AND 検
索し,最大 50URL を取得する。ランダムキーワードは,広範囲のジャンルで多用される語 3000
語からランダムに1語選択した。
(2) 検索された URL からランダムに 10URL 選択し,ダウンロードする。ダウンロードしたファイ
ルは,文字コードを UTF-8 に統一した上で,各種クリーニング (文字の正規化,HTML タグ
の削除など) を行う。
(3) 規定のページ数が集まるまで,1,2 を繰り返す。今回は,各用法ごとに 500∼1000 例程度を収
集することを目標として,イ形容詞の基本形は 2000 ページ,イ形容詞の連用形,および,ナ
形容詞の全語形はそれぞれ 1000 ページ収集した。イ形容詞の基本形だけを 2000 ページ収集し
たのは,イ形容詞の基本形には二つ用法 (連体修飾用法,叙述的用法) があるからである。な
お,Web ページ収集時は,重複する URL は収集しない。また,1 において,5 回連続で URL
を取得できない場合は,URL の収集を終了とした。
(4) 収集した Web ページを形態素解析したのちに,収集対象の語を含む「文」を用例候補として
抽出する。今回は,
「文」の区切りとして,句読点,空白文字を用いた。なお,同一文は重複し
て用例候補とはしない。
(5) 個々の用例候補に対して,構文解析,および,格解析を行う。構文解析の結果,収録対象の語を
含むと確認された場合,出典 URL とともに用例 DB に登録する。さらに,格解析結果を基に,対
象語に対する共起情報 (主として,格要素の情報) を付与する。形態素解析に JUMAN(ver.7.0),
構文解析・格解析には KNP (ver.4.0)7 を用いた。
3.2
無作為抽出文コーパスの構築
無作為抽出文コーパスは,Web から無作為に抽出した文から構成される Web コーパスで,Web に
おける語の出現分布を把握するために作成する。本稿では,収集対象の語形の決定 (2 節参照) と構
築した用例 DB の評価のために用いる。
構築した無作為抽出文コーパスの規模は約 3.8 億語,文数は約 1725 万文,出典の URL は約 402
万である。構築方法は,基本的に前節の方法と同一だが,次の点が異なる。
• 検索エンジンに与えるキーワードは,ランダムキーワード3語である。また,特定目的のコー
パスを構築するわけではないので,対象語は指定しない。
• 合計 550 万の URL を収集し,それぞれの Web ページから,最大 5 文を無作為に抽出した。重
複文の重複は許さない。
• 抽出する文は 15 形態素以上を含むものとした。これは,データやナビゲーションのリンクな
どの述語を持たない「文」を排除するためである。
用例 DB の構築結果
4
4.1
収集した用例数 (語形別)
用例 DB の構築結果として,収集量を評価する。まず,語形ごとに構築した Web コーパスから収
集される用例の量を調べてみる。イ形容詞,ナ形容詞の結果をそれぞれ図 1,2 に示す。なお,凡例
6 今回は,検索エンジンとして,Bing
API(http://datamarket.azure.com/dataset/bing/searchweb) を利用した。
7 http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP
149
第5回コーパス日本語学ワークショップ予稿集
(2014年3月,国立国語研究所)
部分のカッコ内の数値は,用例数の中央値である。また,これらの結果集計では用法による区別を
しておらず,構築した Web コーパスに含まれるすべての当該語の用例を集計している。したがって,
例えば,イ形容詞の基本形用に構築した Web コーパス中に連用形の用例が含まれていれば,それら
200
600
も合算される。
基本形(918.5)
連用形(951)
連体形A(996.5)
連体形B(941.5)
400
300
形容詞の異なり
0
0
100
50
200
100
形容詞の異なり
150
500
基本形(1976)
連用形(908.5)
0
1000
2000
3000
4000
0
1000
用例数
2000
3000
4000
用例数
図 1: イ形容詞の用例数
図 2: ナ形容詞の用例数
まず,イ形容詞・ナ形容詞について,用例数の中央値を見てみると,収集 Web ページ数の周辺値
になっている。相対頻度の差が大きい,ナ形容詞の基本形と連用形 (それぞれ 0.003,0.186) でも,用
例数の中央値の差は 32.5 であり,今回の Web ページ収集量では,生起確率による収集用例数量へ顕
著な影響は現れていないと考えられる。
次に,個別の分布について見てみると,ナ形容詞の基本形の分布で,用例数の少ない形容詞 (図 2
の用例数 0 付近) が見受けられる。この原因の一つは,一般的に基本形では用いられない,
「けげん
だ」「並大抵だ」「むやみだ」などの存在が挙げられる。
4.2
収集した用例数 (用法別)
前節では語形ごとに,構築した Web コーパスから収集された用例数を検証した。ここでは,収集
された用例の中に,目的の用法の用例がどの程度含まれているかを検証する。検証には,用例の構文
解析結果を利用した。具体的には,対象の形容詞が用言に依存している場合は副詞的用法,体言に依
存している場合は連体修飾用法,文末の述語となっている場合は叙述的用法に分類した。なお,こ
の過程で,用例として適切でないもの,例えば,連用形なのにも関わらず依存先が存在しない場合 8
や,叙述的用法なのにも関わらず格要素がない場合 (例:
「寒いですね」) などは集計から外した。
まず,図 3 にイ形容詞の基本形に関連する用法の結果を示す。すでに述べたように,イ形容詞の基
本形は叙述的用法と連体修飾用法で用いられうる。この二つの用法のうち,連体修飾用法の用例の割
合が多く,用例数の中央値は 1287 であった。一方,叙述的用法の用例数の中央値は 241 で,連体修
飾用法の用例数はその約 5.3 倍である。このような分布の差は,Web データにおける生起確率の違
いが影響していると考えられる。実際に,無作為抽出文コーパスから同様の方法で二つの用法の用例
を抽出すると,連体修飾用法の用例数 (中央値) は叙述的用法の約 6.1 倍であった。今回は実施しな
かったが,叙述的用法の用例が不足する場合は,今回の収集量を参考にし,収集用の Web コーパス
の規模を拡大する。
次に,イ形容詞の連用形と対応する,副詞的用法の結果を図 4 に示す。図 2 の結果と比較すると,
中央値で 264 例減少している。これは,構築した Web コーパスの中に,他の用法も含まれていこと
8 例:読みやすさを考慮し,文の途中で改行されている場合,文全体の抽出に失敗する
150
第5回コーパス日本語学ワークショップ予稿集
(2014年3月,国立国語研究所)
が一つの要因である。今回のデータでは,連用形の語形を指定して作った Web コーパスには,叙述
的用法,連体修飾用法がそれぞれ 47,45 例 (中央値) 含まれていた。
最後に,ナ形容詞の用法別の用例数を見てみる。図 5 に連体修飾用法 (連体形 A,B の 2 種類),図
5 に叙述的用法・副詞的用法の結果を示す。用例数の中央値は叙述的用法を除き,700 例であった。
叙述的用法の用例数が少ないのは,4.1 節でも述べたように一般的に基本形では用いられない語があ
ることと,ナ形容詞のダ系列の基本形は生起確率 0.003 と 4 種類の語形の中では最も低いことが原因
150
150
だと考えられる。
50
形容詞の異なり
100
連用修飾(644)
0
0
50
形容詞の異なり
100
連体修飾(1287)
叙述的(241)
0
500
1000
1500
2000
0
500
用例数
1500
2000
図 4: イ形容詞の連用修飾用法の用例数
400
400
図 3: イ形容詞の連体修飾・叙述的用法の用例数
542
300
副詞的(722)
叙述的(241)
100
0
0
100
200
形容詞の異なり
300
連体修飾[連体形A](739)
連体修飾[連体形B](726)
200
形容詞の異なり
1000
用例数
0
500
1000
1500
2000
0
用例数
図 5: ナ形容詞の連体修飾用法の用例数
500
1000
1500
2000
用例数
図 6: ナ形容詞の副詞的・叙述的用法の用例数
用例 DB の利用
5
5.1
想定する利用方法
用例 DB を手軽に利用できるようにするために,(a) 形容詞の検索,(b) 共起語一覧,(c) 用例一覧,
の機能を実現し,Web 上で公開した 9 。想定する利用方法としては,対象の形容詞を (a) で検索し,
(b) で共起語一覧を表示したのちに,選択した共起語を含む用例を (c) で閲覧するという流れである。
次の節では,これらの機能のうち,(b) 共起語一覧機能の詳細について説明する。
9 http://csd.ninjal.ac.jp/adj/
151
第5回コーパス日本語学ワークショップ予稿集
5.2
(2014年3月,国立国語研究所)
共起語一覧機能
共起語一覧機能は,対象語に依存する要素,および,対象語が依存する要素を使用頻度順に表示
する機能である。共起語一覧の例として,
「楽しい」の例を表 3,4 に示す (一部)。表 3 は連体修飾用
法,表 4 は副詞的用法の結果である。それぞれ独立のコーパス,つまり,基本形,連用形用に構築し
たコーパスから集計した結果を表示している。
これらの結果において,共起語は対象語との関係ごとにまとめられる。表中の「ガ (連体)」は形容
詞の連体修飾要素,
「pred」は形容詞の依存先の述語を表す。共起語に併記されているカッコ内の数
値は出現ページ数 (異なり) である。共起語は出現ページで降順にソートされる。それぞれの共起語
をクリックすると,当該の共起語の用例が一覧表示される。
すでに述べたように,共起語の範囲は基本的に対象語に依存する要素,および,対象語が依存す
る要素である。ただし,副詞的用法については,依存先の用言の共起語と密接に関連している (橋本
1992) ので,共起語の範囲を対象語が依存する用言の共起語まで拡張している。例えば,
「彼は楽し
く数学を学んだ」であれば,
「楽しく」が依存する「学んだ」だけでなく,
「学んだ」と共起する「彼」
ˆが冒頭につ
「数学」も共起語とする。このように範囲拡張した場合の関係名には,
「ガ̂」のように「」
く。図 4 に示した「ガ̂」がその具体例である。この場合,
「ガ̂」は「楽しく」が依存する用言のガ格
の格要素である。
表 3: 「楽しい」の共起語一覧 (連体修飾用法)
ガ (連体)
修飾
ガ
6
表 4: 「楽しい」の共起語一覧 (副詞的用法)
pred
^外の関係
^ガ
こと (45)
とても (17)
の (10)
なる (78)
こと (18)
の (12)
時間 (35)
本当に (9)
人生 (7)
する (48)
ため (12)
毎日 (5)
もの (30)
とっても (6)
みんな (4)
学ぶ (24)
方法 (11)
こと (5)
生活 (21)
こんなに (5)
信雄 (3)
過ごす (21)
方 (7)
ゲーム (5)
事 (18)
もっと (5)
出社 (3)
出来る (19)
よう (5)
みんな (4)
終わりに
本稿では,形容詞の三つの用法を対象として用例 DB を構築した。今回用いた構築手法では,語・
用法によらず,500∼1000 例の用例を収集できるよう,語,および,語形ごとに用例収集用の Web
コーパスを用意した。構築の結果,叙述的用法以外の用法では目標量に達する 644∼1287 例 (中央
値),叙述的用法でも 241 例 (中央値) の用例を収集することができた。今後は,用例 DB を用いた研
究として,副詞的用法における依存先の用言の多様性を決定づける要因について分析を進める予定
である。
参考文献
山口昌也 (2013) 複合動詞用例データベースの構築と活用,国語研プロジェクトレビュー Vol.4 No.1,
国立国語研究所
今井新悟,赤瀬川史朗,プラシャント・パルデシ (2013) 筑波ウェブコーパス検索ツール NLT の開
発,第3回コーパス日本語学ワークショップ予稿集,pp.199–206
M. Baroni and S. Bernardini (2004) BootCaT: Bootstrapping corpora and terms from the web.
Proceedings of LREC 2004
Serge Sharoff (2006) Open-source corpora: Using the net to fish for linguistic data.International
Journal of Corpus Linguistics, Vol. 11, pp. 435462
橋本美奈子,青山文啓(1992)形容詞の三つの用法:終止,連体,連用,計量国語学第 18 巻 5 号,
pp.201-214
152
Fly UP