...

語釈拡張に基づくN-gramを用いたテキスト項目の同定

by user

on
Category: Documents
6

views

Report

Comments

Transcript

語釈拡張に基づくN-gramを用いたテキスト項目の同定
DEWS2008 A3-5
語釈拡張に基づく N-gram を用いたテキスト項目の同定
大久保幸太†
三浦 孝夫†
† 法政大学 工学研究科 電気工学専攻〒 184–8584 東京都小金井市梶野町 3-7-2
あらまし
本稿では,辞書の統合を目的として,項目どおしを同定する手法を提案する。辞書統合では,類義語・多
義語といった項目内容の重複を扱う必要があるが,形式上の区別がつきにくい項目内容の類似性判定が最も困難であ
る。このオブジェクト同一性を効率よく判定するため,構文解析などの言語特有の知識を用いず,ベクトル空間モデ
ルに基づいて,情報検索アプローチについて議論する。N グラムを用いて,類似度が低いときには語釈文から索引語
を抽出し,これを再度辞書を介して語釈文に展開するという語釈拡張を提案する。
キーワード
辞書, オブジェクト同定, 語釈拡張, N-gram
Identifying Text Objects using N-gram Based on Expansion
Kota OKUBO† and Takao MIURA†
† Dept.of Elect.& Elect. Engr., HOSEI University 3-7-2, KajinoCho, Koganei, Tokyo, 184–8584 Japan
Abstract In this investigation, we propose a sophisticated approach to identify items in several dictionaries for
the purpose of integration. In the integration process, we should solve several issues caused by homonymous, synonymous and polysemy words. In this work, we put our attention on the synonym problem. To identity synonymous
words efficiently, we discuss IR approach based on vector space modeling to sentences in item explanations, without
any knowledge of grammatical analysis or any other NLP analysis. In a case of N gram, we apply expansion to
consecutive N items of lower similarity. We show the usefulness by some experimental results.
Key words Dictionary, Object Identification, Expansion, N-gram
1. 前 書 き
近年のインターネットの急速な普及により,簡単に様々な情
報を入手できるようになった。しかしその反面,内容には曖昧
さや情報相互の矛盾が多く高い信頼性を保証しない. 伝統的に,
同じ意味を所持するため,統合にはこれらオブジェクトの 同
一性判定 (Object Identification) が必要となる. オブジェクト
(見出し項目) の同定とは,ある概念を特定し辞書間の項目統合
を可能にする方法である.
本稿では,オブジェクト同一性判定を効果的に行う手法を提
書籍は注意深く詳細まで校正され出版されているので, 信頼性
案する. 同義語の同一性を効率よく判定するために, 文法解析
や一貫性が整っていると期待できる.
や自然言語分析などの知識を用いず, 見出し語とみなす。この
本稿では信頼性のある一定の範囲の知識の集合体を 辞書
(dictionary) と呼ぶ. 辞書では,知識を表現するために,あ
る単位で項目化しており,これを 見出し語 (item) ,その解
ときその語釈内容を文書化し, ベクトル空間モデルに基づいた
IR アプローチについて議論することができる.
本論文の構成は次の通りである. 2 章では,必要となる概念
釈 (semantics) を 語釈 (explanation) と呼ぶ. Web サイトは,
の導入と関連した定義を要約する. 3 章では,辞書統合の定義
個々に何かのトピックに関する知識を含んでいる. 利用者は検
とオブジェクト同一性を述べ,同一性判定のアイデアを示す. 4
索エンジンなどを介してあるトピックに関する知識 (見出し語)
章では,この同一性判定の実験を示し,アイデアの有効性を考
が複数サイトで存在することを知る. しかし同じ知識内容が異
察する. 関連研究を 5 章で述べ,6 章は結論である.
なる表現 (語釈) で表されることが多く,複数サイトを調べても
新たな情報を見出せない. 内容の重複を取り除き, 知識 (辞書)
2. 情報表現と辞書
の統合が可能になれば,真に新たな情報のみを効率よく抽出す
2. 1 ベクトル空間による情報表現
ることができる.
多くの場合,知識は文書で表現され,文書はテキスト情報,
辞書統合には数多くの困難がある [15]. 項目の重複, 多義項
目, 同義項目が存在し, 特に同義項目は扱いが難しい.
オブジェクト同定に関しての例を示す. student と pupil は
即ち語の並びとして構成される.
形態素とは,意味を持つ最小の文字列を言う. 英語では形態
素はそれぞれ, ある種のタグ (品詞) を備えた単語に相当する.
テキスト情報を探索するには,出現する各語の (出現頻度等)
させるための語釈を拡張する操作を導入する. 与えられた見出
特徴を値としてベクトル化するベクトル空間モデルが一般的で
し語 d に対して,その語釈文から索引語を抽出してベクトル化
ある [4]. 一般にテキスト文書 d は出現する語 w1 , .., wn のベク
する. 索引語抽出には N グラム処理を用い, 名詞,動詞,形容
トルで表現される:
詞のいずれかを含むものを索引語とする. 本稿で実験する 2 グ
ラム (N=1, 2 としたとき) でのアプローチを示す.
d = (v1 , ..., vn )
ここで vi は語 wi に対応する数値であり一般に出現有無
N=1, 2 としたとき, 1 グラムは単語, 2 グラムは共起語に相
(Binary Frequency) や出現頻度 (Term Frequency) であるこ
当する. このアプローチでは単語, 共起語ともに考慮して同定
とが多い. このとき 2 つの文書 d1 , d2 の類似度は出現数の分布
を行う. 見出し語 d の語釈から, 名詞, 動詞, 形容詞を含む 1 グ
を用いて定義され, ベクトルの余弦値によって算出できる.
ラム, 2 グラムを索引語として抽出し, ベクトル化する.
d = (v1 , v2 , v3 , ..., vn , (v1 v2 ), (v3 v4 ), ..., (vn vn+1 ))
2. 2 辞書と語釈
本稿の目的は,辞書中のふたつの見出し語が同じ意味を所持
索引語の重みは 2 進重みを用い, 不要語処理, ステミングを
するかどうか, 同一性判定する (同定するという)ことにある.
行う. 2 グラム ”wi wi+1 ” の不要語処理は, wi と wi+1 が両方
このため,語彙参照ツールとして WordNet を利用する [8], [16].
不要語の場合, 不要語 2 グラムとして除去する. また, 2 グラム
WordNet は, 名詞, 動詞, 形容詞からなる意味あるいは同義語
のセットで組織される一般分野のオンライン語彙参照システム
のステミングは wi , wi+1 それぞれを処理する.
索 引 語 抽 出 に 関 す る 例 を 示 す.
見 出 し 語 book の 語 釈
である. それらは一般的知識 (分野に特有でない) を含んでいる.
は, a collection of sheets of paper に対応し, この語釈
実験では GCIDE および COBUILD 等の一般的な辞書を取り
から, 索引語 collection, sheet, paper, a collection,
上げるため, そのような一般参照システムを用いる. そのため,
collection of, of sheet, sheet of, of paper を得る.
本稿では WordNet の特徴および意味関係を詳細に利用する.
ここで, 新たな処理を加え, 1 グラムと 2 グラムの融合により
WordNet には, いくつかの種類の意味関係が保存されており,
索引語を拡張する操作を行う. この操作は得られた索引語を辞
同意語,反意語,上位語,下位語,部分語,全体語などが定
書引くことで行われる. GCIDE 辞書には見出し語 d の語釈の
中に, よく使われる共起語の組の見出しと, その語釈が表記され
義されている.
本稿では,2 つの語が類似概念を定義しているとき,こ
ている. この操作の例を示す.
れを類義語という.類義語の例を示す. lofty は high の
索 引 語 の 中 に 名 詞”good”が あ る 場 合, ”good”(名 詞) で
類 義 語, get there は arrive at の 類 義 語 で あ る .ま た,
GCIDE 辞書を引くと, ”for good”, ”good breeding”, ”good
多 義 語 は 複 数 の 意 味 を 持 つ 語 を い う.多 義 語 の 例 を 示 す.
cheap”等の”good”の共起語の組が表記されている, これらの 2
picture は movie, figure, photo, illustration, act as
グラムの見出し語 (名詞, 動詞, 形容詞を含む) を新たな索引語
は function, pretend などを意味する.
として追加する. このように拡張された索引語を用い余弦尺度
WordNet はシソーラス辞書とは異なり,辞書を構成する意味
により類似度を算出する.
の基本単位として synset(synonym set) を用いる.synset は,
形式的類似性の問題解決の手段として, 語釈拡張を適用する.
同義語の集合で, 4 つの品詞 (名詞, 動詞, 形容詞および副詞) に
このとき, 2 グラムの語釈拡張では GCIDE 辞書の共起語の語
よるグループに組織される. すべての synset は, 同じ意味を持
釈を用いて処理を行う.
ついくつかの単語を含んでいる. 語が多数の意味を所持すると
語釈拡張の例を示す. WordNet の見出し語 coin bank では,
語釈 a container for keeping money at home に対応し, 索
き, その単語はいくつかの synset の中に含まれる.
また, synset には 1 つの意味番号が付いており. その synset
引語は container, keeping, money, home, a container,
container for, for keeping, keeping money, money at,
内の語は同じ意味番号を持つ同義語となる.
at home と な る.
これらの語が持つ識別番号を表 1 に示す.
2 グ ラ ム at home を GCIDE 辞 書 で
調 べ る と, 語 釈 At one’s own house を 得 る.
NOUN
cough up
spit up
person
1:5303
1:5303
こ れ を coin bank の 語 釈 ベ ク ト ル と 置 き 換 え, 新 た な
2:2130996
2:4465544
索引語 container, keeping, money, home, a container,
ADJECTIVE 1:324678454
container for, for keeping, keeping money, money at,
2:2634237
at home, house, own house を得る. 以下, 1 グラム 2 グラ
3:2634331
VERB
この語釈
か ら 索 引 語 を 抽 出 す る と, house, own house が 得 ら れ,
human
1:2179927 1:2179927
2:62764
2:62764
表 1 語が持つ意味番号
ムすべての索引語について同様に繰り返す.
なお, 著者らは以前, このアプローチを転用して 1 グラム
(N=1) での実験を行っている [15].
4. 実
3. オブジェクト同定と語釈拡張
本章ではオブジェクト同定処理を定義し,さらに精度を向上
験
本章では,いくつかの実験を通じて,N=1, 2 としたときの
語釈拡張のオブジェクト同定に対する効果を検証する. このた
め,べクトル空間モデルを用いた類似性判定手法と,語釈拡張
up だけが意味番号 2179927 を共有すれば cough up を表す意
を介在した判定手法を実験により比較検討する. また, 以前行っ
味の項目数は 2 となり, spit up も 2 となる.
た同様の手法で単語 (N=1) のみを索引語としたアプローチの
4. 2 結
実験 [15] と, 本実験 N=1, 2(単語と共起語) を索引語としたア
実験 1 の結果を表 2 に示す. ここでは,しきい値 σ =
0.23, ..., 0.28 を設け,この値を超えた場合に同一と判定するも
プローチ実験の結果を比較検討する.
4. 1 準
果
のとする. しきい値に応じた再現率,適合率および F 値を示す.
備
本実験では,2 種類の実験を行う. ベクトル空間モデルを用
いた従来の類似性判定手法を用いた実験 1 では,語釈文に含ま
れる全ての 1 グラムと 2 グラムを索引語とし,不要語除去およ
びステミング処理を行ったあと,類似度計算を行う. そして, 類
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
似度がしきい値 σ 以上である場合, 同定を決定する.
実験 2 では語釈拡張を介在した判定手法を用いる. ここでは,
0.23
339
2010
57
0.168
0.0283
0.04853
表2
0.24
339
2003
55
0.162
0.0274
0.04696
0.25
339
243
50
0.147
0.205
0.1718
0.26
339
243
50
0.147
0.205
0.1718
0.27
339
220
45
0.132
0.204
0.161
0.28
339
220
45
0.132
0.204
0.161
実験 1 結果 (N=1, 2)
N=1 としたアプローチの実験結果を表 3 に示す.
特定の品詞 (名詞, 形容詞, 動詞) でフィルタリングした 1 グラ
ムと 2 グラムの索引語だけを対象とし,さらに,1 グラムと 2
グラムの融合による索引語の拡張, 類似度がゼロのとき語釈拡
張を適用する. 本実験では拡張回数に上限を設け,提案する操
作がどれほど効果的であるかを検証する. 本実験では語釈拡張
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
0.48
339
2352
52
0.15
0.02
0.03
0.5
339
243
40
0.115
0.16
0.137
0.53
339
241
40
0.117
0.165
0.137
0.54
339
240
39
0.115
0.162
0.134
0.55
339
240
39
0.115
0.162
0.134
0.6
339
186
32
0.17
0.17
0.12
表 3 実験 1 結果 (N=1)
を 0,1,2,3 回を上限として実験する.
本実験のデータでは,WordNet 辞書のうち B から始まる副
拡張を行わない単純な手法では, 最適しきい値である σ = 0.25
詞 235 項目と,GCIDE 辞書のうち B から始まる副詞 175 項
でも再現率 14.7%, 適合率 20.5% 程度の同定範囲および精度
目の語釈文を用いる. WordNet は本来は同義語辞書として作成
しか得られない. N=1 で行った実験も同様に, 最適しきい値
されたものである. 単語の有する意味ごとに synset (意味番号)
σ = 0.53 のとき再現率 11.7% ,適合率 16.5% と性能は低い.
が割り振られており,同じ番号を持つ単語は,同じ意味を表す.
しかし, N=1, 2 とした実験と N=1 とした実験値を比較してみ
オブジェクト同定の正誤判定に関して例を示す. student,
ると, 再現率, 適合率ともに N=1, 2 の方が高い値となり, N=1,
pupil は共に synset 番号として 10505881 を有する. 本実験
2 での最大 F 値は 0.171, N=1 での最大 F 値は 0.137 となって
では,これを正解と見なし,見出し語の同定は,synset の同一
いる. また, 最適しきい値は N=1 では σ = 0.53, N=1, 2 では
性で判断する.
σ = 0.25 と, N=1, 2 のときの方が低いしきい値で最大の効率
語釈拡張の効果を評価するため,情報検索分野で尺度として
を得ている.
利用されている再現率 (Recall) および適合率 (Precision) を考
次に実験 2 の結果を示す. 語釈拡張を行わず品詞フィルタリ
慮する. ここで再現率 R,適合率 P および F 値は次のように
ングだけを適用した結果を表 4 に示す. また N=1 での結果を
定義される.
表 5 に示す.
R =
A
A
, P =
, F =
B
C
1
R
2
+
1
P
式中で A, B, C はそれぞれ同定した項目数中の正解数,全
体の項目数中の正解数,同定した項目数を表す.
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
高い値ほど正しく同定できた見出し語が多いことを表す. 再現
率と適合率を統一的に判定するために F 値が利用されるが,本
実験ではしきい値 σ の設定に利用する. しきい値は予め予備実
験で範囲を絞り込んである.
0.38
339
50
37
0.109
0.74
0.1902
0.39
339
46
37
0.109
0.804
0.1922
0.4
339
44
35
0.103
0.795
0.1827
0.45
339
41
33
0.0973
0.804
0.1736
0.5
339
29
24
0.0707
0.827
0.1304
表 4 実験 2A 結果 (N=1, 2)
再現率とは同定範囲の大きさを表し,高い値ほど同定できた
見出し語が多いことを表す. 一方,適合率は同定精度を表し,
0.37
339
50
37
0.109
0.74
0.1902
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
0.50
339
3060
60
0.17
0.019
0.035
0.55
339
265
43
0.126
0.162
0.142
0.60
339
212
43
0.10
0.165
0.127
0.65
339
203
35
0.095
0.152
0.114
表 5 実験 2A 結果 (N=1)
見出し項目は,同定した項目が WordNet 上で共に同じ synset
この結果では, 最適しきい値 σ = 0.39 のとき再現率 10.9%,
番号を有するとき正解と見なす. また,全体の項目数中の正解
適合率 80.4%と, 高い適合率が得られた. 実験 1 と比較してみ
数とは,見出し語項目に含まれる同じ意味番号となる項目数を
ると, 実験 1 では最適しきい値 σ = 0.25 のとき適合率 20.5%で
合計する.
あり, 格段に N=1, 2 とした方が精度が高いことがわかる. 一
全体の項目数中の正解数に関しての例を示す. 見出し語
方 N=1 のみで行った実験では, 最適しきい値 σ = 0.55 で, 再
student, pupil だけが 意味番号 10505881 を共有すれば
現率 12.6%, 適合率 16.2%が得られ, その最大適合率は N=1, 2
student の表す意味の項目数は 2 となる. pupil についても同
での結果よりかなり下回っている. また, 最適しきい値は N=1
様である. また, 2 グラムの場合も, 見出し語 cough up, spit
のときでは σ = 0.55, N=1, 2 のときでは σ = 0.39 と, 同様に
N=1, 2 での実験の方が低いしきい値で最大の効率を得ている.
次に語釈拡張を 1 回の拡張操作を含む実験 2B の結果を表 6,
N=1 での結果を表 7 に示す.
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
0.37
339
50
37
0.109
0.74
0.1902 0.38
339
50
37
0.109
0.74
0.1902 0.39
339
46
37
0.109
0.804
0.1922
0.4
339
44
35
0.103
0.795
0.1827
0.45
339
41
33
0.0973
0.804
0.1736
0.5
339
29
24
0.0707
0.827
0.1304
拡張回数 3 回では, 最適しきい値 σ = 0.68 で再現率 5.01%,
適合率 47.2%が得られた. 実験 2C と比較すると, 実験 2C で
は最適しきい値 σ = 0.39 で再現率 12%あったのに対して, こ
こでは 5%と, 減少している. 再現率が下がったため, 最大 F 値
は 0.09 とさらに減少している. N=1 のみの結果と比較すると,
表 6 実験 2B 結果 (N=1, 2)
N=1 での最大 F 値は σ = 0.77 で 0.149, N=1, 2 では σ = 0.68
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
0.45
339
3060
60
0.17
0.019
0.035
0.50
339
268
44
0.129
0.164
0.144
0.55
339
265
43
0.126
0.162
0.142
0.60
339
212
35
0.10
0.165
0.120
で 0.09 と, N=1 での実験結果よりも性能が低下している. 最
適しきい値は N=1 のときでは σ = 0.77, N=1, 2 のときでは
σ = 0.68 と, N=1, 2 のときの方が低いしきい値で最大の効率
を得ている.
表 7 実験 2B 結果 (N=1)
ここで, 各実験の最大 F 値を表 12 に示す. また, N=1 での
結果は実験 2A と変わらず, 主たる変化は見られない. N=1
最大 F 値を表 13 に示す.
での結果と比較すると, N=1 ではしきい値 σ = 0.5 で最大の F
値 0.144 が得られ, N=1, 2 ではしきい値 σ = 0.39 で最大の F
値 0.1922 と, F 値は N=1 ,2 での結果の方が良い.
次に語釈拡張を 2 回の拡張操作を含む実験 2C の結果を表 8,
N=1 での結果を表 9 に示す.
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
0.36
339
131
43
0.126
0.328
0.1829
表8
拡張回数
0 (実験 1)
0 (実験 2A)
1 (実験 2B)
2 (実験 2C)
3 (実験 2D)
0.38
339
110
41
0.12
0.372
0.1826
0.39
339
98
41
0.12
0.418
0.1876
0.4
339
91
39
0.115
0.428
0.1813
0.45
339
58
34
0.1
0.586
0.1712
実験 2C 結果 (N=1, 2)
0.45
339
3139
64
0.18
0.02
0.036
0.50
339
285
44
0.129
0.154
0.1403
最大 F 値
0.171
0.192
0.192
0.188
0.0906
適合率
0.205
0.804
0.804
0.364
0.472
再現率
0.147
0.109
0.109
0.126
0.050
表 12 各実験での最大 F 値 (N=1, 2)
0.37
339
118
43
0.126
0.364
0.1881
拡張回数
0 (実験 1)
0 (実験 2A)
1 (実験 2B)
2 (実験 2C)
3 (実験 2D)
4 (実験 2E)
表 13
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
しきい値
0.25
0.39
0.39
0.37
0.68
0.55
339
274
43
0.126
0.156
0.139
0.60
339
215
35
0.10
0.16
0.120
しきい値
0.5
0.55
0.50
0.50
0.77
0.88
最大 F 値
0.137
0.142
0.144
0.140
0.149
0.137
適合率
0.16
0.162
0.164
0.154
0.36
0.509
再現率
0.115
0.126
0.129
0.129
0.094
0.0796
各実験での最大 F 値 (N=1)
実験 1 と実験 2(A) を比較すると, 実験 1 の最大 F 値は 0.171,
実験 2(A) の最大 F 値は 0.192 と, 実験 2(A) の方が高い値を
得ていることから, 索引語を品詞によるフィルタリングをした
方が性能が良い. また, N=1, 2 で行った実験の中では, 実験
表 9 実験 2C 結果 (N=1)
ここでは, 最適しきい値である σ = 0.39 で, 再現率 12%, 適
2(A),(B) のとき, しきい値 σ = 0.39 で適合率 0.804, 再現率
合率 41.8% と, 拡張回数 1 回のときに比べて適合率が減少し,
0.109, F 値 0.1922 と, 実験の中で最も高い F 値を得た. このこ
最大 F 値が 0.192 から 0.187 に減少した. しかし, N=1 の結果
とから拡張回数 0, 1 回のとき最も同定効率が良い. 一方 N=1
と比較すると, N=1 の最大 F 値は, σ = 0.5 で 0.14 で, 依然と
とした結果の中では, 実験 2(D) の 3 回拡張のとき適合率 0.36,
して本実験 N=1, 2 での結果の方が性能は良い. また, 最適しき
再現率 0.094, F 値 0.149 と最も高い値である. N=1 での実験
い値は N=1 のときでは σ = 0.5, N=1, 2 のときでは σ = 0.39
2(D) の結果と N=1, 2 での実験 2(A),(B) の結果を比較すると,
と, N=1, 2 のときの方が低いしきい値で最大の効率を得ている.
再現率の変化は無いが, N=1 での実験 2(D) で得られた適合率
さらにに語釈拡張を 3 回の拡張を含む実験 2D の結果を表
(0.36), F 値 (0.149) よりも, N=1, 2 での実験 2(A),(B) の適合
率 (0.804), F 値 (0.192) の方が高い値であることから, 総合的
10, N=1 での結果を表 11 に示す.
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
0.66
339
55
17
0.0501
0.309
0.08629
表 10
0.67
339
39
17
0.0501
0.435
0.08994
0.68
339
36
17
0.0501
0.472
0.09066
0.69
339
31
16
0.0471
0.516
0.086
0.7
339
29
16
0.0471
0.551
0.08695
実験 2D 結果 (N=1, 2)
0.75
339
17
15
0.0442
0.882
0.08426
に N=1, 2 とした本実験の方が性能が良い.
ここで, 適合率に注目すると, N=1, 2 での結果の中で拡張回
数 0, 1 回の結果では, 大幅に適合率が上昇し 80%に達してい
る. 一方, N=1 での拡張回数 0, 1 回の適合率は 20%未満であ
り, 拡張回数を 3 回以上に増やすと適合率が上昇している.
4. 3 考察・評価
Threshold
Correct
Identified
Correctly Identified
Recall
Precision
F-value
0.75
339
225
34
0.10
0.13
0.110
表 11
0.76
339
147
32
0.094
0.21
0.13
0.77
339
88
32
0.094
0.36
0.149
0.78
339
63
29
0.085
0.46
0.144
実験 2D 結果 (N=1)
0.80
339
40
27
0.079
0.67
0.142
0.85
339
30
23
0.067
0.76
0.120
本実験を通じて, N=1 での実験よりも, N=1,2 での実験の方
が性能が良い. N=1 での最良の F 値は 0.149, N=1, 2 での最
良の F 値は 0.192 である. さらに, 今回行った N=1, 2 での結
果すべての最適しきい値は, N=1 としたときの最適しきい値よ
り低く, より低いしきい値で最大の効率を得ている.
N=1 での実験と N=1, 2 での実験の拡張回数 0 回のとき
の”back”と”behind”の同定例を示す.
・N=1
な問題は,多義性・あいまい性 (ambiguity) による. 即ち用語
74749, back ,behind, 0.5773, rear - part rear
の多義性とは,見出し語に複数の解釈があり,どれを正しく対
・N=1, 2
応付けるかを規定する必要がある. 問題領域に依存した用語に
74749, back, behind, 0.267, rear, or rear - back, part, rear,
限って,発見的にシソーラスを使用する [7] やベクトルモデル
the back, back part, part in, the rear
それぞれ, 意味番号, WordNet の見出し語, GCIDE の見出し
語, 類似度, WordNet の索引語, GCIDE の索引語を示してい
る. 実際, ”behind”は意味番号 74749 の意味を持たず, ”back”
によるパターン学習 [11] が提案されている. しかし,いずれも
詳細は発見的であり,統一的議論には至っていない.
6. 結
論
とは同義ではないが, N=1 では類似度が 0.577 と高く, しきい
本研究では, 辞書統合の背景でのオブジェクト同定の目的で
値を高く設けなければ誤判定になってしまう. しかし, N=1, 2
拡張の新方式を提案した. また, 単語, 共起語の両方を考慮する
では 2 グラムの索引語も含むため, 類似度が N=1 のときより
ことにより, 高い精度が得られることを確認した. しかし, 依然
も減少し 0.267 を得ている. このことにより, N=1, 2 での本実
再現率が低く改善を図る必要がある. 対策として, 特定の品詞
験では, しきい値が低くとも高い適合率を得られ, 適合率の上昇
フィルタリングなどの再検討,分類判定等の機械学習手法,確
により F 値も向上したと考えられる. このように, 2 グラムは
率的操作の考慮等を検討するべきである.
語の同義性をとらえ, F 値向上に大いに寄与している.
実験 2(C) の拡張回数 3 回から, F 値が大幅に減少した原因
は, 拡張により索引語が増え過ぎたためと考える. 0 回拡張時,
N=1 としたときの索引語を advanc, foremost, N=1, 2 とした
ときの索引語を advanc, foremost, in advanc, advanc or, or
foremost, として実際に拡張してみると, 2 回拡張を行ったとき,
N=での索引語は 325 単語に増加, N=1, 2 での索引語は 992 語
に増加する. また, 3 回拡張を行ったとき, N=1 での索引語は
2366 単語に増加, N=1, 2 での索引語は 9293 語にも増加する.
これにより, 索引語が爆発的に増え, 同義でなくても類似度が上
昇し誤判定が増えてしまう. そのため, 拡張回数 3 回の最適しき
い値は N=1 では σ = 0.77, N=1, 2 では σ = 0.68 と高い. ま
た, しきい値が高いため再現率が減少し F 値は減少してしまう.
5. 関 連 研 究
辞書統合については,これまで自然言語 (NLP),情報検索
(IR) およびデータマイニング (IE) の視点から,Web ページの
統合や遺伝子工学の分野で論じられてきた [1], [2], [6], [12]. オ
ブジェクト同定とは,見出し語を正しくその意図を特定するこ
とで, この問題については見出し語の認識 (recognition),分類
(classification) および概念の対応付け (mapping) の 3 つの方
向から多くの研究がなされてきた. テキスト文書から候補とな
る用語を抽出する場合や,タンパク質構造を特定する見出し語
を判定するなどの分野において論じられ, 典型的には,イニシャ
ル文字 (acronym) の解釈を特定する問題などがある. これら
に対して,辞書を用いるアプローチ [1], [5],ルールベースアプ
ローチ [3], [14],および機械学習アプローチ [2], [13] が提案され
ている. 類義語・多義語に関する研究も長い歴史を有する. 文
書内には複数意味を持つ (多義) 単語や複数の単語が同じ意味
を持つことが多く,オブジェクト同定処理で考慮することは精
度向上に重要である [9], [16].
本稿では,辞書統合に関して語釈の同一性を同定する観点か
ら同義語・多義語を利用する. 辞書における見出し項目の一貫
性の向上を直接考慮することを考えるわけではない. 本研究で
は見出し語の対応付けを論じる. この観点からは,用語表現の
多様性 (variability) に起因する問題がある [10]. 本質的に困難
文
献
[1] Ananiadou, S.: A Methodology for Automatic Term Recognition, proc. COLING-94, 1994, pp. 1034-1038
[2] Collier, N., C. Nobata, and J. Tsujii: Automatic Term Identification and Classification in Biological Texts, proc. Natural Language Pacific Rim Symposium, 1999, pp. 369-374
[3] Gaizauskas, R., G. Demetriou, and K. Humphreys.: Term
Recognition and Classification in Biological Science Journal Articles, Proc Workshop on Computational Terminology for Medical and Biological Applications, 2000, pp.37-44
[4] Grossman,D. and Frieder,O.: Information Retrieval - Algorithms and Heuristics, Kluwer Academic Press,1998
[5] Hirschman, L., A.A. Morgan, and A.S. Yeh : Rutabaga by
any other name – extracting biological names, J. of Biomedical Informatics 35(4), 2002, pp.247-259
[6] Krauthammer, M. and Nenadic, G.: Term Identification in
the Biomedical Literature, Journal of Biomedical Informatics 37(6), 2004, pp.512-526
[7] Liu, H., S.B. Johnson, and C. Friedman: Automatic resolution of ambiguous terms based on machine learning and
conceptual relations in the UMLS, J. Medical Inform Assoc
9(6), 2002, pp.621-636
[8] Miller, G.A., Beckwith, R. et al.: Introduction to WordNet
– An On-Line Lexical Database, Journal of Lexicography
3(4), pp.235-244, 1990 (revised 1993, Princeton University)
[9] 那須川 哲哉,河野 浩之,有村 博紀: テキストマイニング基盤技
術,人工知能学会誌 16(2),2001
[10] Nenadic, G., I. Spasic, and S. Ananiadou: Automatic
Acronym Acquisition and Term Variation Management
within Domain-Specific Texts, proc. LREC-3, 2002, pp.
2155-2162
[11] Pustejovsky, J., J. Castano, B. Cochran, M. Kotecki, M.
Morrell, and A. Rumshisky: Extraction and Disambiguation of Acronym-Meaning Pairs in Medline, Medinfo-2001,
2001
[12] Sebastiani,F.: Machine Learning in Automated Text Categorization, ACM Computing Surveys 34(1), 2002, pp.1-47
[13] Shen, D., J. Zhang, G. Zhou, J. Su, and C. Tan: Effective
Adaptation of Hidden Markov Model based Named Entity
Recognizer for Biomedical Domain, NLP in Biomedicine in
ACL, 2003, pp. 49-56.
[14] Tejada,S., Knoblock,C.A., and Minton,S.: Learning Object
Identification Rules for Information Integration, Information Systems 26(8), pp.607-633, 2001
[15] 大久保 幸太, 三浦 孝夫: 語釈拡張に基づくテキスト項目の同定,
情報処理学会研究報告 Vol.2007, No.54(20070531) pp. 7-12
[16] 上嶋 宏, 三浦 孝夫, 塩谷 勇.: 同義語,多義語の考慮による文書
分類の精度向上, 電子情報通信学会誌 Vol.J87-D-I No.2, 2004
Fly UP