...

BM25 を用いた関連語抽出と単語分類

by user

on
Category: Documents
10

views

Report

Comments

Transcript

BM25 を用いた関連語抽出と単語分類
BM25 を用いた関連語抽出と単語分類
吉岡 康平†
小枝 正直†
大阪電気通信大学 総合情報学部 メディアコンピュータシステム学科†
1
はじめに
Web を利用して関連語を抽出する研究が以前から
行われている[1,2].近年では単語を分類する研究
も行われている[3,4].後藤らは,辻らの属性獲得
手法[1]などを用いて未知語をシソーラスノードへ
割付ける手法を提案した[3].しかし,後藤らの提
案手法の精度は 66.0%であり,実用するには高い精
度ではない.加えて,日本語語彙体系[5]を用いて
いるため,日本語語彙体系を入手するのにコストが
かかる.また,情報が自動更新されない問題がある.
本研究では,後藤らと同様にシソーラスの適切な
ノードに単語を分類することでその単語の知識が得
られる点に着目した.また,リソースを Web 上の情
報に限定することでコスト問題と情報が自動更新さ
れない問題を解決した.精度が低い点は,関連語抽
出に辻らが用いた TF・IDF より新しいアルゴリズム
である BM25 を使用し,単語の分類に SVM(Support
Vector Machine)を用いることで解決を目指した.
2
BM25 を用いた関連語抽出手法
まず,関連語を抽出したい単語 A を検索エンジン
Yahoo! JAPAN(http://yahoo.co.jp/)で検索して上
位 20 件の Web ページを取得する.次に HTML タグを
除去し,HTML タグを除去したテキスト内にある,
単語 A の前後の文字列を単語 A について書かれた主
要部として抽出する.最後に形態素解析器
MeCab[6]を使い,抽出した主要部に対して単語分割
と品詞タグ付けを行って名詞・動詞・形容詞を見出
し語化して抽出し,抽出した名詞・動詞・形容詞に
対して BM25 で重み付けを行う.ただし名詞に関し
ては,MeCab の品詞細分類で「数」「非自立」「代
名詞」「副詞可能」「固有名詞」「サ変接続」のど
れかに分類されたもの,名詞の文字列の長さが 1 文
字以下のもの,名詞の文字列中にひらがなとカタカ
ナと漢字のどれも含まないものは除外した.
BM25 は,クエリ集合
に対する
文書 の関連性を計算するランキング関数である.
本研究では関連語を抽出するため,文書集合
に対する単語 の関連性を計算
(1)
(2)
する式(1)の形に変形して BM25 を用いた.
ここで,
は単語 が文書 に出現する回
数,
は文書集合 の平均の字数,
は文書
の字数を表す. と は自由に定めることができ
る.本研究では,BM25 でよく用いられる
,
を用いた.IDF は式(2)を用いた.ここで,
は全文書の数で,推定値 25,000,000,000 を用い
た.
は単語 を含む文書の数であり,検索エ
ンジンで単語 を検索したときのヒット数とした.
3
単語分類への応用
Open Directory Project[7]をシソーラスと見立
て,SVM と提案する関連語抽出手法を用いて任意の
単語を Open Directory Project のカテゴリに分類
する手法を提案する.
3.1 Open Directory Project
Open Directory Project(以下 ODP)とは,Web
ディレクトリサービスの一つで,ディレクトリ構造
に Web ページを集めたものである(図 1).
3.2 単語分類手法
ODP の「Top: World: Japanese: 階層 A: 階層 B:
階層 C」の階層 B(283 カテゴリ)に相当する深さ
の適切なカテゴリに分類することを目指す.ここで,
「階層 A: 階層 B」は階層 B は階層 A の一つ下の階
層であることを表す.
まず,階層 B または階層 C 以下に相当する全カテ
ゴリ名に対して提案する関連語抽出手法を用いて関
連語を抽出する.ただし,階層 C 以下のカテゴリ名
で関連語を抽出する場合のみ,階層 C 以下のカテゴ
リの階層 B に相当する親カテゴリ名と AND 検索を行
って関連語を抽出する.例えば,図 1 の場合
「CAD・CAM」「プログラミング」が階層 B に相当し,
BM25-Based Related Words Extraction and Words
Categorization.
†Kouhei YOSHIOKA, Masanao KOEDA; Osaka ElectroCommunication University.
図 1:ODP の構造の一部
その子カテゴリが階層 C に相当する.そのため,
「プログラミング」の子カテゴリの「言語」の関連
語を抽出する場合は「プログラミング」と「言語」
で AND 検索を行う.抽出する主要部はそれぞれの単
語の前後の文字列とし,主要部の範囲が重なった場
合は結合する.
次に SVM を学習させていく.素性には,抽出した
全ての関連語から重複を除いた名詞・動詞・形容詞
の集合(以下語彙と呼ぶ)と検索クエリの文字種を
用いた.具体的には,階層 B または階層 C 以下に相
当する全カテゴリ名それぞれに対して同様に関連語
を抽出し,語彙中の単語が出現したかどうかと検索
クエリの文字種をベクトル化し,階層 A と階層 B の
カテゴリ名を結合したものを正解ラベルとして学習
させた.例えば図 1 の場合,正解ラベル「コンピュ
ータ: プログラミング」の訓練事例は 3 事例となる.
分類にはまず,ある単語 A に対して提案する関連
語抽出手法を適用して関連語を抽出する.次に単語
A の文字種と抽出した関連語で同様にベクトル化し,
学習させた分類器で単語 A が属する ODP のカテゴリ
を推測する.
評価
4
4.1 関連語抽出手法
関連語抽出手法の評価を行うため,9名(男性,
20歳から22歳)にある単語A(10単語を用いた)か
ら,提案する関連語抽出手法で抽出した単語Aの関
連語が連想可能かどうかをアンケートで評価した.
連想可能と被験者が判断した場合を正解,そうで
ない場合を不正解とした場合の平均正解率は,関連
語抽出対象の単語の前300 字,後3000 字を主要部と
して抽出した場合が最も高く,BM25のスコア上位か
ら,名詞30 個と動詞5 個と形容詞5 個の場合で
76.2%,名詞30 個の場合で81.4%,名詞20 個の場合
で87.1% となった.これは,同条件でTF・IDFを使
った場合の正解率より高い正解率である(表1).
4.2
単語分類手法
5 分割交差検定を行った結果,BM25のスコア上位
から名詞30個と動詞5個と形容詞5個の関連語を使っ
た場合に最も高い83.54%の精度を得た(表2).し
かし,評価データを固有名詞50単語とした場合では
表 1:関連語抽出手法の評価結果
抽出し
た文字
数
(前)
抽出し
た文字
数
(後)
アルゴ
リズム
300字
最長
0字
300字
300字
3000字
最長
3000字
1000字
3000字
BM25
BM25
BM25
BM25
TF・IDF
名詞30
個,動
詞5個,
形容詞5
個の正
解率
76.2%
73.9%
74.0%
75.0%
73.6%
名詞30
個の正
解率
名詞20
個の正
解率
表 2:5 分割交差検定の結果
関連名詞
関連動詞
関連形容
詞
20個
20個
30個
30個
0個
3個
5個
5個
0個
3個
5個
5個
87.1%
83.0%
82.8%
83.6%
84.5%
交差検定
の精度
83.17%
83.36%
83.41%
83.54%
表 3:分類結果の一部
分類対象の単語
正解カテゴリ
植木等デラックス
適職
少年ヤング
アート: テレビ
ビジネス: 雇用
アート: 音楽
分類された
カテゴリ
アート: テレビ
ビシネス: 食品
アート: 音楽
68%,普通名詞50単語とした場合では50%の正解率と
なった.分類結果の一部を表3に示す.
後藤らの提案手法と同等の結果にとどまった原因
は,子カテゴリがない階層B のカテゴリが少なから
ずある,つまりSVMの訓練データの量が十分でない
ためであると考える.加えてODPには,例えば「ス
ポーツ: ゴルフ」のカテゴリの子カテゴリとして
「東京」「大阪」などの都道府県名のカテゴリが登
録されているように,シソーラスとして考えると不
適切であると考えられるカテゴリが少なからずあっ
た.以上から,ODPをシソーラスの代わりに用いる
ことに一部無理があったと考える.
5
おわりに
本稿では BM25 を用いた関連語抽出手法とこれを
応用した単語分類手法を提案した.関連語抽出手法
では TF・IDF を用いた手法の正解率を上回ったが,
単語分類手法では後藤らの手法の精度と同等になっ
た.しかし,5 分割交差検定の精度は 83.54%で後藤
らの提案手法の精度を大幅に上回っている.
今後の予定として,BM25 のスコアを素性値とし
て SVM を学習させることや,後藤らが用いた日本語
語彙体系を使って本稿の単語分類手法を用いて実験
することを考えている.
参考文献
[1] 辻ら. “www を用いた概念ベースにない新概念およ
びその属性獲得手法”. JSAI2004, pp. 2D1–01, 2004.
[2] K. Tokunaga et al. “Automatic Discovery of Attribute
[3]
[4]
81.4%
79.5%
79%
79.8%
78.6%
検索クエ
リの文字
種も素性
とするか
NO
NO
NO
YES
[5]
[6]
[7]
[8]
Words from Web Documents”. IJCNLP, pp. 106–118,
2005.
後藤ら. “Web を用いた未知語検索キーワードのシソ
ーラスノードへの割付け手法”. 自然言語処理, Vol.
15, No. 3, pp. 91–113, 2008.
山田ら. “Wikipedia を利用した日本語WordNet への
用語追加の検討”. NLP2010, pp. 948–951, 2010.
池原ら(1997). 日本語語彙大系. 岩波書店.
T. Kudo. “MeCab: Yet Another Part-of-Speech and
Morphological Analyzer”. http://mecab.sourceforge.net.
“Open Directory プ ロ ジ ェ ク ト と は ”.
http://www.dmoz.org/docs/ja/about.html.
S. E. Robertson et al. “Okapi at TREC-3”. TREC-3, 1994.
Fly UP