...

単語のコミュニティ性に基づいたクエリの関連語推薦

by user

on
Category: Documents
27

views

Report

Comments

Transcript

単語のコミュニティ性に基づいたクエリの関連語推薦
DEIM Forum 2016 C8-4
単語のコミュニティ性に基づいたクエリの関連語推薦
岡崎
伸也†
風間
一洋†
篠田
孝祐††
大向
一輝†††
† 和歌山大学 システム工学部 〒 640–8510 和歌山県和歌山市栄谷 930
†† 電気通信大学 大学院情報システム学研究科 〒 182-8585 東京都調布市調布ケ丘 1 丁目 5 番地 1
††† 国立情報学研究所 コンテンツ科学研究系 〒 101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: †{s171013,kazama}@center.wakayama-u.ac.jp, ††[email protected], †††[email protected]
あらまし
本稿では,単語のコミュニティ性に基づいた重み付け指標である TF-ICF を用いて,論文検索に用いたク
エリの関連語を提示する手法を提案する.ICF は,論文の共著関係ネットワークから抽出した著者コミュニティ群に
おける単語の分布から計算される.実際に,人工知能学会全国大会の 13 年分の書誌情報を対象に,出現頻度の異なる
2 種類のクエリ集合から求めた関連語の被覆率・重複率を既存手法と比較して有効性を示す.さらに,CiNii のアクセ
スログから実際に検索結果の絞り込みに使用されたキーワードを分析することで,TF-ICF による関連語が検索支援
の場面で有効であることを示す.
キーワード
TF-ICF,コミュニティ性,文献検索,情報推薦,関連語
1. は じ め に
近年,研究開発の競争の激化に伴い,様々な技術の創出だけ
ページ,あるいは Web ページのリンク構造から抽出した Web
コミュニティに対する閲覧数などを用いて算出し,あるクエリ
に関連するクエリを提示するシステムを提案した [2].
でなく,陳腐化も早まってきている.そのような技術動向を追
近藤らは,ユーザの Web 閲覧履歴中の Web ページから単語
うためには,例えば CiNii や ACM Digital Library のような
群を見出し語とする Wikipedia のページの重要度を,HITS を
論文検索システムで検索を繰り返すことで,研究開発の現状を
改良したアルゴリズムを用いて求めて,その上位の語をユーザ
ある程度まで調べることができるが,クエリはユーザ自身が入
に提示するシステムを提案した [3].
力する必要があるので,未知の分野を調べることは難しい.そ
堀らは,ユーザの Web 閲覧履歴中の Web ページから抽出し
こで,システムが自動的に抽出した関連語をユーザに提示でき
た単語群を自己組織化マップでクラスタリングし,クエリと類
れば,論文探索の有益な手がかりになると考えられる.
似する単語を関連語として提示する手法を提案した [4].
例えば,重要語の抽出には TF-IDF が用いられるが,論文の
ただし,履歴ベースの手法では十分な履歴がなければ有用な
題名や概要などの書誌情報しか利用できない場合は,限られた
推薦ができないコールドスタート問題が存在し,本稿では利用
長さのテキストで単語の重複を避けて記述するために重要語の
できない.
出現数が少なくなり,従来手法では良い結果が得られなかった.
2. 2 コンテンツベースの関連語推薦
そこで石橋らは,単語のコミュニティ性に基づく重み付け指
安辺川らは,書誌検索の絞り込みに使用する関連語をユーザ
標である TF-ICF を提案した [1].ICF は,論文の共著ネット
に推薦するために,文献の書誌情報から得られるテキスト中の
ワークから抽出した著者コミュニティ群における単語分布から
単語群に対して TF-IDF や BM25,TermExtract によるラン
計算されるために,書誌情報のような限られたデータの場合に,
ク付け手法を検討し,BM25 が最も被験者からの評価が高くな
従来手法よりも良い結果が得られることが期待できる.
る関連語を推薦できることを示した [5].
本稿では,論文検索におけるクエリの関連語を,TF-ICF で
榊らは,Web 上のテキスト情報を利用して,クエリ拡張など
選択して提示する手法を提案する.さらに,人工知能学会全国
に応用できる関連語のシソーラスを自動的に構築する手法を提
大会の 13 年分の書誌情報を対象に,出現頻度が異なる 2 種類
案した [6].
のクエリ集合とその関連語を用いて,被覆率・重複率などの観
これらの研究は単語の出現頻度や単語間の関連度を用いるが,
点から TF-IDF と比較する.また,CiNii のアクセスログから
本稿では文書の著者とその共著者の関係から求めた著者コミュ
抽出した実際に検索結果の絞り込みに使用された 2 語で構成さ
ニティを利用して単語のコミュニティ性を考慮するという点が
れるクエリを用いて分析することで,TF-ICF による関連語が
異なる.
検索支援として有効であることを示す.
2. 関 連 研 究
2. 1 履歴ベースの関連語推薦
3. 単語のコミュニティ性
3. 1 コミュニティ性
コミュニティ性は,ある単語がどのような著者達のコミュニ
大塚らは Web の大規模アクセスログを解析し,検索に使用
ティで活用されているかについての性質である.例えば,専門
されたクエリ間の関連度を,クエリ入力後に閲覧された Web
用語であれば,少数の関連する専門家のコミュニティで頻繁に
(b) 単語–論文–著者の 3 部グラフ
6
2
(a) 単語–論文の 2 部グラフ
4
ICF (w i )
8
10
α=1
α=2
α=3
0
図 1: 単語と論文の n 部グラフ構造
0.0
0.2
0.4
r (w i )
0.6
0.8
1.0
使われるが,一般用語であれば多数のコミュニティで広く使わ
図 2: r(wi ),ICF (wi ) と α の関係
れるなど,その単語の性質に応じて出現分布パターンに固有の
特徴があると考えられる.石橋らは,このようなコミュニティ
性に基づいて単語の専門性を定量化する指標 ICF と,それを
用いた単語のスコアの計算法 TF-ICF を提案した.
3. 2 ICF(Inverse Community Frequency)
ICF は,
「専門用語とは,特定の専門家達の間で共有される言
葉である」という前提に基づいて,著者のコミュニティ群から
求めた単語の専門性の指標である.
例えば TF-IDF は,単語–文書(論文)という 2 部グラフ構
造(図 1a )から求められる.しかし,論文アーカイブの場合
は,共著者情報を加えて単語–文書(論文)–著者という 3 部グ
( 3 ) データセット中の単語 wi に関して,単語 wi が出現す
る論文の筆頭著者の集合を取得する.
( 4 ) 単語 wi が出現する論文の筆頭著者の集合から,単語
wi が出現するコミュニティ集合を求めて,そのコミュニティ数
を c(wi ) とする.
( 5 ) 単語 wi のコミュニティ集合における出現率 r(wi )(0 <
=
r(wi ) <
= 1) を求める.
r(wi ) =
c(wi )
C
(1)
ラフ構造(図 1b )に拡張できる.さらに,論文は複数人の著者
ここで,C はクラスタリングによって得られた全コミュニティ
によって書かれることが多いことから,文書–著者の部分を変
数である.
換した共著ネットワークは,頻繁に共同研究している著者達の
コミュニティに分割できる.つまり,単語が決まれば,その単
( 6 ) 単語 wi の ICF の値 ICF (wi ) を計算する.
ICF (wi ) = (log(
語を使用している著者のコミュニティの集合が決定される.
例えば,一般的に著者の論文生産性には大きな差があること
から,一人の著者だけが用いる専門用語の頻度は,グラフ構造
1
))α
r(wi )
(2)
ここで,α は定数である.
すなわち,図 1b 上で考えると,単語レベルから論文レベル,
の論文のレベルでは大きく異なることになるが,著者のレベル
論文レベルから著者レベルに写像した上で,共著関係ネット
では同一となる.さらに,同じ専門分野の著者が共同研究する
ワークにおける該当コミュニティを求めていることになり,こ
チームとして多数の論文を書く場合にも,論文のレベルでは差
の過程において個人やグループのアクティビティの差が除去さ
が出ても,共著ネットワークでは,一つのコミュニティに集約
れ,著者のレベルからみた専門性をより忠実に反映させること
されることになる.つまり,専門用語であれば少数のコミュニ
が可能となる.
ティに出現し,一般用語であれば多数のコミュニティに出現す
ここで r(wi ) の逆数の対数を α 乗する理由は,r(wi ) の値の
るので,ICF では,コミュニティ集合における単語の出現確率
大小に対して,コミュニティに写像されることで小さくなりが
を定量化することで単語の専門性を判定する.
ちな ICF (wi ) の効果を調節するためである.r(wi ),ICF (wi )
3. 3 ICF の計算
単語 wi の ICF の値 ICF (wi )(1 <
= K) は以下のように
=i<
計算する.K は総単語数である.
と α の関係を図 2 に示す.これから,α の値を増やすほど,
ICF (wi ) の変化が大きくなる.
3. 4 TF-ICF
( 1 ) データセットに含まれる全論文に対して,同一の論文
TF-IDF は情報探索やテキストマイニングなどの分野で利
を執筆した著者同士にエッジを張ることで,共著関係ネット
用され、文書中に出現した単語がどのくらい特徴的である
ワークを構築する.なお,小規模コミュニティの増加による性
かを識別するための指標である [8].単語 wi の TF-IDF の値
能低下を避けるために,Jaccard 係数や Simpson 係数は使用し
T F -IDF (wi ) は,ある文書に単語が出現する度合いを表す TF
ない.
( 2 ) 共著ネットワークを Clauset らの CNM 法 [7] を用い
てコミュニティに分割し,著者と所属コミュニティの関係を取
得する.
(Term Frequency)の値 T F (wi ) と,単語が文書全体に出現
する度合いの逆数である IDF(Inverse Document Frequency)
の値 IDF (wi ) の積で与えられる.
T F (wi ) =
n(wi )
ΣK
k=1 n(wk )
(3)
IDF (wi ) = log
D
d(wi )
T F -IDF (wi ) = T F (wi ) × IDF (wi )
(4)
(5)
ここで,n(wi ) は単語 wi の出現回数,D は総ドキュメント数,
d(wi ) は単語 wi を含むドキュメント数である.
本稿では,IDF を ICF に置き換えた TF-ICF を用いる.単
語 wi の TF-ICF 値である T F -ICF (wi ) は次のように定義さ
れる.
T F -ICF (wi ) = T F (wi ) × ICF (wi )
(6)
なお,TF-ICF では,一般的な単語や特定のコミュニティしか
使わない固有名詞を低く評価することを目的とするが,この際
のバランスは定数 α で調整できる.
4. TF-ICF を用いたクエリの関連語の抽出
4. 1 関連語推薦による検索支援
本稿では,論文検索のクエリの関連語を,検索結果の絞り込
みに用いる状況を想定する.例えば,検索結果と同時にクエリ
と関連語の一覧を表示し,調べたい内容を示す関連語をクリッ
図 3: 論文探索システムの実行例
クするだけで AND 検索できれば,複数の関連語を切り替える
ことで膨大な検索結果を効率よく調べることができる.
このような状況では,表示される関連語はクエリが表すメイ
表の時刻,演題番号,題目,著者に加えて概要も掲載されてい
ントピックのサブトピックを表す専門用語であることが望まし
ることから,2003 年から 2015 年までの 13 年間の HTML 形
い.例えば,一般的な関連語で絞り込んでも,検索結果数があ
式の発表プログラムを収集し,書誌情報とキーワードを抽出し
まり変わらなかったり,表現の多様性から検索漏れが生じたり
た.これを JSAI データセットと呼び,5570 件の発表と 33914
して,検索結果を効率よく調べることはできない.
語のキーワード,6393 名の著者が含まれる.
さらに,クエリが表すメイントピック空間のなるべく広い範
5. 2 JSAI 全国大会論文検索システム
囲に,関連語を使い分けることで効率よくアクセスできること
石橋らは,JSAI データセットを対象に,キーワードと著者
が望ましい.例えば,すべての関連語を使っても検索結果のご
を手掛かりに単語—論文—著者という 3 部グラフ構造を辿って
く一部しか見れないとか,異なる関連語でも絞り込み結果があ
論文を探索できるシステムを,Python と MongoDB を用いて
まり変わらなければ,有用性は低い.
作成した [1].図 3 に示すように,このシステムでは著者名また
そこで,各コミュニティの持つトピックを反映した専門用語
はキーワードを入力すると,検索結果に含まれる複数の論文を
を抽出できる TF-ICF を用いて,上記の性質を満たすような関
著者グループごとに表示し,さらに論文の探索に有効な主要著
連語推薦を試みる.
者と関連語を提示する.本稿では,このシステムに手を加えて
4. 2 関連語の抽出法
クエリの関連語は,以下の手順で抽出する.
( 1 ) クエリの検索結果に含まれる全単語の TF を算出する.
( 2 ) パラメータ α を指定して事前計算した ICF 値を用い
て,各単語の TF-ICF 値を計算する.
( 3 ) TF-ICF 値の上位 N 件の単語を関連語として抽出する.
なお,パラメータ α は抽出される単語の特性に影響する.例
評価に使用した.
5. 3 評価用単語集合の作成
さらに JSAI データセットから出現文書数が 50∼99 件または
100∼150 件の単語を抽出し,その 2 種類の単語集合 Q1 ,Q2
を評価に用いた.|Q1 | = 276,|Q2 | = 97 である.Q1 の単語は
専門的な用語が,Q2 の単語は論文で比較的良く用いられる一
般的な用語が多く含まれていた.
えば,α が小さいほど TF の効果が高くなるために,より一般
5. 4 被覆率の評価
的な単語が,α が大きいほど ICF の効果が高くなるために,よ
ある単語の検索結果に対して求めた各関連語を使って AND
り専門的な単語が抽出される.
検索した場合に,元の検索結果のどの程度の割合の論文を閲覧
5. 単語集合による評価
できるかを,被覆率(Coverage Ratio)[9] を使って評価した.
5. 1 JSAI データセット
対して,スコアの上位 N 件の関連語 wn (n = 0, . . . , N − 1) を
人工知能学会は毎年全国大会を開催しており,発表プログ
提示する場合に,被覆率 CR(q, N ) は以下の式で求める.
ある単語 q で検索した M 件の論文 Dm (m = 0, . . . , M − 1) に
ラムと論文の PDF を参加者に CD-ROM で配布すると共に,
Web で公開している.この発表プログラムには,すべての発
CR(q, N ) =
|{Dm |wn ∈ Dm }|
M
(7)
Q1 と Q2 の単語を使って求めた TF-IDF と TF-ICF の関連
ティ数, |F | は単語の検索結果中の出現頻度,τ は TF-IDF と
語の被覆率の平均値を,図 4 に示す.なお,N は 5, 10, 15, 20
TF-ICF で順位付けしたすべての関連語のケンドールの順位相
のいずれかの値とし,TF-ICF の α は 1.0 から 3.0 まで変化
関係数 [10] の値である.ここで,関連語の総数を n,2 つの関
させた.まず,全体的に TF-IDF の方が被覆率が高い.ただ
連語の順位の大小関係が一致する組の数を P として,ケンドー
し,図 4a のように α = 1 付近で TF-ICF が上回っているが,
ルの順位相関係数を次の式で求めた.
ICF は文書をより少ない数のコミュニティに集約するために,
α が小さいと IDF よりもスコアに対する影響も小さいからで
τ=
4P
−1
n(n − 1)
(9)
ある.N の増加に伴って,どちらも被覆率は向上するが,特に
TF-ICF の α は 1.0, 2.0, 3.0 とした.
「モデリング」と「コミュ
TF-IDF は N = 10 の時に Q1 で 0.905,Q2 で 0.914 と全体的
ニティ」の検索結果数は,それぞれ 70 件と 121 件であった.
に高い被覆率を示す.TF-ICF の被覆率は α の増加につれて低
TF-IDF の関連語は |C| と |F | の両方が大きい値になってい
下するが,これは関連語の専門性が高くなり,該当する論文が
るのに対して,TF-ICF は α が 2.0,3.0 となるにつれ |C| と
少なくなるからである.また,α を増加させると,最初は Q2
|F | の両方が小さな値になる傾向があることがわかる.この傾
の被覆率の平均値の方が高くても途中で逆転する.これは一般
向は出現頻度が大きくなるほど顕著である.さらに,τ も α が
的な単語である Q2 で検索した方が検索結果数が多くなること
1 の場合も 0.9 を下回り,さらに増加するほど低くなることか
から,α が小さく相対的に TF の効果の方が高い段階では Q2
ら,上位 20 件に限らず,関連語の順位が全体的に大きく異なっ
の方が一般的な関連語を提示するために被覆率が高く,α が大
ていることがわかる.
きく相対的に ICF の効果の方が高くなると関連語が専門的にな
具体的な検索語を調べると,どちらの場合も TF-IDF では
り,検索結果の範囲が広い Q2 の方が絞り込まれるからである. 「研究」,
「手法」などの論文でよく用いられる単語が含まれる.
5. 5 重複率の評価
また,表 1 では「適用」,
「表現」,
「条件」,表 2 では「分析」,
検索結果中で,関連語がどの程度重複しているかを重複率
「共有」,
「情報」,
「形成」などの一般的な単語が含まれているこ
(Overlap Ratio)を用いて評価した.ある単語 q で検索した M
とがわかる.これらの単語は,TF-ICF で α が 2.0,3.0 の場合
件の論文 Dm (m = 0, . . . , M − 1) に対して,スコアの上位 N
には上位に出現しない.すなわち,TF-IDF は特に論文で使わ
件の関連語 wn (n = 0, . . . , N − 1) を提示する場合に,q に対す
れることが多いが比較的一般的な単語が,TF-ICF では特定少
る上位 N 件の関連語の重複率 OR(q, N ) を以下の式で求める.
数のコミュニティで頻繁に使われる専門用語が上位に来ること
∑M −1
OR(q, N ) =
(|{wn |wn ∈ Di }| − 1)
|{Dm |wn ∈ Dm }| × (N − 1)
i=0
が確認できる.なお,表 2 の「人起点」は複合語抽出の誤りで
(8)
なお,0 <
= OR(q, M ) <
= 1 である.例えば,N = 5 の場合は,
重複率が 0 なら各論文に関連語が 1 語,0.25 なら平均 2 語,1
ならすべての関連語が含まれることを意味し,N が増えるほど
出現する関連語数が多くなる.すなわち,値が 1 に近いほど関
連語間の重複が大きくなり,異なる関連語を使っても検索結果
生じた単語である.
ここで,α = 2 と α = 3 の場合を比較すると,表 1 ではどち
らも |C| の値は 1 に近いが α = 3 の |F | の値がさらに小さくな
り,表 2 では |C| の値も α = 3 の方が小さくなっていることが
わかる.TF-ICF で抽出したい関連語は,特定少数のコミュニ
ティで頻繁に用いられる単語であるので,α = 3 の値をあまり
大きくすることは適切でないと考えられる.
があまり変わらなくなることから,被覆率と反対で 0 に近いほ
ど良いことに注意が必要である.なお,一般に被覆率と重複率
は相反する関係があり,被覆率を良くすれば重複率が悪くなり,
重複率を良くすれば被覆率が悪くなりやすい傾向がある.
Q1 と Q2 の単語を使って求めた TF-IDF と TF-ICF の関連
語の重複率の平均値を,図 5 に示す.なお,N は 5, 10, 15, 20
のいずれかの値とし,TF-ICF の α は 1.0 から 3.0 まで変化さ
せた.これから,TF-IDF は比較的高い重複率を持ち,被覆率
が高いことも考慮すると,比較的一般的な単語が関連語として
抽出されていることがわかる.これに対して,TF-ICF は α の
増加と共に重複率が低下し,比較的低い値を取る.また,α が
1.5 から 2.0 を過ぎると大きく変化しなくなるが,これは関連
語の出現コミュニティ数が最小値の 1 に近くなるからだと考え
られる.
5. 6 上位 20 件の関連語の比較
実際に,Q1 の「モデリング」と Q2 の「コミュニティ」で
検索した時の TF-IDF と TF-ICF の上位 20 件の関連語を求
めて,表 1 と表 2 に示す.ここで,|C| は単語の出現コミュニ
6. 実クエリ集合を用いた評価
6. 1 CiNii データセット
CiNii (Citation Information by NII) は,国立情報学研究所
が提供している学術論文や図書,雑誌などの学術情報データ
ベースである.CiNii の Web サーバ群の 2013 年 4 月 1 日から
2015 年 3 月 31 日までの 2 年間のアクセスログから,論文検索
である CiNii Articles で実際に検索に使用された 29,351,579 種
類のクエリ文字列の集合を抽出した.これを CiNii データセッ
トと呼ぶ.
6. 2 評価用クエリ集合の抽出
CiNii データセットから,ユーザが実際に使用した 2 語の
AND 検索のクエリを抽出して,1 番目の単語で検索した時に 2
番目の単語を関連語として推薦することが妥当であると仮定し
て,検索語の評価に使用する.
まず,クエリ文字列を単語に分割し,2 個の単語で構成され,
かつ 1 番目の単語で検索した際に 2 番目の単語も検索結果に含
まれる単語の組を 120,222 組抽出した.
(a) N = 5
(b) N = 10
(c) N = 15
(d) N = 20
図 4: 被覆率の平均値
(a) N = 5
(b) N = 10
(c) N = 15
(d) N = 20
図 5: 重複率の平均値
表 1: Q1 の「モデリング」の関連語の順位の比較
順位
TF-IDF
TF-ICF
|C| |F | α = 1.0
|C| |F | α = 2.0
|C| |F | α = 3.0
|C| |F |
1 モデル化
51
16 モデル化
51
16 ハイブリッドシステム
1
4 ハイブリッドシステム
1
4
2 モデル
83
18 モデル
83
18 HydLa
1
4 HydLa
1
4
3 モデリング手法
4
4 研究
272
33 離散変化
1
4 離散変化
1
4
4 HydLa
1
4 ハイブリッドシステム
1
4 連続変化
1
4 連続変化
1
4
5 連続変化
1
4 HydLa
1
4 HydLa 処理系
1
3 HydLa 処理系
1
3
6 ハイブリッドシステム
1
4 離散変化
1
4 事故予防
1
3 事故予防
1
3
7 離散変化
1
4 連続変化
1
4 ハイブリッドシステムモデリング言語
1
3 ハイブリッドシステムモデリング言語
1
3
4
4 価値判断
2
3
2
3
8 研究
272
33 モデリング手法
4
4 モデリング手法
9 適用
98
9 HydLa 処理系
1
4 モデル化
51
10 表現
90
9 事故予防
1
3 価値判断
2
3 モデリング言語
1
2
11 手法
170
1
3 学問
2
3 フロアフィールドモデル
1
2
12 シミュレーション
14 ハイブリッドシステムモデリング言語
16 学問
38
6 手法
170
14 モデリング言語
1
2 LS
1
2
13 発表
109
10 発表
109
10 フロアフィールドモデル
1
2 医療行為
1
2
14 条件
30
5 表現
90
9 LS
1
2 スパースモデリング
1
2
15 HydLa 処理系
1
3 価値判断
2
3 医療行為
1
2 確率的モデリング
1
2
16 価値判断
2
3 学問
2
3 スパースモデリング
1
2 渋滞学
1
2
17 学問
2
3 事故
9
4 確率的モデリング
1
2 モデリング手法
4
4
18 ハイブリッドシステムモデリング言語
1
3 枠組み
37
6 渋滞学
1
2 ユーザモデリング手法
2
2
6 シミュレーション
38
6 モデル
83
2
2
4 適用
98
9 事故
2
2
19 枠組み
37
20 事故
9
τ
9
0.89477
18 医療サービス
4 グラフィカルモデリング
0.61954
0.46303
表 2: Q2 の「コミュニティ」の関連語の順位の比較
順位
TF-IDF
TF-ICF
|C|
|F |
α = 1.0
|C|
|F |
54
|C|
|F |
|C|
|F |
20
分析
102
32
コミュニティ構造
6
11
コミュニティ構造
6
11
102
32
コミュニティ構造
6
11
コミュニティ抽出手法
4
7
コミュニティ抽出
1
4
6
11
ネットワーク
54
20
コミュニティ抽出
1
4
コミュニティ抽出手法
4
7
α = 2.0
α = 3.0
1
ネットワーク
2
分析
3
コミュニティ構造
4
共有
47
17
共有
47
17
コミュニティ内
4
6
知識共有コミュニティ
1
3
5
情報
128
23
情報
128
23
知識共有コミュニティ
1
3
地域 SNS
1
3
6
コミュニティ抽出手法
4
7
4
7
地域 SNS
1
3
検索履歴
1
3
7
形成
28
10
研究
272
43
検索履歴
1
3
糖尿病患者ウェブコミュニティ
1
3
8
考察
88
17
考察
88
17
糖尿病患者ウェブコミュニティ
1
3
コミュニティ内
4
6
9
ノード
21
9
抽出
100
18
ネットワーク
54
20
コミュニティ支援システム
3
4
100
18
提案
257
36
コミュニティ支援システム
3
4
コミュニティ間
3
4
4
6
形成
28
10
コミュニティ間
3
4
地域コミュニティ
2
3
コミュニティ抽出手法
10
抽出
11
コミュニティ内
12
着目
81
14
支援
70
14
共有
47
17
現場関係者
1
2
13
知識
64
13
ノード
21
9
分析
102
32
人起点
1
2
14
SNS
22
6
4
6
ノード
21
9
活性化支援
1
2
15
支援
70
14
ユーザ
94
16
Yahoo!知恵袋
4
4
社会的要約
1
2
16
変化
91
13
論文
75
14
社会ネットワーク
7
5
コミュニティ交流活動
1
2
17
手法
170
21
知識
64
13
地域コミュニティ
2
3
パーソナルネットワーク
1
2
18
研究
272
43
着目
81
14
形成
28
10
研究コミュニティ
1
2
19
論文
75
14
手法
170
21
SNS
22
8
交グラフ
1
2
20
ユーザ
94
16
SNS
22
8
ソーシャルメディア
15
6
外部専門家
1
2
τ
コミュニティ内
0.89936
0.53193
0.32941
ただし,本稿で用いたシステムには人工知能分野の論文だけ
書に多く使われると思われるが,それらを用いたとしても被覆
を用いたのに対して,CiNii データセットには人工知能以外に
率も重複率も高いことから適切に絞り込めるとは限らない.さ
も,社会学,数学,生物学,医学などの他の分野の論文を探す
らに,専門用語でないことから表現が統一されておらず,例え
ために使われたクエリ文字列が多く含まれている.そこで,人
ば「抽出」なら,
「取得」,
「獲得」などの表現を用いている論文
工知能分野だけに絞り込むために,情報処理学会の論文誌用の
は検索から漏れることとなり,情報探索行動に悪影響を与える
和文キーワード(注 1) のうち,人工知能分野を示す大項目「知能
可能性が高い.
グループ」に属しているキーワードを抽出した.なお,
「・」や
実クエリにこのような一般的な単語が多用される理由は,い
「/」などで併記形式で記述されている場合は 2 つのキーワー
くつか考えられる.1 番目の理由は,
「知識の共有」のような文
ドに分割し,文章として書かれている場合はそこからキーワー
章から,ユーザが単語を抽出して検索していることである.こ
のような場合には,2 番目の単語として一般的な動名詞が来る
ドとして妥当な名詞部分だけを抽出した.
さらに,1 番目の単語にこれらのキーワードを含む単語の組
可能性が高くなる.2 番目の理由は,ユーザは出現頻度の高い
だけを抽出した結果,4,973 組の単語の組が抽出できた.以降
単語を思いつきやすい傾向があるということである.そして,
は,これを実クエリ集合と呼び,1 番目の単語を検索語,2 番
3 番目の理由は,ユーザが検索したい論文の内容は必ずしも既
目の単語を絞り込み語と呼ぶ.
知でないことが多いことから,そもそもユーザにとって絞り込
6. 3 平均逆順位の評価
みに適したキーワードを思いついて使用することが困難なタス
抽出した実クエリ集合の検索語と絞り込み語の組み合わせ
クであるということである.この場合は,TF-ICF のような特
が,検索に用いる単語とその関連語の組み合わせとして妥当
定少数のコミュニティで頻繁に使用されているような専門用語
であると仮定して,検索語で検索した時に,それから TF-ICF
をシステム側から提示することは,非常に重要であると考えら
と TF-IDF で求めた関連語リストで絞り込み語がどの程度高い
れる.
順位になっているかを調べるために,MRR(Mean Reciprocal
Rank) を用いて評価した.MRR は,検索語集合を Q とし,そ
6. 5 高頻度の絞り込み語を持つクエリを除いた平均逆順位
の評価
の i 番目の絞り込み語が TF-ICF または TF-IDF で求めた関連
次に,論文に限定するための裏技や情報探索に問題を生じる
語リストに現れる順位を ranki とした時に,次の式で求めた.
一般的な単語を除いた時に,TF-ICF の性能がどう変化するか
M RR =
|Q|
1 ∑ 1
|Q|
ranki
を分析する.実クエリ集合のうち,JSAI データセットの出現文
(10)
i=1
書数が多い上位 200 件の単語が絞り込み語として出現するクエ
リを取り除いた.この結果 3,483 組,2.9%と大幅に減少した.
つまり,検索語に対して絞り込み語を関連語として高い順位に
なお,上位 1∼5 位の単語は「研究」,
「提案」,
「手法」,
「利用」,
推薦するほど,MRR の値は高くなる.ただし,使用する検索
「システム」,196∼200 位は「判断」,
「観測」,
「設定」,
「動き」,
語と絞り込み語の組み合わせが必ずしも最適解ではないことか
「行為」であったことからわかるように,今回削除対象にした絞
ら,順位の逆数を取る MRR では,正解集合を用いる場合より
り込み語の大部分は特に専門性がない一般的な単語であった.
も,かなり低い値になりやすいことに注意が必要である.
実クエリ集合を使って TF-ICF と TF-IDF で求めた平均逆
実クエリ集合から高頻度の絞り込み語を持つクエリを除い
てから平均逆順位を算出した結果を図 6b に示す.α が 1.0 か
順位を算出した結果を図 6a に示す.TF-ICF の MRR の値は
ら増加するにつれて TF-ICF の平均逆順位は緩やかに上昇し,
α = 1.0 ではわずかに高いが,α の増加に伴って減少し,TF-
α = 1.6 でピークを迎えた後で,緩やかに下降し,α = 2.0 ま
IDF よりかなり悪い値になることがわかる.この原因として,
での大部分の区間で TF-IDF よりも良い性能を示すことがわ
実際に使われた検索語と絞り込み語の組み合わせは,我々の予
かった.
測と大きく異なっていた可能性が考えられる.
表 3: 出現頻度上位 20 件の絞り込み語
6. 4 実クエリ集合の分析
単語
頻度
1 研究
1392
11 コミュニケーション
724
2 評価
1368
12 変化
723
3 分析
1252
13 論文
689
4 学習
970
14 モデル
661
5 情報
936
15 効果
660
6 システム
902
16 環境
643
単語であり,これは論文の題名の最後に用いられることが多い.
7 影響
856
17 課題
600
つまり,特に最近雑誌の記事などの論文以外のデータ量が激増
8 行動
797
18 ロボット
584
している CiNii で,論文だけに絞り込むための裏技として活用
9 支援
772
19 開発
580
されている可能性が高い.これ以外の,単語も確かに技術系文
10 比較
742
20 実験
564
CiNii のユーザがどのような単語を絞り込みに使っているの
かを知るために,評価に用いた実クエリ集合における出現頻度
の上位 20 件の絞り込み語を表 3 に示す.これらの絞り込み語
を見ると,単語集合を用いた評価で TF-IDF で得られる関連語
と傾向が類似していることがわかる.特に頻度が多い「研究」,
「評価」,
「分析」は,すでに述べたように論文でよく使われる
(注 1):https://www.ipsj.or.jp/prms/office/show_keyword.do
順位
順位
単語
頻度
かと推測している.
8. お わ り に
本稿では,TF-ICF を用いることで,論文検索システムにお
いてクエリの関連語を推薦する手法を提案した.TF-ICF は単
語のコミュニティ性に着目しているため,特に論文の題名と
概要などの限られた情報しか扱えないような場合に,従来の
TF-IDF に代表される文書ベースの手法と比較して,専門性が
高い用語を推薦できることを,単語集合や実クエリ集合を用い
(a) 実クエリ集合を用いた場合
た評価で確認した.
ただし,論文検索システムである CiNii で用いられた実クエ
リを簡単に分析した結果,我々が想定していたような専門用語
を絞り込み語に用いる以外のクエリパターンがあり,さらにそ
の中に論文を探索するという行動においてあまり適切でない
クエリパターンも多く存在する可能性が示唆された.今後は,
CiNii の検索履歴を用いてユーザの実際の検索行動を詳細に分
析し,論文検索サービスにおけるユーザ側の問題点と,それを
支援するために必要とされる技術を明らかにする予定である.
また,本手法は,例えばソーシャルメディアの発言のような,
情報のテキスト長は短くても,その情報を生成した人間関係
(b) 高頻度の絞り込み語を持つクエリを除いた場合
図 6: MRR
ネットワークを持つようなデータに対しても有効だと思われる.
謝
辞
本研究は,国立情報学研究所公募型共同研究「学術情報サー
7. 考
察
ビスのユーザ履歴データの分析」の助成を受けた.
単語集合を用いた評価では,TF-ICF を用いることで,TF-
IDF よりも専門性が高い単語を推薦できることがわかった.さ
らに,重複率の平均値が TF-IDF よりかなり低いことから,特
定少数のコミュニティで頻出する語を比較的うまく抽出できて
いることがわかった.ただし,被覆率の平均値が TF-IDF より
かなり悪いことから,推薦する関連語数 N は比較的大きく設
定した方がよいと考えられる.
実クエリ集合を用いた評価では,現実のユーザが用いるクエ
リの種類はいくつかあり,さらに必ずしも論文検索として妥当
なクエリを入力しているとは限らない可能性と,その理由が論
文検索の絞り込みに使うために適切な専門用語を思いつくこと
が困難なタスクである可能性が示唆された.実際に,検索の裏
技に使われる単語や妥当とは思えない絞り込み語を除いた場合
に,TF-ICF の方が良い性能を示すことを確認した.
α の値については,α を増加させると重複率がある時点から
あまり変わらなくなること,表 2 の「人起点」のような,複合
語抽出処理の誤りにより生じたほとんど出現しない単語まで推
薦されてしまう可能性があること,そして関連語の出現コミュ
ニティ数 |C| と出現頻度 |F | が小さくなりすぎて,想定してい
た「特定少数のコミュニティで頻繁に使われる単語」から離れ
てしまうために,あまり大きな値を用いるのは適切ではないこ
とがわかった.さらに詳細な分析が必要だが,重複率の変化や
高頻度の絞り込み語を持つクエリを除いた実クエリ集合の分析
結果から,α の値は 1.5 から 2.0 程度にするのが適切ではない
文
献
[1] 石橋 和樹, 南出 直樹, 風間 一洋, 篠田 考祐. 単語のコミュニティ
性に基づいた専門用語の抽出. 人工知能学会全国大会論文集, 第
28 巻, pp. 1–4, 2014.
[2] 大塚 真吾, 喜連川 優. 大規模アクセスログを用いた検索支援
システム. 日本データベース学会 Letters, Vol. 5, No. 1, pp.
13–16, 2006.
[3] 近藤 光正, 森田 哲之, 田中 明通, 内山 匡. PC 上の Web 閲覧
履歴からのクエリ抽出技術を用いたモバイル情報検索システム.
人工知能学会全国大会論文集, 第 22 巻, pp. 1–4, 2008.
[4] 堀 幸雄, 今井 慈朗, 中山 堯. ユーザの Web 閲覧履歴を用いた検
索支援システム. 情報知識学会誌, Vol. 17, No. 2, pp. 95–100,
2007.
[5] 安辺川 武, 高野 明彦. 書誌検索における関連語表示法の検討. 言
語処理学会年次大会発表論文集, 第 16 巻, pp. 102–105, 2010.
[6] 榊 剛史, 松尾 豊, 内山 幸樹, 石塚 満. Web 上の情報を用いた関
連語のシソーラス構築について. 自然言語処理, Vol. 14, No. 2,
pp. 3–31, 2007.
[7] Aaron Clauset, M. E. J. Newman, and Cristopher Moore.
Finding Community Structure in Very Large Networks.
Physical Review E, Vol. 70, No. 6, 2004.
[8] Karen Spärck Jones. A Statistical Interpretation of Term
Specificity and its Application in Retrieval. Journal of Documentation, Vol. 28, No. 1, pp. 11–21, 1972.
[9] Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Modern
Information Retrieval. Addison Wesley, 1999.
[10] 土方 喜徳. 推薦システムのオフライン評価手法. 人工知能学会
誌, Vol. 29, No. 6, pp. 658–689, 2014.
Fly UP