単語のコミュニティ性に基づいたクエリの関連語推薦

by user

on 28-03-2017

Category: Documents

>> Downloads: 5

views

Report

Comments

Description

Download 単語のコミュニティ性に基づいたクエリの関連語推薦

Transcript

単語のコミュニティ性に基づいたクエリの関連語推薦

DEIM Forum 2016 C8-4
単語のコミュニティ性に基づいたクエリの関連語推薦
岡崎
伸也†
風間
一洋†
篠田
孝祐††
大向
一輝†††
† 和歌山大学システム工学部〒 640–8510 和歌山県和歌山市栄谷 930
†† 電気通信大学大学院情報システム学研究科〒 182-8585 東京都調布市調布ケ丘 1 丁目 5 番地 1
††† 国立情報学研究所コンテンツ科学研究系〒 101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: †{s171013,kazama}@center.wakayama-u.ac.jp, ††[email protected], †††[email protected]
あらまし
本稿では，単語のコミュニティ性に基づいた重み付け指標である TF-ICF を用いて，論文検索に用いたク
エリの関連語を提示する手法を提案する．ICF は，論文の共著関係ネットワークから抽出した著者コミュニティ群に
おける単語の分布から計算される．実際に，人工知能学会全国大会の 13 年分の書誌情報を対象に，出現頻度の異なる
2 種類のクエリ集合から求めた関連語の被覆率・重複率を既存手法と比較して有効性を示す．さらに，CiNii のアクセ
スログから実際に検索結果の絞り込みに使用されたキーワードを分析することで，TF-ICF による関連語が検索支援
の場面で有効であることを示す．
キーワード
TF-ICF，コミュニティ性，文献検索，情報推薦，関連語
1. はじめに
近年，研究開発の競争の激化に伴い，様々な技術の創出だけ
ページ，あるいは Web ページのリンク構造から抽出した Web
コミュニティに対する閲覧数などを用いて算出し，あるクエリ
に関連するクエリを提示するシステムを提案した [2]．
でなく，陳腐化も早まってきている．そのような技術動向を追
近藤らは，ユーザの Web 閲覧履歴中の Web ページから単語
うためには，例えば CiNii や ACM Digital Library のような
群を見出し語とする Wikipedia のページの重要度を，HITS を
論文検索システムで検索を繰り返すことで，研究開発の現状を
改良したアルゴリズムを用いて求めて，その上位の語をユーザ
ある程度まで調べることができるが，クエリはユーザ自身が入
に提示するシステムを提案した [3]．
力する必要があるので，未知の分野を調べることは難しい．そ
堀らは，ユーザの Web 閲覧履歴中の Web ページから抽出し
こで，システムが自動的に抽出した関連語をユーザに提示でき
た単語群を自己組織化マップでクラスタリングし，クエリと類
れば，論文探索の有益な手がかりになると考えられる．
似する単語を関連語として提示する手法を提案した [4]．
例えば，重要語の抽出には TF-IDF が用いられるが，論文の
ただし，履歴ベースの手法では十分な履歴がなければ有用な
題名や概要などの書誌情報しか利用できない場合は，限られた
推薦ができないコールドスタート問題が存在し，本稿では利用
長さのテキストで単語の重複を避けて記述するために重要語の
できない．
出現数が少なくなり，従来手法では良い結果が得られなかった．
2. 2 コンテンツベースの関連語推薦
そこで石橋らは，単語のコミュニティ性に基づく重み付け指
安辺川らは，書誌検索の絞り込みに使用する関連語をユーザ
標である TF-ICF を提案した [1]．ICF は，論文の共著ネット
に推薦するために，文献の書誌情報から得られるテキスト中の
ワークから抽出した著者コミュニティ群における単語分布から
単語群に対して TF-IDF や BM25，TermExtract によるラン
計算されるために，書誌情報のような限られたデータの場合に，
ク付け手法を検討し，BM25 が最も被験者からの評価が高くな
従来手法よりも良い結果が得られることが期待できる．
る関連語を推薦できることを示した [5]．
本稿では，論文検索におけるクエリの関連語を，TF-ICF で
榊らは，Web 上のテキスト情報を利用して，クエリ拡張など
選択して提示する手法を提案する．さらに，人工知能学会全国
に応用できる関連語のシソーラスを自動的に構築する手法を提
大会の 13 年分の書誌情報を対象に，出現頻度が異なる 2 種類
案した [6]．
のクエリ集合とその関連語を用いて，被覆率・重複率などの観
これらの研究は単語の出現頻度や単語間の関連度を用いるが，
点から TF-IDF と比較する．また，CiNii のアクセスログから
本稿では文書の著者とその共著者の関係から求めた著者コミュ
抽出した実際に検索結果の絞り込みに使用された 2 語で構成さ
ニティを利用して単語のコミュニティ性を考慮するという点が
れるクエリを用いて分析することで，TF-ICF による関連語が
異なる．
検索支援として有効であることを示す．
2. 関連研究
2. 1 履歴ベースの関連語推薦
3. 単語のコミュニティ性
3. 1 コミュニティ性
コミュニティ性は，ある単語がどのような著者達のコミュニ
大塚らは Web の大規模アクセスログを解析し，検索に使用
ティで活用されているかについての性質である．例えば，専門
されたクエリ間の関連度を，クエリ入力後に閲覧された Web
用語であれば，少数の関連する専門家のコミュニティで頻繁に
(b) 単語–論文–著者の 3 部グラフ
6
2
(a) 単語–論文の 2 部グラフ
4
ICF (w i )
8
10
α=1
α=2
α=3
0
図 1: 単語と論文の n 部グラフ構造
0.0
0.2
0.4
r (w i )
0.6
0.8
1.0
使われるが，一般用語であれば多数のコミュニティで広く使わ
図 2: r(wi )，ICF (wi ) と α の関係
れるなど，その単語の性質に応じて出現分布パターンに固有の
特徴があると考えられる．石橋らは，このようなコミュニティ
性に基づいて単語の専門性を定量化する指標 ICF と，それを
用いた単語のスコアの計算法 TF-ICF を提案した．
3. 2 ICF(Inverse Community Frequency)
ICF は，
「専門用語とは，特定の専門家達の間で共有される言
葉である」という前提に基づいて，著者のコミュニティ群から
求めた単語の専門性の指標である．
例えば TF-IDF は，単語–文書（論文）という 2 部グラフ構
造（図 1a ）から求められる．しかし，論文アーカイブの場合
は，共著者情報を加えて単語–文書（論文）–著者という 3 部グ
（ 3 ）データセット中の単語 wi に関して，単語 wi が出現す
る論文の筆頭著者の集合を取得する．
（ 4 ）単語 wi が出現する論文の筆頭著者の集合から，単語
wi が出現するコミュニティ集合を求めて，そのコミュニティ数
を c(wi ) とする．
（ 5 ）単語 wi のコミュニティ集合における出現率 r(wi )(0 <
=
r(wi ) <
= 1) を求める．
r(wi ) =
c(wi )
C
(1)
ラフ構造（図 1b ）に拡張できる．さらに，論文は複数人の著者
ここで，C はクラスタリングによって得られた全コミュニティ
によって書かれることが多いことから，文書–著者の部分を変
数である．
換した共著ネットワークは，頻繁に共同研究している著者達の
コミュニティに分割できる．つまり，単語が決まれば，その単
（ 6 ）単語 wi の ICF の値 ICF (wi ) を計算する．
ICF (wi ) = (log(
語を使用している著者のコミュニティの集合が決定される．
例えば，一般的に著者の論文生産性には大きな差があること
から，一人の著者だけが用いる専門用語の頻度は，グラフ構造
1
))α
r(wi )
(2)
ここで，α は定数である．
すなわち，図 1b 上で考えると，単語レベルから論文レベル，
の論文のレベルでは大きく異なることになるが，著者のレベル
論文レベルから著者レベルに写像した上で，共著関係ネット
では同一となる．さらに，同じ専門分野の著者が共同研究する
ワークにおける該当コミュニティを求めていることになり，こ
チームとして多数の論文を書く場合にも，論文のレベルでは差
の過程において個人やグループのアクティビティの差が除去さ
が出ても，共著ネットワークでは，一つのコミュニティに集約
れ，著者のレベルからみた専門性をより忠実に反映させること
されることになる．つまり，専門用語であれば少数のコミュニ
が可能となる．
ティに出現し，一般用語であれば多数のコミュニティに出現す
ここで r(wi ) の逆数の対数を α 乗する理由は，r(wi ) の値の
るので，ICF では，コミュニティ集合における単語の出現確率
大小に対して，コミュニティに写像されることで小さくなりが
を定量化することで単語の専門性を判定する．
ちな ICF (wi ) の効果を調節するためである．r(wi )，ICF (wi )
3. 3 ICF の計算
単語 wi の ICF の値 ICF (wi )(1 <
= K) は以下のように
=i<
計算する．K は総単語数である．
と α の関係を図 2 に示す．これから，α の値を増やすほど，
ICF (wi ) の変化が大きくなる．
3. 4 TF-ICF
（ 1 ）データセットに含まれる全論文に対して，同一の論文
TF-IDF は情報探索やテキストマイニングなどの分野で利
を執筆した著者同士にエッジを張ることで，共著関係ネット
用され、文書中に出現した単語がどのくらい特徴的である
ワークを構築する．なお，小規模コミュニティの増加による性
かを識別するための指標である [8]．単語 wi の TF-IDF の値
能低下を避けるために，Jaccard 係数や Simpson 係数は使用し
T F -IDF (wi ) は，ある文書に単語が出現する度合いを表す TF
ない．
（ 2 ）共著ネットワークを Clauset らの CNM 法 [7] を用い
てコミュニティに分割し，著者と所属コミュニティの関係を取
得する．
（Term Frequency）の値 T F (wi ) と，単語が文書全体に出現
する度合いの逆数である IDF（Inverse Document Frequency）
の値 IDF (wi ) の積で与えられる．
T F (wi ) =
n(wi )
ΣK
k=1 n(wk )
(3)
IDF (wi ) = log
D
d(wi )
T F -IDF (wi ) = T F (wi ) × IDF (wi )
(4)
(5)
ここで，n(wi ) は単語 wi の出現回数，D は総ドキュメント数，
d(wi ) は単語 wi を含むドキュメント数である．
本稿では，IDF を ICF に置き換えた TF-ICF を用いる．単
語 wi の TF-ICF 値である T F -ICF (wi ) は次のように定義さ
れる．
T F -ICF (wi ) = T F (wi ) × ICF (wi )
(6)
なお，TF-ICF では，一般的な単語や特定のコミュニティしか
使わない固有名詞を低く評価することを目的とするが，この際
のバランスは定数 α で調整できる．
4. TF-ICF を用いたクエリの関連語の抽出
4. 1 関連語推薦による検索支援
本稿では，論文検索のクエリの関連語を，検索結果の絞り込
みに用いる状況を想定する．例えば，検索結果と同時にクエリ
と関連語の一覧を表示し，調べたい内容を示す関連語をクリッ
図 3: 論文探索システムの実行例
クするだけで AND 検索できれば，複数の関連語を切り替える
ことで膨大な検索結果を効率よく調べることができる．
このような状況では，表示される関連語はクエリが表すメイ
表の時刻，演題番号，題目，著者に加えて概要も掲載されてい
ントピックのサブトピックを表す専門用語であることが望まし
ることから，2003 年から 2015 年までの 13 年間の HTML 形
い．例えば，一般的な関連語で絞り込んでも，検索結果数があ
式の発表プログラムを収集し，書誌情報とキーワードを抽出し
まり変わらなかったり，表現の多様性から検索漏れが生じたり
た．これを JSAI データセットと呼び，5570 件の発表と 33914
して，検索結果を効率よく調べることはできない．
語のキーワード，6393 名の著者が含まれる．
さらに，クエリが表すメイントピック空間のなるべく広い範
5. 2 JSAI 全国大会論文検索システム
囲に，関連語を使い分けることで効率よくアクセスできること
石橋らは，JSAI データセットを対象に，キーワードと著者
が望ましい．例えば，すべての関連語を使っても検索結果のご
を手掛かりに単語—論文—著者という 3 部グラフ構造を辿って
く一部しか見れないとか，異なる関連語でも絞り込み結果があ
論文を探索できるシステムを，Python と MongoDB を用いて
まり変わらなければ，有用性は低い．
作成した [1]．図 3 に示すように，このシステムでは著者名また
そこで，各コミュニティの持つトピックを反映した専門用語
はキーワードを入力すると，検索結果に含まれる複数の論文を
を抽出できる TF-ICF を用いて，上記の性質を満たすような関
著者グループごとに表示し，さらに論文の探索に有効な主要著
連語推薦を試みる．
者と関連語を提示する．本稿では，このシステムに手を加えて
4. 2 関連語の抽出法
クエリの関連語は，以下の手順で抽出する．
（ 1 ）クエリの検索結果に含まれる全単語の TF を算出する．
（ 2 ）パラメータ α を指定して事前計算した ICF 値を用い
て，各単語の TF-ICF 値を計算する．
（ 3 ） TF-ICF 値の上位 N 件の単語を関連語として抽出する．
なお，パラメータ α は抽出される単語の特性に影響する．例
評価に使用した．
5. 3 評価用単語集合の作成
さらに JSAI データセットから出現文書数が 50∼99 件または
100∼150 件の単語を抽出し，その 2 種類の単語集合 Q1 ，Q2
を評価に用いた．|Q1 | = 276，|Q2 | = 97 である．Q1 の単語は
専門的な用語が，Q2 の単語は論文で比較的良く用いられる一
般的な用語が多く含まれていた．
えば，α が小さいほど TF の効果が高くなるために，より一般
5. 4 被覆率の評価
的な単語が，α が大きいほど ICF の効果が高くなるために，よ
ある単語の検索結果に対して求めた各関連語を使って AND
り専門的な単語が抽出される．
検索した場合に，元の検索結果のどの程度の割合の論文を閲覧
5. 単語集合による評価
できるかを，被覆率（Coverage Ratio）[9] を使って評価した．
5. 1 JSAI データセット
対して，スコアの上位 N 件の関連語 wn (n = 0, . . . , N − 1) を
人工知能学会は毎年全国大会を開催しており，発表プログ
提示する場合に，被覆率 CR(q, N ) は以下の式で求める．
ある単語 q で検索した M 件の論文 Dm (m = 0, . . . , M − 1) に
ラムと論文の PDF を参加者に CD-ROM で配布すると共に，
Web で公開している．この発表プログラムには，すべての発
CR(q, N ) =
|{Dm |wn ∈ Dm }|
M
(7)
Q1 と Q2 の単語を使って求めた TF-IDF と TF-ICF の関連
ティ数， |F | は単語の検索結果中の出現頻度，τ は TF-IDF と
語の被覆率の平均値を，図 4 に示す．なお，N は 5, 10, 15, 20
TF-ICF で順位付けしたすべての関連語のケンドールの順位相
のいずれかの値とし，TF-ICF の α は 1.0 から 3.0 まで変化
関係数 [10] の値である．ここで，関連語の総数を n，2 つの関
させた．まず，全体的に TF-IDF の方が被覆率が高い．ただ
連語の順位の大小関係が一致する組の数を P として，ケンドー
し，図 4a のように α = 1 付近で TF-ICF が上回っているが，
ルの順位相関係数を次の式で求めた．
ICF は文書をより少ない数のコミュニティに集約するために，
α が小さいと IDF よりもスコアに対する影響も小さいからで
τ=
4P
−1
n(n − 1)
(9)
ある．N の増加に伴って，どちらも被覆率は向上するが，特に
TF-ICF の α は 1.0, 2.0, 3.0 とした．
「モデリング」と「コミュ
TF-IDF は N = 10 の時に Q1 で 0.905，Q2 で 0.914 と全体的
ニティ」の検索結果数は，それぞれ 70 件と 121 件であった．
に高い被覆率を示す．TF-ICF の被覆率は α の増加につれて低
TF-IDF の関連語は |C| と |F | の両方が大きい値になってい
下するが，これは関連語の専門性が高くなり，該当する論文が
るのに対して，TF-ICF は α が 2.0，3.0 となるにつれ |C| と
少なくなるからである．また，α を増加させると，最初は Q2
|F | の両方が小さな値になる傾向があることがわかる．この傾
の被覆率の平均値の方が高くても途中で逆転する．これは一般
向は出現頻度が大きくなるほど顕著である．さらに，τ も α が
的な単語である Q2 で検索した方が検索結果数が多くなること
1 の場合も 0.9 を下回り，さらに増加するほど低くなることか
から，α が小さく相対的に TF の効果の方が高い段階では Q2
ら，上位 20 件に限らず，関連語の順位が全体的に大きく異なっ
の方が一般的な関連語を提示するために被覆率が高く，α が大
ていることがわかる．
きく相対的に ICF の効果の方が高くなると関連語が専門的にな
具体的な検索語を調べると，どちらの場合も TF-IDF では
り，検索結果の範囲が広い Q2 の方が絞り込まれるからである．「研究」，
「手法」などの論文でよく用いられる単語が含まれる．
5. 5 重複率の評価
また，表 1 では「適用」，
「表現」，
「条件」，表 2 では「分析」，
検索結果中で，関連語がどの程度重複しているかを重複率
「共有」，
「情報」，
「形成」などの一般的な単語が含まれているこ
（Overlap Ratio）を用いて評価した．ある単語 q で検索した M
とがわかる．これらの単語は，TF-ICF で α が 2.0，3.0 の場合
件の論文 Dm (m = 0, . . . , M − 1) に対して，スコアの上位 N
には上位に出現しない．すなわち，TF-IDF は特に論文で使わ
件の関連語 wn (n = 0, . . . , N − 1) を提示する場合に，q に対す
れることが多いが比較的一般的な単語が，TF-ICF では特定少
る上位 N 件の関連語の重複率 OR(q, N ) を以下の式で求める．
数のコミュニティで頻繁に使われる専門用語が上位に来ること
∑M −1
OR(q, N ) =
(|{wn |wn ∈ Di }| − 1)
|{Dm |wn ∈ Dm }| × (N − 1)
i=0
が確認できる．なお，表 2 の「人起点」は複合語抽出の誤りで
(8)
なお，0 <
= OR(q, M ) <
= 1 である．例えば，N = 5 の場合は，
重複率が 0 なら各論文に関連語が 1 語，0.25 なら平均 2 語，1
ならすべての関連語が含まれることを意味し，N が増えるほど
出現する関連語数が多くなる．すなわち，値が 1 に近いほど関
連語間の重複が大きくなり，異なる関連語を使っても検索結果
生じた単語である．
ここで，α = 2 と α = 3 の場合を比較すると，表 1 ではどち
らも |C| の値は 1 に近いが α = 3 の |F | の値がさらに小さくな
り，表 2 では |C| の値も α = 3 の方が小さくなっていることが
わかる．TF-ICF で抽出したい関連語は，特定少数のコミュニ
ティで頻繁に用いられる単語であるので，α = 3 の値をあまり
大きくすることは適切でないと考えられる．
があまり変わらなくなることから，被覆率と反対で 0 に近いほ
ど良いことに注意が必要である．なお，一般に被覆率と重複率
は相反する関係があり，被覆率を良くすれば重複率が悪くなり，
重複率を良くすれば被覆率が悪くなりやすい傾向がある．
Q1 と Q2 の単語を使って求めた TF-IDF と TF-ICF の関連
語の重複率の平均値を，図 5 に示す．なお，N は 5, 10, 15, 20
のいずれかの値とし，TF-ICF の α は 1.0 から 3.0 まで変化さ
せた．これから，TF-IDF は比較的高い重複率を持ち，被覆率
が高いことも考慮すると，比較的一般的な単語が関連語として
抽出されていることがわかる．これに対して，TF-ICF は α の
増加と共に重複率が低下し，比較的低い値を取る．また，α が
1.5 から 2.0 を過ぎると大きく変化しなくなるが，これは関連
語の出現コミュニティ数が最小値の 1 に近くなるからだと考え
られる．
5. 6 上位 20 件の関連語の比較
実際に，Q1 の「モデリング」と Q2 の「コミュニティ」で
検索した時の TF-IDF と TF-ICF の上位 20 件の関連語を求
めて，表 1 と表 2 に示す．ここで，|C| は単語の出現コミュニ
6. 実クエリ集合を用いた評価
6. 1 CiNii データセット
CiNii (Citation Information by NII) は，国立情報学研究所
が提供している学術論文や図書，雑誌などの学術情報データ
ベースである．CiNii の Web サーバ群の 2013 年 4 月 1 日から
2015 年 3 月 31 日までの 2 年間のアクセスログから，論文検索
である CiNii Articles で実際に検索に使用された 29,351,579 種
類のクエリ文字列の集合を抽出した．これを CiNii データセッ
トと呼ぶ．
6. 2 評価用クエリ集合の抽出
CiNii データセットから，ユーザが実際に使用した 2 語の
AND 検索のクエリを抽出して，1 番目の単語で検索した時に 2
番目の単語を関連語として推薦することが妥当であると仮定し
て，検索語の評価に使用する．
まず，クエリ文字列を単語に分割し，2 個の単語で構成され，
かつ 1 番目の単語で検索した際に 2 番目の単語も検索結果に含
まれる単語の組を 120,222 組抽出した．
(a) N = 5
(b) N = 10
(c) N = 15
(d) N = 20
図 4: 被覆率の平均値
(a) N = 5
(b) N = 10
(c) N = 15
(d) N = 20
図 5: 重複率の平均値
表 1: Q1 の「モデリング」の関連語の順位の比較
順位
TF-IDF
TF-ICF
|C| |F | α = 1.0
|C| |F | α = 2.0
|C| |F | α = 3.0
|C| |F |
1 モデル化
51
16 モデル化
51
16 ハイブリッドシステム
1
4 ハイブリッドシステム
1
4
2 モデル
83
18 モデル
83
18 HydLa
1
4 HydLa
1
4
3 モデリング手法
4
4 研究
272
33 離散変化
1
4 離散変化
1
4
4 HydLa
1
4 ハイブリッドシステム
1
4 連続変化
1
4 連続変化
1
4
5 連続変化
1
4 HydLa
1
4 HydLa 処理系
1
3 HydLa 処理系
1
3
6 ハイブリッドシステム
1
4 離散変化
1
4 事故予防
1
3 事故予防
1
3
7 離散変化
1
4 連続変化
1
4 ハイブリッドシステムモデリング言語
1
3 ハイブリッドシステムモデリング言語
1
3
4
4 価値判断
2
3
2
3
8 研究
272
33 モデリング手法
4
4 モデリング手法
9 適用
98
9 HydLa 処理系
1
4 モデル化
51
10 表現
90
9 事故予防
1
3 価値判断
2
3 モデリング言語
1
2
11 手法
170
1
3 学問
2
3 フロアフィールドモデル
1
2
12 シミュレーション
14 ハイブリッドシステムモデリング言語
16 学問
38
6 手法
170
14 モデリング言語
1
2 LS
1
2
13 発表
109
10 発表
109
10 フロアフィールドモデル
1
2 医療行為
1
2
14 条件
30
5 表現
90
9 LS
1
2 スパースモデリング
1
2
15 HydLa 処理系
1
3 価値判断
2
3 医療行為
1
2 確率的モデリング
1
2
16 価値判断
2
3 学問
2
3 スパースモデリング
1
2 渋滞学
1
2
17 学問
2
3 事故
9
4 確率的モデリング
1
2 モデリング手法
4
4
18 ハイブリッドシステムモデリング言語
1
3 枠組み
37
6 渋滞学
1
2 ユーザモデリング手法
2
2
6 シミュレーション
38
6 モデル
83
2
2
4 適用
98
9 事故
2
2
19 枠組み
37
20 事故
9
τ
9
0.89477
18 医療サービス
4 グラフィカルモデリング
0.61954
0.46303
表 2: Q2 の「コミュニティ」の関連語の順位の比較
順位
TF-IDF
TF-ICF
|C|
|F |
α = 1.0
|C|
|F |
54
|C|
|F |
|C|
|F |
20
分析
102
32
コミュニティ構造
6
11
コミュニティ構造
6
11
102
32
コミュニティ構造
6
11
コミュニティ抽出手法
4
7
コミュニティ抽出
1
4
6
11
ネットワーク
54
20
コミュニティ抽出
1
4
コミュニティ抽出手法
4
7
α = 2.0
α = 3.0
1
ネットワーク
2
分析
3
コミュニティ構造
4
共有
47
17
共有
47
17
コミュニティ内
4
6
知識共有コミュニティ
1
3
5
情報
128
23
情報
128
23
知識共有コミュニティ
1
3
地域 SNS
1
3
6
コミュニティ抽出手法
4
7
4
7
地域 SNS
1
3
検索履歴
1
3
7
形成
28
10
研究
272
43
検索履歴
1
3
糖尿病患者ウェブコミュニティ
1
3
8
考察
88
17
考察
88
17
糖尿病患者ウェブコミュニティ
1
3
コミュニティ内
4
6
9
ノード
21
9
抽出
100
18
ネットワーク
54
20
コミュニティ支援システム
3
4
100
18
提案
257
36
コミュニティ支援システム
3
4
コミュニティ間
3
4
4
6
形成
28
10
コミュニティ間
3
4
地域コミュニティ
2
3
コミュニティ抽出手法
10
抽出
11
コミュニティ内
12
着目
81
14
支援
70
14
共有
47
17
現場関係者
1
2
13
知識
64
13
ノード
21
9
分析
102
32
人起点
1
2
14
SNS
22
6
4
6
ノード
21
9
活性化支援
1
2
15
支援
70
14
ユーザ
94
16
Yahoo!知恵袋
4
4
社会的要約
1
2
16
変化
91
13
論文
75
14
社会ネットワーク
7
5
コミュニティ交流活動
1
2
17
手法
170
21
知識
64
13
地域コミュニティ
2
3
パーソナルネットワーク
1
2
18
研究
272
43
着目
81
14
形成
28
10
研究コミュニティ
1
2
19
論文
75
14
手法
170
21
SNS
22
8
交グラフ
1
2
20
ユーザ
94
16
SNS
22
8
ソーシャルメディア
15
6
外部専門家
1
2
τ
コミュニティ内
0.89936
0.53193
0.32941
ただし，本稿で用いたシステムには人工知能分野の論文だけ
書に多く使われると思われるが，それらを用いたとしても被覆
を用いたのに対して，CiNii データセットには人工知能以外に
率も重複率も高いことから適切に絞り込めるとは限らない．さ
も，社会学，数学，生物学，医学などの他の分野の論文を探す
らに，専門用語でないことから表現が統一されておらず，例え
ために使われたクエリ文字列が多く含まれている．そこで，人
ば「抽出」なら，
「取得」，
「獲得」などの表現を用いている論文
工知能分野だけに絞り込むために，情報処理学会の論文誌用の
は検索から漏れることとなり，情報探索行動に悪影響を与える
和文キーワード（注 1）のうち，人工知能分野を示す大項目「知能
可能性が高い．
グループ」に属しているキーワードを抽出した．なお，
「・」や
実クエリにこのような一般的な単語が多用される理由は，い
「／」などで併記形式で記述されている場合は 2 つのキーワー
くつか考えられる．1 番目の理由は，
「知識の共有」のような文
ドに分割し，文章として書かれている場合はそこからキーワー
章から，ユーザが単語を抽出して検索していることである．こ
のような場合には，2 番目の単語として一般的な動名詞が来る
ドとして妥当な名詞部分だけを抽出した．
さらに，1 番目の単語にこれらのキーワードを含む単語の組
可能性が高くなる．2 番目の理由は，ユーザは出現頻度の高い
だけを抽出した結果，4,973 組の単語の組が抽出できた．以降
単語を思いつきやすい傾向があるということである．そして，
は，これを実クエリ集合と呼び，1 番目の単語を検索語，2 番
3 番目の理由は，ユーザが検索したい論文の内容は必ずしも既
目の単語を絞り込み語と呼ぶ．
知でないことが多いことから，そもそもユーザにとって絞り込
6. 3 平均逆順位の評価
みに適したキーワードを思いついて使用することが困難なタス
抽出した実クエリ集合の検索語と絞り込み語の組み合わせ
クであるということである．この場合は，TF-ICF のような特
が，検索に用いる単語とその関連語の組み合わせとして妥当
定少数のコミュニティで頻繁に使用されているような専門用語
であると仮定して，検索語で検索した時に，それから TF-ICF
をシステム側から提示することは，非常に重要であると考えら
と TF-IDF で求めた関連語リストで絞り込み語がどの程度高い
れる．
順位になっているかを調べるために，MRR(Mean Reciprocal
Rank) を用いて評価した．MRR は，検索語集合を Q とし，そ
6. 5 高頻度の絞り込み語を持つクエリを除いた平均逆順位
の評価
の i 番目の絞り込み語が TF-ICF または TF-IDF で求めた関連
次に，論文に限定するための裏技や情報探索に問題を生じる
語リストに現れる順位を ranki とした時に，次の式で求めた．
一般的な単語を除いた時に，TF-ICF の性能がどう変化するか
M RR =
|Q|
1 ∑ 1
|Q|
ranki
を分析する．実クエリ集合のうち，JSAI データセットの出現文
(10)
i=1
書数が多い上位 200 件の単語が絞り込み語として出現するクエ
リを取り除いた．この結果 3,483 組，2.9%と大幅に減少した．
つまり，検索語に対して絞り込み語を関連語として高い順位に
なお，上位 1∼5 位の単語は「研究」，
「提案」，
「手法」，
「利用」，
推薦するほど，MRR の値は高くなる．ただし，使用する検索
「システム」，196∼200 位は「判断」，
「観測」，
「設定」，
「動き」，
語と絞り込み語の組み合わせが必ずしも最適解ではないことか
「行為」であったことからわかるように，今回削除対象にした絞
ら，順位の逆数を取る MRR では，正解集合を用いる場合より
り込み語の大部分は特に専門性がない一般的な単語であった．
も，かなり低い値になりやすいことに注意が必要である．
実クエリ集合を使って TF-ICF と TF-IDF で求めた平均逆
実クエリ集合から高頻度の絞り込み語を持つクエリを除い
てから平均逆順位を算出した結果を図 6b に示す．α が 1.0 か
順位を算出した結果を図 6a に示す．TF-ICF の MRR の値は
ら増加するにつれて TF-ICF の平均逆順位は緩やかに上昇し，
α = 1.0 ではわずかに高いが，α の増加に伴って減少し，TF-
α = 1.6 でピークを迎えた後で，緩やかに下降し，α = 2.0 ま
IDF よりかなり悪い値になることがわかる．この原因として，
での大部分の区間で TF-IDF よりも良い性能を示すことがわ
実際に使われた検索語と絞り込み語の組み合わせは，我々の予
かった．
測と大きく異なっていた可能性が考えられる．
表 3: 出現頻度上位 20 件の絞り込み語
6. 4 実クエリ集合の分析
単語
頻度
1 研究
1392
11 コミュニケーション
724
2 評価
1368
12 変化
723
3 分析
1252
13 論文
689
4 学習
970
14 モデル
661
5 情報
936
15 効果
660
6 システム
902
16 環境
643
単語であり，これは論文の題名の最後に用いられることが多い．
7 影響
856
17 課題
600
つまり，特に最近雑誌の記事などの論文以外のデータ量が激増
8 行動
797
18 ロボット
584
している CiNii で，論文だけに絞り込むための裏技として活用
9 支援
772
19 開発
580
されている可能性が高い．これ以外の，単語も確かに技術系文
10 比較
742
20 実験
564
CiNii のユーザがどのような単語を絞り込みに使っているの
かを知るために，評価に用いた実クエリ集合における出現頻度
の上位 20 件の絞り込み語を表 3 に示す．これらの絞り込み語
を見ると，単語集合を用いた評価で TF-IDF で得られる関連語
と傾向が類似していることがわかる．特に頻度が多い「研究」，
「評価」，
「分析」は，すでに述べたように論文でよく使われる
（注 1）：https://www.ipsj.or.jp/prms/office/show_keyword.do
順位
順位
単語
頻度
かと推測している．
8. おわりに
本稿では，TF-ICF を用いることで，論文検索システムにお
いてクエリの関連語を推薦する手法を提案した．TF-ICF は単
語のコミュニティ性に着目しているため，特に論文の題名と
概要などの限られた情報しか扱えないような場合に，従来の
TF-IDF に代表される文書ベースの手法と比較して，専門性が
高い用語を推薦できることを，単語集合や実クエリ集合を用い
(a) 実クエリ集合を用いた場合
た評価で確認した．
ただし，論文検索システムである CiNii で用いられた実クエ
リを簡単に分析した結果，我々が想定していたような専門用語
を絞り込み語に用いる以外のクエリパターンがあり，さらにそ
の中に論文を探索するという行動においてあまり適切でない
クエリパターンも多く存在する可能性が示唆された．今後は，
CiNii の検索履歴を用いてユーザの実際の検索行動を詳細に分
析し，論文検索サービスにおけるユーザ側の問題点と，それを
支援するために必要とされる技術を明らかにする予定である．
また，本手法は，例えばソーシャルメディアの発言のような，
情報のテキスト長は短くても，その情報を生成した人間関係
(b) 高頻度の絞り込み語を持つクエリを除いた場合
図 6: MRR
ネットワークを持つようなデータに対しても有効だと思われる．
謝
辞
本研究は，国立情報学研究所公募型共同研究「学術情報サー
7. 考
察
ビスのユーザ履歴データの分析」の助成を受けた．
単語集合を用いた評価では，TF-ICF を用いることで，TF-
IDF よりも専門性が高い単語を推薦できることがわかった．さ
らに，重複率の平均値が TF-IDF よりかなり低いことから，特
定少数のコミュニティで頻出する語を比較的うまく抽出できて
いることがわかった．ただし，被覆率の平均値が TF-IDF より
かなり悪いことから，推薦する関連語数 N は比較的大きく設
定した方がよいと考えられる．
実クエリ集合を用いた評価では，現実のユーザが用いるクエ
リの種類はいくつかあり，さらに必ずしも論文検索として妥当
なクエリを入力しているとは限らない可能性と，その理由が論
文検索の絞り込みに使うために適切な専門用語を思いつくこと
が困難なタスクである可能性が示唆された．実際に，検索の裏
技に使われる単語や妥当とは思えない絞り込み語を除いた場合
に，TF-ICF の方が良い性能を示すことを確認した．
α の値については，α を増加させると重複率がある時点から
あまり変わらなくなること，表 2 の「人起点」のような，複合
語抽出処理の誤りにより生じたほとんど出現しない単語まで推
薦されてしまう可能性があること，そして関連語の出現コミュ
ニティ数 |C| と出現頻度 |F | が小さくなりすぎて，想定してい
た「特定少数のコミュニティで頻繁に使われる単語」から離れ
てしまうために，あまり大きな値を用いるのは適切ではないこ
とがわかった．さらに詳細な分析が必要だが，重複率の変化や
高頻度の絞り込み語を持つクエリを除いた実クエリ集合の分析
結果から，α の値は 1.5 から 2.0 程度にするのが適切ではない
文
献
[1] 石橋和樹, 南出直樹, 風間一洋, 篠田考祐. 単語のコミュニティ
性に基づいた専門用語の抽出. 人工知能学会全国大会論文集, 第
28 巻, pp. 1–4, 2014.
[2] 大塚真吾, 喜連川優. 大規模アクセスログを用いた検索支援
システム. 日本データベース学会 Letters, Vol. 5, No. 1, pp.
13–16, 2006.
[3] 近藤光正, 森田哲之, 田中明通, 内山匡. PC 上の Web 閲覧
履歴からのクエリ抽出技術を用いたモバイル情報検索システム.
人工知能学会全国大会論文集, 第 22 巻, pp. 1–4, 2008.
[4] 堀幸雄, 今井慈朗, 中山堯. ユーザの Web 閲覧履歴を用いた検
索支援システム. 情報知識学会誌, Vol. 17, No. 2, pp. 95–100,
2007.
[5] 安辺川武, 高野明彦. 書誌検索における関連語表示法の検討. 言
語処理学会年次大会発表論文集, 第 16 巻, pp. 102–105, 2010.
[6] 榊剛史, 松尾豊, 内山幸樹, 石塚満. Web 上の情報を用いた関
連語のシソーラス構築について. 自然言語処理, Vol. 14, No. 2,
pp. 3–31, 2007.
[7] Aaron Clauset, M. E. J. Newman, and Cristopher Moore.
Finding Community Structure in Very Large Networks.
Physical Review E, Vol. 70, No. 6, 2004.
[8] Karen Spärck Jones. A Statistical Interpretation of Term
Specificity and its Application in Retrieval. Journal of Documentation, Vol. 28, No. 1, pp. 11–21, 1972.
[9] Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Modern
Information Retrieval. Addison Wesley, 1999.
[10] 土方喜徳. 推薦システムのオフライン評価手法. 人工知能学会
誌, Vol. 29, No. 6, pp. 658–689, 2014.