Comments
Description
Transcript
単語のコミュニティ性に基づいたクエリの関連語推薦
DEIM Forum 2016 C8-4 単語のコミュニティ性に基づいたクエリの関連語推薦 岡崎 伸也† 風間 一洋† 篠田 孝祐†† 大向 一輝††† † 和歌山大学 システム工学部 〒 640–8510 和歌山県和歌山市栄谷 930 †† 電気通信大学 大学院情報システム学研究科 〒 182-8585 東京都調布市調布ケ丘 1 丁目 5 番地 1 ††† 国立情報学研究所 コンテンツ科学研究系 〒 101-8430 東京都千代田区一ツ橋 2-1-2 E-mail: †{s171013,kazama}@center.wakayama-u.ac.jp, ††[email protected], †††[email protected] あらまし 本稿では,単語のコミュニティ性に基づいた重み付け指標である TF-ICF を用いて,論文検索に用いたク エリの関連語を提示する手法を提案する.ICF は,論文の共著関係ネットワークから抽出した著者コミュニティ群に おける単語の分布から計算される.実際に,人工知能学会全国大会の 13 年分の書誌情報を対象に,出現頻度の異なる 2 種類のクエリ集合から求めた関連語の被覆率・重複率を既存手法と比較して有効性を示す.さらに,CiNii のアクセ スログから実際に検索結果の絞り込みに使用されたキーワードを分析することで,TF-ICF による関連語が検索支援 の場面で有効であることを示す. キーワード TF-ICF,コミュニティ性,文献検索,情報推薦,関連語 1. は じ め に 近年,研究開発の競争の激化に伴い,様々な技術の創出だけ ページ,あるいは Web ページのリンク構造から抽出した Web コミュニティに対する閲覧数などを用いて算出し,あるクエリ に関連するクエリを提示するシステムを提案した [2]. でなく,陳腐化も早まってきている.そのような技術動向を追 近藤らは,ユーザの Web 閲覧履歴中の Web ページから単語 うためには,例えば CiNii や ACM Digital Library のような 群を見出し語とする Wikipedia のページの重要度を,HITS を 論文検索システムで検索を繰り返すことで,研究開発の現状を 改良したアルゴリズムを用いて求めて,その上位の語をユーザ ある程度まで調べることができるが,クエリはユーザ自身が入 に提示するシステムを提案した [3]. 力する必要があるので,未知の分野を調べることは難しい.そ 堀らは,ユーザの Web 閲覧履歴中の Web ページから抽出し こで,システムが自動的に抽出した関連語をユーザに提示でき た単語群を自己組織化マップでクラスタリングし,クエリと類 れば,論文探索の有益な手がかりになると考えられる. 似する単語を関連語として提示する手法を提案した [4]. 例えば,重要語の抽出には TF-IDF が用いられるが,論文の ただし,履歴ベースの手法では十分な履歴がなければ有用な 題名や概要などの書誌情報しか利用できない場合は,限られた 推薦ができないコールドスタート問題が存在し,本稿では利用 長さのテキストで単語の重複を避けて記述するために重要語の できない. 出現数が少なくなり,従来手法では良い結果が得られなかった. 2. 2 コンテンツベースの関連語推薦 そこで石橋らは,単語のコミュニティ性に基づく重み付け指 安辺川らは,書誌検索の絞り込みに使用する関連語をユーザ 標である TF-ICF を提案した [1].ICF は,論文の共著ネット に推薦するために,文献の書誌情報から得られるテキスト中の ワークから抽出した著者コミュニティ群における単語分布から 単語群に対して TF-IDF や BM25,TermExtract によるラン 計算されるために,書誌情報のような限られたデータの場合に, ク付け手法を検討し,BM25 が最も被験者からの評価が高くな 従来手法よりも良い結果が得られることが期待できる. る関連語を推薦できることを示した [5]. 本稿では,論文検索におけるクエリの関連語を,TF-ICF で 榊らは,Web 上のテキスト情報を利用して,クエリ拡張など 選択して提示する手法を提案する.さらに,人工知能学会全国 に応用できる関連語のシソーラスを自動的に構築する手法を提 大会の 13 年分の書誌情報を対象に,出現頻度が異なる 2 種類 案した [6]. のクエリ集合とその関連語を用いて,被覆率・重複率などの観 これらの研究は単語の出現頻度や単語間の関連度を用いるが, 点から TF-IDF と比較する.また,CiNii のアクセスログから 本稿では文書の著者とその共著者の関係から求めた著者コミュ 抽出した実際に検索結果の絞り込みに使用された 2 語で構成さ ニティを利用して単語のコミュニティ性を考慮するという点が れるクエリを用いて分析することで,TF-ICF による関連語が 異なる. 検索支援として有効であることを示す. 2. 関 連 研 究 2. 1 履歴ベースの関連語推薦 3. 単語のコミュニティ性 3. 1 コミュニティ性 コミュニティ性は,ある単語がどのような著者達のコミュニ 大塚らは Web の大規模アクセスログを解析し,検索に使用 ティで活用されているかについての性質である.例えば,専門 されたクエリ間の関連度を,クエリ入力後に閲覧された Web 用語であれば,少数の関連する専門家のコミュニティで頻繁に (b) 単語–論文–著者の 3 部グラフ 6 2 (a) 単語–論文の 2 部グラフ 4 ICF (w i ) 8 10 α=1 α=2 α=3 0 図 1: 単語と論文の n 部グラフ構造 0.0 0.2 0.4 r (w i ) 0.6 0.8 1.0 使われるが,一般用語であれば多数のコミュニティで広く使わ 図 2: r(wi ),ICF (wi ) と α の関係 れるなど,その単語の性質に応じて出現分布パターンに固有の 特徴があると考えられる.石橋らは,このようなコミュニティ 性に基づいて単語の専門性を定量化する指標 ICF と,それを 用いた単語のスコアの計算法 TF-ICF を提案した. 3. 2 ICF(Inverse Community Frequency) ICF は, 「専門用語とは,特定の専門家達の間で共有される言 葉である」という前提に基づいて,著者のコミュニティ群から 求めた単語の専門性の指標である. 例えば TF-IDF は,単語–文書(論文)という 2 部グラフ構 造(図 1a )から求められる.しかし,論文アーカイブの場合 は,共著者情報を加えて単語–文書(論文)–著者という 3 部グ ( 3 ) データセット中の単語 wi に関して,単語 wi が出現す る論文の筆頭著者の集合を取得する. ( 4 ) 単語 wi が出現する論文の筆頭著者の集合から,単語 wi が出現するコミュニティ集合を求めて,そのコミュニティ数 を c(wi ) とする. ( 5 ) 単語 wi のコミュニティ集合における出現率 r(wi )(0 < = r(wi ) < = 1) を求める. r(wi ) = c(wi ) C (1) ラフ構造(図 1b )に拡張できる.さらに,論文は複数人の著者 ここで,C はクラスタリングによって得られた全コミュニティ によって書かれることが多いことから,文書–著者の部分を変 数である. 換した共著ネットワークは,頻繁に共同研究している著者達の コミュニティに分割できる.つまり,単語が決まれば,その単 ( 6 ) 単語 wi の ICF の値 ICF (wi ) を計算する. ICF (wi ) = (log( 語を使用している著者のコミュニティの集合が決定される. 例えば,一般的に著者の論文生産性には大きな差があること から,一人の著者だけが用いる専門用語の頻度は,グラフ構造 1 ))α r(wi ) (2) ここで,α は定数である. すなわち,図 1b 上で考えると,単語レベルから論文レベル, の論文のレベルでは大きく異なることになるが,著者のレベル 論文レベルから著者レベルに写像した上で,共著関係ネット では同一となる.さらに,同じ専門分野の著者が共同研究する ワークにおける該当コミュニティを求めていることになり,こ チームとして多数の論文を書く場合にも,論文のレベルでは差 の過程において個人やグループのアクティビティの差が除去さ が出ても,共著ネットワークでは,一つのコミュニティに集約 れ,著者のレベルからみた専門性をより忠実に反映させること されることになる.つまり,専門用語であれば少数のコミュニ が可能となる. ティに出現し,一般用語であれば多数のコミュニティに出現す ここで r(wi ) の逆数の対数を α 乗する理由は,r(wi ) の値の るので,ICF では,コミュニティ集合における単語の出現確率 大小に対して,コミュニティに写像されることで小さくなりが を定量化することで単語の専門性を判定する. ちな ICF (wi ) の効果を調節するためである.r(wi ),ICF (wi ) 3. 3 ICF の計算 単語 wi の ICF の値 ICF (wi )(1 < = K) は以下のように =i< 計算する.K は総単語数である. と α の関係を図 2 に示す.これから,α の値を増やすほど, ICF (wi ) の変化が大きくなる. 3. 4 TF-ICF ( 1 ) データセットに含まれる全論文に対して,同一の論文 TF-IDF は情報探索やテキストマイニングなどの分野で利 を執筆した著者同士にエッジを張ることで,共著関係ネット 用され、文書中に出現した単語がどのくらい特徴的である ワークを構築する.なお,小規模コミュニティの増加による性 かを識別するための指標である [8].単語 wi の TF-IDF の値 能低下を避けるために,Jaccard 係数や Simpson 係数は使用し T F -IDF (wi ) は,ある文書に単語が出現する度合いを表す TF ない. ( 2 ) 共著ネットワークを Clauset らの CNM 法 [7] を用い てコミュニティに分割し,著者と所属コミュニティの関係を取 得する. (Term Frequency)の値 T F (wi ) と,単語が文書全体に出現 する度合いの逆数である IDF(Inverse Document Frequency) の値 IDF (wi ) の積で与えられる. T F (wi ) = n(wi ) ΣK k=1 n(wk ) (3) IDF (wi ) = log D d(wi ) T F -IDF (wi ) = T F (wi ) × IDF (wi ) (4) (5) ここで,n(wi ) は単語 wi の出現回数,D は総ドキュメント数, d(wi ) は単語 wi を含むドキュメント数である. 本稿では,IDF を ICF に置き換えた TF-ICF を用いる.単 語 wi の TF-ICF 値である T F -ICF (wi ) は次のように定義さ れる. T F -ICF (wi ) = T F (wi ) × ICF (wi ) (6) なお,TF-ICF では,一般的な単語や特定のコミュニティしか 使わない固有名詞を低く評価することを目的とするが,この際 のバランスは定数 α で調整できる. 4. TF-ICF を用いたクエリの関連語の抽出 4. 1 関連語推薦による検索支援 本稿では,論文検索のクエリの関連語を,検索結果の絞り込 みに用いる状況を想定する.例えば,検索結果と同時にクエリ と関連語の一覧を表示し,調べたい内容を示す関連語をクリッ 図 3: 論文探索システムの実行例 クするだけで AND 検索できれば,複数の関連語を切り替える ことで膨大な検索結果を効率よく調べることができる. このような状況では,表示される関連語はクエリが表すメイ 表の時刻,演題番号,題目,著者に加えて概要も掲載されてい ントピックのサブトピックを表す専門用語であることが望まし ることから,2003 年から 2015 年までの 13 年間の HTML 形 い.例えば,一般的な関連語で絞り込んでも,検索結果数があ 式の発表プログラムを収集し,書誌情報とキーワードを抽出し まり変わらなかったり,表現の多様性から検索漏れが生じたり た.これを JSAI データセットと呼び,5570 件の発表と 33914 して,検索結果を効率よく調べることはできない. 語のキーワード,6393 名の著者が含まれる. さらに,クエリが表すメイントピック空間のなるべく広い範 5. 2 JSAI 全国大会論文検索システム 囲に,関連語を使い分けることで効率よくアクセスできること 石橋らは,JSAI データセットを対象に,キーワードと著者 が望ましい.例えば,すべての関連語を使っても検索結果のご を手掛かりに単語—論文—著者という 3 部グラフ構造を辿って く一部しか見れないとか,異なる関連語でも絞り込み結果があ 論文を探索できるシステムを,Python と MongoDB を用いて まり変わらなければ,有用性は低い. 作成した [1].図 3 に示すように,このシステムでは著者名また そこで,各コミュニティの持つトピックを反映した専門用語 はキーワードを入力すると,検索結果に含まれる複数の論文を を抽出できる TF-ICF を用いて,上記の性質を満たすような関 著者グループごとに表示し,さらに論文の探索に有効な主要著 連語推薦を試みる. 者と関連語を提示する.本稿では,このシステムに手を加えて 4. 2 関連語の抽出法 クエリの関連語は,以下の手順で抽出する. ( 1 ) クエリの検索結果に含まれる全単語の TF を算出する. ( 2 ) パラメータ α を指定して事前計算した ICF 値を用い て,各単語の TF-ICF 値を計算する. ( 3 ) TF-ICF 値の上位 N 件の単語を関連語として抽出する. なお,パラメータ α は抽出される単語の特性に影響する.例 評価に使用した. 5. 3 評価用単語集合の作成 さらに JSAI データセットから出現文書数が 50∼99 件または 100∼150 件の単語を抽出し,その 2 種類の単語集合 Q1 ,Q2 を評価に用いた.|Q1 | = 276,|Q2 | = 97 である.Q1 の単語は 専門的な用語が,Q2 の単語は論文で比較的良く用いられる一 般的な用語が多く含まれていた. えば,α が小さいほど TF の効果が高くなるために,より一般 5. 4 被覆率の評価 的な単語が,α が大きいほど ICF の効果が高くなるために,よ ある単語の検索結果に対して求めた各関連語を使って AND り専門的な単語が抽出される. 検索した場合に,元の検索結果のどの程度の割合の論文を閲覧 5. 単語集合による評価 できるかを,被覆率(Coverage Ratio)[9] を使って評価した. 5. 1 JSAI データセット 対して,スコアの上位 N 件の関連語 wn (n = 0, . . . , N − 1) を 人工知能学会は毎年全国大会を開催しており,発表プログ 提示する場合に,被覆率 CR(q, N ) は以下の式で求める. ある単語 q で検索した M 件の論文 Dm (m = 0, . . . , M − 1) に ラムと論文の PDF を参加者に CD-ROM で配布すると共に, Web で公開している.この発表プログラムには,すべての発 CR(q, N ) = |{Dm |wn ∈ Dm }| M (7) Q1 と Q2 の単語を使って求めた TF-IDF と TF-ICF の関連 ティ数, |F | は単語の検索結果中の出現頻度,τ は TF-IDF と 語の被覆率の平均値を,図 4 に示す.なお,N は 5, 10, 15, 20 TF-ICF で順位付けしたすべての関連語のケンドールの順位相 のいずれかの値とし,TF-ICF の α は 1.0 から 3.0 まで変化 関係数 [10] の値である.ここで,関連語の総数を n,2 つの関 させた.まず,全体的に TF-IDF の方が被覆率が高い.ただ 連語の順位の大小関係が一致する組の数を P として,ケンドー し,図 4a のように α = 1 付近で TF-ICF が上回っているが, ルの順位相関係数を次の式で求めた. ICF は文書をより少ない数のコミュニティに集約するために, α が小さいと IDF よりもスコアに対する影響も小さいからで τ= 4P −1 n(n − 1) (9) ある.N の増加に伴って,どちらも被覆率は向上するが,特に TF-ICF の α は 1.0, 2.0, 3.0 とした. 「モデリング」と「コミュ TF-IDF は N = 10 の時に Q1 で 0.905,Q2 で 0.914 と全体的 ニティ」の検索結果数は,それぞれ 70 件と 121 件であった. に高い被覆率を示す.TF-ICF の被覆率は α の増加につれて低 TF-IDF の関連語は |C| と |F | の両方が大きい値になってい 下するが,これは関連語の専門性が高くなり,該当する論文が るのに対して,TF-ICF は α が 2.0,3.0 となるにつれ |C| と 少なくなるからである.また,α を増加させると,最初は Q2 |F | の両方が小さな値になる傾向があることがわかる.この傾 の被覆率の平均値の方が高くても途中で逆転する.これは一般 向は出現頻度が大きくなるほど顕著である.さらに,τ も α が 的な単語である Q2 で検索した方が検索結果数が多くなること 1 の場合も 0.9 を下回り,さらに増加するほど低くなることか から,α が小さく相対的に TF の効果の方が高い段階では Q2 ら,上位 20 件に限らず,関連語の順位が全体的に大きく異なっ の方が一般的な関連語を提示するために被覆率が高く,α が大 ていることがわかる. きく相対的に ICF の効果の方が高くなると関連語が専門的にな 具体的な検索語を調べると,どちらの場合も TF-IDF では り,検索結果の範囲が広い Q2 の方が絞り込まれるからである. 「研究」, 「手法」などの論文でよく用いられる単語が含まれる. 5. 5 重複率の評価 また,表 1 では「適用」, 「表現」, 「条件」,表 2 では「分析」, 検索結果中で,関連語がどの程度重複しているかを重複率 「共有」, 「情報」, 「形成」などの一般的な単語が含まれているこ (Overlap Ratio)を用いて評価した.ある単語 q で検索した M とがわかる.これらの単語は,TF-ICF で α が 2.0,3.0 の場合 件の論文 Dm (m = 0, . . . , M − 1) に対して,スコアの上位 N には上位に出現しない.すなわち,TF-IDF は特に論文で使わ 件の関連語 wn (n = 0, . . . , N − 1) を提示する場合に,q に対す れることが多いが比較的一般的な単語が,TF-ICF では特定少 る上位 N 件の関連語の重複率 OR(q, N ) を以下の式で求める. 数のコミュニティで頻繁に使われる専門用語が上位に来ること ∑M −1 OR(q, N ) = (|{wn |wn ∈ Di }| − 1) |{Dm |wn ∈ Dm }| × (N − 1) i=0 が確認できる.なお,表 2 の「人起点」は複合語抽出の誤りで (8) なお,0 < = OR(q, M ) < = 1 である.例えば,N = 5 の場合は, 重複率が 0 なら各論文に関連語が 1 語,0.25 なら平均 2 語,1 ならすべての関連語が含まれることを意味し,N が増えるほど 出現する関連語数が多くなる.すなわち,値が 1 に近いほど関 連語間の重複が大きくなり,異なる関連語を使っても検索結果 生じた単語である. ここで,α = 2 と α = 3 の場合を比較すると,表 1 ではどち らも |C| の値は 1 に近いが α = 3 の |F | の値がさらに小さくな り,表 2 では |C| の値も α = 3 の方が小さくなっていることが わかる.TF-ICF で抽出したい関連語は,特定少数のコミュニ ティで頻繁に用いられる単語であるので,α = 3 の値をあまり 大きくすることは適切でないと考えられる. があまり変わらなくなることから,被覆率と反対で 0 に近いほ ど良いことに注意が必要である.なお,一般に被覆率と重複率 は相反する関係があり,被覆率を良くすれば重複率が悪くなり, 重複率を良くすれば被覆率が悪くなりやすい傾向がある. Q1 と Q2 の単語を使って求めた TF-IDF と TF-ICF の関連 語の重複率の平均値を,図 5 に示す.なお,N は 5, 10, 15, 20 のいずれかの値とし,TF-ICF の α は 1.0 から 3.0 まで変化さ せた.これから,TF-IDF は比較的高い重複率を持ち,被覆率 が高いことも考慮すると,比較的一般的な単語が関連語として 抽出されていることがわかる.これに対して,TF-ICF は α の 増加と共に重複率が低下し,比較的低い値を取る.また,α が 1.5 から 2.0 を過ぎると大きく変化しなくなるが,これは関連 語の出現コミュニティ数が最小値の 1 に近くなるからだと考え られる. 5. 6 上位 20 件の関連語の比較 実際に,Q1 の「モデリング」と Q2 の「コミュニティ」で 検索した時の TF-IDF と TF-ICF の上位 20 件の関連語を求 めて,表 1 と表 2 に示す.ここで,|C| は単語の出現コミュニ 6. 実クエリ集合を用いた評価 6. 1 CiNii データセット CiNii (Citation Information by NII) は,国立情報学研究所 が提供している学術論文や図書,雑誌などの学術情報データ ベースである.CiNii の Web サーバ群の 2013 年 4 月 1 日から 2015 年 3 月 31 日までの 2 年間のアクセスログから,論文検索 である CiNii Articles で実際に検索に使用された 29,351,579 種 類のクエリ文字列の集合を抽出した.これを CiNii データセッ トと呼ぶ. 6. 2 評価用クエリ集合の抽出 CiNii データセットから,ユーザが実際に使用した 2 語の AND 検索のクエリを抽出して,1 番目の単語で検索した時に 2 番目の単語を関連語として推薦することが妥当であると仮定し て,検索語の評価に使用する. まず,クエリ文字列を単語に分割し,2 個の単語で構成され, かつ 1 番目の単語で検索した際に 2 番目の単語も検索結果に含 まれる単語の組を 120,222 組抽出した. (a) N = 5 (b) N = 10 (c) N = 15 (d) N = 20 図 4: 被覆率の平均値 (a) N = 5 (b) N = 10 (c) N = 15 (d) N = 20 図 5: 重複率の平均値 表 1: Q1 の「モデリング」の関連語の順位の比較 順位 TF-IDF TF-ICF |C| |F | α = 1.0 |C| |F | α = 2.0 |C| |F | α = 3.0 |C| |F | 1 モデル化 51 16 モデル化 51 16 ハイブリッドシステム 1 4 ハイブリッドシステム 1 4 2 モデル 83 18 モデル 83 18 HydLa 1 4 HydLa 1 4 3 モデリング手法 4 4 研究 272 33 離散変化 1 4 離散変化 1 4 4 HydLa 1 4 ハイブリッドシステム 1 4 連続変化 1 4 連続変化 1 4 5 連続変化 1 4 HydLa 1 4 HydLa 処理系 1 3 HydLa 処理系 1 3 6 ハイブリッドシステム 1 4 離散変化 1 4 事故予防 1 3 事故予防 1 3 7 離散変化 1 4 連続変化 1 4 ハイブリッドシステムモデリング言語 1 3 ハイブリッドシステムモデリング言語 1 3 4 4 価値判断 2 3 2 3 8 研究 272 33 モデリング手法 4 4 モデリング手法 9 適用 98 9 HydLa 処理系 1 4 モデル化 51 10 表現 90 9 事故予防 1 3 価値判断 2 3 モデリング言語 1 2 11 手法 170 1 3 学問 2 3 フロアフィールドモデル 1 2 12 シミュレーション 14 ハイブリッドシステムモデリング言語 16 学問 38 6 手法 170 14 モデリング言語 1 2 LS 1 2 13 発表 109 10 発表 109 10 フロアフィールドモデル 1 2 医療行為 1 2 14 条件 30 5 表現 90 9 LS 1 2 スパースモデリング 1 2 15 HydLa 処理系 1 3 価値判断 2 3 医療行為 1 2 確率的モデリング 1 2 16 価値判断 2 3 学問 2 3 スパースモデリング 1 2 渋滞学 1 2 17 学問 2 3 事故 9 4 確率的モデリング 1 2 モデリング手法 4 4 18 ハイブリッドシステムモデリング言語 1 3 枠組み 37 6 渋滞学 1 2 ユーザモデリング手法 2 2 6 シミュレーション 38 6 モデル 83 2 2 4 適用 98 9 事故 2 2 19 枠組み 37 20 事故 9 τ 9 0.89477 18 医療サービス 4 グラフィカルモデリング 0.61954 0.46303 表 2: Q2 の「コミュニティ」の関連語の順位の比較 順位 TF-IDF TF-ICF |C| |F | α = 1.0 |C| |F | 54 |C| |F | |C| |F | 20 分析 102 32 コミュニティ構造 6 11 コミュニティ構造 6 11 102 32 コミュニティ構造 6 11 コミュニティ抽出手法 4 7 コミュニティ抽出 1 4 6 11 ネットワーク 54 20 コミュニティ抽出 1 4 コミュニティ抽出手法 4 7 α = 2.0 α = 3.0 1 ネットワーク 2 分析 3 コミュニティ構造 4 共有 47 17 共有 47 17 コミュニティ内 4 6 知識共有コミュニティ 1 3 5 情報 128 23 情報 128 23 知識共有コミュニティ 1 3 地域 SNS 1 3 6 コミュニティ抽出手法 4 7 4 7 地域 SNS 1 3 検索履歴 1 3 7 形成 28 10 研究 272 43 検索履歴 1 3 糖尿病患者ウェブコミュニティ 1 3 8 考察 88 17 考察 88 17 糖尿病患者ウェブコミュニティ 1 3 コミュニティ内 4 6 9 ノード 21 9 抽出 100 18 ネットワーク 54 20 コミュニティ支援システム 3 4 100 18 提案 257 36 コミュニティ支援システム 3 4 コミュニティ間 3 4 4 6 形成 28 10 コミュニティ間 3 4 地域コミュニティ 2 3 コミュニティ抽出手法 10 抽出 11 コミュニティ内 12 着目 81 14 支援 70 14 共有 47 17 現場関係者 1 2 13 知識 64 13 ノード 21 9 分析 102 32 人起点 1 2 14 SNS 22 6 4 6 ノード 21 9 活性化支援 1 2 15 支援 70 14 ユーザ 94 16 Yahoo!知恵袋 4 4 社会的要約 1 2 16 変化 91 13 論文 75 14 社会ネットワーク 7 5 コミュニティ交流活動 1 2 17 手法 170 21 知識 64 13 地域コミュニティ 2 3 パーソナルネットワーク 1 2 18 研究 272 43 着目 81 14 形成 28 10 研究コミュニティ 1 2 19 論文 75 14 手法 170 21 SNS 22 8 交グラフ 1 2 20 ユーザ 94 16 SNS 22 8 ソーシャルメディア 15 6 外部専門家 1 2 τ コミュニティ内 0.89936 0.53193 0.32941 ただし,本稿で用いたシステムには人工知能分野の論文だけ 書に多く使われると思われるが,それらを用いたとしても被覆 を用いたのに対して,CiNii データセットには人工知能以外に 率も重複率も高いことから適切に絞り込めるとは限らない.さ も,社会学,数学,生物学,医学などの他の分野の論文を探す らに,専門用語でないことから表現が統一されておらず,例え ために使われたクエリ文字列が多く含まれている.そこで,人 ば「抽出」なら, 「取得」, 「獲得」などの表現を用いている論文 工知能分野だけに絞り込むために,情報処理学会の論文誌用の は検索から漏れることとなり,情報探索行動に悪影響を与える 和文キーワード(注 1) のうち,人工知能分野を示す大項目「知能 可能性が高い. グループ」に属しているキーワードを抽出した.なお, 「・」や 実クエリにこのような一般的な単語が多用される理由は,い 「/」などで併記形式で記述されている場合は 2 つのキーワー くつか考えられる.1 番目の理由は, 「知識の共有」のような文 ドに分割し,文章として書かれている場合はそこからキーワー 章から,ユーザが単語を抽出して検索していることである.こ のような場合には,2 番目の単語として一般的な動名詞が来る ドとして妥当な名詞部分だけを抽出した. さらに,1 番目の単語にこれらのキーワードを含む単語の組 可能性が高くなる.2 番目の理由は,ユーザは出現頻度の高い だけを抽出した結果,4,973 組の単語の組が抽出できた.以降 単語を思いつきやすい傾向があるということである.そして, は,これを実クエリ集合と呼び,1 番目の単語を検索語,2 番 3 番目の理由は,ユーザが検索したい論文の内容は必ずしも既 目の単語を絞り込み語と呼ぶ. 知でないことが多いことから,そもそもユーザにとって絞り込 6. 3 平均逆順位の評価 みに適したキーワードを思いついて使用することが困難なタス 抽出した実クエリ集合の検索語と絞り込み語の組み合わせ クであるということである.この場合は,TF-ICF のような特 が,検索に用いる単語とその関連語の組み合わせとして妥当 定少数のコミュニティで頻繁に使用されているような専門用語 であると仮定して,検索語で検索した時に,それから TF-ICF をシステム側から提示することは,非常に重要であると考えら と TF-IDF で求めた関連語リストで絞り込み語がどの程度高い れる. 順位になっているかを調べるために,MRR(Mean Reciprocal Rank) を用いて評価した.MRR は,検索語集合を Q とし,そ 6. 5 高頻度の絞り込み語を持つクエリを除いた平均逆順位 の評価 の i 番目の絞り込み語が TF-ICF または TF-IDF で求めた関連 次に,論文に限定するための裏技や情報探索に問題を生じる 語リストに現れる順位を ranki とした時に,次の式で求めた. 一般的な単語を除いた時に,TF-ICF の性能がどう変化するか M RR = |Q| 1 ∑ 1 |Q| ranki を分析する.実クエリ集合のうち,JSAI データセットの出現文 (10) i=1 書数が多い上位 200 件の単語が絞り込み語として出現するクエ リを取り除いた.この結果 3,483 組,2.9%と大幅に減少した. つまり,検索語に対して絞り込み語を関連語として高い順位に なお,上位 1∼5 位の単語は「研究」, 「提案」, 「手法」, 「利用」, 推薦するほど,MRR の値は高くなる.ただし,使用する検索 「システム」,196∼200 位は「判断」, 「観測」, 「設定」, 「動き」, 語と絞り込み語の組み合わせが必ずしも最適解ではないことか 「行為」であったことからわかるように,今回削除対象にした絞 ら,順位の逆数を取る MRR では,正解集合を用いる場合より り込み語の大部分は特に専門性がない一般的な単語であった. も,かなり低い値になりやすいことに注意が必要である. 実クエリ集合を使って TF-ICF と TF-IDF で求めた平均逆 実クエリ集合から高頻度の絞り込み語を持つクエリを除い てから平均逆順位を算出した結果を図 6b に示す.α が 1.0 か 順位を算出した結果を図 6a に示す.TF-ICF の MRR の値は ら増加するにつれて TF-ICF の平均逆順位は緩やかに上昇し, α = 1.0 ではわずかに高いが,α の増加に伴って減少し,TF- α = 1.6 でピークを迎えた後で,緩やかに下降し,α = 2.0 ま IDF よりかなり悪い値になることがわかる.この原因として, での大部分の区間で TF-IDF よりも良い性能を示すことがわ 実際に使われた検索語と絞り込み語の組み合わせは,我々の予 かった. 測と大きく異なっていた可能性が考えられる. 表 3: 出現頻度上位 20 件の絞り込み語 6. 4 実クエリ集合の分析 単語 頻度 1 研究 1392 11 コミュニケーション 724 2 評価 1368 12 変化 723 3 分析 1252 13 論文 689 4 学習 970 14 モデル 661 5 情報 936 15 効果 660 6 システム 902 16 環境 643 単語であり,これは論文の題名の最後に用いられることが多い. 7 影響 856 17 課題 600 つまり,特に最近雑誌の記事などの論文以外のデータ量が激増 8 行動 797 18 ロボット 584 している CiNii で,論文だけに絞り込むための裏技として活用 9 支援 772 19 開発 580 されている可能性が高い.これ以外の,単語も確かに技術系文 10 比較 742 20 実験 564 CiNii のユーザがどのような単語を絞り込みに使っているの かを知るために,評価に用いた実クエリ集合における出現頻度 の上位 20 件の絞り込み語を表 3 に示す.これらの絞り込み語 を見ると,単語集合を用いた評価で TF-IDF で得られる関連語 と傾向が類似していることがわかる.特に頻度が多い「研究」, 「評価」, 「分析」は,すでに述べたように論文でよく使われる (注 1):https://www.ipsj.or.jp/prms/office/show_keyword.do 順位 順位 単語 頻度 かと推測している. 8. お わ り に 本稿では,TF-ICF を用いることで,論文検索システムにお いてクエリの関連語を推薦する手法を提案した.TF-ICF は単 語のコミュニティ性に着目しているため,特に論文の題名と 概要などの限られた情報しか扱えないような場合に,従来の TF-IDF に代表される文書ベースの手法と比較して,専門性が 高い用語を推薦できることを,単語集合や実クエリ集合を用い (a) 実クエリ集合を用いた場合 た評価で確認した. ただし,論文検索システムである CiNii で用いられた実クエ リを簡単に分析した結果,我々が想定していたような専門用語 を絞り込み語に用いる以外のクエリパターンがあり,さらにそ の中に論文を探索するという行動においてあまり適切でない クエリパターンも多く存在する可能性が示唆された.今後は, CiNii の検索履歴を用いてユーザの実際の検索行動を詳細に分 析し,論文検索サービスにおけるユーザ側の問題点と,それを 支援するために必要とされる技術を明らかにする予定である. また,本手法は,例えばソーシャルメディアの発言のような, 情報のテキスト長は短くても,その情報を生成した人間関係 (b) 高頻度の絞り込み語を持つクエリを除いた場合 図 6: MRR ネットワークを持つようなデータに対しても有効だと思われる. 謝 辞 本研究は,国立情報学研究所公募型共同研究「学術情報サー 7. 考 察 ビスのユーザ履歴データの分析」の助成を受けた. 単語集合を用いた評価では,TF-ICF を用いることで,TF- IDF よりも専門性が高い単語を推薦できることがわかった.さ らに,重複率の平均値が TF-IDF よりかなり低いことから,特 定少数のコミュニティで頻出する語を比較的うまく抽出できて いることがわかった.ただし,被覆率の平均値が TF-IDF より かなり悪いことから,推薦する関連語数 N は比較的大きく設 定した方がよいと考えられる. 実クエリ集合を用いた評価では,現実のユーザが用いるクエ リの種類はいくつかあり,さらに必ずしも論文検索として妥当 なクエリを入力しているとは限らない可能性と,その理由が論 文検索の絞り込みに使うために適切な専門用語を思いつくこと が困難なタスクである可能性が示唆された.実際に,検索の裏 技に使われる単語や妥当とは思えない絞り込み語を除いた場合 に,TF-ICF の方が良い性能を示すことを確認した. α の値については,α を増加させると重複率がある時点から あまり変わらなくなること,表 2 の「人起点」のような,複合 語抽出処理の誤りにより生じたほとんど出現しない単語まで推 薦されてしまう可能性があること,そして関連語の出現コミュ ニティ数 |C| と出現頻度 |F | が小さくなりすぎて,想定してい た「特定少数のコミュニティで頻繁に使われる単語」から離れ てしまうために,あまり大きな値を用いるのは適切ではないこ とがわかった.さらに詳細な分析が必要だが,重複率の変化や 高頻度の絞り込み語を持つクエリを除いた実クエリ集合の分析 結果から,α の値は 1.5 から 2.0 程度にするのが適切ではない 文 献 [1] 石橋 和樹, 南出 直樹, 風間 一洋, 篠田 考祐. 単語のコミュニティ 性に基づいた専門用語の抽出. 人工知能学会全国大会論文集, 第 28 巻, pp. 1–4, 2014. [2] 大塚 真吾, 喜連川 優. 大規模アクセスログを用いた検索支援 システム. 日本データベース学会 Letters, Vol. 5, No. 1, pp. 13–16, 2006. [3] 近藤 光正, 森田 哲之, 田中 明通, 内山 匡. PC 上の Web 閲覧 履歴からのクエリ抽出技術を用いたモバイル情報検索システム. 人工知能学会全国大会論文集, 第 22 巻, pp. 1–4, 2008. [4] 堀 幸雄, 今井 慈朗, 中山 堯. ユーザの Web 閲覧履歴を用いた検 索支援システム. 情報知識学会誌, Vol. 17, No. 2, pp. 95–100, 2007. [5] 安辺川 武, 高野 明彦. 書誌検索における関連語表示法の検討. 言 語処理学会年次大会発表論文集, 第 16 巻, pp. 102–105, 2010. [6] 榊 剛史, 松尾 豊, 内山 幸樹, 石塚 満. Web 上の情報を用いた関 連語のシソーラス構築について. 自然言語処理, Vol. 14, No. 2, pp. 3–31, 2007. [7] Aaron Clauset, M. E. J. Newman, and Cristopher Moore. Finding Community Structure in Very Large Networks. Physical Review E, Vol. 70, No. 6, 2004. [8] Karen Spärck Jones. A Statistical Interpretation of Term Specificity and its Application in Retrieval. Journal of Documentation, Vol. 28, No. 1, pp. 11–21, 1972. [9] Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Retrieval. Addison Wesley, 1999. [10] 土方 喜徳. 推薦システムのオフライン評価手法. 人工知能学会 誌, Vol. 29, No. 6, pp. 658–689, 2014.