Comments
Description
Transcript
論 文
論 文 Web 上の情報を用いた研究トピックの抽出 浅田 洋平† a) 松尾 豊†† 石塚 満† Research topic extraction from the Web Yohei ASADA†a) , Yutaka MATSUO†† , and Mitsuru ISHIZUKA† あらまし 本論文では,Web 上の情報を用いて,研究トピックを自動的に取り出す手法を提案する.提案手法 では,研究者名と,研究内容に関連するキーワードとの Web 上での共起に着目し,統計的な処理およびクラス タリングを行うことで,研究トピックに関連する研究者のグループを特定する.また,評価を行い,提案手法に より,研究者の研究内容の類似度を妥当な精度で計算できることが分かった.提案手法はシンプルなものであり, 研究者のみならずミュージシャンや商品など幅広く様々な対象に対して有効であると考えられる. キーワード Web マイニング,検索エンジン,共起行列,クラスタリング,研究トピック,χ2 値 1. は じ め に ホームページや組織のページにおける研究の紹介はも ちろん,採択された研究課題や現在進行中のプロジェ 近年では,多くの研究分野において研究内容の専 クトの情報など,研究に関する新しい情報が Web で 門化が進むと同時に,新しい研究トピックや研究プロ 公開される機会も増えている.したがって,Web 上の ジェクトが次々と現れ,その移り変わりが速度を増し 情報から特定の研究分野における研究トピックを抽出 ている.日本では,数年前から競争的資金による研究 することができれば,分野全体の俯瞰や研究者の分類 費の形態が増えており,その多くがプロジェクトの形 に役立てることができると考えられる. 態を取ったり,新しい研究テーマの立ち上げを目標と 本論文では,Web 上の情報を用いて,研究トピック している.ひとつの研究分野内部でも研究の動きが激 を自動的に取り出す手法を提案する.Web ページにお しくなっていると同時に,複数の分野をまたがる研究 ける研究者名と研究内容に関連するキーワードの共起 領域の重要性も増している [12], [13]. に着目し,統計的な処理およびクラスタリングを行う このような状況において,研究分野内の各研究ト ピックを把握したり,研究トピックを分類したり,研 ことで,研究トピックに関連する研究者のグループを 特定する. 究者の専門分野を分類することがますます難しくなっ 学会の全国大会などで関連のある発表をまとめて てきている.産学官連携の必要性や研究の社会的な貢 セッションを構成する際に,各研究者がどのような研 献の重要性が広く認識されるようになってきており, 究トピックの研究者であるかを知っておくことは有用 研究分野の俯瞰や研究者の分類など,研究者に関する であると考えられるし,研究者ベータベース (注 1)にお 情報を適切に集め,使いやすくすることは重要な課題 いて,移り変わりの速い研究トピックを自動的に Web である. から取り出すことは有用であると考えられる. 一方,Web 上には研究に関するますます多くの情 報が公開されるようになってきている.研究者個人の また,本研究は,研究者を対象として研究トピック による分類を試みているが,同じアイディアにより, 組織や商品などの分類にも用いることができると考え † 東京大学大学院 情報理工学系研究科,東京都 られる.例えば,Web 上の情報を用いた本の分類を行 School of Information Science and Technology, University of うことができれば,ユーザの嗜好に応じた本の推薦を Tokyo, Hongo 7–3–1, Bunkyo-ku, Tokyo, 113–8656 Japan †† 独立行政法人 産業技術総合研究所,東京都 National Institute of Advanced Science and Technology, Aomi 2–41–6, Koto-ku, Tokyo, 135–0064 Japan a) E-mail: [email protected] 電子情報通信学会論文誌 A (注 1) :例えば ReaD 研究開発支援総合ディレクトリ (http://read.jst.go.jp) など Vol. Jxx–A No. xx pp. 1–9 xxxx 年 xx 月 1 電子情報通信学会論文誌 xxxx/xx Vol. Jxx–A No. xx 行うことができると考えられるし,音楽 CD に関する Web 上の情報をもとに CD の分類を行うことも考え られる.実際,[11] のように,Web 上の情報を用いて ミュージシャンの分類を行う研究もある. 本論文では,第 2 節で提案手法について詳しく述べ, 第 3 節で具体例と評価を行い,第 4 節で議論と関連研 究について述べる. 2. 提 案 手 法 本節では,Web 上の情報を用いて研究トピックを抽 出する手法について説明する. 石塚満 橋田浩一 松尾豊 峯松信明 浅田洋平 . . . 石塚満氏の仮説推論に関する論文を入手したい場合, 「石塚満 AND 仮説推論」というクエリで Web 検索 を行うと 203 件のページが検索される(注 2).同じよう に,石塚満氏のロボティクスに関する研究を調べたい とき, 「石塚満 AND ロボティクス」というクエリで Web 検索を行うと 49 件のページが検索される. このことから,石塚満氏はロボティクスよりも仮説 ... 454 143 414 382 246 ... 412 156 1020 458 1150 ... 129 112 138 89 58 ... 227 22 265 648 138 ... 6 6 6 2 0 ... . . . . . . . . . . . . . . . エージェント マイニング ある研究者の特定の研究テーマについて Web を用 ンジンに入力することは,よくあるだろう.例えば, 認知 図 1 研究者と研究キーワードの共起行列の例 Fig. 1 Example of a researcher-keyword cooccurrence matrix 2. 1 Web における語の共起 いて調べたいとき,名前とキーワードを同時に検索エ エージェント マイニング コミュニケー 音声 ション 石塚満 橋田浩一 松尾豊 峯松信明 浅田洋平 . . . Fig. 2 推論に関係の強い人,すなわち石塚満氏はロボティク コミュニケー ション 音声 認知 ... 376 264 73.5 5.92 12.7 ... 49.1 141 840 0 2342 ... 33.4 547 5.53 0 0 ... 147 0 87.5 1147 8.76 ... 1.62 35.8 0.12 0 0 ... . . . . . . . . . . . . . . . 図 2 統計的処理を行った共起行列の例 Example of a statistically processed researcherkeyword cooccurrence matrix スよりも仮説推論の研究を行っている人ではないかと 推測できる (注 3).同一 Web ページに出現することを 行列の例を図 1 に示す. 例えば「石塚満」と「エー Web 上での共起と呼ぶことにすると, 「石塚満」「仮説 推論」の方が「石塚満」「ロボティクス」よりも Web ていることになる (注 4)(注 5).共起行列の中で分布の似 上でよく共起していると言い換えることができる. ている行にあたる研究者は,類似した研究を行ってい ジェント」は Web 上の 454 個の文書で同時に出現し このように,提案手法の基本的な考え方は,Web 上 ると考えられる.例えば,図 1 において本論文の共著 で研究者名とよく共起する語は,研究者の研究トピッ 者である「松尾豊」と「浅田洋平」の分布は他と比較 クと関係が深い,という仮説に基づいている. して似ている. ここで, 「仮説推論」や「ロボティクス」のように研 究トピックに深く関連した語を「研究キーワード」と しかし,共起行列をそのまま用いたのでは,次のよ うな問題がある. 呼ぶことにする.研究キーワードは研究者の研究ト 問題 1 共起件数の少ない研究者の分布が正確に測れ ピックを適切に表し,かつ他の研究者との相違が判断 ない できる語が望ましい.逆に言うと,研究内容に関係の 問題 2 共起件数の多い研究者にとっては,あまり関 ない一般語は望ましくないし,極端な低頻度語も他の 係のない語との共起件数も相対的に大きくなる 研究者との相違が判断できないので望ましくないこと 問題 3 一般的な語が入っていた場合,その列の重み になる. が相対的に大きくなる 研究者名と研究キーワードの共起は,研究者名を行, 研究キーワードを列とする共起行列で表される.共起 (注 2) :2004 年 12 月 10 日時点での Google による検索結果. (注 3) :実際,石塚満氏は仮説推論の研究に長年行っているので,この 推測は当たっている. 2 したがって,単純な共起ヒット件数ではなく,共起 の統計的な偏りを計算する必要がある. (注 4) :検索エンジンによって,同一ドメインのページは一つにまとめ るなどの処理をしているので,厳密には文書数ではない. (注 5) :2004 年 12 月 8 日時点での Google による検索結果 論文/Web 上の情報を用いた研究トピックの抽出 図 1 に後述する統計的な処理を行ったものが図 2 で ある.図中で値の大きいものが偏りが大きいことを示 している.統計的処理を行う前後で比較すると,例え ば概して共起件数の少ない「浅田洋平」と「マイニン グ」の関係の強さが明確になっているし(問題 1 の解 決),概して共起件数の多い「橋田浩一」と「認知」の 関係の強さが明確になっているし(問題 2 の解決),5 人ともによく共起していた「コミュニケーション」の 重みが 5 人とも対して小さくなっている(問題 3 の解 keyword1 keyword2 ... keywordj ... total O1j ... sn1 O2j ... sn2 name1 O11 O12 ... name2 O21 O22 ... . . . . . . . . . namei . . . Oi1 Oi2 . . . . . . . . . total sk1 sk2 ... Oij . . . ... . . . ... skj sni . . . ... S 決)ことが分かる. 2. 2 提案手法の詳細 Fig. 4 図4 共起行列 cooccurrence matrix 以上のような考え方に基づく提案手法は,次のよう なものである. 参加者には学生など Web 上に情報の少ない研究者が ( 1 ) Web 検索エンジンを用いた研究者名と研究 キーワードの共起行列の抽出 ( 2 ) χ2 値による共起の重みの計算 ( 3 ) 研究者のクラスタとしての研究トピックの 抽出 それぞれの部分について,人工知能学会の研究者を例 にとって,以下に詳しく説明する. 2. 2. 1 研究者名と研究キーワードの共起行列の 抽出 多く,クエリを増やすことで検索の絞込みが強くなり, 共起ヒット件数が小さくなりすぎることのデメリット を考慮し,今回は所属情報は用いないこととした. 抽出された共起行列の一部が図 1 である. 2. 2. 2 χ2 値による共起の重みの計算 Web 検索におけるヒット件数をそのまま研究キー ワードの重みとすると,2.1 節で述べたような問題が 生ずる. そこで,提案手法では,研究キーワードとの共起 研究者名と研究キーワードの共起行列を得るには, ヒット件数そのものではなく,そのヒット件数が他の 研究者リストと研究キーワードリストをあらかじめ用 研究者との共起ヒット件数に比べてどの程度多いのか, 意する必要がある. という共起の偏りの強さによって研究キーワードを重 対象とした研究者は,JSAI2004(2004 年度の人工 知能学会全国大会)の参加者である.このリストは, Web 上に公開されており (注 6) み付けする. 研究者名と研究キーワードの共起行列が図 4 のよう ,簡単に入手できる. に得られたとする.i 番目の研究者名 namei と j 番目 また,研究キーワードは,JSAI2004 の論文タイト の研究キーワード keywordj が共起する Web ページ ルから形態素解析システム ChaSen (注 7)によって名詞 および未知語と判定されたものについて,出現回数が 3 回以上の ngram(188 個)を選んだ(図 3).タイ トルから ngram を取り出す際には,Fürnkranz らの Apriori な手法 [9] を用いた. 共起行列を得るには, 「研究者名 AND 研究キーワー ド」をクエリとして Web 検索を行う. 同姓同名の人を区別するために,研究者名とともに 研究者を判別する語をクエリに加えてもよい.そのよ うな語としては,例えば研究者の所属する大学や研究 機関,企業などの名前がある.実際,[1]∼[3] では所属 情報による絞込みを行っている.しかし,JSAI2004 の (注 6) :http://www-kasm.nii.ac.jp/jsai2004 schedule/person list.html (注 7) :http://chasen.aist-nara.ac.jp/hiki/ChaSen/ 数が Oij である.sni ,skj はそれぞれ行ごとの和,列 ごとの和であり,S は全要素の和である. これらの値を用いると,namei と keywordj の期待 される共起回数 Eij は式 (1) のように計算できる. Eij = sni × skj S (1) 偏りの強さを表す統計量として,最も一般的なもの のひとつに χ2 値がある.χ2 値は,式 (2) のように定 式化される. χ2ij = (観測値 − 期待値)2 期待値 (Oij − Eij )2 = Oij (2) ただし,式 (2) において,Oij − Eij が負になる場合に 3 電子情報通信学会論文誌 xxxx/xx Vol. Jxx–A No. xx システム、支援、情報、ため、学習、ロボット、手法、エージェント、生成、知識、提案、利用、構築、構造、支援システム、環境、モデル、分析、獲 得、Web、データ、評価、空間、表現、言語、自動、検索、人間、抽出、文書、デザイン、設計、概念、解析、対話、演奏、協調、移動、ユーザ、行動、 検討、機能、意味、物語、考察、技術、テキスト、複数、共有、スキル、処理、特徴、適応、動作、音声、アルゴリズム、適用、ネットワーク、状況、 変換、理解、イベント、コミュニケーション、制御、進化、グラフ、身体、作成、発見、人工、ベース、創造、イベント空間、パターン、相互、コンテ ンツ、コミュニティ、方法、画像、障害、知能、マイニング、考慮、統合、研究、類似、可能、インタラクション、体験、関係、制約、動的、高速、操 作、階層、問題、比較、拡張、自動生成、実験、クラスタリング、組織、機構、分類、付き、時間、判断、プログラミング、端末、マルチ、視点、デザ イン支援、事例、データマイニング、類似性、活動、シミュレーション、センサ、戦略、属性、歩行、知的、応用、統計、オントロジー、状態、個人、 文書検索、目的、移動ロボット、可能性、グラフ構造、モデリング、学習支援、地図、ユビキタス、認識、物語言説、情報抽出、適応的、編集、概念 ベース、マップ、頻出、障害者、認知、提示、関数、支援環境、多様、検索システム、記述、実装、確率、定性、社会、コンピュータ、会話、ヒューマ ン、過程、時系列、判別、自然言語、特徴抽出、タグ、質問、位置、ソフト、共有システム、帰納、歩行者、プラットフォーム、インタラクティブ、音 楽、教材、運動、次元、精度、ビデオ、マルチエージェント、DNA、オンライン、修辞、同定、構造データ、選択、管理、スケジューリング、 図 3 JSAI2004 の論文タイトルから抽出した研究キーワード(188 語) Fig. 3 Keywords extracted from titles of JSAI2004 articles(188 words) も χ2 値は正の値をとる.しかし本研究の目的は,研 究者を,その人の研究分野に関係したキーワードで重 3. 具体例と評価 み付けることであるから,期待値よりも観測値が小さ 本節では JSAI2004 の参加者を対象として抽出した い場合の χ2 値は 0 とした.すなわち,式 (3) のよう 研究トピックとそれに関連する研究者のクラスタの具 になる. 体例を示し,提案手法の有効性を評価する. χ2ij = 0 3. 1 研究者のクラスタの具体例 (Oij −Eij )2 Oij Oij − Eij > 0 Oij − Eij < =0 提案手法により研究者のクラスタリングを行い,ク (3) ラスタ数が 30 個になった時点でクラスタリングを終 了した.クラスタ数が 30 個であることは特に意味は ないが,JSAI2004 のセッションを,後述のように類 共起の重みを χ2 で計算したものが図 2 である. 似したセッションをグループとしてまとめると 26 個 2. 3 研究者のクラスタとしての研究トピックの抽出 のグループができたので,30 個程度のクラスタに分割 各研究者は,χ2 値を重みとする研究キーワードの するのが適当と判断し,これとした. ベクトルで表される.一般的に,文書の類似度の計算 にはベクトル空間モデルが用いられるが,本手法でも, ベクトルによる類似度を用いる. クラスタリング結果を,図 5 に示す.図 5 では,研 究者のクラスタと,そのクラスタの重心ベクトルにお いて,重みの大きな順に上位 10 個の研究キーワード ベクトルの類似度を測る尺度としては,コサイン, を表示している (注 8) .すなわち,クラスタが研究ト 内積,Kullback Leibler divergence などがあるが,本 ピックの研究者を表し,重みの大きな語がその研究ト 手法では,最も一般的なコサインを用いる. ピックに関する主要な研究キーワードを表している. すなわち,研究者 a, b のベクトルを va , vb と書くと, 個別のクラスタに対する考察は主観的なものになら 研究分野の点での類似度 Sim(a, b) は,式 (4) のよう ざるを得ないが,例えば,クラスタ 1 は自然言語や に書ける. 音声,対話処理などの広い意味での言語を扱う研究 Sim(a, b) = va · vb |va ||vb| (4) ベクトルの類似度が定義されると,最大距離法や重 心法などの一般的な文書クラスタリング手法や,行と 列を同時にクラスタリングする Co-clustering [4] など の手法を用いて,研究者をクラスタリングすることが できる.ここでは,比較的シンプルで,大きなクラス タができにくいという特徴を持つ最大距離法を用いる トピック,クラスタ 2 は自然言語処理に関する研究ト ピックであると考えられる. ちなみに,クラスタ 21 は JSAI2004 で行われたイ ベント空間情報支援プロジェクトに関する研究トピッ クであると考えられ,JSAI2004 の論文タイトルから 研究キーワードを取り出したことで,このような研究 トピックを抽出できたと考えられる. ことにする. クラスタリング結果として,関連した研究を行って いる研究者のクラスタとして研究トピックを抽出する. 4 (注 8) :ただし,Web 上に情報が少ないためにベクトルがゼロベクトル となった研究者 5 人は除いている. 論文/Web 上の情報を用いた研究トピックの抽出 クラスタ 1: 神嶌敏弘,角田祐一,新村昭好,岡崎直観,倉田岳人,村田剛志,相原健郎,豊田正史,久保山哲二,藤村滋,仲尾由雄,藤澤瑞樹,橋本泰一,池原悟,徳永健伸,荒木健治,奥村 学,鈴木雅実,熊本忠彦,太田公子,徳久雅人,村上仁一,賀沢秀人,岩垣守彦,川野洋,藪内佳孝,峯松信明,嵯峨山茂樹,西本卓也,中沢正幸,新田恒雄,桐山伸也,駒谷和範,伊藤敏彦,桂 田浩一,天野成昭,中川聖一,古塩貴行,池ヶ谷有希,鈴木夕紀子,野口靖浩,松本泰明,小玉智志 重みの大きな語: 自然言語,音声,対話,言語,抽出,処理,クラスタリング,生成,検索システム,情報抽出 クラスタ 2: 中丸茂,伊東真紀子,諏訪正樹,青柳悦子,松本裕治,田中穂積 重みの大きな語: 言語,自然言語,処理,解析,研究,システム,技術,抽出,情報,ため クラスタ 3: 鳥居大祐,伊藤孝行,服部宏充,平田敏之,桑田喜隆,永田雄大,堀和裕,田代慎治,大森俊秀,畑雅之,磯村厚誌,須藤康裕,村田裕章,田中貴紘,八木龍平,國藤進,山下邦弘, 砂山渡,上原邦昭,原口誠,中川正樹,小西達裕,伊東幸宏,掛川淳一,石川賢太郎,海野俊介,曽我真人,柏原昭博,國近秀信,平嶋宗,木寺敦則,堀内裕晃,白鳥雄史,薬袋直貴,白井正博, 楠房子,白木顕介,杉山岳弘,瀧寛和,伊丹誠,伊藤紘二,高木佐恵子,田口亮,玉城史朗,木村誠聡,久岡雅也,藤井雅弘,許宰源,村上裕介,又吉光邦,山名美智子,赤穂昭太郎,並川淳,吉 本富士市,伊藤良彦,菅野道夫,工藤康生,村井哲也,畠山剛臣,鈴木麗璽,沢田高政,有田隆也,枡井大亮,井手剛,本山真也,大崎美穂,劉淑梅,加納政芳,吉田宏徳,齋藤豪,石原一志,辻 野広司,神里志穂子,尾形哲也,中臺一博,原口一馬,神谷祐樹,北澤茂良,中谷智広,白山政敏,今福啓,近藤英二,山川宏,白井康之,向井康人,藤本裕,高木朗,村川秀樹,近江潤明,野中 秀俊,河村勇一,村山敏泰,中野有紀子,赤埴淳一,佐藤哲司,白鳥成彦,秡川友宏,坂根裕,岡本和憲,上之薗和宏,中田豊久,奥乃博,西田佳史,下村芳樹,粂野文洋,古宮誠一,本林正裕, 恒次創,田中良季,申富饒,村田賢,河村竜幸,藤本英輝,奈良博之,北村光司,鬼沢武久,高木友博,椹木哲夫,橘啓八郎,河野恭之,木戸出正継,角所考 重みの大きな語: 学習支援,支援システム,実装,制御,関数,動的,支援環境,センサ,生成,適応的 クラスタ 4: 谷井章夫,平賀瑠美,片寄晴弘,平田圭二,庄司裕子,宮田一乘,笠尾敦司,原田利宣,山田浩子,松本武生,中井隆洋,武藤敦子 重みの大きな語: デザイン支援,演奏,インタラクティブ,デザイン,生成,インタラクション,音楽,抽出,支援システム,コミュニケーション クラスタ 5: 張涛,岡邦彦,本村陽一,伊藤日出男,中島秀之,橋田浩一,細井一弘,上野晴樹,溝口文雄,志村正道,新谷虎松,安部憲広,大和田勇人,相場亮,松嶋敏泰,越野亮,伊藤英則, 栗原正仁,遠藤聡志,勝野裕文,梅尾博司,和田幸一,宇野毅明,中野眞一 重みの大きな語: 応用,アルゴリズム,プログラミング,知能,グラフ,マルチエージェント,人工,システム,情報,コンピュータ クラスタ 6: コバチアレクサンダー,高田司郎,安村禎明,山口智浩,秋山英久,寺野隆雄,参沢匡将,谷口憲,山田孝治,宮崎和光,堀浩一,横尾真,松原繁夫,長行康男,山口翁央,山谷孝 史,西健太郎,平岡佑介,小松正樹,川村修,折原良平,石塚満,新田克己 重みの大きな語: マルチエージェント,人工,知能,プログラミング,動作,エージェント,操作,オンライン,協調,発見 クラスタ 7: LEESang-yong,小林一樹,松田憲幸 重みの大きな語: Web,動作,機能,ユーザ,ソフト,自動,操作,作成,データ,変換 クラスタ 8: 山崎敦子,横山美和,松本馨,大橋徹,加藤誠二,谷口剛,林志展,村田博士,高橋正樹,高香滋 重みの大きな語: イベント,目的,判断,理解,意味,関係,分類,時間,人間,質問 クラスタ 9: 中西英之,角康之,間瀬健二,西本一志,藤城卓己,田森裕邦,安念克洋,天野竜太,櫻井晴章,岡夏樹,今井倫太,田島敬士,畠山誠,大村英史,劉耿孟,上妻将文,楠本昌弘, 大谷尚史,高畠政実,高橋昌史,小出義和,岩澤昭一郎,伊藤禎宣,竹林洋一,堀聡,広瀬公太,小泉智史,矢入健久,木村春彦,青島大悟,雨宮陽介 重みの大きな語: インタラクション,センサ,ヒューマン,ユビキタス,エージェント,コミュニケーション,支援システム,ロボット,支援,実装 クラスタ 10: 小出誠二,官上大輔,武田英明,和泉憲明,岩爪道昭,小路悠介,垂見晋也,來村徳信,古崎晃司,溝口理一郎,渡邉英一,池田満,酒井隆道,西原陽子,森田武史,見置孝昌,繁 田佳宏,田中庸平,武内雅宇 重みの大きな語: オントロジー,支援環境,知能,支援システム,学習支援,構築,エージェント,設計,支援,人工 クラスタ 11: 川島貴広,風間勇志,渡部広一,河岡司,笠原要,辻泰希,古川成道,石川勉,湯川高志,吉村枝里子,倉田篤史,齋藤安彰,関彰人,川波正典,上原勇樹,大塚-乾裕子,大江奈緒子 重みの大きな語: 概念ベース,物語言説,類似性,属性,概念,修辞,自動生成,自然言語,抽出,ベース クラスタ 12: 佐藤雅彦,石田勝則,奥出直人,山本俊一,島田哲夫,桑田仁,常盤拓司,永田晶子,岩竹徹,藤波努,伊藤紀子,松浦哲也,野口尚孝,永井由佳里,朝日秀眞,山本浩司,澤井啓吾 重みの大きな語: デザイン,テキスト,音楽,判断,創造,社会,スキル,イベント,言語,戦略 クラスタ 13: 青沢秀憲,金沢雅博,足立史宜,小野田崇,江越裕紀,岡部正幸,野邊信勝,寺岡正人,倉林寛幸,大久保好章,高須淳宏,河合由起子,吉岡真治,井形伸之 重みの大きな語: 検索システム,文書,文書検索,検索,マイニング,システム,抽出,データマイニング,グラフ構造,構造データ クラスタ 14: 坂本純一,清水健二,伊藤芳子,高橋祐介,松山学,鈴木秀明,安田雪,佐藤泰介,塚本浩司,畦地真太郎,李鵬,松原仁,阿部真美子,小林一郎,長谷川修,村上知子,三浦浩 一,杉浦直樹,高橋亮太,高橋健一,谷口忠大,山田大輔,市川学,佐藤尚,本田実,上野真由美,吉川毅,片上大輔,鈴木祐介,岩下志乃,津田宏 重みの大きな語: 組織,意味,問題,運動,活動,判断,人間,獲得,認識,理解 クラスタ 15: 金井明人,藤田米春,内海彰,吉田茂樹,岩倉友哉,小倉加奈代,榎津秀次,池田利昭,小方孝,森田均,遠藤泰弘,小林史典 重みの大きな語: 物語言説,修辞,管理,認知,コンピュータ,自然言語,生成,分類,地図,プログラミング クラスタ 16: 徳永陽,王凱軍,久米俊二,渡邊悠司,松尾徳朗,太田吉美,川村正則,鷲尾隆,元田浩,新美礼彦,北口真也,佐藤芳紀,阿部秀尚,猪口明博,有村博紀,森田想平,市瀬龍太 郎,山口高平,沼尾正行,宮原哲浩,正代隆義,内田智之,上田祐彰,鹿島久嗣,虫明磨毅,藤島悟志,高橋由雅 重みの大きな語: データマイニング,構造データ,マイニング,属性,頻出,グラフ構造,帰納,類似性,アルゴリズム,知能 クラスタ 17: 宇野富美子,平石広典,川本竜史,麻生英樹,岡田昌史,植野研,尾崎知伸,大庭英雄,小酒井一稔,古川康一,佐土原健,酢山明弘,松井藤五郎,犬塚信博 重みの大きな語: 帰納,統計,プログラミング,データマイニング,人工,知能,Web,システム,アルゴリズム,評価 クラスタ 18: 小林慎一,杉本徹,内田雄三,山中龍宏 重みの大きな語: 障害,コンテンツ,データ,自動,音声,情報,管理,ソフト,分類,検索 クラスタ 19: 大谷紀子,山本航,大島真,林雄介,市原貴雄,上田浩史,大西浩司,猪野陽子,井上武史,鈴木雅也,中原淳,伊藤英明,山田誠二 重みの大きな語: 音楽,可能性,マップ,スキル,編集,障害,身体,演奏,検索,確率 クラスタ 20: 土田正明,山口健,清水健,近藤真 重みの大きな語: 体験,複数,選択,画像,ビデオ,身体,ソフト,方法,会話,状態 クラスタ 21: 宮崎伸夫,坂本和彌,西村拓一,大高雄介,小山慎哉,中村嘉志,小笠原嘉靖,蔵田武志,熊谷賢,谷口智哉,浅田洋平,友部博教,松尾豊,金崎弘文,黄宏軒,大向一輝,濱崎雅 弘,沼晃介 重みの大きな語: イベント空間,ユビキタス,センサ,端末,支援システム,実装,インタラクション,支援,スケジューリング,共有システム クラスタ 22: 泉祐介,酒井純一,石井健太郎,神成淳司,藤本敦,安藤公一,水谷文俊,林田尚子,中村大介,新出尚之 重みの大きな語: プラットフォーム,戦略,ネットワーク,スキル,編集,タグ,モデリング,音楽,文書,モデル クラスタ 23: 村上聡,佐藤健,加藤昇平,福原知宏,久保田秀和,亀井剛次,山下耕二,松村憲一,藤原伸彦,石原達生,西山裕之,吉滝幸世,櫻田武嗣,ジェプカラファウ,永野進,喜連川 優,橋本敬,山口睦世,福田直樹 重みの大きな語: マップ,コンテンツ,コミュニティ,機能,デザイン,目的,システム,技術,意味,研究 クラスタ 24: 辻康孝,早田浩二,渋谷恒司,谷内田正彦,柿倉正義,中村仁彦,宮城政雄 ,山本知幸,長尾智晴,滝健太 重みの大きな語: ロボット,歩行,移動ロボット,制御,センサ,アルゴリズム,応用,知能,抽出,生成 クラスタ 25: 香山健太郎,猪木誠二,矢入(江口)郁子,藤吉弘亘,柏野聡彦,村井佐知子,前田雅史,小村剛史,坂下祐介,永尾一彦 重みの大きな語: 歩行者,障害者,端末,歩行,イベント空間,支援システム,支援,センサ,ユビキタス,デザイン支援 クラスタ 26: 茂木明,菊池睦,石田亨,西田豊明,田中克己,原功,杉本雅則,飯塚新真 重みの大きな語: システム,研究,処理,エージェント,情報,インタラクション,技術,データ,マルチエージェント,コミュニティ クラスタ 27: 金子望,小西信宏,阿部武彦,竹内章 重みの大きな語: 教材,学習支援,考察,構造,支援環境,研究,歩行者,応用,適応的,実験 クラスタ 28: 上村章浩,金城啓太,橋本学,山本剛,正田大輔 重みの大きな語: 演奏,物語,活動,ベース,マップ,イベント,状況,精度,パターン,位置 クラスタ 29: 有本繁弘,YUNHyo-gun 重みの大きな語: DNA,特徴抽出,システム,支援環境,歩行,変換,アルゴリズム,タグ,障害者,検討 クラスタ 30: 長谷川忍,房延慎二,浅井達哉 重みの大きな語: 頻出,構造データ,質問,データマイニング,個人,状況,評価,マイニング,方法,音楽 図 5 JSAI2004 参加者のクラスタリング結果(人のクラスタと,各クラスタの重心にお ける重みの大きな上位 10 語) Fig. 5 Clustering result of JSAI2004 participants(clusters and 10 most weighted keywords in each cluster) 3. 2 研究キーワードの重み付け方法の比較 • 研究者と研究キーワードの共起の強さを計算するの 場合 に χ2 値を用いることの有効性を評価するために,研 • 究キーワードの重みを • 文書行列の idf の考え方を導入して計算した χ2 値で計算した場合 の 3 通りで共起行列を作成した. 共起ヒット件数とした場合 5 電子情報通信学会論文誌 xxxx/xx Vol. Jxx–A No. xx こ こで, 「 文書行列 の idf と類 似した方法 」とは, idf(inverse document frequency) のアナロジーで式 (5) のように研究者 namei に対する研究キーワード keywordj の重み wij を定義したものである. 1 2 chi idf hit 0.9 0.8 0.7 wij (5) Recall 0.6 N = Oij × (log + 1) pfj 0.5 0.4 0.3 ただし,pfj は,研究キーワード keywordj が共起す る研究者数 (person frequency とでも呼ぶべき値),N は全研究者数である.通常,文書行列の重み付けには tfidf 法が用いられるが,今回のような共起行列への適 用可能性を調べるため,このような重み付け手法も比 較することとした. 0.2 0.1 0 0 0.1 0.2 0.3 0.4 Precision 0.5 0.6 0.7 0.8 図 6 様々な重み付け手法による Precision-Recall 曲線 Fig. 6 Precision-Recall curves by different weighting methods ここで,それぞれの共起行列を用いた場合の研究者 の研究分野の点での類似度が,どの程度,現実に合っ 表 1 を用いて,類似度に閾値 Simth を設定したと ているかを,JSAI2004 のセッションを用いて評価す きに,類似度がその閾値以上の研究者のペアのうち, ることを考える.学会のセッションは,類似した発表 JSAI2004 で同じグループで発表しているペアの割合 をまとめたものであるので,同じセッションに割り当 を P recision,JSAI2004 で同じグループで発表して てられた研究者は研究分野の点で類似度が高いはずで いる全ペアのうち,類似度がその閾値以上の研究者の ある.逆に言えば,研究分野の点で類似度の高い研究 ペアの割合を Recall と定義し,それぞれの共起行列 者ほど,同じセッションに割り当てられる確率が高い に対して閾値 Simth を 0 から 1 まで 0.01 刻みで変 はずである.そこで,それぞれの共起行列を使った場 化させ,Precision-Recall 曲線を描き,比較を行った. 合に類似度の高い研究者のペアが,どの程度同じセッ P recision, Recall はそれぞれ式 (6), (7) のように計 ションに割り当てられているかを調べることで,それ 算できる. ぞれの共起行列がどの程度現実に合っているかを評価 できる. P recision = Simth 以上かつ,JSAI2004 で同じグループのペアの数 Simth 以上のペアの数 ところが,セッションは一つの研究分野を時間的都 (6) 合などからいくつかに分割したものであったり,様々 な研究分野から類似した問題意識をもった研究をまと めたものであったりするため,違うセッション同士で あっても類似した研究分野であることも少なくない. Recall = Simth 以上かつ,JSAI2004 で同じグループのペアの数 JSAI2004 で同じグループの全ペアの数 (7) 例えば,JSAI2004 におけるセッション『ことば-コン ピューターコミュニケーション(1)(2)』などは前 結果の Precision-Recall 曲線を図 6 に示す.図 6 で 者の例であり,セッション『イベント空間情報支援プ は,研究キーワードの重みを共起ヒット件数とした場 ロジェクト』などが後者の例である. 合 (hit) と,idf の考え方を導入して計算した場合 (idf) そこで,JSAI2004 のセッションのうち類似したセッ ションをグループとしてまとめ,同一セッションでは と,χ2 で計算した場合 (chi2 ) の 3 つの系列を重ねて 表示している. なく,同一グループに割り当てられているかどうかを 図 6 より,共起ヒット件数や,idf に類似した方法 調べることにした.類似したセッションをグループに で研究キーワードを重み付けした場合よりも,χ2 値 まとめたものを表 1 に示す (注 9). で重み付けした場合にもっともよく JSAI2004 のセッ ションに合った類似度が計算できることが分かる. (注 9) :JSAI2004 の セッションは ,Web 上 に公開 されてい るもの (http://www-kasm.nii.ac.jp/jsai2004 schedule/paper list.html)を 用いた.ただし,セッション内の発表に一貫性がない『デジタルポスター (1)』『デジタルポスター(2)』は除いた. 6 研究キーワードを共起ヒット件数で重み付けした場 合と,idf に類似した方法で重み付けした場合の系列 がほぼ重なっているが,これは,Web 上には様々な情 論文/Web 上の情報を用いた研究トピックの抽出 表 1 JSAI2004 の類似したセッションまとめたグループ グループ グループ 1 セッション 知能ロボット,ヒューマンロボットインタラクション,ロボット制御 グループ 2 強化学習,学習エージェント,学習手法,学習と発見1,学習と発見2,データマイニングの医薬応用 グループ 3 グループ 4 情報検索・抽出,自然言語,テキストからの知識発見,ニューチャレンジ,日常言語コンピューティング 情報支援システム,生活支援 グループ 5 グループ 6 コンテンツ作成支援 知識獲得支援 グループ 7 グループ 8 コミュニティ支援 CG ビジョン グループ 9 事例に基づくデザイン支援と評価基盤の構築 グループ 10 グループ 11 知的教育支援システム・e-Learning 音声・言語処理技術を利用した言語教育システム,知的インタフェース・対話モデル,音声 グループ 12 グループ 13 Web コミュニティ,Web 検索,Web マイニング オントロジーとメタデータ,知識表現,セマンティック Web グループ 14 グループ 15 コミュニケーション支援 高齢者・障害者の自律的移動を支援する Robot Communication Terminals グループ 16 バイオインフォマティクス グループ 17 グループ 18 ことば-コンピューターコミュニケーション(1),ことば-コンピューターコミュニケーション(2) 音楽 グループ 19 グループ 20 危機管理シミュレーションとその分析 エージェント社会1,エージェント社会2,協調エージェント,ヒューマンエージェントインタラクション グループ 21 グループ 22 遺伝的アルゴリズム,人工生命 ヒューマンインタフェース・ユビキタス,イベント空間情報支援プロジェクト グループ 23 身体行動マイニング,認知と身体性,身体知の解明を目指して(1),身体知の解明を目指して(2),身体知の解明を目指して(3) グループ 24 グループ 25 グラフ・マイニング AI アーキテクチャ グループ 26 アルゴリズム 報があるので,ほとんどの研究者が,なんらかの形で てコサインで類似度を計算し,同様の評価を行った. ほとんどの研究キーワードと 1 件以上共起してしまっ これをアブストラクト法とする. たことが原因であると考えられる. 以上のことから,Web から抽出した研究者名と研究 ただし,アブストラクト法の場合,共著者のベクト ルが同一となり,類似度が常に 1 となってしまうので, キーワードの共起行列に対して,χ2 値によって研究 論文の第一著者のみ(274 人)を対象とした. キーワードを重み付けすることの有効性が示せた. つか試したが,結果はほとんど変わらず,χ2 値による 提案手法とアブストラクト法によって PrecisionRecall 曲線を描いたものを図 7 に示す.提案手法 (chi2 ) がアブストラクト法 (abstract) 以上の性能を示してい 重み付けの優位性は変わらなかった. ることが分かる.このことは,人間がアブストラクト なお,表 1 以外のグループの分け方についてもいく 3. 3 Web から抽出した行列の妥当性 をもとにして発表をセッションに割り当てていく作業 提案手法では,研究者を研究キーワードの重みベク を行っていることを考えれば,提案手法によって Web トルとして表現する際に Web 上の情報を用いている から抽出した共起行列が妥当であることを示している が,Web を用いることの妥当性について評価する. と考えられる. 例えば,Web を用いなくても,JSAI2004 の論文の なお,ここでも表 1 以外のグループの分け方につい アブストラクトから文書ベクトルを構成し,それをそ てもいくつか試したが,結果はほとんど変わらず,χ2 の著者のベクトルとすれば,研究者を研究キーワード 値による重み付けの優位性は変わらなかった. のベクトルとして表現することが可能である.そこで, 提案手法と同様に,全アブストラクトから ChaSen に よって名詞および未知語と判定されたものについて, 4. 議 論 4. 1 研究キーワードの選択方法 出現回数が 3 回以上の ngram を特徴として,各アブ 研究キーワードは,研究者の研究トピックを適切に ストラクトを tfidf 重みによって文書ベクトルとして 表し,かつ他の研究者と比較が可能な語が望ましい. 表現し,それをその著者のベクトルとした場合につい すなわち,極端な低頻度語は,他の研究者との比較が 7 電子情報通信学会論文誌 xxxx/xx Vol. Jxx–A No. xx 1 もできると考えられる. 2 chi abstract このように,提案手法の適用範囲は広いと考えら 0.9 れる. Recall 0.8 0.7 4. 3 関 連 研 究 0.6 我々は,Web 上の情報を用いて研究者の人間関係を 0.5 抽出する手法について研究を行ってきた [1]∼[3].この 0.4 手法を用いれば,任意の二人の研究者の関係の強さを 0.3 定義し,その二人の関係が共著関係,同じ研究室のメ 0.2 ンバーである関係,同じ研究会などで発表したことの 0.1 ある関係,同じプロジェクトで研究している関係のど 0 0 0.1 0.2 0.3 0.4 0.5 Precision 0.6 0.7 0.8 0.9 1 図 7 提案 手法 とア ブ スト ラク ト 法に よる PrecisionRecall 曲線 Fig. 7 Precision-Recall curves by the proposed method and the abstract method れにあてはまるか(もしくはどれにもあてはまらない か)を判定することができ,研究者の人間関係をネッ トワークとして図示することができる.現在我々はこ の手法に基づく研究者検索システムを開発中であり, 本研究の成果も,このシステムにおいて特定の研究ト できないので望ましくないし,研究内容に関係のない ピックの研究者を探すときの手がかりとして用いるこ 一般語も望ましくない. とができると考えている. 本論文の具体例では,論文のタイトルから頻度が 3 一方,検索エンジンを用いて Web から様々な情報 回以上の語を研究キーワードとして用いたが,論文の を抽出する研究が行われている.村田らは検索エン タイトルは,研究内容が一目で分かるように書かれた ジンを用いて特定の URL に対してリンクを張ってい ものなので,研究トピックを適切に表していると考え る (backlink) ページを検索することで,リンクが直接 られるし,頻度に 3 回以上,という制限を設けたこと 張られていないようなものをも含む Web ページ間の で,極端な低頻度語を除いていると言える.一方,研 関係を抽出する手法を提案している [10].我々の手法 究内容に関係のない一般語に関しては,図 3 を見れば は,backlink ではなくヒット件数を用いて共起行列と 分かるように, 「ため,方法,研究,付き」などの語も して研究者と研究キーワードの関係を抽出しており, 含まれており,これらの語に対しては,ストップワー この点が異なる.また,Knees らは,ミュージシャン ドのリストを作って除くなどの対策を講じればさらな る精度の向上が望めると考えられるが,研究内容に関 (artist) の名前をクエリとして Web 検索を行い,上位 50 件の Web ページを用いてそのミュージシャンを単 係があるかないかの判断は困難であり,自動的に研究 語ベクトルとして表現し,ミュージシャンのジャンル キーワードを取得できるという点で,本論文で用いた 分類を行っている [11].しかし,Knees らの手法が名 キーワード選択法は妥当であると考えられる. 前をクエリとした検索結果の上位 50 件のみからベク 4. 2 研究者以外の対象への適用可能性 トルを構成しているのに対して,我々の手法はあらか 本論文では研究者を対象にして研究トピックの抽出 じめキーワードのリストを用意した上で,名前とキー を取り上げているが,研究者以外にも,例えばミュージ ワードを AND 検索し,そのヒット件数を用いること シャンや小説家の場合には,作品の紹介文やレビュー で,Web 全体から共起行列を抽出しており,この点が など,多くの情報が Web 上に存在しているので,本手 異なる. 法が適用可能であると考えられる.例えば,ミュージ Referral web は social network を用いてあるトピッ シャンと,音楽の特徴を表すキーワード(例えば『ロッ クに関連するエキスパートを探す情報検索システムで ク』 『パンク』 『骨太』 『青春』など)の共起行列を Web ある [6]∼[8].ユーザの名前を与えられると,システム から抽出し,統計的処理を行えば,ミュージシャンの はユーザの周辺の social network を表示する.ユーザ 類似度を計算することができるので,ミュージシャン はエージェントを持ち,エージェントが social network の名前を入力として,音楽性の類似したミュージシャ 上でユーザの興味にあった topic words に関連するエ ンを推薦することができると考えられるし,クラスタ キスパートを探し出す.Referral web がユーザの名 リングを行うことで,細かいジャンルに分類すること 前をクエリとした Web 検索の上位ページから topic 8 論文/Web 上の情報を用いた研究トピックの抽出 words を抽出しているのに対して,提案手法では,研 究者と研究キーワードの共起行列に統計的手法を行い, 研究キーワードの重みを計算することで,全研究者の 中で各研究者を特徴付けており,この点が異なる. [8] H. Kautz, B. Selman, and M. Shah, “The hidden web,” AI Magazine, vol.18, no.2, pp.27-36, 1997. [9] J. Fürnkranz, “A study Using N-grams Features for Text Categorization,” Technical report, Austrian Rsearch Institute for Artificial Intelligence, OEFAITR-98-30, 1998. 5. お わ り に [10] 村田剛志,“参照の共起性に基づく Web コミュニティの発 本論文では,研究者名と研究キーワードの Web 上 見,” 人工知能学会論文誌,vol.16,no.3,pp.316-323, 2001. での共起に基づいて,統計的処理およびクラスタリン [11] P. Knees, E. Pampalk, and G. Widmer. “Artist clas- グを行うことで,研究者のクラスタとして研究トピッ sification with web-based data,” 5th International クを抽出する手法を提案し,JSAI2004 の参加者を具 体例にとって,得られた研究トピックとそれに関連す る研究者のクラスタを紹介した.また,研究キーワー ドの重みを計算する際に χ2 を用いることの有効性を Conf. on Music Information Retrieval(ISMIR), 2004. [12] 文部科学省,平成 15 年度 科学技術の振興に関する年次報 告,http://www.mext.go.jp/b menu/houdou/ 16/06/04060202.htm,第 3 部第 3 章第 1 節, 2004. [13] 吉川 弘之,科学者の新しい役割, 岩波書店,2002. (平成 xx 年 xx 月 xx 日受付) 示し,論文のアブストラクトを用いて研究者をベクト ルで表現した場合よりも高い精度で研究者の研究ト ピックの類似度を計算できることを示した. 本論文では研究者を対象として研究トピックを抽出 することを取り扱っているが,提案手法は検索エンジ ンのヒット件数を用いたシンプルな方法で,特定の実 体(named entity)を単語のベクトルとして表現する 手法として,広い適用範囲に対して有効であると考え 電子 花子 (正員) 1996 東北一大学情報工学科卒.1999 東 京第一大学工学部工学部助手.某システム の研究に従事. られる. 謝辞 本研究を行う上でお世話になった全ての方に 心より感謝いたします. 文 [1] 献 Y. Matsuo, H. Tomobe, K. Hashida and M. Ishizuka, “Mining social network of conference participants from the web,” Proc. 12th International WWW Conf., poster, 2003. [3] 松尾豊,友部博教,橋田浩一,石塚満,“Web からの人間 関係ネットワークの抽出と情報支援,” 第 17 回人工知能 学会全国大会論文集,2003. 松尾豊,友部博教,橋田浩一,中島秀之,石塚満,“Web [4] 上の情報からの人間関係ネットワークの抽出,” 人工知能 学会論文誌,vol.20, no.1, pp.46-56, 2005. I. S. Dhillon, “Co-clustering documents and words [2] 情報 太郎 (正員) 1995 大阪一大学工学科卒.1997 同大 大学院工学研究科修士課程了.1998 大阪 (株)入社.某コンピュータ応用の研究に 従事.ABC 学会会員. 通信 次郎 1980 九州一大学理工学部卒.1981 大阪 (株)入社.現在 ATT 日本研究所に所属. using bipartite spectral graph partitioning,” Proc. 7th ACM SIGKDD International Conf. on Knowledge Discovery and Data Mining(KDD), 2001. [5] G. Salton and M. J. McGill, “Introduction to Modern Information Retrieval,” McGraw-Hill Book Company, 1983. [6] H. Kautz, B. Selman, and M. Shah, “ReferralWeb: combining social networks and collaborative filtering,” Communications of the ACM, vol.40, no.3, 1997. [7] H. Kautz, B. Selman, and A. Milewski. “Agent amplified communication,” Proc. National Conf. on Artificial Intelligence, pp.3-9, 1999. 9 Abstract In this paper, we propose a method to extract research topics automatically from the web. Our proposed method makes use of the cooccurrence between reseacher names and research keywords on the web, run statistical process and clustering to it, and identifies researcher groups related to research topics. According to our experiments, our method can caluculate the similarity between researchers appropriately. Our proposed method is simple, and is effective in many other objects than researchers, such as musician, products, and so on. Key words Web mining, search engine, cooccurrence matrix, clustering, research topic, χ2 value