...

PDF形式 407 KB - 内閣府経済社会総合研究所

by user

on
Category: Documents
26

views

Report

Comments

Transcript

PDF形式 407 KB - 内閣府経済社会総合研究所
第4章
学術俯瞰とウェブからの情報抽出
松尾 豊1
本章では、まず学術俯瞰の手法や実例について述べた後、ウェブから情報抽出を行なう手法について紹介す
る。昨今では、論文データ、特許データ、またウェブ上のページ等、大量のデータが利用可能になっている。
大量のデータがあったときに、それを適切に俯瞰する術がなければ、意思決定等に有効活用することができな
い。そこで、
• 大量のデータから全体像を大まかに把握する。どういった部分から構成されているかを理解する。
• 注目する部分をさらに詳細に深堀りする。
というプロセスが必要になる。ユーザインタフェースの大家である Ben Shneiderman が、ユーザインタ
フェースの「マントラ」として述べているのが以下である。
”Overview first, zoom and filter, then details on demand”
つまり、全体像を最初に示し、ズームしながらフィルターし、必要に応じて詳細な情報を見せる、というも
のである。ここで紹介する学術俯瞰、またはウェブからの情報抽出も、大量のデータを対象に全体の俯瞰を得
て、さらに詳細を調べることのできるシステムとなっている。以下、これを紹介する。
4-1
学術俯瞰の方法
現在、我々は図書やインターネットなどを通じて、膨大な情報にアクセスすることが出来る。しかし、多く
の情報を知っているということそれ自体は現実には何ら価値を持たず、得られた情報が現在、どういう意味を
持っているのか、他の情報と比較してどうか、何に使えるのかといった、意味を付加することによって初めて
価値ある情報となる。したがって、膨大な情報を分析、解釈しそこに何らかの意味を見出す必要がある。
近年では、大量に情報があっても、さまざまな問題の解決が困難となっている。それは社会から要請される
解決すべき課題が複雑になってきているからである。問題の全体像が極めて複雑、もしくは、解決法が一意に
定まらないような課題に対し、適切な解決策を提案するためには、複数の知識、ならびにその間の関係に関す
る知識が欠かせない。すべての知識は互いに関係しており、部分を捉えるだけでは全体像が見えてこない。
本章で取り上げるネットワーク分析という手法は、ある情報と別の情報の間の関係情報を扱う分析手法であ
る。ネットワークとはノードと呼ばれる情報の単位と、リンクと呼ばれるノードの間を繋ぐ関係情報からなる
ものの総称である。本章では抽象的なネットワークというものの構造を分析するためのネットワーク特徴量と
いう概念や変数群、ならびに、ネットワークのクラスタリング手法について解説する。
4-1-1
関係の表現法としてのネットワーク
ネットワークとはノードとリンクにより構成されるものの総称である。ここでノードとは個別の要素であ
り、リンクとはノードとノードを繋ぐ関係性である(図 4-1)。ネットワークとは原子や分子、生物や人工物
1 東京大学イノベーション政策研究センター准教授
43
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
のように実体を持って世の中に存在しているものではない。それは世の中にあるものや、現象や概念といった
抽象物をモデル化するための視点である。ネットワークという視点を持って世の中を眺めると、あらゆるもの
がネットワークという枠組みの中で記述できる。対象が異なれば何をノードとし、何をリンクとするかが代わ
る。しかし、ネットワークというものの見方は共通であり、様々な分析手法を共通に用いることができる。以
下に社会ネットワークとその分析手法を示す。
䊉䊷䊄
䊥䊮䉪
図 4-1: ノードとリンクにより構成されるネットワーク
社会ネットワーク(Social Networks)
社会ネットワークとは、人間や集団の交友関係、コミュニケーション関係を記述したものである。例えば、
友人関係、企業間のビジネスの取引関係、家族同士の婚姻関係などは、社会的なネットワークとして記述でき
る。社会学の分野ではこれらのネットワークを対象として、工場労働者のネットワーク、学校における子供の
交友関係ネットワーク、ビジネス上のコミュニティネットワーク、性交渉ネットワークなど、多くの人間関係
や組織間の関係に関して研究がなされてきた。
中でも重要であるのが、Milgram による”small-world”実験である。1967 年、ハーバード大学の Stanley
Milgram は興味深い実験を行った。Milgram が行った実験では、お互いがファーストネームで呼び合う友人
に手紙を転送していき、何人を経由すれば目標人物に到達できるのか、というものを調べるものであった。彼
はアメリカのカンザス州とネブラスカ州に住む人をランダムに 300 人選びだし、アメリカ社会の人間関係に
関する研究に協力したい旨を伝えた。送り主に人々には、受取人のおおまかな居場所や職業といった手がかり
が与えられ、彼らはそれをもとに、マサチューセッツ州に住む目標人物に「より近い」かもしれないと思われ
る誰かに手紙を転送するよう指示され、最終的な受取人に手紙が届くまで、これが繰り返された。これを繰り
返し、一体何人を隔てて目標人物にたどり着くかを調べたのである。当初の予測としては、100 人くらいは隔
たるということであったが、結果は平均たったの 5.5 人で目標人物にたどり着くという、驚くべきものであっ
た。この実験は、1967 年 Psychology Today 誌に「The Small World Problem」として発表された (Milgram,
1967)。
後にこのことから「平均 6 人の『知人の知人』を介していけば (アメリカにおける) 全ての人とつながること
ができる」という人的ネットワークの概念を示すものとして、”Six degrees of separation”(6 次の隔たり) とい
う言葉が生まれた。実際には、ミルグラム自身は「6 次の隔たり」という表現は使っていないし、「世界中す
べての人と知人関係を結べる」という結論も導き出していないが、この言葉にちなんだ映画(日本公開時の邦
題:私に近い 6 人の他人)が公開されたこともあり、あたかも正しい理論であるかのように人々の間に広まっ
た。この実験は再現性が確認されておらず、厳密には正しい理論と言うことはできないかもしれないが、ネッ
トワーク研究にとって重要な一歩を踏み出した実験であったということはいえる。
従来、社会ネットワーク研究は、データ量が不十分である、データが不正確である、主観的であるという問
題を抱えてきた。ネットワークデータを取得する場合は、実験を行うのが普通であり、その結果、十分なデー
タサンプル数が得られないという問題があった。また、実験で得られるデータというのは人間の主観がどうし
知識社会研究会 2008 年度報告書
44
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
ても入り込んでしまう。例えば、「友人」の定義というのは人によって異なるのは当然で、実験の結果として
得られた友人ネットワークのデータが主観的であるという指摘には反論できない。また、実験を行う場合は、
往々にして制御不可能なエラーが起こり、データが不正確になりがちだった。
これらの問題を解決するために、多くの社会学研究者は次のような 2 つの方法を採り始めた。いずれの方法
も信頼性の高いデータをコピーするというものである。一つめは、コラボレーションネットワークのデータを
用いるというものである。典型的には、どの組織、コミュニティに所属しているのか、という関係から、同じ
組織、コミュニティに所属している人間間にはリンクが存在するとするものであるものであり、例えば、同じ
映画で共演した俳優同士の間にはリンクが存在するとする「共演関係ネットワーク」、同じ企業の取締役同士
の間にはリンクが存在するとする「取締役ネットワーク」が有名である。二つめは、コミュニケーションの記
録を用いるというものである。例えば、手紙のやりとりの記録からネットワークを生成する方法、電話の履歴
からネットワークを生成する方法、e-mail のやりとりからネットワークを生成する方法などがある。近年で
は、Web における人間関係、例えば、ファイル交換などの P2P のネットワーク、同じ商品(映画、本など)を
好む人間の間にリンクが存在すると見なす嗜好ネットワークに関する研究も行われている。
4-1-2
ネットワーク分析の基礎技術
ネットワーク分析に関する研究は、18 世紀に L. オイラーが創始したグラフ理論を源流の一つとする長い歴
史を持つ分野であるが、最近 10 年足らずの間に、大きな進歩をしたと言われている。ネットワーク分析に関
する研究が重要であるのは、分野横断的な研究領域であるからである。例えば、前節でみてきた細胞内の遺伝
子、タンパク質ネットワーク、電力系統のネットワーク、インターネット回線のネットワーク、WWW のリン
ク構造のネットワーク、論文の引用関係のネットワーク、脳内の神経回路網、人間関係のネットワークなどに
は共通の特徴がみられる。ネットワーク研究は、自然科学、工学、社会学など複数の分野にまたがる研究分野
なのである。
ネットワーク分析において、さまざまな手法や指標が用いられる。例えば、中心性の計算、構造同値による
競合分析、構造的空隙、スモールワールド性や次数分布の分析、クラスタリング等である。ここでは、特にク
ラスタリングに焦点をあて、紹介する。クラスタリングは、学術俯瞰においても、重要な働きを担う処理で
ある。
クラスタリング
クラスタリングとは、データの集合を部分集合(クラスタ)に切り分ける手法である。それぞれのクラスタ
に含まれるデータが共通の特徴を持つようにすることで、複雑なデータ全体の構造を単純化し、より良く理解
することが出来る。ネットワークのクラスタリングによって、ノードは類似のリンク構造を持つクラスタへと
分割される。ネットワークにおけるクラスタリングに関する研究は現在も発展途中であるが、所謂、統計にお
ける一般的なクラスタ分析とは異なり、ネットワーク分野ではネットワーク構造(トポロジー)を用いたクラ
スタリング手法が複数提案されている。これらの研究は大きく次の 3 種類に分類できる。
• ネットワークの系のエネルギー以外を評価関数とする手法
– 評価関数にグローバルなネットワーク構造を用いる手法
– 評価関数がローカルなネットワーク構造を用いる手法
• ネットワークの系のエネルギーを評価関数とする手法
以下では特に評価関数にグローバルなネットワーク構造を用いる手法について詳しく述べる。
Girvan と Newman によって提案された edge betweenness 法 (Newman 2004a)(以下、発明者の名前にち
なんで「GN 法」とする。)がこの分類に当てはまる。クラスタリングのアルゴリズムに関して、従来は最も
知識社会研究会 2008 年度報告書
45
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
「中心」的なリンクに着目し、中心にあるリンクから順に切断していくという手法が一般的なクラスタリング
のアルゴリズムであった。Girvan と Newman は、最もクラスタ同士を媒介しているリンクに注目し、リンク
の媒介性が高いリンクから順に切断するというアルゴリズムを提唱した。このリンクの媒介性を彼らは、edge
betweenness と名付けた。アルゴリズムは以下の通りである。
1 全てのリンクの edge betweenness を計算する。
2 最も edge betweenness が高いリンクを切る。
3 再度、全ての edge betweenness を計算する。
4 1∼3 を、リンクが無くなるまで繰り返す。
しかし、上記プロセスを計算が終わるまで繰り返すと、全てのリンクが切断され、全てのノードは他とリン
クを有さない孤立ノードとなってしまう。従って、適切なクラスタリングの停止条件を設定する必要がある。
この問題を、Girvan と Newman は、下記で定義されるモジュラリティを評価関数として定義することで解決
した。
行列 e
eij クラスター i と j 間のリンク数(割合)
Tr(e) 同じクラスター内でつながるリンク数(割合)
ai ≡
eij
クラスター i のノードのリンク数(割合)
j
とした場合にモジュラリティ(modularity)Q を、
eij − a2i = Tr(e) − e2
Q=
i
と定義する。Q が表すのは、[同じクラスタ内でのリンク割合]-[ランダムネットワークと仮定した場合のクラ
スタ内でのリンクの割合] である。すなわち、クラスタ内でのリンクの数が多く、クラスタ間に跨るリンクの
数が少なくなるようにクラスタリングを行うのである。
クラスタ内リンク数がランダムの場合と変わらなければ Q = 0 であり、強いクラスタ構造の場合は、Q = 1
である。現実は、Q = 0.3 ∼ 0.7 で、あまり高い値にはならない。リンク切断の各プロセスで modurality Q を
計算し、modurality Q が最大になった時点で切断を止めると、クラスタ内に密なリンクを有する一方、クラ
スタ間のリンク数は小さい構造となり、クラスタリングの結果が一意に定まる。
Newman ら (Newman & Girvan, 2004) によって GN 法が提案され、現実のネットワークデータに十分適
用できるということが示されてからわずか半年後に、Newman 自身が新しいクラスタリング手法を提案した
(Newman, 2004b)。本書ではこの手法を「Newman 法」と呼ぶことにする。
GN 法は、これまで解決されてこなかったネットワークのクラスタリングに関して、新しい方法を提案し、
その方法を現実のネットワークに適用して、効果と実用性を確認した点では有用であった。他方、GN 法は、
それまでの手法と比べて改善されたとは言え、O(m2 n) or O(n3 ) の計算量が必要で、大規模ネットワークへの
適用には計算量が大きすぎるという問題もあった。そこで、Newman は GN 法よりも高速で、GN 法と似た
結果を導く、新クラスタリング手法を提案した。
アイディアは、
「GN 法においても、実際のリンク切断は Q の値に基づいている。それなら、最初から Q の
増減だけで切断リンクを決めればよいのではないか。」というものであった。実際には、全てのノードについ
て「リンク先と合わさって1つのクラスタになるべきか」を計算していく。あるクラスタと別のクラスタとを
分ける方法として、クラスタ間のリンクに対してクラスタ内部のリンクの密度の濃さで評価する方法が考えら
れる。この度合いをモジュラリティという値で定義している。
Newman はさまざまなネットワークデータへ Newman 法を適用し、GN 法と同程度かそれ以上に現実に
合致するクラスタリング結果を少ない計算量で得られることを示した。また、その中の一つが大規模な科学者
知識社会研究会 2008 年度報告書
46
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
のコラボレーションネットワーク(N = 56, 276)であったが、この計算は普通のデスクトップマシンを用い
て、42 分で終了した。GN 法を用いていたら、3-5 年待たねばならなかっただろう。実際、GN 法は、O(m2 n)
or O(n3 ) の計算量が必要であったが、Newman 法では、ei j が更新される際に最大 O(n)、従って 1 ステップで
O(m + n)、全ステップで、悪くても、O((m + n)n) or O(n2 ) の計算量で実行可能である。
4-1-3
引用分析の基礎技術と評価
本節では、ネットワークの一つとして、学術論文の引用ネットワークとその分析手法を取り上げ、その概要
を述べる。引用ネットワーク分析とは論文をノードとし、論文間の引用関係をノードとする分析手法であり、
古くから科学計量学や計量書誌学と呼ばれる分野の重要な研究領域として研究がなされてきた。
計量書誌学とは、Garfield と Price により開発された手法で、科学の知識の構造を表現し、研究活動を支援
するための方法の一つである。計量書誌学においては、学術論文や特許が分析の対象であり、それらを定量的
な分析手法を用いて解析することで、ある研究分野の中での、ホットトピックは何か、どの論文が多く引用さ
れているか、つまりどの論文が重要か、どの分野と分野がどのように関連しているか、重要な研究者は誰か、
重要な研究機関はどこかといったことを分析し、書誌学的観点からの評価を行う。そのような分析は各分野の
研究者のみならず、企業の技術者、政策担当者などの幅広い人に有用な情報となるであろう。
計量書誌学における分析手法には、以下の 3 通りがある。一つ目は、統計的な集計量を用いた分析であり、
著者や国当たりの論文数や被引用数をカウントして各研究者・研究機関の評価に用いる、各雑誌における最近
2 年間の一論文あたりの引用数を調べ学術雑誌の評価に用いる(この指標は一般にインパクトファクターと呼
ばれている)、論文数の推移を分析し各分野の盛衰を見る、といった分析がなされている。二つ目は、論文や
特許が有する言語情報という属性情報に着目した自然言語処理による分析であり、一般にテキストマイニング
と呼ばれる。この手法については既に第 2 章で解説した。最後が、引用関係にという関係情報に着目した分析
であり、一般にリンクマイニングと呼ばれる引用分析である。ただし、引用分析において何をもってリンクと
みなすかという点については、まだ定まった手法が存在しないのが現状であり、一般には以下の3つの手法が
用いられる(図 4-2)。
ฎ䈇
⋥ធᒁ↪
౒ᒁ↪
ᦠ⹹⚿ว
ᣂ䈚䈇
図 4-2: 引用分析の種類
(1) 直接引用(direct citation)
(2) 共引用(co-citation)
(3) 書誌結合(bibliographic coupling)
知識社会研究会 2008 年度報告書
47
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
直接引用(direct citation)
これが通常、我々が引用と呼んでいるものであり、論文 A と論文 B が論文 C に引用されている場合、論文
A と論文 C、論文 B と論文 C の間にリンクが存在するとみなす手法である。この場合、ネットワークにはノー
ドが3つとリンクが2本存在することになる。直接引用を用いた場合、ある論文はそれ自身が引用している全
ての論文との間にリンクを有すると見做される。
共引用(co-citation)
Small (1973) により提案された手法であり、論文 A と論文 B がともに論文 C に引用されている場合、論文
A と論文 B の間にリンクが存在するとみなす手法である。この場合、ネットワークにはノードが2つとリンク
が1本存在することになる。共引用を用いた論文、ある論文の引用文献リストに記載されている全ての論文の
ペアに対して、それらの論文の間にリンクが存在すると見做される。
書誌結合 (bibliographic coupling)
Kessler (1963) により提案された手法であり、論文 D と論文 E がともに論文 C を引用している場合、論文
D と論文 E の間にリンクが存在するとみなす手法である。この場合、ネットワークにはノードが2つとリンク
が1本存在することになる。書誌結合を用いた場合、ある論文を引用している全ての論文のペアに対して、そ
れらの論文の間にリンクが存在すると見做される。
引用ネットワーク分析においては、これら 3 種の分析手法が場当たり的に用いられているのが現状である。
例えば、Small は被引用数が上位 1 %の論文からなる共引用ネットワークを分析し、科学分野で成長している
領域を追跡する方法を提案した (Small, 2006)。Schiminovich は、再帰的に書誌結合という操作を行うことで、
自動的に学術論文を分類した (Schiminovich, 1971)。Rousseau は、共引用と書誌結合から、主要な研究領域
を調査している (Fang & Rousseau, 2001; Egghe & Rousseau, 2002)。Garfield は、直接引用ネットワークか
ら、学術領域の推移を俯瞰図を時系列で分析した (Garfield, 2004)。
しかし、最新の研究では、これらの中で直接引用を用いた場合が最も分析のパフォーマンスが良いというこ
とが報告され始めている。Klavans と Boyack は、ジャーナルの引用ネットワークを、直接引用と共引用を用
いて分析した。それぞれの引用ネットワークのクラスタリングを行い、そのクラスタリング結果を ISI 社が付
与しているジャーナルのカテゴリーの一致度と比較したところ、直接引用の方がパフォーマンスが高い、つま
り、直接引用を用いた場合の方が内容の類似性が高いということを示した (Klavans & Boyack, 2006)。
同様に、Shibata ら (2009) は、直接引用、共引用、書誌結合を用いて、各手法の新興学術分野の検出時にお
けるパフォーマンスの比較を行った。その結果、新興学術分野をいち早く検出するという点においては、直接
引用と書誌結合が明らかに優れていた。これは共引用を用いたリンク生成の場合、時間遅れが存在することに
よることに起因すると思われる。例えば、図2において、A と B がほぼ同時期に出版され、論文間に引用関係
を有するとしよう。また、それより遅れて、C が出版され、A と B を引用しているとしよう。このケースの場
合において、直接引用を用いると、A と B の間にはそれらが出版されたタイミングでリンクが発生する。しか
し、共引用を用いると、A と B の間には直接引用関係があるにも関わらず、論文 C が出版されるまでリンク
が存在しない。論文 C の出版後にようやく、A と B の間にリンクが形成される。従って、新興学術分野を引
用分析によって検出しようとする場合、共引用は用いる手法として適切ではない。また、共引用や書誌結合を
用いた場合、ネットワークの構造が直接引用の場合に比べランダムに近づく、すなわち、各論文間へのリンク
の有無がランダムに見える傾向があったということも指摘しておかねばならないだろう。
ただし、学術論文を引用するという行為自体にタイムラグが存在することは指摘しておこなければならな
い。学術論文は当然のことながら通常、出版後のみにしか読めない。つまり、引用は論文出版後でないとでき
知識社会研究会 2008 年度報告書
48
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
ない。投稿から論文が出版されるまでには通常 1∼2 年を有する。従って、内容的には類似性が高いにもかか
わらず、ほぼ同時期に投稿・出版される論文の場合(例えば、図 4-2 における D と E)、その間に直接引用は
存在しない。しかし、書誌結合を用いるとこの点を改善できる可能性がある。何故なら、過去の同一の論文を
引用していれば、直接引用が存在しなくてもリンクを形成することができるからだ。Shibata らのケーススタ
ディによる検証結果では、直接引用と書誌結合の間に新興学術分野検出におけるパフォーマンスの優劣は観察
されなかったが、理論的には書誌結合が適する場合も存在するといえる。
また、書誌結合や共引用を用いる場合、本来あるべきノードがネットワークから漏れてしまう場合があると
いう点に注意を払う必要がある。ここで図 4-3 に矢印で示されたような直接引用関係を有する引用ネットワー
クを考えてみよう。ここで、共引用や書誌結合を用いると、1 や 2,3 がネットワーク中の最大連結成分 (=リ
ンクによって連結されたノードの塊、すなわち、連結成分の中で、最もサイズ、つまりノード数が多いもの。)
から漏れてしまう。従って、このような場合、ネットワーク分析では一般的なやり方ではあるのだが、最大連
結成分のみを調査対象とするのは好ましくない。従って、その他の連結成分についても分析を行う必要がある。
図 4-3: 引用分析の種類とネットワーク
4-1-4
知の構造化への応用技術
我々は、以上を踏まえて、引用ネットワーク分析を用いた知の構造化技術を開発している。図 4-4 は、我々
が現在構築しているシステムの概略である。図 4-4 中、点線より下に図示してあるプロセスは情報技術を用い
て自動的に分析されるもの、四角で囲んであるプロセスはエキスパートによる作業である。知の構造化の最
初のステップは対象となる領域を選定することである。そして、その領域を構成する論文データを取得する
ための適切なクエリーを選定しなくてはならない。クエリーが定まると、ISI 社の Science Citation Index や、
Chemical Abstracts などの学術論文データベースから引用情報を含む論文の書誌事項を入手する。次に引用
ネットワークの構築、最大連結成分の取得、クラスタリング、可視化、ネットワーク指標の計算を含む、引用
ネットワーク分析を行う。また、クラスタリングにより同定された各領域の主要論文、主要研究者の抽出、時
系列変化の分析を行う。それらの結果を専門家が分析し解釈を行う。
クエリは次の 2 つのステップで決定される。初めに、取得したい学術分野の代表的なキーワードを選定す
る。次に、それらの語だけでは学術分野が一意に定まらないおそれのある場合は、関連キーワードを追加す
る。このステップは、「クエリ拡張 (query expansion)」と呼ばれている (Kostoff, et al., 1997)。ここで重要な
のは、領域を構成する論文が漏れないように広くカバーするためにキーワードを追加することである。また、
分野によっては、キーワードをクエリーとすると適切な論文集合を獲得できない場合がある。例えば、エネル
ギー問題に関心があり、「エネルギー」に関する領域を分析したいという場合を考えてみよう。キーワードと
して、”energy”を指定すると、様々な論文が検索される。その多くは、石油や石炭、太陽電池といったエネ
ルギー資源や技術に関する論文ではなく、potential energy や activation energy といった電子や原子レベル
でのエネルギー状態に関するものであり、資源としての「エネルギー」との関連は非常に低い。そのような場
合、ジャーナルの名称をクエリーとするのが適切である。ISI 社は、Journal Citation Report (JCR) の中で、各
知識社会研究会 2008 年度報告書
49
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
䉪䉣䊥䊷䈱ㆬቯ
䊂䊷䉺䊔䊷䉴䈎䉌䈱ᢥ₂䈱ᦠ⹹ᖱႎ䈱౉ᚻ
ኾ㐷ኅ䈮䉋䉎
㗔ၞ䈱․ቯ䈫ಽᨆ
ᒁ↪䊈䉾䊃䊪䊷䉪ಽᨆ
䊈䉾䊃䊪䊷䉪ᜰᮡ
ฦ㗔ၞ䈱ਥⷐ⺰ᢥ
ᦨᄢㅪ⚿
ᚑಽขᓧ
ਥⷐ⎇ⓥ⠪
ᤨ♽೉ᄌൻ
ᒁ↪䊈䉾䊃䊪䊷䉪
᭴▽
䉪䊤䉴䉺䊥䊮䉫
นⷞൻ
図 4-4: ネットワーク分析を応用した学術俯瞰の手順
ジャーナルに該当する学術領域を情報として付与している。分析したい領域が JCR の分類法とマッチするので
あれば、キーワードをクエリーとする代わりにジャーナル名を代替的に用いることができるであろう。また、
各出版社も独自にジャーナルにカテゴリー名を付与しているのでそちらを参考にすることも出来る。
対象領域とクエリーを決定したら、データベースからの文献の書誌情報を入手する。例えば、ISI 社の論文
データベースからは、出版年、タイトル、著者などの各論文の属性情報と、引用関係という関係情報の両方が
取得可能である。
データを取得後、引用ネットワーク分析に移る。論文をノード、引用をリンクとみなし、引用ネットワーク
を生成する。この時、各論文の出版年の情報を用いて、各年における引用関係ネットワークを生成することが
でき、時系列分析が可能である。引用ネットワークの生成においては、前述の理由から直接引用を用いる。次
に、引用ネットワーク中から、最大連結成分を抽出する。この過程において、最大連結成分に含まれる論文を
一本も引用していない、もしくは一回も引用されていない論文は分析の対象から外れる。このことにより、対
象領域とは無関係な論文は対象から外れるであろう。というのは、その論文が対象領域の内容を扱っている場
合、論文を一つも引用しないで論文を執筆し採択されることは極めて稀であるからである。この最大連結成分
取得という操作により、クエリーの多義性・曖昧性により誤って取得されたデータをかなりの程度分析の対象
から排除できる。
この最大連結成分に含まれる論文を対象として、リンク数や被引用回数、クラスタリング係数や距離中心性
といったネットワーク指標を計算する。ネットワーク指標のうち、クラスタ分散度はクラスタリングを行った
後に計算される。また、引用関係は本来、引用・被引用という向きが存在するが、平均パス長やリンク数など
のネットワーク指標の計算やクラスタリングにおいてはこれらの手法が矢印のない無向ネットワークに対して
計算されるものであるため有向性を排除して計算を行う。
次にクラスタリングを行う。ここでのクラスタリング手法に求められる要件は、1) 大規模ネットワーク(数
万ノード規模)に適用して、現実可能な計算時間でクラスタリングが実行可能である、2) ネットワーク構造
を局所的ではなく、俯瞰的に見てクラスタ間のリンクを切断できる、という 2 つである。この 2 つを満たすの
は、評価関数にグローバルなネットワーク構造を用いる手法(分類 1)であることから、本書では、中でも最
も計算量の小さいモジュラリティを用いたクラスタリング手法 (Newman, 2004; Clauset et al., 2004) を統一的
知識社会研究会 2008 年度報告書
50
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
に用いることにする。この手法を用いることで、比較的小さい計算量(O((m + n)n) もしくは O(n2 ))でクラ
スタリングが実行可能となる。また、各クラスタの名称などの特徴は、クラスタに含まれる論文やキーワード
の情報をもとに専門家が判定を行った。
可視化に関しては、大規模なネットワークを短時間で可視化するために、主に LGL を用いている。LGL で
描画する場合、可視性を確保するために、リンクのみを描きノードを描いていない。リンクに関しては、クラ
スタリング結果を利用し、同一クラスタに属するノード間のリンクには同一色を用い描画を行っている。クラ
スタ間のリンクは描画を行っていない。
図 4-5 は、ネットワーク分析を用いて関連付けられた知識のイメージである。構造化知識は断片的知識か
らなるネットワークである。最も小さなノードは細分化された特定の知識を表し、今回は個々の論文である。
ノードをつなぐリンクは個別の知識間の関連を表す。関連のあるいくつかの最小ノードの集合がひとまとまり
の知識を表し、特定の「分野」、
「領域」などと言われる。相互に関連のある分野と分野はより大きな単位の大
分野に纏められ、大分野と大分野にはさらに関連がある、という具合である。図 4-5 からわかるように、知識
の構造化は、小分野、中分野、大分野それぞれの細分化レベルにおいて分野の内部とともに、外部との関連を
明示化する。これにより、図 4-1 のように知識を継続的に生み出すために必然的に細分化されてきた各学術領
域が、全体像の中のある場所に位置づけられ、全体像の俯瞰による知識構造の理解が可能になる。
図 4-5: 学術領域の関連付けと知識の構造化
小宮山 (小宮山 2004) によれば、知識の構造化は、「構造化知識、人、IT(Information Technology, 情報技
術)およびこれらの相乗効果によって、知識の膨大化に適応可能な、優れた知識環境を構築すること」と定義
されている。構造化知識は、相互に関連づけられた断片的知識からなる知識ネットワークである。つまり、誰
も追随できないほどの情報爆発を克服するため、知識の構造化を行うための手法を情報技術を用いて実装す
る必要がある。ここで重要なのは、構造化知識、人、情報技術の三位一体の相乗効果である。人と情報技術だ
けでは単なる検索エンジンの域を出ない。構造化知識と人だけでは、専門家が集まって手作りで編纂した百科
事典の域を出ない。構造化知識は情報技術だけで自動的に生成されるものではなく、人の直感や俯瞰能力を交
えることが不可欠である。構造化知識と情報技術だけでは構造化知識を進歩させることができない。情報技術
で実装された構造化知識を人が使用することにより、使う人の頭の構造化領域が拡がり、漠とした知識構造も
明確になり、構造化知識のさらなる充実に寄与できる。知識の構造化の具体的なゴールは、知識の集合から何
らかの知識を抽出して入力するとその知識に沿って構造化された知識の全体像が再構成され、計算機上で利用
者の興味に応じて知識構造の閲覧やシミュレーションなどを可能にする知識基盤システムを構築することであ
る。構造化知識の知識基盤システムが実現すれば、学術研究、教育、産業において、知識の発見、吸収、利用
の利便性が現在に比べて格段に向上するだろう。
知識社会研究会 2008 年度報告書
51
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
4-1-5
まとめ
現在解決が求められている複雑な問題に対して解決法を提示するためには、広い知識に基づいた深い洞察が
必要である。課題解決に向けた知識の価値を決めるのは他の知識との関係である。しかし、現在の専門化・細
分化された知の状況においては、そのような関係性を発見し、知と知のインターフェースを特定するのが何よ
りも困難である。そのような困難なタスクの実行は従来、専門家により担われてきたが、加速する情報の爆発
速度に追随出来なくなっており、本章で紹介したネットワーク分析の手法が必要となってきていると我々は考
えている。
ネットワーク分析とは、世界をノードとリンクにより構成されるネットワークとして捉え、その内部構造を
記述する手法である。ネットワーク構造を捉えるためには、ただ闇雲にネットワークの中を探索するのではな
く、情報技術に基づいた手法が有効である。そのためには、個々のノードのネットワーク内での位置付けを知
るためのネットワークの特徴量や、全体の構造を把握するためのクラスタリングやネットワーク構造の可視化
を活用することが有効であると考えられる。
4-2
ウェブからの研究者ネットワーク抽出
次に、本節では、ウェブに焦点をあて、ウェブ上の情報からネットワーク的な俯瞰を得る方法について述べ
る。ウェブは近年急速に進展しており、その情報量、技術レベルともに急速に上がっている。ここで述べる手
法は、ウェブ上の意味的な情報を取り扱うセマンティック技術のひとつとしても位置づけることができる。
4-2-1
研究者ネットワーク抽出の目的
近年、研究に関するさまざまな情報が Web から手に入る.例えば,研究者個人の研究に関する内容の紹介
や発表文献、学会のプログラム、プロジェクトや研究グループのホームページ、採択された助成金の情報な
ど、多様な情報が Web 上に存在する。我々は、研究者に関する情報を Web 上から集め、その関係を抽出する
手法を研究している。これまで人工知能学会の研究者の関係を抽出し図示するシステムを 2003 年度から 2009
年度まで、人工知能学会全国大会において継続的に運用している。学生や若手研究者、他分野の研究者が、当
学会内の研究者の関係を把握したり、研究分野を俯瞰する用途に用い、好評を博している。
一方、近年では、産学官連携の重要性がますます高まっている。自律分散的な研究者がネットワークされ研
究ゴールをめざすという形での研究システムも提案されている。こうした仕組みの構築にあたって、我々が研
究を進めている研究者ネットワークの抽出技術が何らかの貢献ができると考えている。自分に馴染みの少ない
研究分野の研究者ネットワークを自動的に抽出し、どういった研究者がどのようなグループを構成しているか、
どういう研究テーマが行われているといった全体像を俯瞰することは、研究者や事業者などさまざまな主体の
交流に役立つのではないだろうか。また、実際に研究者ネットワークが変化していく様子を捉えることができ
れば、活動の評価や方向性の決定にも使えるのではないだろうか。
前節で述べたように、これまで,論文 DB の共著や引用関係を用いて研究者の関係を分析する研究は多く行
われてきた。また、研究ファンドの情報をもとに、研究者の協働関係を分析する研究も行なわれている。しか
し、Web 上には、発表文献やプロジェクトの情報を含んだ、より多様な情報が存在し、非常に新しい情報も
含まれる。例えば、研究の開始からその成果が論文となって公表されるには 1 年以上かかるのが普通だが、研
究を始めた時点でその目的や内容を Web 上で紹介することも珍しいことではない。我々は、Web 上にある情
報の多様性やその鮮度を重視し、特に Web を対象として技術開発を進めており、ここではそれについて紹介
する。学会におけるコミュニケーション支援や、研究者の検索、効果的な共同研究の促進、さらにはどの研究
分野に投資すればよいかといった意思決定につなげることが大きな目的である。
以下に、Web からの研究者ネットワークの抽出技術、およびそれを用いた研究者検索システムについて述
べる。
知識社会研究会 2008 年度報告書
52
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
研究者ネットワークの自動抽出
4-3
ここでは、ネットワークの抽出法を人工知能学会の研究者を例にとって説明する。まず、ネットワークを構
成するのは、2004 年度の人工知能学会の全国大会 (JSAI2004) の著者・共著者とし、ネットワークのノードと
する。ネットワークに含める研究者は、あらかじめ目的とする研究コミュニティの研究者リストを何らかの方
法で入手しておけばよい。なお、本手法では、個人に関する情報として用いるのは、氏名と所属だけである。
次に、ノード間にエッジを付与する。基本的なアルゴリズムは非常にシンプルである。例えば、
「松尾豊」と
「石塚満」の関係を調べるときには、検索エンジンに
“松尾豊 AND 石塚満”
と入力する。
「松尾豊 AND 石塚満」の場合には 156 件のヒットがあるのに対し、
「松尾豊 AND 溝口理一郎」
の場合には 7 件のヒットしかない。
「石塚満」単独では 1120 件のヒット件数、
「溝口理一郎」単独では 1130 件
のヒット件数であり、ほぼ同数であるから、「松尾豊」と AND をとったときの件数の違いは、氏名の共起関
係の強さの違いを表していると考えることができる。
氏名が共起するページというのは、研究室のメンバーのページ、業績リストのページ、論文データベース、
学会や研究会のプログラム、大学内の教官メンバーリストなどさまざまである。そして、このようなページが
多くあるほど、両者が何らかの社会的関係にあり、またその関係が強い可能性が高いというヒューリスティック
を本研究では用いている。本システムでは、共起の強さを測る指標として、Simpson 係数(もしくは Overlap
係数)を用いる。
また、同姓同名の問題に対処するために、氏名とともに所属もクエリとして用いた。例えば「松尾豊」の場
合には、
“松尾豊 産業技術総合研究所”
というクエリを用い検索する。なお、複数の所属機関にまたがっている場合や所属が変わった場合は、それ
らを OR でつなげたものを用いる。また、東大と東京大学など、代表的な機関の略称や別名については、同義
語辞書を作り、同義語拡張を行った上で検索を行う。
4-3-1
関係の種類の抽出
次に、検索にヒットしたページから関係の種類を判別する。研究者の関係の種類として、本システムでは次
のようなクラスを定めた。
• 共著関係:共著の論文がある関係
• 同研究室関係:同じ研究室や研究所のメンバーなど所属が同じである (あった) 関係
• 同プロジェクト関係:同じプロジェクトや委員会など,組織をまたがる同グループに所属している (い
た) 関係
• 同発表関係 同じ研究会で発表する (した) 関係
ひとつのエッジは複数のラベルを持つことができる。
このような関係を抽出するために、まず検索エンジンに「X and Y」をクエリとして入力し、上位 5 ページ
を取得する。次に、それぞれのページから属性の値を抽出する。ここでいう属性とは、例えば、X と Y が同行
内で共起したか、X および Y の出現回数、タイトルや最初の 5 行に別に定義した語群に含まれる語が出現する
かなどである。この属性を用い、判別ルールによって共著や同研究室などどのクラスにあたる関係かを判断す
る。この判別ルールは、あらかじめ人手で付与した訓練例を用い、C4.52 を用いて生成する。
2 C4.5 はロス・キンランが開発した決定木を生成するためのアルゴリズムである(Quinlan, 1993 & 1996)
。C4.5 はキンランの ID3
アルゴリズムの拡張である。C4.5 が生成する決定木はクラス分けのために使うことができ、このため、C4.5 はしばしば統計学的クラス
分類器とみなされている。(Wikipedia)
知識社会研究会 2008 年度報告書
53
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
4-3-2
研究者キーワードの抽出
研究者間のつながりの強さやその関係の種類だけでなく、各研究者がどのような研究をしているかなどを表
すキーワードがあれば、その研究者を理解するのに役立つ。また、2 人の研究者間の関係のキーワードがあれ
ば、例えば、この 2 人は同じ研究室の出身であるとか、同じ研究者とよく研究をしているなどという情報が分
かって便利である。ここでは、このような研究者に関するキーワードを研究者キーワードと呼ぶことにする。
研究者キーワードを求めるには、まず氏名(および所属)を検索エンジンにクエリーとして入力し、検索結
果の上位 10 件を取得する。それらのページに含まれる語を専門用語抽出ツール Termex3 を用いて抽出する。
こうして抽出した語が、研究者のキーワード候補となる。キーワードはコミュニティの文脈に合致していた方
が望ましい。例えば人工知能学会の研究者なら「人工知能」、ロボット学会なら「ロボット」のように、コミュ
ニティの文脈を表す語をここではコンテクストワードと呼ぶことにする。キーワード候補の中から選んだ語 a
に対し、語 a と研究者の氏名、および語 a とコンテクストワードの関連度を検索エンジンのヒット件数を用い
て測り、両方の関連度が強い語 a を研究者キーワードとして抽出する。また、コンテクストワードとして、他
の研究者の氏名をいれることで、2 人の研究者に関連の深いキーワードを抽出することができる (森 2005)。
4-3-3
研究カテゴリの抽出
目的とする研究者コミュニティにおいて、研究者の研究分野内における研究カテゴリは、それほど明確に分
かれていない場合が多い。学会には通常、研究カテゴリ表などの分類があるが、同じ研究者でも徐々に研究
テーマがシフトしていく場合もあれば、複合的な課題を研究している場合もある。
そこで、Web 上の情報を用いて、研究者の分類も自動的に行うことを考える。まず、研究で用いられること
の多い一般的なキーワードを用意する(分類キーワードとよぶことにする)。分類キーワードは、学会の論文
のタイトルやその内容に含まれる頻出語などを用い、論文のテキストがあれば自動的に得ることができる。
そして、この分類キーワードと研究者の氏名の共起の強さを、検索エンジンのヒット件数により取得する。
分類キーワードと研究者の集合に対して、共起の強さを調べることによって、共起行列を得ることができる。
この共起行列に対して、co-clustering とよばれる処理を行うことで、自動的に研究者のグループ、分類キー
ワードのグループができることになる(浅田 2005)。
4-3-4 JSAI2004 におけるシステム
JSAI2004 では、研究者のネットワークを会場内に設置された KIOSK 端末(図 4-7)および Web 上で表示す
るサービスを行った。表示したネットワークを図 4-6 に示す。ノード数 275、エッジ数 583(破線エッジ 171、
赤エッジ 174)のネットワークである。JSAI2004 の著者、共著者の計 567 名から、単独でのヒット件数が閾値
に満たない人、他と関係の弱い人を除いた 275 名から構成されるネットワークである。
ネットワークは、SVG(SVG は、W3C によって作成された規格であり、ベクトル表現による XML 形式の
グラフィック記述言語である)で出力され、SVG viewer4 により閲覧することができる。Javascript が埋め込
まれているので、ノードをドラッグしてつながり具合を確かめることができる。各ノードには丸印のアイコン
があり、スケジューリング支援システムと連携している。エッジは Simpson 係数が閾値を越えるノードペア
X、Y に対して実線で表示している。破線のエッジはそれよりも閾値が低いもの、赤線のエッジは共起件数自
体が大きいものである。エッジラベルとして、“共”(共著)、“研”(研究室)、“プ”(プロジェクト)、“発”(発
表)が付与されている。初期配置では、エッジの長さが Simpson 係数(の逆数)をできるだけ反映するよう
な配置となっている。
3 Copyright (C) 2003 Hiroshi Nakagawa, Akira Maeda and Hiroyuki Kojima All Rights Reserved.(http://gensen.dl.itc.utokyo.ac.jp/index.html)
4 Copyright (c) 2009 Adobe Systems Incorporated. All Rights Reserved.(http://www.adobe.com/jp/svg/viewer/)
知識社会研究会 2008 年度報告書
54
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
図 4-6: JSAI2004 で表示した人間関係ネットワーク
図 4-7: 会場内における Kiosk 端末
知識社会研究会 2008 年度報告書
55
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
翌年の JSAI2005 では、さらにシステムがバージョンアップし、SNS(ソーシャルネットワーキングサービ
ス)の機能や、ソーシャルブックマークの機能も取り入れ、知り合いの研究者を登録したり、注目すべき発表
を登録できるような機能も追加された(図 4-8)。
図 4-8: JSAI2005 におけるシステム
4-3-5
人のつながりを用いた研究者検索システム
我々は、他分野の研究者や研究者以外の人が、自分の要望に適した研究者をうまく検索するための研究者検
索システム(Polyphonet,ポリフォネット)を構築し、大阪市ロボットラボラトリーで運用した。現在、他の
研究分野の人と共同研究を行ったり、研究の話を聞いたりするために、自分の知りあいに連絡をとったり、知
り合いを通じて適切な研究者を紹介してもらうなどの形が多いのではないだろうか。もし、自分の知り合いと
目的とする研究者がどのような関係かを理解することができれば、連絡も取りやすいし、共同研究もしやすく
なるだろう。
本検索システムは、次のような点を特徴としている。まず、氏名や所属、研究キーワードや研究分野をキー
として、研究者の検索を行うことができる。研究キーワードや研究分野は Web から自動的に抽出したもので
ある。そして、検索した研究者がどういった研究者とつながりが深いのか、共著や同研究室関係にある研究者
は誰なのかを閲覧することができる。順次、研究者をたどっていくことで、コミュニティ全体の研究者の関係
を概観することができる。
また、つながり検索という機能を用いると、ある研究者から別の研究者へのパスを検索することができる。
例えば、自分からある研究者へどのようなパスで到達できるのかといったことを調べることができる。
本検索システムで検索の対象となるのは、人工知能分野やロボット分野など、あらかじめリストを与えて
Web 上から情報を抽出しておいた研究者である。しかし、場合によっては探したい研究者や自分自身がデータ
ベースに含まれていないこともあり得る。そのため、このシステムでは、自分が関係を見たい研究者を新しく
登録することができる。Web から情報を抽出し統合する処理のために、10 分∼20 分程度の時間はかかるが、
登録した研究者が新たにデータベースに追加される。現在は、人工知能やロボットの分野を対象としてシステ
ムを構築しているが、今後、さまざまな研究分野に適用することができると考えられる。
知識社会研究会 2008 年度報告書
56
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
4-3-6
関連研究
Web から社会現象、言語現象に関する知識をマイニングしたとして、それをどう処理するかはさまざまな
方法がある。基本的には、人工知能の分野で長く研究されてきた知識表現や推論の枠組みが役立つ。Semantic
Web はこういった知識表現、そして推論を Web 上で実現しようとするものである。RSS や FOAF など、一部
の技術は十分に広まって活用されているが、Semantic Web が当初から想定していたような情報の統合や推論
はまだ十分に行われていない。
しかし、検索エンジンを突破口に、知識を抽出し、統合する研究が徐々に広がりつつある。知識をどのよう
に取得するかを考えたときに、そこに一定の方法があるわけではない。そこで面白いのが、パターンと知識を
交互に学習していく方法である。こういった研究には、古くは Brin らによって研究された書籍に関する研究、
テーブルからの情報の抽出、最近でも Web から 100 万の知識を取り出そうという研究、Cyc(常識知識のデー
タベース)を Web 上の情報を使って活用しようという研究などがある。
Google の研究者らが昨年発表した研究は、エンティティ間の関係を事実に関する知識として取り出すもの
である (Pasca,2006)。基本的には、パターンに基づくエンティティ間の関係の認識が基盤となる。しかし、エ
ンティティの関係や、それを取り出せるパターンは無数にあるので、それを自動的に学習する技術が重要にな
る。この研究では、例えば、10 個の人名と生まれた年のペアが与えられると、その組み合わせが現れるパター
ンと具体例をブートストラップ的に学習していく。
例えば、George W. Bush と 1946 年の関係は次のような文で現れる。
• George Walker Bush (born 6 July 1946) is the 43rd and current President of ...
• President Bush was born on July 6, 1946, in New Haven, Connecticut, and grew up ...
• Born July 6, 1946, in New Haven, Connecticut. Bush — often referred to as simply ”W” — is the
eldest son of former President ...
これらの例の共通性を抽象化し、パターンとする。それを使って新たな例を見つけ、さらにパターンを得る。
ここで重要なのは、パターンをいかに抽象化するかである。うまく抽象化することで、多様なエンティティ
間の関係を学習できる。こういった技術は実は Google の創業者である Brin が 1998 年の論文でも扱っている
が(Brin,1998)、この研究では、Web 上の 1 億の文書を対象に 100 万の事実を取り出すという数値目標を掲
げ、それが次世代の検索エンジンの核となると述べている。
一般常識の知識ベースを作るために 1980 年代から延々と続けられている Cyc プロジェクトは有名である
が、Cyc の研究者も知識ベースを Web 上の情報で増強しようとしている。増強したい知識(例えば、パレス
チナ・イスラム・ジハードを作った人は誰か。(founderAgent PalestinaIslamicJihad ?WHO) と表される)か
ら Google へのクエリーを生成する。例えば、”Palestine Islamic Jihad founder *”などである。結果のなかか
ら Cyc の型制約に合うものを見つけ、知識ベースに加える。
さらに進んで、知識の収集だけでなく知識の統合・推論まで踏み込んだ研究も行われ始めた。Sheth らはバイオイ
ンフォマティクスのコーパスを対象として、エンティティとその関係を RDF(Resource Description Framework)
を用いて記述し、その上で、自明でない関係性を導き出すこと研究を行っている (Ramakrishnan,2006)。
例えば、「片頭痛」と「マグネシウム」の関係を調べたいとき、RDF を検索することで「片頭痛」が「血小
板の振る舞いの異常」で起こり,
「コラーゲン」が「血小板」を刺激し,
「マグネシウム」が「コラーゲンが引き
起こした血小板凝集」を抑制することが分かる.
(「」がここでのエンティティである。)これらはそれぞれ別々
の論文の別々の文から得られたものである.これは、論文を対象とした知識の集約の例であるが、このグルー
プでは Web を対象にした研究も行っており、研究者の協働関係(共著等)のデータをマイニングし、それに
よって利益相反がないかどうかを調べるシステムを構築している (Aleman-Meza,2006)。
このように、Web の情報を、検索エンジンを使って収集し集約する、知識化する、その知識を利用すると
いう一連の流れが、次世代の Web 上の情報処理の基盤となるのではないだろうか。そして、検索エンジンは、
その処理において決定的に重要な働きを果たすのではないかというのが筆者の考えである。
知識社会研究会 2008 年度報告書
57
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
4-4
まとめ
本章では,学術俯瞰に関する研究の紹介、ならびにウェブマイニングに関する研究の紹介を行った。今後,
研究に関するますます多くの情報がデータベースの形で整備されたり、ウェブを通じて発信させると考えられ
るが、こういった情報をうまく統合し処理することにより,研究に関連するさまざまなトピックや研究分野、
また組織・研究者などを関連付けて俯瞰し、詳細に理解していくことが可能になると考えられる。社会問題が
より複雑に困難になるに従って、またビジネスニーズが複雑化するに従って、それを解決する手段としての知
の構造化の重要性はますます大きくなるのではないだろうか。
参考文献
S. Milgram, The small-world problem, Psychology Today, Vol.2, pp. 60-67, 1967
M. E. J. Newman, A measure of betweenness centrality based on random walks, Social Networks, Vol. 27,
No.1, pp. 39-54, 2005
M. E. J. Newman and M. Girvan, Finding and evaluating community structure in networks, Physical Review
E, Vol. 69, 2004
M. E. J. Newman, Fast algorithm for detecting community structure in networks, Phys. Rev. E, Vol. 69,
2004
H. Small, Co-citation in the scientific literature: a new measure on the relationship between two documents,
Journal of the American Society for Information Science, Vol. 24, pp. 28-31, 1973
Small, H. (2006). Tracking and predicting growth areas in science. Scientometrics, 68(3), 595-610
Schiminovich, S. (1971). Automatic Classification and Retrieval of Documents by Means of a Bibliographic
Pattern Discovery Algorithm. Information Storage and Retrieval, 6, 417-435
Fang, Y., Rousseau, R. (2001). Lattices in citation networks: An investigation into the structure of citation
graphs. Scientometrics, 50 (2), 273-287
Egghe, L., Rousseau, R. (2002). Co-citation, bibliographic coupling and a characterization of lattice citation
networks. Scientometrics, 55 (3), 349-361
Garfield, E. (2004). Historiographic mapping of knowledge domains literature. Journal of Information
Science, 30 (2), 119-145
Klavans, R., Boyack, K.W. (2006). Identifying a Better Measure of Relatedness for Mapping Science. Journal
of the American Society for Information Science and Technology, 57, 251-263
Naoki Shibata, Yuya Kajikawa, Yoshiyuki Takeda, Katsumori Matsushima: Comparative study on methods
of detecting research fronts using different types of citation. JASIST 60(3): 571-580 (2009)
Kostoff, R. N., Eberhart, H. J., & Toothman, D. R. (1997). Database tomography for information retrieval.
Journal of Information Science, 23, 301-311
Clauset, A., Newman, M. E. J. & Moore, C. (2004). Finding Community Structure in Very Large Networks.
Physical Review E, 70
小宮山 宏:知識の構造化、オープンナレッジ、2004
Quinlan, J. R. ”C4.5: Programs for Machine Learning”, Morgan Kaufmann Publishers, 1993
Quinlan, J. R. ”Improved use of continuous attributes in c4.5”, Journal of Artificial Intelligence Research,
4:77-90, 1996
森 純一郎、松尾 豊、石塚 満:Web からの人物に関するキーワード抽出、人工知能学会論文誌, Vol. 20, No.5,
pp. 337-345, 2005
浅田 洋平、松尾 豊、石塚 満:Web からの研究者ネットワーク抽出の大規模化, Vol. 20, No. 6, 2005
知識社会研究会 2008 年度報告書
58
内閣府経済社会総合研究所委託事業
「イノベーション政策及び政策分析手法に関する国際共同研究」
第 4 章 学術俯瞰とウェブからの情報抽出
M. Pasca, D. Lin, J. Bigham, A. Lifchits and A. Jain, ”Organizing and Searching theWorldWideWeb of Facts
- Step One: the One-Million Fact Extraction Challenge”, Proc. AAAI2006, 2006
Sergey Brin, ”Extracting patterns and relations from the world wide web”, the International Workshop on
the Web and Databases, 1998
C. Ramakrishnan, K. Kochut and A. Sheth, ”A Framework for Schema-Driven Relationship Discovery
from Unstructured text”, Proc. ISWC2006, 2006
Aleman-Meza 2006 B. Aleman-Meza, M. Nagarajan, C. Ramakrishnan, A. Sheth, I. Arpinar, L. Ding, P.
Kolari, A. Joshi and Tim Finin, ”Semantic Analytics on Social Networks: Experiences in Addressing
the Problem of Conflict of Interest Detection”, Proc. WWW2006, 2006
Y. Matsuo, J. Mori, M. Hamasaki, H. Takeda, T. Nishimura, K. Hasida and M. Ishizuka, POLYPHONET:
An advanced social network extraction system, Proc. WWW 2006, 2006
杉山達彦, 松尾豊, 石田啓介, 濱崎雅弘, 森純一郎, 西村拓一, 武田英明:Polyphonet 常時運用の試み, 人工知能
学会全国大会 (第 21 回) 論文集 (2007), 1B2-9
知識社会研究会 2008 年度報告書
59
Fly UP