Comments
Description
Transcript
急進的イノベーションの早期発見 の方法論に関する研究
急進的イノベーションの早期発見 の方法論に関する研究 柴田 尚樹 概要 概要 本研究では、学術論文から急進的イノベーションの中核となる論文を早期に 発見する方法論を提案する。本研究では、既にイノベーションが起こったとい うことが明らかな 2 つの学術分野を選定し、ケーススタディを行った。一つ目 の学術分野は漸進的イノベーションが起こったと考えられるガリウム・ナイト ライド分野であり、二つ目は、急進的イノベーションが起こった分野であると 考えられる複雑ネットワーク分野である。 論文データベースからあらかじめ選定したクエリを用いて論文を検索、抽出 した。論文をノード、引用をエッジとみなし、引用ネットワークを生成し、そ の最大連結成分をトポロジカルなクラスタリング手法によってクラスターに分 割し、分析した。また、各論文の引用ネットワーク中での中心性の分析も行っ た。 はじめに、直接引用(direct citation)、共引用(co-citation)、書誌結合(bibliographic coupling)という主に 3 種類の引用のうちどの引用手法が最も新興学術分野の発 見に適しているかを分析した。その結果、最良の引用分析手法は、密に引用し 合うより大きな新興論文群をより早く発見できる直接引用であった。 続いて、クラスター内次数係数、モジュール間分散度を分析することで各重 要論文のトポロジカルな役割の特定を行い、漸進的イノベーションと急進的イ ノベーションを明確に区別する方法を提案した。さらに、トポロジカルなクラ スタリングによって論文を各クラスターに分類した後、各クラスターの主要論 文のクラスター内次数係数、モジュール間分散度、各クラスターの平均出版年、 自然言語処理によって抽出された各クラスターのトピックを分析することで、 急進的イノベーションにおいて新興論文群を発見する方法論を構築した。 最後に、クラスタリング中心性、距離中心性、媒介中心性という 3 つの中心 i 概要 性、現在の年齢、現時点の被引用数のそれぞれと将来の被引用数との相関関係 を調べることにより、将来引用を獲得する論文の特徴を明らかにした。漸進的 イノベーションが起こっている分野では、学術分野の知識量が増加し始まった 段階において、現在の被引用数が近い将来の被引用数に影響を与え、媒介中心 性が遠い将来の被引用数に影響を与えるということが本研究で明らかになった。 以上の結果から、急進的イノベーションの中核となる学術論文を早期に発見 する方法論を提案した。 ii 目次 目次 概要...............................................................................................................................i 第 1 章 序論 ................................................................................................................ 1 1.1. 背景 .................................................................................................................. 1 1.2. 先行研究 .......................................................................................................... 5 1.3. 研究の目的....................................................................................................... 6 1.4. 本論文の構成................................................................................................... 8 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 ............................. 10 2.1. 本研究の分析手法......................................................................................... 10 2.2. 複雑ネットワーク分析の概要と歴史 .......................................................... 11 2.2.1. 複雑ネットワーク分析とは................................................................... 11 2.2.2. 複雑ネットワーク分析の歴史 ............................................................... 15 2.3. 複雑ネットワーク分析を用いた論文の引用分析 ....................................... 32 2.3.1. 本研究の引用分析の全体像................................................................... 32 2.3.2. 学術論文データの取得、引用ネットワークの生成方法..................... 34 2.3.3. トポロジカルなクラスタリング手法.................................................... 36 2.3.4. 可視化...................................................................................................... 51 2.3.5. ノードのトポロジカルな役割の分析方法............................................ 52 2.3.6. 自然言語処理によるトピック抽出方法................................................ 57 2.3.7. ネットワークにおける中心性と将来の被引用数の分析方法 ............. 59 2.4. 本研究で対象とする学術知識領域 .............................................................. 61 2.4.1. データの収集.......................................................................................... 62 2.4.2. 知識領域の概要 ...................................................................................... 64 第 3 章 引用分析の手法と評価 ............................................................................... 73 3.1. 本章の目的..................................................................................................... 73 3.2. 研究手法 ........................................................................................................ 74 3.2.1. データ収集.............................................................................................. 76 3.2.2. クラスタリング ...................................................................................... 76 3.2.3. 比較 ......................................................................................................... 77 3.3. 結果 ................................................................................................................ 78 3.3.1. 引用ネットワークの基礎統計 ............................................................... 78 3.3.2. 引用分析の手法ごとの評価結果 ........................................................... 84 3.4. 考察 ................................................................................................................ 93 第 4 章 引用情報を用いた新興論文群の発見 ........................................................ 99 iii 目次 4.1. 本章の目的..................................................................................................... 99 4.2. 研究手法 ...................................................................................................... 100 4.2.1. データ収集............................................................................................ 101 4.2.2. クラスタリング .................................................................................... 101 4.2.3. 可視化.................................................................................................... 102 4.2.4. 各重要論文のトポロジカルな役割の特定.......................................... 102 4.2.5. 自然言語処理を用いたトピック抽出.................................................. 102 4.3. 結果 .............................................................................................................. 103 4.3.1. クラスタリング結果と可視化に関する結果 ...................................... 103 4.3.2. 重要論文のトポロジカルな役割に関する結果 .................................. 115 4.3.3. クラスター内論文の平均出版年と各クラスターのトピックの分析 116 4.4. 考察 .............................................................................................................. 127 4.4.1. 漸進的イノベーションと急進的イノベーションを判定する方法論に 関する考察 ...................................................................................................... 127 4.4.2. 急進的イノベーションにおいて、新興学術分野を早期発見する方法論 に関する考察................................................................................................... 128 第 5 章 引用情報を用いた将来の被引用数予測 .................................................. 135 5.1. 本章の目的................................................................................................... 135 5.2. 研究手法 ...................................................................................................... 138 5.3. 結果 .............................................................................................................. 140 5.3.1. ガリウム・ナイトライド分野の結果.................................................. 140 5.3.2. 複雑ネットワーク分野の結果 ............................................................. 142 5.4. 考察 .............................................................................................................. 144 5.4.1. ガリウム・ナイトライド分野の考察.................................................. 144 5.4.2. 複雑ネットワーク分野の考察 ............................................................. 147 5.4.3. 漸進的イノベーション、急進的イノベーションにおける将来の被引用 数予測 .............................................................................................................. 152 第 6 章 考察 ............................................................................................................ 154 6.1. テキスト情報を用いた新興論文群の発見................................................. 154 6.1.1. 本節の目的............................................................................................ 154 6.1.2. テキスト情報を用いた新興論文群の発見に関する研究手法 ........... 154 6.1.3. テキスト情報を用いた新興論文群の発見に関する結果................... 157 6.1.4. テキスト情報を用いた新興論文群の発見に関する考察................... 177 6.2. 考察 .............................................................................................................. 179 6.3. 再生医療分野への提案手法の適用 ............................................................ 186 6.3.1. 再生医療分野の概要とデータ収集 ..................................................... 186 iv 目次 6.3.2. 結果 ....................................................................................................... 187 6.3.3. 考察 ....................................................................................................... 200 第 7 章 結論 ............................................................................................................ 202 7.1. 結論 .............................................................................................................. 202 7.2. 急進的イノベーションの早期発見のための方法論の提案...................... 205 参考文献 .................................................................................................................. 206 謝辞.......................................................................................................................... 219 研究業績 .................................................................................................................. 220 査読付論文 (英文) .............................................................................................. 220 国際会議 .............................................................................................................. 221 査読付論文 (邦文) .............................................................................................. 221 国内学会 .............................................................................................................. 222 付録.......................................................................................................................... 225 付録 A:可視化のアルゴリズム........................................................................ 225 付録 B:距離中心性(Closeness Centrality)算出のアルゴリズム ................. 231 付録 C:媒介中心性(Betweenness Centrality)算出のアルゴリズム ............ 233 付録 D:2000 年のガリウム・ナイトライド分野の引用ネットワークのクラス タリング .............................................................................................................. 235 付録 E:2004 年の複雑ネットワーク分野のうち物理クラスターのみを対象と した引用ネットワークのクラスタリング ........................................................ 240 v 図表目次 図表目次 図 図 図 図 図 図 図 1-1 イノベーションのスピードの変化 ..................................................... 2 1-2 イノベーションの栄枯盛衰モデル ..................................................... 2 1-3 イノベーションのリニア・モデルとノンリニア・モデル............... 4 1-4 漸進的イノベーションと急進的イノベーション .............................. 7 1-5 急進的イノベーションにおける新興学術分野 .................................. 7 2-1 N = 100、p = 0.04 のランダムネットワーク .................................... 16 2-2 ランダムなエッジのつなぎ換えとスモール・ワールドネットワーク .................................................................................................................... 21 図 2-3 図 2-4 繋ぎかえの確率 p による平均パス長とクラスター係数の変化 ..... 21 N = 100、K = 4、p = 0.01 のスモール・ワールドネットワーク.... 22 図 2-5 N = 100、m0 = m = 2 のスケールフリーネットワーク.................... 27 図 2-6 スケールフリーネットワークの度数分布........................................ 27 図 2-7 ランダムネットワークとスケールフリーネットワークの平均経路 長 ................................................................................................................ 28 図 2-8 本研究の引用分析の全体像............................................................... 33 図 2-9 引用関係ネットワークのデータ生成方法........................................ 35 図 2-10 クラスタリングの 2 つの考え方 ..................................................... 37 図 2-11 Agglomerative Method の問題点....................................................... 37 図 2-12 デンドログラムの例 ........................................................................ 39 図 2-13 ローカルクラスターの構造............................................................. 44 図 2-14 local modurality R と次数の関係 ...................................................... 47 図 2-15 Newman 法によるクラスタリング.................................................. 51 図 2-16 LGL を用いた描画と色づけ ............................................................ 52 図 2-17 クラスター内のノードの役割によるノードの分類 ...................... 54 図 図 図 図 図 図 図 2-18 ノードの役割のモデル .................................................................... 56 2-19 ガリウム・ナイトライド分野における論文数と引用数............... 64 2-20 複雑ネットワーク分野における論文数と引用数 .......................... 64 3-1 引用の 3 つの種類 .............................................................................. 74 3-2 引用情報とクラスタリングを用いた新興論文群発見の分析手法 . 75 3-3 学術領域、引用の種類ごとのノード数、エッジ数 ........................ 79 3-4 直接引用のネットワークと共引用ネットワークの最大連結成分の 違い ............................................................................................................ 80 図 3-5 学術領域、引用の種類ごとの modurality Qmax............................... 81 vi 図表目次 図 図 図 図 図 図 図 図 図 図 図 3-6 学術領域、引用の種類ごとの平均パス長、クラスター係数 ......... 96 4-1 引用情報とクラスタリングを用いた新興論文群発見の分析手法100 4-2 ガリウム・ナイトライド分野の進化の様子.................................. 104 4-3 複雑ネットワーク分野の進化の様子(1)......................................... 105 4-4 複雑ネットワーク分野の進化の様子(2)......................................... 106 4-5 クラスターの大きさと平均年齢 ..................................................... 109 4-6 各クラスターの時系列での発展の様子.......................................... 110 4-7 被引用数上位 10 論文のクラスター内での役割の変化................. 116 4-8 複雑ネットワーク分野(2000 年)のクラスタリング結果 ............... 118 4-9 複雑ネットワーク分野(2000 年)のクラスタリング結果の可視化 125 4-10 複雑ネットワーク分野(1999 年)のクラスタリング結果の可視化 .................................................................................................................. 126 図 4-11 イノベーションの種類の判定方法 ............................................... 128 図 4-12 複雑ネットワーク分野における物理学クラスターの 1999 年と 2004 年の比較.......................................................................................... 130 図 4-13 複雑ネットワーク分野における物理学クラスターの進化......... 131 図 4-14 複雑ネットワーク分野(2000 年)の各クラスターの被引用数が多い 論文の z, P, 若さ...................................................................................... 133 図 4-15 複雑ネットワーク分野(1999 年)の各クラスターの被引用数が多い 論文の z, P, 若さ...................................................................................... 133 図 4-16 急進的イノベーションにおける新興論文群の発見方法............. 134 図 5-1 学術分野の栄枯盛衰モデル............................................................. 136 図 5-2 データの種類と分析方法................................................................. 137 図 5-3 将来の被引用数とネットワーク構造の関係の分析スキーム ....... 139 図 5-4 ガリウム・ナイトライド分野における相関分析 .......................... 142 図 5-5 複雑ネットワーク分野における相関分析...................................... 143 図 5-6 ガリウム・ナイトライド分野のネットワーク構造(2000 年) .. 146 図 図 図 図 図 5-7 複雑ネットワーク分野のネットワーク構造(2004 年)................... 149 5-8 複雑ネットワーク分野のネットワーク構造(2001 年)................... 150 5-9 複雑ネットワーク分野のネットワーク構造のモデル図............... 151 5-10 新興論文群のみの抽出方法........................................................... 151 5-11 複雑ネットワーク分野における相関分析(1998 年以降のデータの み) .......................................................................................................... 152 図 5-12 漸進的イノベーションと急進的イノベーション ........................ 153 図 6-1 特徴語と共起情報を用いた新興論文群発見の分析手法............... 155 図 6-2 “Watts & Strogatz, Nature, 1998”のアブストラクトの一部............. 156 vii 図表目次 図 6-3 語句の共起ネットワークのノード数、エッジ数 .......................... 158 図 6-4 語句の共起ネットワークの Qmax の推移...................................... 159 図 6-5 ガリウム・ナイトライド分野の語句の共起ネットワークのクラスタ リング結果(クラスターサイズと平均出版年) ................................. 160 図 6-6 複雑ネットワーク分野の語句の共起ネットワークのクラスタリン グ結果(クラスターサイズと平均出版年)......................................... 161 図 6-7 各クラスターの時系列での発展の様子.......................................... 163 図 6-8 再生医療分野における論文数......................................................... 187 図 6-9 被引用数上位 10 論文のクラスター内での役割の変化................. 188 図 6-10 クラスタリング結果 ...................................................................... 189 図 6-11 再生医療分野(2004 年)のクラスタリング結果の可視化 ............. 192 図 6-12 再生医療分野(2007 年)のクラスタリング結果の可視化 ............. 195 図 6-13 再生医療分野(2008 年)のクラスタリング結果の可視化 ............. 199 図 AP-1 LGL の可視化プロセス................................................................. 230 図 AP-2 媒介中心性算出のアルゴリズムの計算時間............................... 234 図 AP-3 ガリウム・ナイトライド分野(2000 年)のクラスタリング結果(1) .................................................................................................................. 236 図 AP-4 ガリウム・ナイトライド分野(2000 年)のクラスタリング結果(3) .................................................................................................................. 239 図 図 図 図 図 図 AP-5 物理学クラスターの抽出方法...................................................... 240 AP-6 物理学クラスターにおける論文数と引用数............................... 241 AP-7 物理学クラスター(2004 年)のクラスタリング結果(1) ............... 242 AP-8 物理学クラスター(2004 年)のクラスタリング結果(3) ............... 245 AP-9 物理学クラスターのクラスタリング結果の経時変化 ............... 246 AP-10 物理学クラスターのノードの役割の経時変化(1998-2004 年) .................................................................................................................. 247 viii 図表目次 表 表 表 表 表 表 表 表 表 表 表 表 1-1 イノベーションに関する論文数 ......................................................... 5 2-1 現実のネットワークの特徴量........................................................... 20 2-2 ネットワークモデルの特性............................................................... 31 2-3 各分析手法と本論文中の該当箇所 ................................................... 34 2-4 local modurality R を用いたクラスタリングのアルゴリズム .......... 46 2-5 トポロジカルなクラスタリング手法の分類.................................... 50 2-6 ノードの分類名 .................................................................................. 55 2-7 データ収集.......................................................................................... 63 2-8 ガリウム・ナイトライド分野の被引用数上位 10 件の論文 ........... 66 2-9 複雑ネットワーク分野の被引用数上位 10 件の論文 ...................... 68 3-1 主要論文一覧...................................................................................... 76 3-2 クラスターサイズの分布(ガリウム・ナイトライド分野・1992 年) .................................................................................................................... 82 表 3-3 クラスターサイズの分布(複雑ネットワーク分野・1999 年) .... 83 表 3-4 クラスターサイズの分布(ナノカーボン分野・1991 年)............ 84 表 3-5 重要論文のクラスターの正規化されたクラスターサイズ、平均出版 年齢、密度(1) ............................................................................................ 87 表 3-6 重要論文のクラスターの正規化されたクラスターサイズ、平均出版 年齢、密度(2) ............................................................................................ 88 表 3-7 重要論文のクラスターの正規化されたクラスターサイズ、平均出版 年齢、密度(3) ............................................................................................ 89 表 3-8 重要論文のクラスターの正規化されたクラスターサイズ、平均出版 年齢、密度(4) ............................................................................................ 90 表 3-9 重要論文のクラスターの正規化されたクラスターサイズ、平均出版 年齢、密度(5) ............................................................................................ 91 表 3-10 重要論文のクラスターの正規化されたクラスターサイズ、平均出 表 表 表 表 表 表 版年齢、密度(6) ........................................................................................ 92 3-11 3 種類の引用方法の比較結果のまとめ.......................................... 94 4-1 ガリウム・ナイトライド分野(2000 年)のクラスタリング結果 ... 111 4-2 複雑ネットワーク分野(2004 年)のクラスタリング結果 ............... 113 4-3 複雑ネットワーク分野(2000 年)のクラスタリング、トピック抽出結 果 .............................................................................................................. 121 4-4 複雑ネットワーク分野(1999 年)のクラスタリング、トピック抽出結 果 .............................................................................................................. 123 5-1 複雑ネットワーク分野(2001 年)の引用関係例 ......................... 151 ix 図表目次 表 表 表 表 表 表 表 表 表 6-1 ガリウム・ナイトライド分野(1992 年)のクラスタリング ........... 164 6-2 複雑ネットワーク分野(1999 年)のクラスタリング....................... 167 6-3 複雑ネットワーク分野(2000 年)のクラスタリング....................... 172 6-4 複雑ネットワーク分野の 2000 年時点でのクラスター#16 の語を 2 語以上含む論文群 ................................................................................... 177 6-5 本研究の目的と結果 ........................................................................ 183 6-6 再生医療分野(2004 年)のクラスタリング結果 .............................. 191 6-7 再生医療分野(2007 年)のクラスタリング結果 .............................. 193 6-8 再生医療分野(2008 年)のクラスタリング結果 .............................. 196 6-9 再生医療分野(2008 年)のクラスタリング結果(クラスター#2 のみ) .................................................................................................................. 198 表 6-10 再生医療分野(2008 年のクラスター#2)の媒介中心性が大きい論文 .................................................................................................................. 201 表 AP-1 KK 法のアルゴリズム................................................................... 227 表 AP-2 LGL による可視化のアルゴリズム ............................................. 229 表 AP-3 ワーシャル・フロイド法による距離中心性算出のアルゴリズム .................................................................................................................. 232 表 AP-4 媒介中心性算出のアルゴリズム .................................................. 233 表 AP-5 ガリウム・ナイトライド分野(2000 年)のクラスタリング結果(2) .................................................................................................................. 237 表 AP-6 物理学クラスター(2004 年)のクラスタリング結果(2) ............... 243 表 AP-7 物理学クラスターの 2001 年における媒介中心性の上位 20 論文 .................................................................................................................. 248 表 AP-8 物理学クラスターの 2004 年における被引用数の上位 20 論文 250 x 第 1 章 序論 第1章 序論 1.1. 背景 近年、技術イノベーションのスピードが年々早まってきている。図 1-1 に示 すように、学術研究(Science)での研究成果が、技術開発(Technology)に応用され、 製品・サービス(Industry)が生み出されるというサイクルの時間が従来に比べて 圧倒的に短くなってきている。従って、技術経営戦略を立案するには、将来の イノベーションの中核を早期発見することが重要である。一般的にイノベーシ ョンの進化は、図 1-2 のような S カーブで表現される(Braun, Schubert & Kostoff, 2000)。分野内の知識量はまだ少ない時期を initial stage とし、知識量が増加し始 まった時期を early stage と呼ぶ。その後、知識量が増加し続けている時期を expansion stage とし、知識量が最大値に達し、増加が止まる時期を maturation stage とし、最後に知識量が減少し活気が失われる時期を decline stage と呼ぶことにす る。Maturation stage や decline stage において、盛況であった重要な発見を指摘す ることは難しくないが、initial stage や early stage の時点で、将来のイノベーショ ンの中核を発見することは困難であるが、価値が高い。 1 第 1 章 序論 図 1-1 イノベーションのスピードの変化 図 1-2 イノベーションの栄枯盛衰モデル イノベーションの種類を、技術的連続性の有無を基準として分類すると、従 来的技術の延長線上にある改良型のイノベーションである「漸進的イノベーシ 2 第 1 章 序論 ョン(incremental innovation)」と従来の技術と抜本的に異なる非連続なイノベーシ ョン「急進的イノベーション(radical innovation)」に分類できる(クリステンセン, 1997)。技術経営戦略の立案のためには、特に、急進的イノベーションの中核と なる研究を早期発見することが重要である。何故なら、漸進的イノベーション に比べ、急進的イノベーションの方が、その非連続性が故に、企業や社会に対 する影響が大きくなるからである。 イノベーションとは、新しい知識から社会的意義のある価値を創造し、社会 的に大きな変化をもたらすこと、と定義される。図 1-3 に示すリニア・モデル であれ、ノンリニア・モデルであれ、イノベーションにおける学術研究の重要 性は高い。イノベーションには、テクノロジー・イノベーション、ビジネス・ イノベーション、ソーシャル・イノベーションが存在するが、本研究では、学 術研究に基づいたテクノロジー・イノベーション(science-oriented technology innovation)を扱う。これまでの研究は、投資額と学術成果の関係に注目してきた (e.g., Mansfield, 1972; Rosenberg, 1974; Sveikauskas, 1981; Adams, 1990; Narin and Hamilton, 1996)。R&D の重要性は、特に化学、薬学、電気といった science-oriented な分野(Tijssen, 2002)や、栄養学や食物学(van Raan and van Leeuwen, 2002)におい て、テクノロジー・イノベーションを普及させるという点で不可欠だとみなさ れるようになってきた。他にも、科学研究とテクノロジー・イノベーションの 間には事実に基づいた関係がある。Jaffe と Trajtenberg は、大学の調査費とロー カルな特許率の間には正の相関があることを発見した (Jaffe, 1989; Jaffe and Trajtenberg, 1996)。イノベーションのプロセスにおいては、日本における光触媒 の例のように、科学者がイノベーションの源泉を作り、企業がその源泉を利用 し、技術を開発し、産業化させるのが一般的である(Tryk et al., 2000; Hashimoto et al., 2005)。技術的な発明は、複数の独立した科学研究の結果から作られる場合が 多い(Fleming and Sorenson, 2004)。型にはめようとするとよく批判されるが、テ クノロジー・イノベーションには、ある決まったやり方があるように思える。 テクノロジー・イノベーションのプロセスにおいて、科学活動が重要だとい うこと共通認識があったとしても、個々の研究者やエンジニアが研究結果の知 3 第 1 章 序論 識をどのように入手し、自らのために最適利用するのかという問題は、議論の 余地がある。Massini らは、開拓者(イノベーター)と追随者(イミテイター) の違いを議論した(Massini et al., 2005)。イノベーターやアーリー・アダプターに とっては、より早くイノベーションの中核を発見することが重要である。今も なお、科学研究の成果は論文として出版されており、科学論文はテクノロジー・ イノベーションを加速する「生の情報源」として重要である。実際、Sorenson と Fleming は、科学論文を引用している特許の方がより多くの引用を獲得してい ることを発見した(Sorenson and Fleming, 2004; Fleming and Sorenson, 2004)。つま り、学術論文は、テクノロジー・イノベーションを加速するのに重要であると いうことだ。科学論文は、完璧ではないが、テクノロジー・イノベーションを 加速する科学活動の主たる成果である。本研究では、科学レイヤーに注目し、 イノベーション(社会的な変化を起こす)のポテンシャルがある学術研究を発 見する方法論構築を目指す。学術研究のアウトプットの大半は学術論文である ため、本研究では、学術論文から急進的イノベーションの中核となる論文を早 期に発見する方法論の構築を目指す。 図 1-3 イノベーションのリニア・モデルとノンリニア・モデル 4 第 1 章 序論 1.2. 先行研究 イノベーションに関する研究は多数存在するが、急進的イノベーションに関 する研究、さらにはその発見方法に関する研究は存在しない。表 1-1 にイノベ ーションに関する論文数(Web of Science での検索でのヒット数, 2008/11/04 時 点)を示す。イノベーションに関する研究は多数あるものの、急進的イノベー ションに関する研究は約 100 分の 1 となり、その発見方法の研究となると一つ も存在しない。 表 1-1 イノベーションに関する論文数 クエリ 論文数 innovation* 50,742 radical innovation* 681 radical innovation* AND (methodology OR procedure) 36 radical innovation* AND detection 3 radical innovation* AND (methodology OR procedure) AND detection 0 他方、学術論文から新知識を発見する研究も存在する。これらの研究は、用 いられる手法で 2 つに大別できる。一つ目が引用分析(Citation-mining)を用い た手法である。引用分析は論文の引用関係から重要な論文や、重要な文書群を 見つけることを目的としている。それぞれの論文の被引用数は、よく論文の重 要度の相対値を評価するために用いられている。主に新興論文群の発見(Small, 1977; Small, 2003; Chen, 2004; Chen, 2006)、将来の被引用数予測(Chen, 2005)の 2 つが主である。もう一つはテキストマイニング(text-mining)を用いた手法であ る(Kostoff, Braun, Schubert, Toothman, & Humenik, 2000; Losiewicz, Oard, & 5 第 1 章 序論 Kostoff, 2000)。テキストマイニングは、通常、新興の専門用語を発見すること を目的としている(Losiewicz, et al.,2000; Kostoff, et al.,2000)。新しい論文で頻繁に 用いられている用語は、将来、話題の中心となると考えられる。異なる学術分 野で発見され、複数の学術分野を結びつけるような語を発見することも重要で ある。というのもこうした用語は、異分野の知識を結合し、新しい知識を一般 化していると考えられるためである(Swanson, 1986; Weeber, et al., 2001)。しかし、 これらの学術論文から新知識を発見する研究は存在するが、漸進的イノベーシ ョンと急進的イノベーションを区別しておらず、本研究を行う意義がある。 1.3. 研究の目的 本研究では、3 つの目的を設定する。第一の目的は、漸進的イノベーションと 急進的イノベーションを判定する方法論を構築することである。図 1-4 に示し たように、漸進的イノベーションは従来技術の延長線上にある改良型のイノベ ーションであるのに対し、急進的イノベーションは従来の技術とは抜本的に異 なる非連続なイノベーションである。この 2 つの違いを判定する方向を構築す ることが第一の目的である。 6 第 1 章 序論 図 1-4 漸進的イノベーションと急進的イノベーション 第二の目的は、急進的イノベーションにおいて、新興学術分野を早期発見す る方法論を構築することである。急進的イノベーションが起こる分野では、図 1-5 に示すように、新興学術分野が既存の論文群から独立し、新しい分野を切り 開く。その新しい分野の論文数が増えて来た段階(図の右)でその分野が新興 学術分野であると判定するのは難しくないが、ここでは新しい分野がまだ若く 論文数が少ない段階で新興学術分野であるということを早期に発見する方法を 構築する。 図 1-5 急進的イノベーションにおける新興学術分野 7 第 1 章 序論 第三の目的は、漸進的イノベーションにおいて、将来中核となる論文を早期 発見する方法論を構築することである。第二の目的までが達成されれば、イノ ベーションの種類の判定、急進的イノベーションにおける新興論文群の早期発 見が可能になる。次の目的として、当該学術分野の中で、将来有望な論文を早 期に発見することを掲げる。すなわち、図 1-5 の赤で囲まれたイノベーション の中核となる論文を早期に発見することである。 なお、本研究では、新興学術分野、新興論文群、新興クラスターという語を 用いているが、学術分野は論文の集合(論文群)であり、論文の集合単位がク ラスターであるため、同じ対象を表している。これら 3 つの語は、文脈的に最 も意味が通りやすいものを用いているが意味的な差異はない。 1.4. 本論文の構成 本節では本論文の構成を記す。第 1 章では、序論として、研究の背景、先行 研究、目的を定義した。続いて第 2 章では、本研究で用いた手法、本研究でケ ーススタディの対象とする学術知識領域を整理した。 第 3 章では、複数存在する引用分析手法間の比較を行い、急進的イノベーシ ョン発見に最も適した引用分析手法を発見した。 次に、第 4 章では、第一、第二の目的を達成するために、引用情報を用いた 新興論文群の発見を行った。第 5 章では、第三の目的を達成するために、引用 情報を用いた将来の被引用数予測を行った。 そして、第 6 章では、第 3 章から第 5 章の結果を考察し、テキスト情報を用 8 第 1 章 序論 いた急進的イノベーション発見方法との比較を行った上で、急進的イノベーシ ョン発見方法を提案した。第 7 章では結論と今後の展望を述べた。 その他、参考文献、謝辞、付録が巻末に付してある。 9 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 第2章 複雑ネットワーク分析を用いた論文の引用分析手 法 2.1. 本研究の分析手法 新しい知識を発見する手法には大きく 2 種類ある。一つは、エキスパートに よる手法だが、これは、特に今日のように情報量が膨大にある場合には、時間 がかかる上に主観的になりやすいという欠点がある。もう一つの方法がコンピ ューターを用いる手法で、主にテキストマイニング引用マイニングの 2 つに分 類できるが、情報量の増大にも耐えられるという意味でエキスパートによる手 法にも匹敵するとされている。テキストマイニングは、新興専門用語を特定す る た め に 用 い ら れ る (Kostoff, Braun, Schubert, Toothman, & Humenik, 2000; Losiewicz, Oard, & Kostoff, 2000)。出現頻度が急激に上昇した語は将来の中心ト ピックになるという仮説に基づく。異なる学術分野を結びつけるような語を発 見することは非常に重要で、異分野間を結びつけ、新しい学術領域を生み出す ことになるからだ(Swanson, 1986; Weeber, Klein, de Jong-van den Berg, & Vos, 2001)。引用マイニングとは、論文間の引用関係に基づいて、重要論文を発見す る手法である。各論文の被引用回数が、当該論文の重要度を表す指標としてよ く使われる。 これまで、共引用分析を用いて学術マップを作成する研究は多数なされてき た(Small, 2003)。これらの研究は大きく 2 つの流れがある。一つめは、学術論文 のネットワーク分析である。たとえば、コラーゲンに関する中長期的な変化を 分析し、急速な変化が起こったことを示した論文(Small, 1977)などがある。もう 一つは、著者のネットワークを分析するものである。White らは情報科学分野で 著者の共引用関係を研究した。また、最近では、重要な新興学術分野を発見す 10 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 るために、可視化手法を改良しようとする研究も存在する(Chen, 2004, 2006)。 本研究では、論文の引用ネットワークを用い、主に複雑ネットワーク分析に よって、一部補助的に、テキストマイニングの手法を用いて、急進的イノベー ションを発見するための方法論を構築する。2.2 節に、複雑ネットワーク分析の 概要と歴史を記し、2.3 節に本研究で用いた手法の全体像を記す。また、本研究 では、既にイノベーションが起こったということが明らかな 2 つの学術分野を 対象としたケーススタディを行った。その学術分野の概要を 2.4 節に示す。 2.2. 複雑ネットワーク分析の概要と歴史 2.2.1. 複雑ネットワーク分析とは 複雑ネットワークに関する研究は、世の中の森羅万象の関係性の構造を分析 する手法であり、18 世紀に L.オイラーが創始したグラフ理論を源流の一つとす る長い歴史を持つ分野であるが、最近 10 年足らずの間に、大きな進歩をしたと 言われている(増田 & 今野, 2005)。近年めざましく発展を遂げ、Barabási ら (Barabási et al., 2002)あるいは、Newman(Newman, 2003)によるレビュー論文が出 版されただけでなく、バラバシ(バラバシ, 2002)、ワッツ(ワッツ, 2004)による著 書の日本語訳、さらには増田らよる日本語の教科書(増田 & 今野, 2005)が出版 され、普及が加速している。他方、複雑ネットワーク研究が重要であるのは、 分野横断的な研究領域であるからである。たとえば、細胞内の遺伝子、タンパ ク質ネットワーク、電力系統のネットワーク、インターネット回線のネットワ ーク、WWW のリンク構造のネットワーク、論文の引用関係のネットワーク、 脳内の神経回路網、人間関係のネットワークなどには共通の特徴がみられる。 複雑ネットワーク研究は、自然科学、工学、社会学など複数の分野にまたがる 分野横断的な研究なのである。 11 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 元来、複雑ネットワークの研究は、社会学、数学の分野で主に扱われていた。 社会学においては、ネットワークの解析において重要視されていたのは人間の 行動動機であり、データに対する解析的なアプローチは試みられていなかった。 他方、数学の分野では、グラフ理論でネットワークのモデルは昔から研究され ていたが、グラフ理論で扱っているのは数学的な美しさを追求したネットワー クモデルであり、現実に存在するネットワークに直ちに適用するのは難しかっ た。そして近年、物理学において、現実に存在するネットワークに共通する特 徴を発見し、それを記述できるネットワークモデルについての研究が試みられ るようになってきた。そこで提唱されたのがスモール・ワールドネットワーク、 スケールフリーネットワークの概念である。 近年の物理学分野の発展により、一見、規則性がないと思われる形や現象を 支配する自然界の規則が少しずつ明らかになった。これまで各分野で明らかに されてきた局所的な現象をつなぎ合わせて、全体を理解するための構造が複雑 ネットワーク研究である。たとえば、複雑なたんぱく質構造の解明により生命 の謎に迫り、土壌に含まれる成分を分析することにより地球の歴史に迫り、自 然界の「部分」においては多くが知られることとなった。今、それらの「部分」 をつなげて自然界全体を理解するための新たなる試みが、ネットワークである という具合だ。 本章では、はじめに、複雑ネットワーク研究の歴史を振り返り、最近 10 年に おける重要な発見であるスモール・ワールドネットワーク、スケールフリーネ ットワークの概念を概説する。ここでは、社会学、数学の背景に始まり、物理 学分野で提唱されたモデルについて解説する。なお、この部分の詳細は、増田 らによって書かれた書籍(増田 & 今野, 2005)、佐野の論文(佐野, 2002)などに詳 しい。ここではスケールフリーネットワークまでを概説する。そして、次に、 スモール・ワールドネットワーク、スケールフリーネットワーク以後の複雑ネ ットワーク研究について整理する。 本節では、はじめに本論文を通して用いる用語の定義を行う。この用語の定 義は、Newman のレビュー論文(Newman, 2003)を基にした。 12 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 ノード(Node, Vertex (pl. vertices)): The fundamental unit of a network, also called a site (physics), a node (computer science), or an actor (sociology). エッジ(Edge): The line connecting two vertices. Also called a bond (physics), a link (computer science), or a tie (sociology). 有向(Directed)/無向(undirected): An edge is directed if it runs in only one direction (such as a one-way road between two points), and undirected if it runs in both directions. Directed edges, which are sometimes called arcs, can be thought of as sporting arrows indicating their orientation. A graph is directed if all of its edges are directed. An undirected graph can be represented by a directed one having two edges between each pair of connected vertices, one in each direction. 次数(Degree): The number of edges connected to a vertex. Note that the degree is not necessarily equal to the number of vertices adjacent to a vertex, since there may be more than one edge between any two vertices. In a few recent articles, the degree is referred to as the “connectivity” of a vertex, but we avoid this usage because the word connectivity already has another meaning in graph theory. A directed graph has both an in-degree and an out-degree for each vertex, which are the numbers of incoming and outgoing edges respectively. 連結成分(Component): The component to which a vertex belongs is that set of vertices that can be reached from it by paths running along edges of the graph. In a directed graph a vertex has both an in-component and an out-component, which are the sets of vertices from which the vertex can be reached and which can be reached from it. 最短パス(Geodesic path): A geodesic path is the shortest path through the network from one vertex to another. Note that there may be and often is more than one geodesic path between two vertices. 直径(Diameter): The diameter of a network is the length (in number of edges) of the longest geodesic path between any two vertices. A few authors have also used this term to mean the average geodesic distance in a graph, although strictly the two quantities are quite distinct. 次に、ネットワークを構成する要素はノードとエッジの 2 つであるが、ネッ トワークを特徴づけるためには様々な量が考えられる。その中でもここでは、 13 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 実際のネットワークデータの測定にも使われている代表的な 3 つの量を紹介す る。 一つめは、平均パス長(Average path length)である。ネットワーク中のある2つ のノード(i, j)をつなぐ経路の中で、エッジの数が最小の経路を、最短パスと呼び、 そのパスを作るエッジ数を最短パス長 l(i,j)と定義する。あるノード i において、 i がリンクしているすべてのノードでこの最短パス長を平均したものをノード i の平均パス長 l(i)と定義する。どのノードともリンクしていないノード j の l(j) は無限大となるが、本研究ではネットワーク中のノードと見なさないこととす る。さらに、ネットワークに存在するすべてのノードでこの平均パス長を平均 したものを、ネットワークでの平均経路長 L と定義することとする。 li L 1 N 1i 1 N l i, j i N li i 1 二つめが、クラスター係数(Clustering coefficient)である。ノードの集合が互い に密にリンクしている状況を、クラスター化しているという。クラスター係数 とはそのリンクの度合いを表す量で、ノードを人、エッジを繋がりと解釈する と、 「自分の友人同士が知合いである確率」と置き換えることもできる。あるノ ード i が ki 個のノードとリンクしているとする。するとそれらの ki 個のノード 1 間には 0~ k i k i 1 本のエッジが存在しうる。実際に ki 個のノード間に存在す 2 1 るエッジ数 Ei とエッジ数の最大値 k i k i 1 の比をノード i のクラスター係数 2 C(i)と定義する。総ノード数が N のネットワークのクラスター係数 C は各ノー ドの平均と定義する。すべてのノード同士の間にエッジが存在するネットワー クでは、クラスター係数は C = 1 となり、グラフ理論ではこれを「完全グラフ」 と呼んでいる。 Ci Ei 1 ki k i 1 2 14 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 C 1 N N Ci i 1 三つ目が度数(エッジ数) 分布(Degree distribution)であり、ネットワーク中の各 ノードがどれだけのエッジを持っているかを表したものである。k 本のエッジを 持つノードの数を X k とすると、度数分布 P k は、 Pk Xk N で表される。 2.2.2. 複雑ネットワーク分析の歴史 2.2.2.1. ランダムネットワーク 従来から、数学のグラフ理論でネットワークのモデルは研究されていた。完 全ネットワーク(各頂点が他の全ての頂点との間に 1 本ずつ枝を持つネットワ ーク)、木構造、格子など様々モデルが提唱されたが、これらは全て規則的なネ ットワークであり、現実に適用するには大きな問題があった。 ランダムネットワークとは、各ノード間にエッジがランダムに存在するネッ トワークである。1960 年頃に Paul Erdös と Alféd Rényi が提唱したモデルであり、 グラフに不規則な次数分布 p(k)を与えることができるモデルであった(Erdös & Rényi, 1959; Erdös & Rényi, 1960; Erdös & Rényi, 1961)。 ランダムネットワークを作成する手順は、下記の通りである。総ノード数を N、 各エッジが存在する確率を p とし、まず初めにノードを N 個用意する。ノード が N 個存在すると、そこには最大で N C2 N N 1 2 15 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 本のエッジが存在しうるが、それらのエッジを等しい確率 p でつくる。このよ うにして作った、確率 p のランダムネットワークには平均で、 p N C2 p N N 1 2 本のエッジがある。又、ノード 1 個あたりの平均のエッジ数<k>は、 <k> = pN となる。このようにして、N = 100、p = 0.04 の場合で生成されたランダムネット ワークを図 2-1 に示す。 図 2-1 N = 100、p = 0.04 のランダムネットワーク 以上のようにして作成することができるランダムネットワークであるが、グ ラフ理論で扱っているのは数学的な美しさを追求したネットワークモデルであ り、現実に存在するネットワークに直ちに適用するのは難しい。例えば人が友 だちになるにしても各人の好みがあり、飛行機の航路図にしても各都市の大き さや位置に依存する。このように現実のネットワークに対してランダムネット ワークを適用することが適切でないことが明らかであろう。 16 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2.2.2.1.1. 平均パス長 各ノードが平均、<k>ずつの隣人を持つとすると、その隣人の隣人は、約 k 2 個であり、これを繰り返すと、長さ l 以下の経路で到達できるノードの総数はお よそ、 Nl k l のようになり、ランダムネットワークでの平均経路長は、 N l rand N で見積も ることができ、 l rand ln n ln k となる。 2.2.2.1.2. クラスター係数 ランダムネットワークではノード間の全エッジは等確率で存在しており、基 本的にクラスター化していない。ランダムネットワークにおいては、ネットワ ーク中の任意の2つのノードがリンクされる確率は p なので、ランダムネット ワークでのクラスター係数は、 C rand p k N となる。 2.2.2.1.3. 度数分布 ここでは、 N での P(k)を近似的に求める。ランダムネットワークにおい て、あるノード i のエッジが k となる確率は、 17 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 P ki k N 1 N 1 k Ck p k 1 p という 2 項分布である。故にノードが N 個のネットワークで、エッジ数が k で あるノード数 X k の期待値 E X k は、 E Xk NP k i k k , where N N 1C k p k 1 k p N 1 k となる。ここで、ノード数が大きくなった場合を考えると、中心極限定理から E Xk X k となり、また N>>1 なので、N~N-1 とでき、度数分布は、 Pk N! pk 1 p N k ! k! となる。これは、 N ,p N k const. の極限で、エッジ数が k であるノー 0, k ドの分布は、 lim P k e pN N pN k! k というポワソン分布になる。このとき、分布の平均値は pN である。ここで、極 限の取り方を N , p const ., k N とすると、下式のように正規分布に近 づく。 lim P k exp N 1 k 2 2 pN 2 , where 2 Np 1 p 2.2.2.2. 6 次の隔たり 1967 年、ハーバード大学の Stanley Milgram は興味深い実験を行った。彼はア メリカのカンザス州とネブラスカ州に住む人をランダムに 300 人選びだし、ア メリカ社会の人間関係に関する研究に協力したい旨を伝えた。送り主に人々に は、受取人のおおまかな居場所や職業といった手がかりが与えられ、彼らはそ れをもとに、マサチューセッツ州に住む目標人物に「より近い」かもしれない 18 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 と思われる誰かに手紙を転送するよう指示され、最終的な受取人に手紙が届く まで、これが繰り返された。これを繰り返し、一体何人を隔てて目標人物にた どり着くかを調べたのである。当初の予測としては、100 人くらいは隔たるとい うことであったが、結果は平均たったの 5.5 人で目標人物にたどり着くという、 驚くべきものであった。この実験は、1967 年 Psychology Today 誌に「The Small World Problem」として発表された(Milgram, 1967)。 実際には、ミルグラム自身は「6 次の隔たり」という表現は一切使っていない し、 「世界中すべての人と知人関係を結べる」という結論も導き出していないが、 この理論は、後にこのことから「平均 6 人『知人の知人』を介していけば(アメ リカにおける)全ての人とつながることができる」という人的ネットワークの概 念を示すものとして、"Six degrees of separation"(6 次の隔たり)という言葉が生ま れた。さらには、この言葉にちなんだ映画(日本公開時の邦題:私に近い6人 の他人)が生まれ、あたかも正しい理論であるかのように人々の間に広まった。 この理論は、30 年以上にわたってほとんど証明されていないうえ、今のとこ ろ再実験も成功していないため、厳密に正しい理論と言うことはできないかも しれないが、複雑ネットワーク研究にとって重要な一歩を踏み出した実験であ ったことだけは否めない。 2.2.2.3. スモール・ワールドネットワーク 現実に存在するネットワークとランダムネットワークを比較すると(表 2-1 参 照)、平均パス長は同程度であるが、クラスター係数が大きく異なっている。1998 年に Watts と Strogatz によって調べられた映画俳優の共演関係ネットワーク 225,226 件分のデータでは、平均エッジ数<k>= 61、平均パス長 l = 3.65、クラス ター係数 C = 0.79 であった。しかし規模と平均エッジ数が同じランダムネット ワークを作ると、平均経路長は l(rand) = 2.99、 クラスター係数は C(rand) = 0.00027 となる。これより、平均パス長は現実に存在するネットワークとランダムネッ トワークは近いが、クラスター係数で両者には大きな差があるという事実が明 19 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 らかになった。 表 2-1 現実のネットワークの特徴量1 また、現実のネットワークのクラスター係数はネットワークの規模にはよら ず、独立な値をとることも分かってきた。この性質はレギュラーなネットワー ク、すなわち規則格子と同じである。 では平均経路長はランダムネットワークと同様の性質を持ち、クラスター係 数はレギュラーネットワークと同様の性質を持つようなネットワークを作るに はどうしたらよいのであろうか。このような性質を持つネットワークを、 D.J.Watts と S.H.Strogatz が Nature に載せた論文の中でスモール・ワールドネッ トワークという名前で提唱した。以来、スモール・ワールドは計算機科学の分 野で急速に注目を集めるようになった。彼らの提示したネットワークの作り方 を以下に示す。 1. 環状に繋がれた規則格子を考える。各ノードは両隣 K/2 ずつのノード とリンクされていることとする。すると各ノードは K 個ずつのエッジを 持つこととなる。このときネットワークの総ノード数を N として N>>K >1 と仮定する。 1 Albert & Barabási, 2002 より抜粋。 20 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2. ここで、それぞれのエッジに対して p の確率でランダムに新たな相手 を選んで繋ぎかえを起こす。すると結果として約 NK p 個のエッジが隣 2 り合っていないノードとリンクするエッジとなる(図 2-2 参照)。すな わち p = 0 でレギュラーネットワーク、p = 1 でランダムネットワークと なる(図 2-3 参照)。 図 2-2 ランダムなエッジのつなぎ換えとスモール・ワールドネットワーク2 図 2-3 繋ぎかえの確率 p による平均パス長とクラスター係数の変化3 図 2-3 のように、このアルゴリズムで作られたネットワークは、p = 0 と p = 1 の間に平均パス長は小さいが、クラスター係数が大きい領域がある。この領域 がスモール・ワールドネットワークの特徴を顕著に呈する領域である。Watts に よるスモールワールドの正確な定義は以下のようになっている Watts & Strogatz, 1998。 2 3 Watts & Strogatz, 1998 より抜粋。 Watts & Strogatz, 1998 より抜粋。 21 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 スモールワールドは、ノード数 N が大きく、疎に結合した分散したグ ラフ(N>>kmax>>1) であり、L がランダムグラフと近く(L~L(rand))、C がランダムグラフに比べて極めて大きい(C>>C(rand)) ものである。(た だし、kmax はグラフ中において、ノードから出ているエッジ k の最大値 である。) 実際、表 2-1 に示されたネットワークは全て L~L(rand)、C>>C(rand)であるネ ットワークとなっており、これらは全てスモール・ワールドネットワークであ る。このネットワークモデルは一般社会に見られる人間社会のネットワークを 想像すると理解しやすい。隣人など自分の身近な人とは仲の良い場合が多く、 まれに遠くはなれた場所に友人がいる、ということに置き換えられるだろう。 上述のアルゴリズムによって生成されたスモール・ワールドネットワークの例 を図 2-4 に示す。 図 2-4 N = 100、K = 4、p = 0.01 のスモール・ワールドネットワーク この Watts らの定式化で注目すべきは、まれにいる離れた友人にも短いパスで 到達できるということである。スモール・ワールドネットワーク理論よりも前 に似た概念が提唱されていた。 「Strength of Weak Ties(弱い紐帯の強さ)」である (Granovetter, 1973)。社会学者である Mark S. Granovetter は、2 人の人間の関係を 強い紐帯(strong tie)、弱い紐帯(weak tie)に分けて考えた。任意に選ばれた 2 人を 22 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 考え、A と B とし、S = {C,D,E, . . .}を A と B の少なくとも一方と紐帯をもつ人々 とする。もし A と B の紐帯が強ければ、S 中の人が A と B 両方と紐帯を持つ確 率が大きくなるだろう。この友人関係のオーバーラップは、紐帯がないときに は小さく、紐帯が強いときには大きく、紐帯が弱いときにはその中間である。 A-B と A-C の紐帯が強ければ、A は B とも C とも多くの時間を過ごすはずであ り、したがって B と C は知り合う確率が高い。したがって、A-B と A-C が強い 紐帯ならば B-C は関係を持ちやすく、A-B と A-C が弱い紐帯ならば B-C が関 係を持ちにくい。2点間 A-B に、その紐帯以外のパスがないとき、AB をブリ ッジという。A につながるどんな人から B につながるどんな人への情報も A-B のブリッジを経由しなければならない。大きなネットワークでは、ある紐帯が 2 点間のただひとつのパスとなることは滅多に起こらないので、その紐帯を除い た 2 点間の最短パスの長さ n を使って、次数 n の局所的ブリッジとよぶ。次数 が大きければ大きいほど、多くの人にとって唯一の効率的なパスであるという 点で、重要となる。このようなブリッジは、上記の性質から強い紐帯ではなく、 弱い紐帯である。 普 及 (Diffusion) の研 究で 有名 な Rogers は 、 何か が 普 及す る と き 革 新 者 (innovator) がまずそれを採用し、初期少数採用者、前期多数採用者、後期多数 採用者、採用遅滞者が次々に追従するというモデルを提唱した。このような普 及は、弱い紐帯を通じて起こる。ある人が噂を自分の近しい友人に話すとしよ う。その友人も同じように噂を広めると、強い紐帯は友人を共有するので、多 くの人が噂を何度も聞くことになる。したがって、強い紐帯を経由する噂は、 弱い紐帯を経由する噂より広がりが限られてしまう。このような意味で、弱い 紐帯には強い力がある。逆にいうと、たくさんの弱い紐帯を持っている人は, 何かを普及させるのに最も適しているというのが Granovetter の主張であった。 2.2.2.3.1. 平均パス長 平均経路長 l は繋かえの確率 p に依存しており、レギュラーネットワークから 23 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 ランダムネットワークに移行するに従い、ノード間の近道(short cut)が現れるた め、平均経路長は小さくなる。 すなわち p が小さいときには N に対して線形に増加し(レギュラーネットワー ク的性質)、p が大きくなると N に対して対数的に増加(ランダムネットワーク的 性質) する。この性質への急激な移行は、少なくとも 1 本の近道(short cut)が現 れる p 2 NK 付近で見られる。 N p l sw ln N p 2 NK 2 NK 2.2.2.3.2. クラスター係数 p = 0 のレギュラーネットワークでのクラスター係数は各ノードがもつエッジ 数 K のみによる。一次元で環状にノードを並べ、各両隣のノード K/2 ずつとリ ンクしているレギュラーネットワークを考える。 各ノードが持つ、内部エッジの数 E は、 K E 2 44444444444444 6444444444444447 8 K K K K K K K 1 1 1 2 L 1 2 2 2 2 2 2 2 で与えられるので、クラスター係数は、 C reg 3K 2 4K 1 となる。 24 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2.2.2.3.3. 度数分布 レギュラーネットワークでの度数分布はデルタ関数になっており、繋ぎかえ の確率 p が 0 であるときは下のように表すことができる。 pk k K 繋ぎかえの確率 p が大きくなるにしたがって、その裾が広がって行く。 2.2.2.4. スケールフリーネットワーク スケールフリーネットワークとは、度数分布を見たときに、巾になっている ネットワークのことを言う。 pk k このスケールフリーネットワークの概念を初めて提示したのは Albert-Lászlò Barabási と Réka Albert で、1999 年のことであった。彼らは現実に見られるネッ トワークを解析し、巾分布 p k k の指数が WWW ではγ=2.45∼2.1、映画俳 優のネットワークではγ=2.3 であることを発見した。 では実際に度数分布が巾になるスケールフリーネットワークを作るにはどう したらよいのであろうか。今までの研究で使われた多くのネットワークモデル は、総ノード数 N はあらかじめ決められており、また、ネットワーク中のノー ドはすべて同じと見なされていた。しかし、現実のネットワークは、(1) 新たな エッジの付加によってネットワークが成長(growth) し、(2) 新たなノードがリン ク先として選ぶ確率が、ノードごとに異なる傾向(preferential attachment)を持つこ とに Albert-Lászlò Barabási と Réka Albert は着目した。表 2-1 に挙げたネットワ ークのデータにある研究文献の引用ネットワークであれば、研究論文をノード、 論文同士の引用をエッジとみなすと、ネットワークは、時間が経つに連れ成長 25 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 し、また、その研究内容によって引用頻度に傾向が見られることは現実的にも 納得がいくだろう。他方、Web ページのリンク関係においては、各ページがど のくらい他のページからリンクされているかを調べると、ほとんどのページは 数個以下のリンクしか集めないが、Yahoo!などのごく少数のページは 100 万個 もの大量のリンクを集めるということを意味する。こちらも同じように現実に 合致する結果である。 そして彼らはこの考えを元に、スケールフリーネットワークを作る以下のモ デルを提案した。 1. growth まず、エッジを持たない m0 個のノード(i = 0, 1, . . . m0) からスタートし、 時間ステップごとに1つノードを付加していく。各ステップで新しく付 加されるノードはすでにネットワークに存在していたノードのうち m 個のノードとリンクする。 2. preferential attachment ステップτで新たにノード(i =τ+ m0) が入ってくる。このとき、すで に存在していたノード(i = 0, 1, . . . τ − 1 + m0) のうちどれとリンクする かを決める際に、エッジ数の多いノードと繋がりやすいという傾向を持 たせる。彼らは、ノード i とリンクする確率Πi をノード i がすでに持つ エッジ数 ki に比例するように決めた。 i ki ki j 1 m0 kj 0 i j 0 m0 このような過程をτステップ繰り返した後には、N =τ+ m0 個のノードと、 総エッジ数が mτであるようなネットワークが出来上がる。実際、この過程で 生成されたスケールフリーネットワークの例を図 2-5 に、度数分布の例を図 2-6 に示す。 26 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 図 2-5 N = 100、m0 = m = 2 のスケールフリーネットワーク 図 2-6 スケールフリーネットワークの度数分布4 2.2.2.4.1. 平均パス長 スケールフリーネットワークでの平均パス長は、ランダムネットワークと同 4 Albert & Barabási, 2002 より抜粋、(a)N = m0 + t = 300,000 and m0 = m = 1 (circles), m0 = m = 3 (squares), m0 = m = 5 (diamonds) and m0 = m = 7 (triangles). The slope of the dashed line is γ = 2.9. (b)m0 = m = 5 and system sizes N = 100, 000 (circles), N = 150, 000 (squares) and N = 200, 000 (diamonds). The inset shows the time-evolution for the degree of two vertices, added to the system at t1 = 5 and t2 = 95. Here m0 = m = 5, and the dashed line has slope 0.5. 27 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 様にネットワークの規模 N に対して ln(N)のオーダーで、詳しく比較すると、ラ ンダムネットワークの平均経路長よりやや小さいことが、数値実験より知られ ている。 図 2-7 の中央の点線の式は、 l = A ln(N − B) + C で、定数 A,B,C をスケールフリーネットワークの数値実験に合うようにフィッ トさせたものである。このように、スケールフリーネットワークでの平均経路 長はランダムネットワークよりも小さい。また、両ネットワークともに、総ノ ード数にしたがって平均経路長は大きくなる。しかし、増加率はランダムネッ トワークよりスケールフリーネットワークの方がやや小さい。 図 2-7 ランダムネットワークとスケールフリーネットワークの平均経路長5 2.2.2.4.2. クラスター係数 スケールフリーネットワークのクラスター係数は、スモール・ワールドネッ トワークと同様に、ランダムネットワークよりかなり大きい。数値実験よりス ケールフリーネットワークでのクラスター係数は、 5 Albert & Barabási, 2002 より抜粋。 28 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 C sf ~ N 0.75 であることが知られている(Albert & Barabási, 2002)。 2.2.2.4.3. 度数分布 スケールフリーネットワークは、エッジの分布が巾になるネットワークであ る。彼らのアルゴリズムによって作られたネットワークはスケールフリーの性 質を持ち、エッジ数の分布が巾乗になる。 これに関して、Barabási らは連続近似を用いた理論で、continuum theory とい う理論的な説明を提案した(Albert & Barabási, 1999)。 あるノード i が持つエッジ数 ki を連続な実変数で近似して、ki のアルゴリズ ムの時間ステップτに対する変化を微分方程式で表す。エッジ数は新しくノー ドが付加されるごとに増加する。新たに入ってきたエッジが元からあったノー ド i に付加される確率は ki m ki k i であり、エッジ数の平均的な時間変化は、 mN ki 1 kj j 1 N m0 となる。 1 2 m ここで時刻τでの全エッジ数は、 N N 1 kj j 1 kj であるから、 j 1 2m m で あり、これより、 ki ki 2 1 ki 2 1 と近似できる。ノード i が付加された時刻を i とすると、 k i 29 i m である。微 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 分方程式を解くと、 ki m 1 2 , i となり、全てのノードが同じようにエッジを増やしていくことがわかる。 従って、時刻τでエッジ数 ki がある値 k よりも小さいノードの割合は、付加 m 時刻 i k が を満たすノードの割合に等しい。 i 1 P ki k m P i 1 k ここで新たなノードの付加は前節で説明したように各時間ステップで1個で あるので、ノードが付加された時刻 P i の確率分布は、 1 i m0 0 i と一様分布になる。すると、 1 P 1 m i m 1 1 1 k k m0 これより、度数分布 P(k) は 1 Pk P ki k k 2m m0 1 1 1 k となり、τ→∞の極限では、 30 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 P k ~ 2m 3 k 3 すなわち、度数分布はネットワークの規模が大きくなると、指数 3 の巾に漸近 することが示された。 2.2.2.5. 複雑ネットワーク研究の整理 これまでに紹介した 3 つのネットワークモデルの特性を整理すると表 2-2 の ようになる。なお比較のため、スモール・ワールドネットワーク生成アルゴリ ズムで p=0 としたレギュラーネットワーク(一次元規則格子) の特性も載せる。 表 2-2 ネットワークモデル ネットワークモデルの特性 平均パス長 L クラスター係数 C ランダムネットワーク 小さい 度数分布 P(k) ピークを持つ分布6 O(1/N) スモール・ワールドネッ トワーク スケールフリーネット 大きい 小さい O(logN) 大きい ワーク O( N レギュラーネットワー ク ピークを持つ分布7 O(1)~O(1/N) 3 4 べき k ) 大きい 大きい O(N) O(1)8 δ関数 ランダムネットワークは、平均経路長 L が小さく、クラスター係数 C が小さ い。しかし、現実に多く見られるネットワークは、平均経路長 L が小さく、ク ラスター係数 C が大きい。この特徴を持つように作られたネットワークモデル 6 ランダムネットワークでは、分布は二項分布で、N→∞のとき、p→0 で Poisson 分布、p→const.で Gauss 分布になる。 7 スモール・ワールドネットワークでは K にピークを持つδ関数のような分布 となる。 8 レギュラーネットワークにおいては、K→∞で、3/4 という定数になる。 31 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 が、スモール・ワールドネットワークとスケールフリーネットワークである。 しかしながら、スモール・ワールドネットワークは、エッジ度数分布にピーク を持ち、ランダムネットワークと似た分布になっているのに対して、スケール フリーネットワークはエッジ度数分布が巾である点で、大きく異なる。 以上が、複雑ネットワーク研究の 1999 年までの歴史である。物理学者によっ てもたらされたスモール・ワールドネットワーク、スケールフリーネットワー クは非常に重要な発見であり、我々が現実のネットワークを理解する上ではと ても有用である。しかし、スモール・ワールドネットワーク、スケールフリー ネットワークだけで全てを説明できるわけではない。次節では、スモール・ワ ールドネットワーク、スケールフリーネットワークの応用例を示し、スモール・ ワールドネットワーク、スケールフリーネットワークのその後の進化に関して も概説することとする。 2.3. 複雑ネットワーク分析を用いた論文の引用分析 2.3.1. 本研究の引用分析の全体像 本研究では、前述のように主に引用ネットワークの複雑ネットワーク分析を 行う。具体的には、図 2-8 に示した通り、以下のステップによって行われる。 (1)学術論文 DB より、検索クエリを用いて学術論文データを取得 (2)y 年までに出版された論文から成る引用ネットワーク G(y)を生成 (3)G(y)の最大連結成分 GL(y)を生成 (4)トポロジカルなクラスタリング手法によってクラスターに分割 32 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 (5)可視化 (6)各論文の「トポロジカルな役割」を分析 (7)クラスター内論文の平均出版年と各クラスターのトピックの分析 (8)各論文の中心性と将来の被引用数を分析 図 2-8 本研究の引用分析の全体像 また、各分析手法が本論文中のどの部分に該当するかを表 2-3 に示す。第 3 章 引用分析の手法と評価では、3 つの引用分析手法(詳細は第 3 章)のうちど の手法が最もイノベーション発見に適しているかを分析する。(1)∼(4)は第 3 章 から第 5 章に共通するものであるが、(5)∼(7)は第 4 章 引用情報を用いた新興論 文群の発見のための分析手法である。(8)は第 5 章 引用情報を用いた将来の被引 用数予測で利用される。なお、各分析手法の詳細は、各章に記載する。 33 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 表 2-3 各分析手法と本論文中の該当箇所 本論文中の該当箇所 分析手法 共通 (1)学術論文 DB より、検索クエリを用いて学術論文 データを取得 引用分析ごとの評価(3 章) (2)y 年までに出版された論文から成る引用ネットワ ーク G(y)を生成 共通 (3)G(y)の最大連結成分 GL(y)を生成 共通 (4)トポロジカルなクラスタリング手法によってクラ スターに分割 引 用情 報を用 いた 新興論 (5)可視化 文群の発見(4 章) (6)各論文の「トポロジカルな役割」を分析 (7)クラスター内論文の平均出版年と各クラスターの トピックの分析 引 用情 報を用 いた 将来の (8)各論文の中心性と将来の被引用数を分析 被引用数予測(5 章) 2.3.2. 学術論文データの取得、引用ネットワークの生成方法 本項では、対象とする学術分野の論文データ収集する方法を示す。図 2-8 の (1)(2)(3)に該当する。現在、科学、社会科学の論文データベースの中で、最良な データベースの一つが Institute for Scientific Information (ISI)が提供しているデー タベースである。ISI 社の論文データベースは、1970 年以降の論文が格納されて おり、”Web of Science”というウェブベースのインターフェイスで提供されてい る。 クエリは次の 2 つのステップで決定される。はじめに、取得したい学術分野 の代表的なキーワードを選定する。次に、それらの語だけでは学術分野が一意 に定まらないおそれのある場合は、関連キーワードを追加する。このステップ は、「クエリ拡張(query expansion)」と呼ばれている(Kostoff, et al., 1997)。ここで 34 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 重要なのは、イノベーションの中核となる論文が漏れないように広くカバーす るためにキーワードを追加することである。 ISI の論文データベースからは、出版年、タイトル、著者などの attribute data、 引用関係などの relational data の両方が取得可能である。本研究では、図 2-9 に 示すように、論文をノード、引用をエッジとみなし、引用関係ネットワークを 生成した。各論文の出版年が特定できるため、各年における引用関係ネットワ ークを生成することができ、時系列分析が可能である。実際には、3 章で詳しく 述べるが、引用の定義は直接引用(direct citation)、共引用(co-citation, Small, 1973)、 書誌結合(bibliographic coupling, Kessler, 1963)という主に 3 種類の引用が存在す る。ネットワーク分析においては、各年の引用関係ネットワークのうち、最大 連結成分(largest-graph component)のみを用いた。というのは、本研究は論文 間の引用関係に焦点を当てているため、引用関係が存在しない論文は除外され るべきであると考えたからである。また、直接引用の場合、引用関係ネットワ ークは有向グラフから無向グラフに変換して扱った。この方法は、ネットワー ク分析においてはよく用いられる手法である(Newman & Girvan, 2004)。 ISI’s database Search 図 2-9 Attributes of papers & Citations among papers (1970-2004) Removing unconnected nodes & Directd edges to Undirected edges The “largest connected component” of each year’s citation networks 引用関係ネットワークのデータ生成方法 35 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2.3.3. トポロジカルなクラスタリング手法 本項では、本研究ではトポロジカルなクラスタリング方法を示す。図 2-8 の(4) に該当する。複雑ネットワークにおけるコミュニティ構造、トポロジカルなク ラスタリングに関する研究は近年発展を始め、現在も発展途中である。所謂、 統計における一般的なクラスター分析とは異なり、複雑ネットワーク分野では ネットワーク構造(トポロジー)を用いたクラスタリング手法が複数提案され ている。これらの研究は大きく次の 3 種類に分類でき、以下ではそれぞれごと に関連研究を整理する。 ネットワークの系のエネルギー以外を評価関数とする手法 評価関数にグローバルなネットワーク構造を用いる手法(分類 1) 評価関数がローカルなネットワーク構造を用いる手法(分類 2) ネットワークの系のエネルギーを評価関数とする手法(分類 3) 2.3.3.1. 評価関数にグローバルなネットワーク構造を用いる手法(分類 1) 複雑ネットワークのコミュニティ構造を特性する研究は、従来から社会学で も行われてきた。ところが、社会学研究においては、スケラービリティの問題 などから十分に発達してきたとは言い難い。ところが、2002 年の Girvan と Newman によって提案された edge betweenness 法(以下、発明者の名前にちなん で「GN 法」とする。)が先駆けとなり、複雑ネットワークを扱えるクラスタリ ング手法が発達してきている。Girvan と Newman は、ネットワークをいくつか の集合に分割すること(以下、クラスタリングとする。)は、ネットワーク構造 を理解し、可視化する上で重要であるが、クラスタリングの研究は、昔からな されてきたが、現実的な計算量でないなどの問題があった。そこで、彼らは実 用 的 な ク ラスタ リン グ 手 法を 提 案 し た (Newman & Girvan, 2004; Girvan & Newman, 2002)。 36 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 クラスタリングの考え方には、 図 2-10 に示したように、Agglomerative Method、 Divisive Method の 2 つの考え方があるが、彼らは Divisive Method を用いた。と いうのは、Agglomerative Method の場合、図 2-11 の太線のようなクラスターを 見つけることはできるが、その他のリンクは見つけられない場合がある。図 2-11 の場合、明らかに 2 つのクラスターに分割されるべきだが、Agglomerative Method ではそうならない。 Agglomerative Method Divisive Method 9 図 2-10 クラスタリングの 2 つの考え方 図 2-11 Agglomerative Method の問題点9 (Newman & Girvan, 2004)より抜粋。 37 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 クラスタリングのアルゴリズムに関して、従来は最も「中心」なエッジに着 目し、中心にあるエッジから順に切断していくという手法が一般的なクラスタ リ ン グ の ア ル ゴ リ ズ ム で あ っ た 。 Girvan と Newman は 、 最 も ”between communities な(コミュニティ同士を媒介しているような)エッジに注目し、 エッジの Betweenness centrality が高いエッジから順に切断するというアルゴリ ズムを提唱した。このエッジの媒介性(betweenness)を彼らは、edge betweenness と名付けた。アルゴリズムは以下の通りである。 全てのリンクの edge betweenness を計算する。 最も edge betweenness が高いリンクを切る。 再度、全ての edge betweenness を計算する。 この手順を、リンクが無くなるまで繰り返す。 edge betweenness が高いエッジから順に切断することで、図 2-12 のようなデ ンドログラムを描くことはできるが、デンドログラムのどのレベルで切断した 結果をクラスタリングの結果とすべきかに関しての評価関数が必要であった。 そこで彼らは、下記で定義される modurality Q を評価関数として定義し、エッジ 切断の各プロセスで modurality Q を計算し、modurality Q が最大(極大10)にな った時点で切断を止めることで、クラスタリングの結果が一意に定まるように した。Q が表すのは、[同じコミュニティ内でのエッジ割合]-[ランダムネットワ ークと仮定した場合のコミュニティ内でのエッジの割合]であり、クラスター内 リンク数がランダムの場合と変わらなければ Q=0 であり、強いクラスター構造 の場合は、Q=1 である。現実は、Q=0.3~0.7 で、あまり高い値にはならない。 10 実際は、modurality Q の増加分であるΔQ を計算しているため、ΔQ がマイナ スになった時点でエッジの切断を止める。 38 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 定義 行列e, eij : クラスターiとjの間のリンク数(割合) Tr (e) : 同じクラスター内でつながるリンク数(割合) eij : クラスターiのノードのリンク数(割合) ai j とした場合に mod ularityQを、 Q eii ai 2 Tr (e) e 2 i と定義する。 図 2-12 デンドログラムの例 実際、彼らは、Highest betweenness なエッジの見つけ方として、下記の 3 種類 を提案した上で、現実の整合性、計算量の 2 点から、shortest-path betweenness 法 が最も良いとした(Newman & Girvan, 2004)。 shortest-path betweenness:任意の 2 ノード間の最短パスに最も多く含 まれるリンク(を Highest betweenness なエッジとする)。 random walk betweenness:任意の 2 ノード間を情報が伝搬する際に、 情報が random walk に伝搬する場合に、最も多く通過するリンク(を Highest betweenness なエッジとする)。 current-flow betweenness:任意の 2 ノード間を情報が伝搬する際に、最 39 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 も情報流量が多いリンク(を Highest betweenness なリンクとする)。 実際、shortest-path betweenness 法の場合、ネットワーク内の総ノード数を n、 総リンク数を m とすると、あるノード s に関しての計算は O(m)、全ノードに関 しての計算(shortest-path betweenness の 1 回の計算)は O(mn)、最悪のケース(全 エッジを切るために再計算を m 回繰り返す場合)でも、O(m2n) or O(n3)で計算で き、比較的現実的な計算量で大規模ネットワークのクラスタリングが実行可能 である。 クラスタリングというのは本質的に解の善し悪しが一意に定まらないが、彼 らは複数のネットワークデータを用いて、GN 法のクラスタリング結果が妥当で あることを検証した。はじめに、コンピューターで生成されたランダムネット ワーク(n=64, <k>=8)で実験を行い、4 つに分割されることを確認した。次に、 Zachary’s karate club network のネットワークのデータを用い、現実のネットワー クデータでクラスタリングを行い、一つのノードのみ間違ってクラスタリング されたがその他は全て正しいという結果を得た。さ以上の実験から、GN 法は概 ね現実に合致したクラスタリング結果を提供できるということを確認した。 Newman ら(Newman & Girvan, 2004)によって GN 法が提案され、現実のネット ワークデータに十分適用できるということが示されてからわずか半年後に、 Newman 自身が新しいクラスタリング手法を提案した(Newman, 2004)。本書では この手法を「Newman 法」と呼ぶことにする。 GN 法は、これまで解決されてこなかったネットワークのクラスタリングに関 して、新しい方法を提案し、その方法を現実のネットワークに適用して、効果 と実用性を確認した点では有用であった。他方、GN 法は、それまでの手法と比 べて改善されたとは言え、O(m2n) or O(n3)の計算量が必要で、大規模ネットワー クへの適用には計算量が大きすぎるという問題もあった。そこで、Newman は GN 法よりも高速で、GN 法と似た結果を導く、新クラスタリング手法を提案し た。 アイディアは、「GN 法においても、実際のリンク切断は Q の値に基づいてい 40 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 る。それなら、最初から Q の増減だけで切断リンクを決めればよいのではない か。」というものであった。実際には、全てのノードについて「リンク先と合わ さって1つのクラスターになるべきか」を計算していく。あるクラスターと別 のクラスターとを分ける方法として、クラスター間のエッジに対してクラスタ ー内部のエッジの密度の濃さで評価する方法が考えられる。この度合いを modularity Q という値で定義している。実際のアルゴリズムは下記の通りである。 最初に全てのノードを構成要素が1のクラスターと再定義し、クラス ターを結合しながら更新していく。 初期クラスターはノードと同数で、ノードのリンクと同じ初期クラス ター間の隣接行列上に、一つのクラスターとして更新する場合の変化 ΔQ が計算される。 Q eii 2 2 Tr (e) e e ji 2ai a j 2 eij ai i Q eij ai a j 全隣接行列の中で一番ΔQ の値を上げるペアが選ばれて1つのクラス ターとして、比較的少ない計算量で再計算される。 この時、総クラスター数が1つ減る。計算過程で再編される隣接行列 上のΔQ は結合ステップ毎に変わっていき、最終的にどのペアを1つ にしてもがΔQ マイナスになる時点で終了となる。 Newman はさまざまなネットワークデータへ Newman 法を適用し、GN 法と同 程度かそれ以上に現実に合致するクラスタリング結果が得られることをしめし た。また、その中の一つが大規模な科学者のコラボレーションネットワーク (N=56,276)であったが、この計算は普通のデスクトップマシンを用いて、42 分で終了した。GN 法を用いていたら、3-5 年待たねばならなかっただろう。実 際、GN 法は、O(m2n) or O(n3)の計算量が必要であったが、Newman 法では、eij が更新される際に最大 O(n)、従って 1 ステップで O(m+n)、全ステップで、悪く ても、O((m+n)n) or O(n2)の計算量で実行可能である。 その後、Clauset ら(Clauset, et al., 2004)は、さらに高速なアルゴリズムを提案し、 クラスターサイズの累積確率分布に-1 乗のべき乗則が、クラスターサイズの確 41 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 率分布は-2 乗のべき乗則が見られることを発見した。 2.3.3.2. 評価関数がローカルなネットワーク構造を用いる手法(分類 2) 2002 年発明された GN 法には、1)「クラスター」というものの定量的な定義 が曖昧である、2)計算量が大きいという 2 つの問題があった。そこで、Radicchi ら(Radicchi, et al., 2004)は、これらの問題を解決する新しい手法を提案した。 はじめに、クラスターの定量的な定義に関して、グラフ全体を G とし、その サブグラフを V とし、次のように定義する。行列 A は隣接行列である。 ki V in ki V ki out in ki V V Ai , j j V out ki V Ai , j j V その上で、クラスターの定義として、次の 2 つの定義を提案した。 強いクラスター(Community in a Strong Sense):サブグラフ V が in ki V ki out V for i V を満たす場合、V は強いクラスターであるとする。 弱いクラスター(Community in a Weak Sense):サブグラフ V が in ki V i V ki out V i V を満たす場合、V は弱いクラスターであるとする。 その上で、edge-clustering coefficient を下記のように定義した。 42 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 Ci , j zi, j 3 3 min ki 1 , k j 1 3 where zi , j : the number of triangles built on that edge min ki 1 , k j 1 : the maximal possible number of them 実際は下記のように拡張したものを用いる。 ~ 3 Ci , j zi , j g si , j where 1 g zi, j g : the number of cyclic structures of order g the edge (i, j) belongs to si , j g : the number of possible cyclic structures of order g that can be built given the degrees of the nodes これらの定義をふまえ、実際のアルゴリズムは下記の通りである。 クラスターの定義を選択する。 全 て の エ ッ ジ の edge-clustering coefficient を 計 算 し 、 最 も edge-clustering coefficient が小さいエッジを切断する。 もし、その切断でグラフが複数の部分グラフに分割されなければ、 分割されるまで切断を繰り返す。 エッジ切断で複数個の部分グラフに分割され、かつ 2 つ以上の部分 グラフがクラスターの定義を満たす場合は、デンドログラムを描く。 全てのエッジが切断されるまで上記のプロセスを繰り返す。 実際にこのアルゴリズムで計算を行うと、GN 法よりも一桁少ない計算量でク ラスタリングが可能である。また、コンピューターで生成されたランダムグラ フや、フットボールチームリーグのネットワークに適用し、クラスタリングの 結果も GN 法と同程度に良いことが示された。他方、この手法は、デンドログ ラムを描いた後にどのレベルでクラスターとみなすのかが一意的に定まらない (modularity Q のような評価関数が存在しない)という問題点がある。 Clauset(Clauset, 2005)は、グローバルな評価関数を用いたクラスタリングは、 現在注目されているが、他方、ローカルな特徴を探るためのクラスタリングが 有用な場合もあると考えた。たとえば、ウェブサイトのリンク構造のように、 43 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 ほぼ無限に続くようなネットワークの場合や、ネットワークが巨大であって、 動的に頻繁に更新される(Too large and Too dynamic)ような場合である。そこで、 彼は Local Modularity という考え方を提唱した。この手法では、あるノードを中 心に考え、どこまでがそのノードを起点としたクラスターなのかを解く手法で ある。 まず、図 2-13 に示したように、ローカルクラスターに含まれるノード集合を C、C の辺縁ノードの集合を B とし、その他膨大な周辺ノード集合を U とする。 図 2-13 ローカルクラスターの構造11 ここで、彼は辺縁構造のシャープさ(sharpness of that boundary)を考え、シャ ープな辺縁(sharp boundary)を持つクラスターは、外部とは少ないエッジでつ ながっているはずだ。つまり、辺縁 B に存在するノードは、C(B を含む)内では たくさんエッジを持つが、U とのエッジが少ないような構造を抽出できるのが、 良いクラスターであると考えた。そこで、Local Modularity R を次のように定義 した。 11 Clauset, 2005 より抜粋。 44 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 T: the number of edges with one or more end points in B I: the number of those edges with neither end point in U R は、0<R<1 であり、クラスターが完全グラフの場合に R=1 となる。 アルゴリズムは、表 2-4 に示した通りであり、最初は C=B=v[0]、U={v[0]の 隣人集合}とし、全ノードに対して、ΔR を計算し、ΔR が最大のノードを C に 入れ、そのノードの友人を U に入れるという操作を繰り返す。ここで、 x: the number of edges in T that terminated at v[j] y: the number of edges that will be added to T by the agglomeration of v[j] i.e., the degree of v[j] is x+y z: the number of edges that will be removed from T by the agglomeration である。 45 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 表 2-4 local modurality R を用いたクラスタリングのアルゴリズム12 この手法を実際のネットワークに適用してみたところ、GN 法と同程度に有効 な結果が得られた。また、図 2-14 に示すように、amazon.com の商品のネットワ ークの場合には、次数と R は負の相関がある。こうした構造は、グローバルな クラスタリングでみられるマクロ構造(macroscopic structure)とも、クラスタリ ン グ 係 数 の よ う な ミ ク ロ 構 造 ( microscopic structure ) と も 異 な る 、 メ ソ (mesoscopic)な構造である。 12 Clauset, 2005 より抜粋。 46 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 図 2-14 local modurality R と次数の関係13 2.3.3.3. ネットワークの系のエネルギーを評価関数とする手法(分類 3) Capocci ら(Capocci, et al., 2005)は、GN 法は複雑ネットワークのクラスタリン グに今のところ最も成功しているが、得られるクラスタリング結果がトポロジ カルにどの程度「くっきり」しているのかを判別する指標がないという致命的 な欠点を持つと指摘し、これらを解決するクラスタリング方法を、スペクトラ ル法(Spectral Method)とその改良によって提案した。 ある無向グラフの Adjacency Matrix A を考え、K は A の行和を対角成分に並べ た対角行列とする。その上で、Laplacian Matrix L( L N( N K A )と Normal Matrix K 1 A 、N は A を行和が 1 になるように正規化した行列)を定義した。 すると、Normal Matrix N は自明な固有値 1 を持ち、それとは別に、m-1 個の 1 に近い固有値を持つ。(m はクラスター数。)さらに、それらの固有値に対応す る固有ベクトルは、同じクラスターに属するノードに対応する成分が非常に近 い値をとる。従って、クラスタリング問題は、行列 N の固有値問題と同値にな る。実際、N の固有値の分布でクラスタリングが可能となった。彼らは、この手 法を重み付きグラフや有向グラフの場合にも拡張しただけでなく、語の連想ネ 13 Clauset, 2005 より抜粋。 47 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 ットワーク(ノードは個々の単語、エッジは連想によって想起する関係にある かどうか)に適用した。 Son ら(Son, et al., 2005)は、クラスタリング問題を磁性体による random field Ising Model の基底状態を求める問題として解く手法を提案した。この手法では、 ある外部磁場を考えたとき、全ての基底状態において、同じスピンドメインに 属するノードが同じクラスターに属するものと考える。下のハミルトニアンで 表されるスピン系の相互作用モデルを考える。外場 B として、ランダム磁場 (Random Field)を考えるものを Random Field Ising Model と呼ぶ。ここでは、 外場によってある 2 つの粒子のスピンを+1 と-1 に固定する。 1 2 H i J ij i, j 1: i Bi j i i 粒子iのスピン状態 J ij : 粒子iとjの相互作用エネルギーの係数 Bi : 粒子iに働く外場 Bi , for i s , for i t 0, for i s,t この H で与えられるイジングモデルの全ての基底状態を、全てのノード対 s と t のスピンを固定する外場を与えながら解くことで、クラスタリングが可能と なる。この方法を Zachary karate club network などのネットワークに適用したと ころ、現実と合致する結果を得た。また、上述の方法では、基底状態問題を nC2 回解くことになるが、スピンを固定するノード対 s と t(つまり、クラスターの 中心 になるノード)をいかにうまく選ぶかという指標も提案した。 48 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2.3.3.4. 本研究で用いるトポロジカルなクラスタリング手法 ここでは、前項までで記述したトポロジカルなクラスタリング手法のうち、 どのクラスタリング手法が本研究に最適なのかを論ずる。上述のように、トポ ロジカルなクラスタリング手法は大きく 3 種類に分類でき、それぞれの特徴を 整理すると表 2-5 の通りである。ここでのクラスタリング手法に求められる要 件は、1)大規模ネットワーク(数万ノード規模)に適用して、現実可能な計算時 間でクラスタリングが実行可能である、2)ネットワーク構造を局所的ではなく、 俯瞰的に見てクラスター間のエッジを切断できる、という 2 つである。この 2 つを満たすのは、評価関数にグローバルなネットワーク構造を用いる手法(分 類 1)のみである。本研究では、中でも最も計算量の小さい modularity Q を用い たクラスタリング手法(Newman, 2004; Clauset et al., 2004)を統一的に用いること にする。この手法を用いることで、エッジが密に集まる論文群をクラスターと して抽出することができ、かつ、比較的小さい計算量(O((m+n)n) or O(n2))で クラスタリングが実行可能となる。 49 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 表 2-5 トポロジカルなクラスタリング手法の分類 分類 評価関数の考え方 良い点 問題点 系 の エ ネ ル 評 価 関 数 ネットワーク全体で、ク 全 体最適 な解 が 評価関数が複数提案され ギ ー 以 外 を が global ラスター間のエッジが少 得られる。 評価関数と なく、クラスター内のエ 計算量が少ない。 する手法 ッジが多いかどうか。 ている。 評 価 関 数 局所的に、 「密に結合して 計算量が少ない。 全体最適な解が求められ が local いる」かどうか。 ない。 ネットワークが決まって も、一意な解が得られな い。 系のエネルギーを評価関 ノードに磁力を与えた際 全 体最適 な解 が 計算量が多く、現実的に 数とする手法 のハミルトニアンで表さ 得られる。 計算不能。 れるスピン系の相互作用 ネットワークが決まって エネルギーを最小化す も、一意な解が得られな る。 い。 Newman 法のアルゴリズムは下記の通りである。 最初に全てのノードを構成要素が1のクラスターと再定義し、クラス ターを結合しながら更新していく。 初期クラスターはノードと同数で、ノードのリンクと同じ初期クラス ター間の隣接行列上に、一つのクラスターとして更新する場合の変化 ΔQ が計算される。 Q eii 2 2 Tr (e) e e ji 2ai a j 2 eij ai i Q eij ai a j 全隣接行列の中で一番ΔQ の値を上げるペアが選ばれて1つのクラス ターとして、比較的少ない計算量で再計算される。 この時、総クラスター数が1つ減る。計算過程で再編される隣接行列 上のΔQ は結合ステップ毎に変わっていき、最終的にどのペアを1つ 50 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 にしてもがΔQ マイナスになる時点で終了となる。 このアルゴリズムによって、図 2-15 に示すようにクラスター間のリンクが少 なく、クラスター内のリンクが多い分割結果が与えられる。 図 2-15 Newman 法によるクラスタリング 2.3.4. 可視化 本項では、本研究で用いた可視化の方法を示す。図 2-8 の(5)に該当する。本 研究では、大きく 2 つの可視化アプリケーションを用いている。一つ目は、pajek であり、比較的小規模なネットワークをノード単位で描画するのに適している。 もう一つは、Large Graph Layout(以下、「LGL」とする。)で、大規模なネット ワークを現実的な計算量で描画ができる点が特徴的である。実際、一般的なデ スクトップ PC を用いると、pajek では 5,000 ノードを超えたあたりから、ばねモ デルでの描画が不可能になる。ここでは、描画アルゴリズムは、「付録 A:可視 化のアルゴリズム」に付す。 LGL で描画する場合、可視性を確保するために、エッジのみを描きノードを 描いていない。また、クラスタリング後のネットワークを描画する場合、図 2-16 51 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 に示すように、クラスター内のエッジのみに色を付け、クラスター間のエッジ は描かずに可視化を行っている。 図 2-16 LGL を用いた描画と色づけ 2.3.5. ノードのトポロジカルな役割の分析方法 本項では、ネットワーク中のノードのトポロジカルな役割の分析方法を示す。 図 2-8 の(6)に該当する。Guimera ら(Guimera & Amaral, 2005)は、クラスタリング 手法を提案しただけでなく、クラスタリング結果からノードの役割を分類する 手法を提案した。彼らは、代謝ネットワークの構造を解明するために、ハブに なる細胞はどのような細胞なのか、など構造と機能の対応関係を考察した。ク ラスタリングは、社会学分野で発達し、様々なネットワークに応用されている が、モジュールの構造が、どのように機能に現れるのかという点に着目した。 はじめに、modularity M を次のように定義し、M が最大になるようなクラスタ ー構造を、Simulated annealing を用いて求める。この M は、Newman の modularity Q に似ているが、Inter-cluster のエッジの重みを低くなるように設計されている。 52 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 少しくらい inter-link があっても、クリーク(部分完全グラフ)的な構造がある と、M は大きくなる。 NM ls L M s 1 ds 2L 2 N M : is the number of modules L : the number of links in the network l s : the number of links between nodes in module s d s is the sum of the degrees of the nodes in module s その上で、クラスター内次数係数(within-module degree) z-score、モジュー ル間分散度(participation coefficient)P という 2 つの変数を次のように定義した。 z-score は、当該ノードが、自身が含まれるクラスター内でどの程度よく結合し ているのかを表し(how well-connected node i is to other nodes in the module)、P は、 当該ノードが持つエッジが複数のクラスターに分散しているのかどうかを表す。 当該ノードのエッジが全て自身のクラスター内にある場合は P=1 であり、逆に ランダムグラフのようにエッジが全てのクラスターに均等に分散している場合 は P=0 となる。 i zi si si i : the number of links of node i to other nodes in its module s i si : the average of si : the standard deviation of k in s i 2 NM Pi over all the nodes in s i is 1 s 1 ki : the number of links of node i to nodes in module s is ki : the total degree of node i その上で、z, P 平面にノードをマッピングし、統計的に分類すると、図 2-17 のように、ノードがその役割によって 7 種類に分類されることを示した。彼ら 53 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 はこの 7 つにそれぞれ表 2-4 のような分類名を付けた。はじめに、z の値で non-hub nodes(Z<=2.5) と hub nodes(Z>2.5) に 分 類 し た 。 non-hub nodes は 、 (R1)ultra-peripheral nodes(ネットワークの末端に存在するノード)、(R2)peripheral nodes(ネットワークの隅近くに存在するノード)、(R3)non-hub connector nodes (自身のクラスター内ではハブではないが、他クラスターと結合しているノー ド)、(R4)non-hub kinless nodes(自身のクラスター内ではハブではないが、他ク ラスターと強く結合しているノード)に分類される。hub nodes は、(R5)provincial hubs(自身のクラスター内ではハブであるが、他クラスターとはほとんど結合し ていないノード)、(R6)connector hubs(自身のクラスター内ではハブであり、他 クラスターとも結合しているノード)、(R7)kinless hubs(自身のクラスター内で はハブでも、全体としても強いハブであるノード)である。彼らは実際に、E. Coil などの実際の代謝ネットワークのデータで検証し、現実に合致することを確認 した。 図 2-17 14 クラスター内のノードの役割によるノードの分類14 Guimera & Amaral, 2005 より抜粋。 54 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 表 2-6 Z による分類 non-hub nodes ラベル (R1) (Z<=2.5) (R2) (R3) ノードの分類名 分類名 説明 ultra-peripheral nodes with all their links within their module nodes (P <= 0.05) peripheral nodes with most links within their module nodes (0.05 < P <= 0.62) non-hub nodes with many links to other modules (0.62 connector < P <= 0.80) nodes (R4) hub nodes (R5) non-hub nodes with links homogeneously distributed kinless nodes among all modules (P > 0.80) provincial hubs hub nodes with the vast majority of links (Z>2.5) within their module (P <= 0.30) (R6) connector hubs hubs with many links to most of the other modules (0.30 < P <= 0.75) (R7) kinless hubs hubs with links homogeneously distributed among all modules (P > 0.75) さらに、Loss Rate plost(R)を次のように定義し、各分類ごとに plost(R)の平均を 計算した。plost(R)は、生物の構造上重要な役割を持つ組織では低くなるはずで ある。 for a pair of species, A and B, we define the loss rate as the probability, plost(R) = p(RA = 0 | RB = R) that a metabolite is not present in one of the species (RA = 0) given that it plays role R in the other species (RB = R). 各分類ごとに plost(R)の平均を計算したところ、(R3)non-hub connector nodes よ りも(R5)provincial hubs の plost(R)が大きかった。つまり、(R3)non-hub connector nodes に属するノードの方が、(R5)provincial hubs に属するノードよりも構造上重 要であるということ結果が得られた。この事実から、これまで「次数が多いハ 55 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 ブになっているノードが構造上重要だ」と考えられてきたが、ノードのグロー バルな役割を考えることの方が重要であるという指摘をした。 本研究においては、Newman 法によって各クラスターに分類された論文が、ネ ットワーク構造内でどのような役割を推移したのかを明らかにし、新興学術分 野の特定に役立てるために、Guimera ら(Guimera, & Amaral, 2005)が提案したクラ ス タ ー 内 次 数 係 数 ( within-module degree ) z-score 、 モ ジ ュ ー ル 間 分 散 度 (participation coefficient) P という 2 つの変数を分析した(図 2-18 参照)。急 進的イノベーションのきっかけとなる論文は、新しいクラスターを作りだし自 らがその中心になるプロセスで、1)early stage においては「ローカルはハブ」と なっており、2)クラスター自体が成長するにつれて「グローバルなハブ」になっ ているのではないか、という仮説に基づく。 図 2-18 ノードの役割のモデル 56 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2.3.6. 自然言語処理によるトピック抽出方法 本項では、自然言語処理によるトピック抽出方法を示す。図 2-8 の(7)に該当 する。ここでは、modularity Q を用いたクラスタリング手法(Newman, 2004; Clauset & Newman, 2004)でクラスタリングを行った上で、学術論文の概要(アブ ストラクト)から 1)論文群全体から NC-Value 法を用いて重要用語を抽出し、2) 語 i のクラスターj における「特徴語らしさ w(i, j)」を tf-idf 法で計算し、クラス ターj における w(i, j)が高い上位 10 語をクラスターj の特徴語とする「トピック 抽出」部分を解説する。 NC-Value 法とは、C-Value 法を拡張したものである。ある語 a の C-Value は下 式で定義される。 max 1, log 2 a f a a : not nested C value a max 1, log 2 a 1 Ta f a f b otherwise b Ta a: candidate string, |a|: the number of words of a, f(a): frequency of a, Ta: set of candidate terms that contain a この手法は、1)語数が多いほど特徴語らしい、2)語の頻度が高いほど特徴語ら しい、3)語を含む語による寄与を加味しない(Natural language が専門用語だと しても、Natural や Language が専門用語とは限らない)という考え方を組み合わ せたものである。さらに、Frantzi らは C-Value 法を拡張し、語 a の NC-value を 下式で定義した(Mima et. al., 1998; Frantzi et. al., 2000)。 NC value a 0.8 C value a 0.2 f a b weight b b Ca a: candidate string, 57 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 Ca: set of distinct context words of a, fa(b): frequency of bas a term context word of a, t(w): the number of terms the word w appers with, n: the total number of terms considered weight(b) = t(w)/n この手法は、C-Value による特徴語らしさに、文脈から判断される特徴語らし さを加えたものである。文脈から判断される特徴語らしさとは、用語の近傍に 出現する語の品詞(名詞、形容詞、動詞)にはドメイン固有のパターンがある という考え方に基づく。 tf-idf 法とは、索引語の重み付け方法のひとつで、語 i の文書 j における「特徴 語らしさ w(i, j)」は、下記のように定義される。 wi , j tf i , j log N df i tfi,j:number of occurrences of term i in document j. dfi:number of document containing term i. N:total number of documents. tfi,j は語 i の文書 j における出現回数であり、dfi は語 i の全体での出現回数であ る。古典的には、tfi,j が多い語が特徴語であるとされてきたが、この方法だと頻 繁に登場する一般語が多くの文書における特徴語となってしまう。tf-idf 法では、 この問題を解決するために、語 i の全体での出現回数 dfi で正規化することで、 「当 該文書のみにおいて突出して出現する語」を抽出できる。なお、ここでは、tf-idf 法を文書単位での特徴語抽出ではなく、クラスター単位での特徴語抽出に用い るため、下記のように拡張を施したものを用い、各クラスターで w(i, j)が高い上 位 10 語をそのクラスターの特徴語とした。 58 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 wi , j tf i , j log N df i tfi,j:number of occurrences of term i in cluster j. dfi:number of document containing term i. N:total number of documents. 2.3.7. ネットワークにおける中心性と将来の被引用数の分析方法 本項では、ネットワークにおける中心性と将来の被引用数の分析方法を示す。 図 2-8 の(8)に該当する。急進的イノベーションの中で新興論文群が特定できた として、当該論文群の中で、将来有望な論文を早期に発見するために、引用ネ ットワーク中における各論文の中心性と将来の被引用数の相関関係を分析した。 複雑ネットワーク分析において、ネットワークにおけるポジションを記述す る方法として、Freeman によって提唱された中心性の概念を紹介する(Freeman, 1977)。Freeman は、度数中心性(degree centrality)、距離中心性(closeness centrality)、 媒介中心性(betweenness centrality)という 3 つの中心性を提唱した。度数中心 性はリンク数のことであり、本研究においては、引用関係ネットワークにおけ る被引用数を表すと解釈している。また、ここでは Watts らによって提唱された クラスタリング中心性(clustering centrality)という指標も併せて紹介する(Watts & Strogatz, 1998)。 2.3.7.1. クラスタリング中心性(Clustering Centrality) クラスタリング中心性 Cl[i]は当該ノードの周辺における局所的なエッジの密 度を表す指標である。ノード i の隣人が k 人いる場合、隣人間には最大で 59 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 k C2 kk 1 2 本のエッジが存在しうる。Cl[i]はこの存在しうる最大エッジ数に 対して、実際に何本のエッジが存在するかを表す割合として定義される(Watts & Strogatz, 1998)。故に、Cl[i]はノード i の友人同士が友人同士である確率を表す。 Cl[i]が高いノードは、局所的にクラスターを形成しているノード間では中心で ある言える。引用関係ネットワークにおいては、共引用関係にある論文を引用 している論文は Cl[i]が高い。 2.3.7.2. 距離中心性(Closeness Centrality) 距離中心性は、あるノードから他の全てのノードへの平均パス長として定義 される。より正確には、ノード i の距離中心性 Cc[i]は、 CC i 1 N 1 d ij j i で定義される。ここで、d ij はノード i とノード j の最短パス長である(Sabidussi, 1966)。距離中心性というのは、小さい方がより中心であることを表す指標であ り、しばしば、あるノードの相対的なリーチ力を表す指標として用いられる。 つまり、距離中心性はどの程度他のノードから独立しているのかを表している と解釈できる。引用関係ネットワークにおいては、広い話題を扱っている論文 は距離中心性が高いと考えられる。距離中心性を計算するアルゴリズムは、 「付 録 B:距離中心性(Closeness Centrality)算出のアルゴリズム」に付す。 2.3.7.3. 媒介中心性(Betweenness Centrality) 媒介中心性は、ネットワーク全体の任意の 2 点の最短パスのうち、当該ノー ドを経由する最短パスの割合として定義される。より正確には、ノード i の媒介 中心性 Bc[i]は、 60 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 i st Bc i s i t V st で定義される。ここで、 り、 st st はノード s とノード t の間の最短パスの本数であ i はノード s とノード t の間の最短パスのうち、ノード i を経由する本数 である(Freeman, 1977)。媒介中心性は、他のノードが、他ノードへ到達するのに どの程度当該ノードに依存しているのかを表す指標であり、そのノードが情報 を普及させる力を持つのかを測定するのに用いられる。引用関係ネットワーク において、媒介中心性が高い論文は、それまで結合していなかった論文同士を 結合している論文であると考えられる。媒介中心性を計算するアルゴリズムは、 「付録 C:媒介中心性(Betweenness Centrality)算出のアルゴリズム」に付す。 2.4. 本研究で対象とする学術知識領域 また、本研究では、既にイノベーションが起こったということが明らかな 2 つの学術分野を選定し、ケーススタディを行った。一つ目の学術分野はガリウ ム・ナイトライド分野である。ガリウム・ナイトライド分野は、応用物理学分 野、応用工学分野における突出したイノベーションの例として広く認識されて おり、漸進的イノベーションが起こった分野であると考えられるため選定した。 二つ目は、複雑ネットワーク分野であり、当分野は近年新しい学術分野を切り 開いた例として認識されている。複雑ネットワーク分野は上述のように元来、 社会学が中心であったが 1998 年以降、急激に物理学研究が増加しており、急進 的イノベーションが起こった分野であると考えられるため選定した。それぞれ の分野の概要は以下で述べる。 61 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2.4.1. データの収集 実際には、次のようなクエリで”Web of Science”から検索を行い、データを入 手した。 ガリウム・ナイトライド分野:“GaN OR Gallium Nitride” 複雑ネットワーク分野:“social networks OR social network OR random networks OR random network OR small-world OR scale-free OR complex networks.” その結果、ガリウム・ナイトライド分野では 15,134 本の論文を、複雑ネット ワーク分野では、7,370 本の論文のデータを取得した。これらは 1970 年から 2004 年に出版されたものである。2004 年時点での引用関係ネットワークの最大連結 成分は、ガリウム・ナイトライド分野で 14,240 論文(収集された論文の 94%)、 複雑ネットワーク分野で 3,524 論文(同 48%)であった。複雑ネットワーク分野に おいて、最大連結成分に含まれる割合が相対的に小さいのは、この分野を特定 するためのクエリが他分野にも共通して現れてしまうような一般的な用語であ るためである。これらの結果を整理したものが、表 2-7 である。 62 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 表 2-7 分野名 検索に用いたクエリ データ収集 1970-2004 年の論文数 2004 年における引用関係ネッ トワークの最大連結成分に含 まれる論文数 ガリウム・ナイトラ GaN OR Gallium Nitride 15,134 14,240 (94% ) 複雑ネットワーク分 social networks 7,370 3,524(48%) 野 OR social network イド分野 OR random networks OR random network OR small-world OR scale-free OR complex networks 図 2-19 にガリウム・ナイトライド分野の論文数と被引用数の経時変化を、図 2-20 に複雑ネットワーク分野のそれを示す。ガリウム・ナイトライド分野にお いては、1995 年から劇的に論文数が増加を始め、2000 年にピークに達した。他 方、複雑ネットワーク分野では、2000 年から論文数が増加を始め、2005 年現在、 増加を続けている。 63 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 図 2-19 ガリウム・ナイトライド分野における論文数と引用数 図 2-20 複雑ネットワーク分野における論文数と引用数 2.4.2. 知識領域の概要 本研究では、上述のようにガリウム・ナイトライド(Gallium Nitride, GaN)分 野、複雑ネットワーク(Complex Networks)分野という 2 つの分野を対象にした ケーススタディを行う。これらの 2 つの分野を選択したのは、これらは 2 つと も近年の注目すべきイノベーションの例であるからである。以下に、これら 2 つの分野の歴史的な拝見を述べる。また、よりこれらの分野を理解しやすくす 64 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 るために、これら 2 分野の 2004 年時点での被引用数上位 10 件の論文を表 2-8 と表 2-9 に示す。 65 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 表 2-8 Times Cited ガリウム・ナイトライド分野の被引用数上位 10 件の論文 Author Title Journal till 2004 1,110 STRIFE, S; MORKOC, H GAN, AIN, AND INN - A REVIEW J VAC SCI TECHNOL B, 1992, vol. 10, p. 1237 933 710 705 702 585 NAKAMURA, S; MUKAI, T; CANDELA-CLASS HIGH-BRIGHTNESS INGAN/ALGAN APPL PHYS LETT, 1994, vol. 64, SENOH, M DOUBLE-HETEROSTRUCTURE BLUE-LIGHT-EMITTING DIODES AMANO, H; SAWAKI, N; AKASAKI, METALORGANIC I; TOYODA, Y HIGH-QUALITY GAN FILM USING AN AIN BUFFER LAYER AMANO, H; KITO, M; HIRAMATSU, P-TYPE K; AKASAKI, I LOW-ENERGY ELECTRON-BEAM IRRADIATION (LEEBI) vol. 28, p. L2112 MORKOC, H; STRITE, S; GAO, GB; LARGE-BAND-GAP SIC, III-V NITRIDE, AND II-VI ZNSE-BASED J APPL PHYS, 1994, vol. 76, p. LIN, ME; SVERDLOV, B; BURNS, M SEMICONDUCTOR-DEVICE TECHNOLOGIES 1363 Nakamura, S; Senoh, M; Nagahama, S; InGaN-based multi-quantum-well-structure laser diodes JPN J APPL PHYS PT 2, 1996, VAPOR-PHASE CONDUCTION IN EPITAXIAL-GROWTH MG-DOPED GAN TREATED Iwasa, N; Yamada, T; Matsushita, T; p. 1687 OF A APPL PHYS LETT, 1986, vol. 48, p. 353 WITH JPN J APPL PHYS PT 2, 1989, vol. 35, p. L74 Kiyoku, H; Sugimoto, Y 532 NAKAMURA, S GAN GROWTH USING GAN BUFFER LAYER JPN J APPL PHYS PT 2, 1991, vol. 30, p. L1705 470 Bernardini, F; Fiorentini, V; Vanderbilt, Spontaneous polarization and piezoelectric constants of III-V nitrides D 448 Pearton, SJ; Zolper, JC; Shul, RJ; Ren, PHYS REV B, 1997, vol. 56, p. 10024 GaN: Processing, defects, and devices 66 J APPL PHYS, 1999, vol. 86, p. 1 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 F 413 LESTER, SD; PONCE, FA; CRAFORD, MG; STEIGERWALD, HIGH DISLOCATION DENSITIES IN HIGH-EFFICIENCY GAN-BASED APPL PHYS LETT, 1995, vol. 66, LIGHT-EMITTING-DIODES p. 1249 DA 67 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 表 2-9 Times Cited 複雑ネットワーク分野の被引用数上位 10 件の論文 Author Title Journal till 2004 722 Watts, DJ; Strogatz, SH Collective dynamics of 'small-world' networks NATURE, 1998, vol. 393, p. 440 558 Barabasi, AL; Albert, R Emergence of scaling in random networks SCIENCE, 1999, vol. 286, p. 509 499 Albert, R; Barabasi, AL Statistical mechanics of complex networks REV MOD PHYS, 2002, vol. 74, p. 47 299 Strogatz, SH Exploring complex networks NATURE, 2001, vol. 410, p. 268 252 BERKMAN, LF; SYME, SL SOCIAL NETWORKS, HOST-RESISTANCE, AND AMER J EPIDEMIOL, 1979, vol. 109, p. 186 MORTALITY - 9-YEAR FOLLOW-UP-STUDY OF ALAMEDA COUNTY RESIDENTS 248 Albert, R; Jeong, H; Barabasi, AL Error and attack tolerance of complex networks NATURE, 2000, vol. 406, p. 378 243 Jeong, H; Tombor, B; Albert, R; Oltval, The large-scale organization of metabolic networks NATURE, 2000, vol. 407, p. 651 ZN; Barabasi, AL 210 Dorogovtsev, SN; Mendes, JFF Evolution of networks ADVAN PHYS, 2002, vol. 51, p. 1079 162 FREEMAN, LC CENTRALITY IN SOCIAL NETWORKS CONCEPTUAL SOC NETWORKS, 1979, vol. 1, p. 215 CLARIFICATION 148 Barabasi, AL; Albert, R; Jeong, H Mean-field theory for scale-free random networks 68 PHYSICA A, 1999, vol. 272, p. 173 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 2.4.2.1. ガリウム・ナイトライド分野 20 世紀において、窒化物半導体(nitride semiconductor)の中でもガリウム・ ナイトライド(gallium nitride, GaN)は、物質科学、応用物理学の分野でめざま しい発展を遂げた。1990 年代半ばのわずかな期間で、青色発光ダイオード、緑 色発光ダイオード(LEDs)、紫外線顕微鏡、青色レーザーダイオード(LDs)な どが実用化され、現在ではこれらの商品は一般に広く普及している。この分野 におけるイノベーションによって、多くの科学者が参入し、産業界、購買者の 両方にとって非常に莫大な市場が開拓された。 だが、この学術分野は 1990 年代半ばに始まったわけではない。1960 年代後半、 RCA 社の Pankove 研究室がガリウム・ナイトライドの単結晶を合成し、発行特 性を測定した(Pankove, et al., 1970)。Dingle らは、2K という極端に低い温度下で、 ガリウム・ナイトライド針状晶の発行状態を観察した(Dingle, et al., 1971)。1970 年代には、赤色、緑色の発光デバイスが一般に販売されるまでになり、広く使 われるようになった。赤色発光ダイオードは、電子機器の表示灯として主に用 いられ、赤色レーザーダイオードは光通信機器に用いられた。しかし、青色の 光を発する発光デバイスは、当時まだ実用化されていなかった。ガリウム・ナ イトライドは、大きなバンドギャップを持つため、発光ダイオード、レーザー ダイオードとしてきたいされていたが、被膜の性能が不十分で次第に研究熱は さめていった。被膜は、ラフで表面にヒビが入りやすく、p-type のドーピングも 困難であった。そのため、一握りの集団のみがガリウム・ナイトライドを研究 し、ほとんどの研究者は、青色発光ダイオードを実現させるために、他の大き なバンドギャップを持つ物質である、シリコン・カーバイド(SiC)や亜鉛化セ リウム(ZnSe)へと研究対象を変えていった。ところが、亜鉛化セリウムには、 短い時間しか光を発せず、退化してしまうという問題があった。1993 年までは、 シリコン・カーバイドを用いた青色発光装置のみが実用化されていたが、バン ドギャップが真っ直ぐでないために、十分な明るさを得ることはできなかった。 ガリウム・ナイトライドの最も深刻な問題は、被膜の質が悪いことであるの 69 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 は明らかだった。この原因は、ガリウム・ナイトライドと下に敷くサファイア の下地の間に大きな格子ミスマッチが存在していたからである。もう一つの問 題は、p-type のドーピングが困難であるということであった。しかし、後者の問 題も前者の問題と関連があるとされていた(Akasaki, 1998)。それらの問題は、 Akasaki とその共同研究者によって、1980 年代後半に克服された。彼らはガリウ ム・ナイトライドを堆積させる前に、サファイアの下地の上にバッファ層を堆 積させた(Amano, et al., 1986; Akasaki, et al., 1989)。このバッファ層の導入によっ て、後には被膜の質も大幅に改善された。そして、彼らは、低いエネルギー放 射で、p-type のドーピングに成功し(Amano, et al., 1989)、ドーピングは焼きなま しによって改善された(Nakamura, et al., 1992)。そして、ついにこれらの努力が実 り、1993 年に日亜化学工業株式会社の中村氏により、初の実用的な青色発光ダ イオードが誕生した(Nakamura, et al., 1994)。その後、彼らはレーザーダイオード の実用化にも成功した(Nakamura, et al., 1996)。ガリウム・ナイトライド分野にお ける急速な発達は、研究者と投資家の両方を魅了した。ガリウム・ナイトライ ド分野は、現在 maturatin stage である。 2.4.2.2. 複雑ネットワーク分野 複雑ネットワーク分野は、さまざまな分野の研究者によって研究されてきた 分野である。伝統的には、複雑ネットワーク分野は、数学のグラフ理論や、社 会学の社会ネットワーク分析が主であった。1950 年代に、Paul Erdös と Alfréd Rényi という 2 人の数学者がランダムグラフというモデルを提唱した。このモデ ルは、複雑ネットワーク分野の歴史の中でも最もシンプルで素直なモデルであ った(Erdös & Rényi, 1959; Erdös & Rényi, 1960; Erdös & Rényi, 1961)。このランダ ムグラフというモデルの形式的な上品さによって、多くの数学者が魅了された と言われている。他方、社会学の分野では、個人の友人関係ネットワークから 家族のネットワークや国家間のネットワークまでさまざまなネットワークの応 用研究がなされてきた。有名な例は、社会心理学者 Stanley Milgram による“six 70 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 degrees of separation(6 次の隔たり)”の理論であろう(Milgram, 1967)。彼の有名 なこの理論によれば、アメリカに住んでいる人のうち誰に対しても、自分を起 点とする友人関係をたどると、平均 6 ステップで到達できるというものであっ た。Milgram の実験の結果は、今日でも誰もが不思議に思うスモール・ワールド 現象の実証的な証拠である。 近年、Watts や Barabási に代表される物理学者の研究成果によって、複雑ネッ トワーク分野は非常に繁栄してきている。1998 年に、Duncan J. Watts と Steven H. Strogatz は、平均パス長とクラスタリング係数という 2 つのネットワーク構造の 性質を定量的に表す指標を用いて、スモール・ワールドネットワークを定量的 に表現した(Watts & Strogatz, 1998)。スモール・ワールドネットワークの”small” とは、平均パス長がランダムグラフ並みに小さいからであり、他方ではレギュ ラーグラフと同程度に高いクラスタリング係数を示すネットワークである。彼 らはさらに、ハリウッドの映画俳優の共演関係ネットワークや論文の引用関係 ネットワークなどの現実のネットワークでもスモール・ワールドネットワーク の特徴が見られることを示した。その 1 年後に、Barabási らは、ワールド・ワイ ド・ウェブなどの複雑ネットワークの度数分布がスケールフリー分布であると いうことを発見した(Barabási & Albert, 1999)。スケールフリーネットワークでは、 ほとんどのノードは少数のリンクしか持たないのに対し、少数のノードは非常 に多数のリンクを持つという特徴がある。このスケールフリーネットワークの 特徴は、'preferential attachment'と呼ばれるネットワーク生成の成長モデルによっ て生成することが可能である。'preferential attachment'とは、ノードが新しいリン クを獲得する確率は、そのノードが既に持っているリンク数に比例するという モデルである。この成長モデルに従って生成されたネットワークは、'winner takes all'という特徴を持つ。このスケールフリーネットワークが多くの現実のネット ワークに応用されたため、スケールフリーという専門用語は広く普及した。 複雑ネットワーク理論は、生物ネットワーク、共著関係ネットワーク(Barabási, et al., 2002)、引用ネットワーク(Albert & Barabási, 2002)といった多くの複雑ネッ トワークを分析するための前途有望な方法論である。Albert らは、複雑ネットワ 71 第 2 章 複雑ネットワーク分析を用いた論文の引用分析手法 ークのエラーや攻撃に対する脆弱性を調査した(Albert, et al., 2000)。Jeong らは、 複雑ネットワーク理論を代謝ネットワークに適用し、生物の組織というのは、 全ての組織にとって同質であるだけでなく、丈夫でエラー耐性が大きいスケー ルフリーネットワークの特徴にも合致するということを発見した(Jeong, et al., 2000)。本研究も複雑ネットワーク分野に属する。また、この分野は現在、図 5-1 の expansion stage である。 72 第 3 章 引用分析の手法と評価 第3章 引用分析の手法と評価 3.1. 本章の目的 引用関係から新興学術分野を発見するという試み自体は広く認められた手法 ではあるが、引用の定義が研究者によって異なる。直接引用(direct citation)、共 引用(co-citation, Small, 1973)、書誌結合(bibliographic coupling, Kessler, 1963)とい う主に 3 種類の引用が用いられている(Small, 1997)。共引用は、2 つの論文が同 じ論文に引用された場合に張られる。書誌結合が 2 つの論文が同じ論文を引用 した場合に張られる。論文 A と B が論文 C から引用されている場合、A と B の 間には共引用がある。また、論文 D と E が論文 F を引用している場合、D と E の間には書誌結合がある。これらの関係を図 3-1 に示す。Small は被引用数が上 位 1%の論文からなる共引用ネットワークを分析し、科学分野で成長しているエ リアを追跡・予測する方法を提案した(Small, 2006)。Schiminovich は、再帰的に 書誌結合を行ったネットワークを用いることで、自動的に学術論文を分類する した(Schiminovich, 1971)。Rousseau は、共引用と書誌結合から、主要なサブクラ スターを発見した(Fang & Rousseau, 2001; Egghe & Rousseau, 2002)。Garfield は、 直接引用ネットワークから、学術領域の歴史俯瞰図を作成した(Garfield, 2004)。 Shibata らは、直接引用を用いて新興学術分野を発見する手法を提案した(Shibata et al., 2008)。これらの研究はあるものの、どの引用の定義が最も新興学術分野の 発見に適しているかを調査した研究は存在しない。近年、Klavans と Boyack が 直接引用ネットワークと共引用ネットワークのクラスタリングのパフォーマン スを比較し、直接引用の方が意味的に近いもの同士がリンクされているという ことを示した(Klavans & Boyack, 2006)。本節での目的は、新興論文群の発見にと って、3 つの引用のうちどれが適した特性を持つのかを調べることである。 73 第 3 章 引用分析の手法と評価 図 3-1 引用の 3 つの種類 本節では、3 つの学術領域を例にケーススタディを行う。一つ目はガリウム・ ナイトライド、二つ目は複雑ネットワーク、三つ目はナノカーボンである。各 学術領域ごとに 3 種類の引用ネットワークを作成し、トポロジカルなクラスタ リング手法によってクラスターに分割され、各種類のパフォーマンス を”visibility”, “speed”, “topological relevance”の 3 つで評価する。”visibility”として は、正規化されたクラスターサイズを、“speed”としては、平均出版年を、 “topological relevance”としてはクラスターの密度を用いた。これらの指標を比較 することで、どの引用の種類が最も新興論文群の発見に適しているかを検証す る。 3.2. 研究手法 引用分析手法の違いによる発見精度の比較の分析手法をに図 3-2 示す。 74 第 3 章 引用分析の手法と評価 図 3-2 引用情報とクラスタリングを用いた新興論文群発見の分析手法 はじめに ISI のデータベースよりデータを取得し、3 種類の引用ネットワーク を作成した。それぞれの最大連結成分に対して、クラスタリングを実行し、表 3-1 に 示 し た 主 要 論 文 が 含 ま れ る ク ラ ス タ ー に 関 し て 、 ”visibility”, “speed”, “topological relevance”の 3 つを比較した。主要論文の選定に際しては、エキスパ ートにヒアリングを行い、 「この論文がなければその分野が成立しなかった」と いう論文を各分野で選定した。これらの注目論文は、各分野が急成長を始めた 時期(ガリウム・ナイトライド分野:1991-1994, 複雑ネットワーク分野:1998-2001, ナノカーボン分野:1991-1994)に出版された論文のうち、レビュー論文はのぞい て 2004 年時点で被引用数が多い順になっている。 75 第 3 章 引用分析の手法と評価 表 3-1 Research Domain 主要論文一覧 主なテーマ Core Papers Gallium Nitride (a-1)NAKAMURA S, 1991, JPN J APPL Buffer layer に関す (GaN) PHYS PT 2, V30, P1705 る発見 (a-2)NAKAMURA S, 1992, JPN J APPL P-type doping に関す PHYS PT 1, V31, P1258 るの発見 (a-3)NAKAMURA S, 1994, APPL PHYS 青 色 に 光 る デ バ イ LETT, V64, P1687 ス製造に成功 Complex Networks (CNW) (b-1)Watts DJ, 1998, NATURE, V393, P440 Carbon Nanotube (CNT) (c-1)IIJIMA, S, 1991, NATURE, V354, P56 Small-world 性 の 発 見 (b-2)Barabasi AL, 1999, SCIENCE, V286, Scale-free の発見 P509 Carbon nanotube の 発見 3.2.1. データ収集 ここでは、ガリウム・ナイトライド分野、複雑ネットワーク分野のデータを 1.4.1.2 に示した方法で取得した。本章に限り、ナノカーボンのデータも分析し た。ナノカーボン分野のデータは、1970 年から 2000 年までのデータを収集した。 ISI をサーチする際のクエリとしては carbon AND (nano* OR micro*)”を用い、 2000 年までの論文として計 23,459 本が最大連結成分に含まれた。 3.2.2. クラスタリング クラスタリングは、 「2.3.3 トポロジカルなクラスタリング手法」に記載した手 76 第 3 章 引用分析の手法と評価 法を用い、各学術領域、各年、引用分析の種類ごとに全ての引用ネットワーク をクラスタリングによってクラスターに分割した。 3.2.3. 比較 クラスタリングを行った後、表 3-1 に示した主要論文が含まれるクラスター に関して、”visibility”, “speed”, “topological relevance”の 3 つを比較した。基本的 な考え方は「より大きく、より密なクラスターを、より早期に発見できる引用 の定義が最も新興論文群の発見に適した引用である。」というものである。クラ スターが”visible”であるということは、正規化されたクラスターサイズが大きい ということを意味し、他のクラスターと区別しやすくなる。“speedily”であると いうことは、クラスターに含まれる論文の平均出版年齢が若いということであ り、我々が重要論文を発見しやすくなる。クラスターが密であれば、クラスタ ー内の論文は“topologically relevant”であり、クラスタリングがクラスターごとに 論文を分割できたのかどうかを調べることができる。故に、これらの 3 つの指 標を評価することには合理性があると言える。 クラスターサイズは、3 種類の引用ネットワークごとに異なるため、”visibility” を 3 種類の引用ネットワーク間で比較できるようにするために、全体のノード NC を”visibility”とした。ここで N は全ノード数、N(C) N E C はクラスターC に属するノード数である。” topological relevance”は、 int ra で EC 数で割り正規化を行い、 定義される。ここで、E(C)はクラスターC に属するノードが持つエッジ数の合計、 Eint ra C はエッジの両端ノードがどちらもクラスターC に属する割合である。 コーパスごと、引用の種類ごとに異なったクラスタリング結果が得られるた め、それらのネットワークごとに、重要論文が含まれるクラスターの正規化さ 77 第 3 章 引用分析の手法と評価 れたクラスターサイズ、平均出版年で比較した。 3.3. 結果 3.3.1. 引用ネットワークの基礎統計 学術領域ごとのノード数、エッジ数を図 3-3 に示す。ノード数は直接引用が 最も多く、共引用が最も少なかった。引用の種類ごとにノード数が異なるのは、 最大連結成分に含まれるノードのみがカウントされているからである。直接引 用のネットワークでは最大連結成分に含まれていても、共引用(や書誌結合) のネットワークでは、共通の論文から引用されない(引用しない)ために孤立 し、最大連結成分に含まれないことがある。この例を図 3-4 に示す。図の(1)が 直接引用ネットワーク、それから共引用ネットワークを生成すると図の(2)にな る。この場合、論文 S, T, U はいずれも直接引用ネットワークでは最大連結成分 に含まれていたものの、共引用ネットワークでは最大連結成分に含まれなくな る。ここでは共引用ネットワークの例を用いたが、書誌結合ネットワークであ っても同じである。 エッジ数は、書誌結合ネットワークが最大で、直接引用ネットワークが最も 少なかった。通常、共引用ネットワークや書誌結合ネットワークのエッジ数は、 直接引用ネットワークよりも多くなる傾向にある。たとえば、k 本のエッジを持 つ論文が直接引用ネットワークに追加された場合を想像すると、直接引用ネッ トワークではエッジが k 本増えるが、共引用ネットワークや書誌結合ネットワ ークではエッジ数が kC2~O(k2)本増える。共引用ネットワークよりも書誌結合ネ ットワークでエッジ数が多かったのは、共通の論文を引用するよりも共通の論 文に引用されることの方が多いからであると考えられる。これらの結果を見る 78 第 3 章 引用分析の手法と評価 限り、共引用ネットワーク、書誌結合ネットワークの密度は直接引用ネットワ ークよりも大きいと想定される。 図 3-3 学術領域、引用の種類ごとのノード数、エッジ数 (それぞれ、(a)ガリウム・ナイトライド分野, (b)複雑ネットワーク分野, (c)ナ ノカーボン分野。また、凡例は直接引用(direct citation):●、共引用(co-citation): △、書誌結合(bibliographic coupling):■。) 79 第 3 章 引用分析の手法と評価 図 3-4 直接引用のネットワークと共引用ネットワークの最大連結成分の違い 学術領域、引用の種類ごとの modurality Qmax を図 3-5 に、クラスターサイズ の分布を表 3-2∼表 3-4 に示す。全ての年において、直接引用ネットワークの Qmax が最大であった。この結果は、学術領域によらず普遍で、直接引用ネット ワークは他の 2 つよりも“locally dense and globally sparse”な構造を有したネット ワークで、クラスタリングによって分割されやすい構造を有していることが分 かる。書誌結合ネットワークでは、年が経つにつれて Qmax が下がる。これは、 書誌結合ネットワークは、年が経つにつれて、ローカルだけではなくグローバ ルにもリンク密度が大きくなり、ランダムネットワークに近い構造になるため であると考えられる。Qmax が高いということは多くのクラスターでクラスター 80 第 3 章 引用分析の手法と評価 内エッジが多く、クラスター間エッジが少ないという状態であるということで あり、逆に Qmax が小さいということはランダムネットワークに近いというこ とである。つまり、共引用ネットワークと書誌結合ネットワークは直接引用ネ ットワークよりもランダムネットワークにより近い構造であったと言える。 図 3-5 学術領域、引用の種類ごとの modurality Qmax (それぞれ、(a)ガリウム・ナイトライド分野, (b)複雑ネットワーク分野, (c)ナ ノカーボン分野。また、凡例は直接引用(direct citation):●、共引用(co-citation): △、書誌結合(bibliographic coupling):■。) 81 第 3 章 引用分析の手法と評価 表 3-2 クラスターサイズの分布(ガリウム・ナイトライド分野・1992 年) (a) cluster size distribution of gallium nitride in 1992 type: direct type: co #nodes: 351 size type: biblio #nodes: 206 percentage #clusters size #nodes: 329 percentage #clusters size percentage #clusters 101 29% 1 102 50% 1 172 52% 1 99 28% 1 66 32% 1 153 47% 1 70 20% 1 38 18% 1 4 1% 1 50 14% 1 23 7% 1 5 1% 1 3 1% 1 82 第 3 章 引用分析の手法と評価 表 3-3 クラスターサイズの分布(複雑ネットワーク分野・1999 年) (b) cluster size distribution of complex networks in 1999 type: direct type: co #nodes: 1523 size type: biblio #nodes: 653 percentage #clusters size #nodes: 1281 percentage #clusters size percentage #clusters 310 20% 1 201 31% 1 452 35% 1 304 20% 1 181 28% 1 378 30% 1 276 18% 1 105 16% 1 220 17% 1 104 7% 1 94 14% 1 104 8% 1 92 6% 1 49 8% 1 57 4% 1 66 4% 1 12 2% 1 32 2% 1 47 3% 1 6 1% 1 21 2% 1 41 3% 1 3 0% 1 10 1% 1 38 2% 2 2 0% 1 7 1% 1 35 2% 1 30 2% 2 29 2% 1 16 1% 1 8 1% 1 7 0% 2 5 0% 4 4 0% 1 3 0% 7 83 第 3 章 引用分析の手法と評価 表 3-4 クラスターサイズの分布(ナノカーボン分野・1991 年) (c) cluster size distribution of carbon nanotube in 1991 type: direct type: co #nodes: 548 type: biblio #nodes: 192 #nodes: 388 size percentage #clusters size percentage #clusters size percentage #clusters 110 20% 1 58 30% 1 133 34% 1 91 17% 1 47 24% 1 109 28% 1 52 9% 1 42 22% 1 58 15% 1 48 9% 1 31 16% 1 39 10% 1 42 8% 1 6 3% 1 35 9% 1 38 7% 1 5 3% 1 10 3% 1 27 5% 1 3 2% 1 4 1% 1 24 4% 1 17 3% 2 16 3% 1 13 2% 1 12 2% 2 8 1% 1 7 1% 1 4 1% 2 3 1% 2 3.3.2. 引用分析の手法ごとの評価結果 クラスタリングの後、各引用の種類とごのネットワークを評価し た。”visibility”としては正規化されたクラスターサイズが、”speed”としては平均 出版年が、”topological relevance”としては密度がそれぞれ、表 3-5∼表 3-10 に示 されている。 "(a-1)NAKAMURA S, 1991, JPN J APPL PHYS PT 2, V30, P1705"の場合、正規化 84 第 3 章 引用分析の手法と評価 されたクラスターサイズは書誌結合ネットワークが最大で、直接引用ネットワ ークで最小であった。平均出版年は直接引用ネットワークで最大で共引用ネッ トワークで最小だった。"(a-2)NAKAMURA S, 1992, JPN J APPL PHYS PT 1, V31, P1258"の場合、正規化されたクラスターサイズは、共引用ネットワークで最大 で直接引用ネットワークで最小だった。平均出版年は直接引用ネットワークで 最大で共引用ネットワークで最小だった。"(a-3)NAKAMURA S, 1994, APPL PHYS LETT, V64, P1687"の場合、正規化されたクラスターサイズは、共引用ネッ トワークで最大で、直接引用ネットワークで最小だった。平均出版年は書誌結 合ネットワークで最大で、共引用ネットワークで最小だった。以上の結果から、 正規化されたクラスターサイズが大きいという点と平均出版年が若いという点 では、直接引用ネットワークと書誌結合ネットワークが新興論文群を早く効率 的に見地するという意味においては、優れていると言える。 "(a-1)NAKAMURA S, 1991, JPN J APPL PHYS PT 2, V30, P1705"の場合、密度は 直接引用ネットワークで最大で、共引用ネットワークで最小だった。 "(a-2)NAKAMURA S, 1992, JPN J APPL PHYS PT 1, V31, P1258"の場合、密度は、 共引用ネットワークで最大で、書誌結合ネットワークで最小だった。 "(a-3)NAKAMURA S, 1994, APPL PHYS LETT, V64, P1687"の場合、密度は、書誌 結合ネットワークで最大で、共引用ネットワークで最小だった。密度の結果と Qmax の結果を見る限り、直接引用ネットワークが書誌結合ネットワークよりも より密なクラスターを発見できることが分かった。 "(b-1)Watts DJ, 1998, NATURE, V393, P440"の場合、正規化されたクラスターサ イズは、共引用ネットワークが直接引用ネットワークよりもわずかに大きく、 平均出版年は直接引用ネットワークが共引用ネットワークよりもわずかに大き か っ た。 また 、 こ の 論 文 は 書誌 結 合 ネ ット ワ ー ク には 出 現 しな か っ た 。 "(b-2)Barabasi AL, 1999, SCIENCE, V286, P509"の場合、正規化されたクラスター サイズは、書誌結合ネットワークが直接引用ネットワークよりもわずかに大き く、平均出版年は直接引用ネットワークが書誌結合ネットワークよりもわずか に大きかった。またこの論文は共引用ネットワークには出現しなかった。以上 85 第 3 章 引用分析の手法と評価 の結果から、正規化されたクラスターサイズが大きいという点と平均出版年が 若いという点では、直接引用ネットワークが最も優れていると言える。 "(b-1)Watts DJ, 1998, NATURE, V393, P440"の場合、密度は直接引用ネットワー クが共引用ネットワークよりもわずかに大きかった。"(b-2)Barabasi AL, 1999, SCIENCE, V286, P509"の場合、密とは、直接引用ネットワークが書誌結合ネット ワークよりもわずかに大きかった。密度の結果と Qmax の結果を見る限り、直 接引用ネットワークが書誌結合ネットワークよりもより密なクラスターを発見 できることが分かった。 "(c-1)IIJIMA, S, 1991, NATURE, V354, P56"の場合、正規化されたクラスターサ イズは、書誌結合ネットワークが直接引用ネットワークよりもわずかに大きく、 平均出版年は直接引用ネットワークが書誌結合ネットワークよりもわずかに大 きかった。またこの論文は共引用ネットワークには出現しなかった。以上の結 果から、正規化されたクラスターサイズが大きいという点と平均出版年が若い という点では、書誌結合ネットワークが最も優れていると言える。 "(c-1)IIJIMA, S, 1991, NATURE, V354, P56"の場合、密とは、直接引用ネットワ ークが書誌結合ネットワークよりも大きかった。密度の結果と Qmax の結果を 見る限り、直接引用ネットワークが書誌結合ネットワークよりもより密なクラ スターを発見できることが分かった。 86 第 3 章 引用分析の手法と評価 表 3-5 (a-1) 重要論文のクラスターの正規化されたクラスターサイズ、平均出版年齢、密度(1) direct co biblio year size average birth year density size average birth year density size average birth year density 1991 0.18 1989 0.73 - - - 0.45 1985.14 0.6 1992 0.22 1990.18 0.69 - - - 0.5 1984.77 0.68 1993 0.27 1991.36 0.68 - - - 0.44 1991.15 0.69 1994 0.28 1992.18 0.7 - - - 0.43 1992.85 0.72 1995 0.36 1993.72 0.75 - - - 0.11 1992.81 0.36 1996 0.32 1994.97 0.68 - - - 0.5 1989.35 0.63 1997 0.3 1995.99 0.67 - - - 0.47 1991.82 0.6 1998 0.32 1992.64 0.7 - - - 0.33 1996.71 0.57 1999 0.35 1994.45 0.75 - - - 0.68 1996.3 0.7 2000 0.33 1995.39 0.74 - - - 0.67 1997.16 0.72 2001 0.33 1996.03 0.75 - - - 0.54 1999.13 0.64 2002 0.28 1999.72 0.68 - - - 0.55 1999.77 0.66 2003 0.34 1997.42 0.77 - - - 0.33 1999.19 0.69 2004 0.33 2000.69 0.75 - - - 0.07 1998.91 0.4 (a-1)NAKAMURA S, 1991, JPN J APPL PHYS PT 2, V30, P1705 が含まれるクラスター 87 第 3 章 引用分析の手法と評価 表 3-6 (a-2) 重要論文のクラスターの正規化されたクラスターサイズ、平均出版年齢、密度(2) direct co biblio year size average birth year density size average birth year density size average birth year density 1992 0.22 1990.18 0.69 0.7 1981.61 0.72 0.5 1984.77 0.68 1993 0.27 1991.36 0.68 0.42 1989.91 0.4 0.44 1991.15 0.69 1994 0.28 1992.18 0.7 0.56 1991.66 0.67 0.43 1992.85 0.72 1995 0.36 1993.72 0.75 0.65 1993.02 0.75 0.11 1992.81 0.36 1996 0.32 1994.97 0.68 0.43 1987.63 0.71 0.5 1989.35 0.63 1997 0.3 1995.99 0.67 0.6 1994.91 0.64 0.47 1991.82 0.6 1998 0.12 1996.86 0.52 0.44 1995.04 0.65 0.33 1996.71 0.57 1999 0.35 1997.86 0.72 0.28 1996.25 0.6 0.68 1996.3 0.7 2000 0.32 1998.28 0.71 0.47 1997.94 0.63 0.67 1997.16 0.72 2001 0.33 1996.03 0.75 0.35 1994.62 0.7 0.54 1999.13 0.64 2002 0.31 1999.63 0.77 0.18 1998.58 0.5 0.55 1999.77 0.66 2003 0.2 2000.12 0.74 0.51 1999.41 0.64 0.33 1999.19 0.69 2004 0.31 1998.61 0.76 0.56 2000.21 0.68 0.07 1998.91 0.4 (a-2)NAKAMURA S, 1992, JPN J APPL PHYS PT 1, V31, P1258 が含まれるクラスター 88 第 3 章 引用分析の手法と評価 表 3-7 (a-3) 重要論文のクラスターの正規化されたクラスターサイズ、平均出版年齢、密度(3) direct co biblio year size average birth year density size average birth year density size average birth year density 1994 0.28 1992.18 0.7 0.56 1991.66 0.67 0.43 1992.85 0.72 1995 0.36 1993.72 0.75 0.65 1993.02 0.75 0.48 1994.22 0.75 1996 0.32 1994.97 0.68 0.43 1987.63 0.71 0.49 1995.42 0.77 1997 0.3 1995.99 0.67 0.6 1994.91 0.64 0.47 1991.82 0.6 1998 0.22 1996.82 0.65 0.24 1996.59 0.32 0.33 1996.71 0.57 1999 0.21 1997.39 0.68 0.48 1995.79 0.64 0.16 1996.76 0.61 2000 0.23 1998.33 0.66 0.47 1997.94 0.63 0.21 1997.44 0.66 2001 0.33 1996.03 0.75 0.35 1994.62 0.7 0.38 1996.64 0.71 2002 0.28 1999.72 0.68 0.45 1997.09 0.64 0.36 1997.34 0.73 2003 0.09 2000.5 0.55 0.42 1997.26 0.66 0.33 1999.19 0.69 2004 0.31 1998.61 0.76 0.56 2000.21 0.68 0.34 1998.21 0.7 (a-3)NAKAMURA S, 1994, APPL PHYS LETT, V64, P1687 が含まれるクラスター 89 第 3 章 引用分析の手法と評価 表 3-8 (b-1) 重要論文のクラスターの正規化されたクラスターサイズ、平均出版年齢、密度(4) direct co biblio year size average birth year density size average birth year density size average birth year density 1998 - - - - - - - - - 1999 0.01 1998.72 0.98 0.02 1998.5 0.95 - - - 2000 0.04 1999.56 0.99 0.05 1998.68 0.99 - - - 2001 0.09 2000.21 0.99 0.1 1999.09 0.97 - - - 2002 0.17 2001.15 0.99 0.3 1993.83 0.81 - - - 2003 0.22 2002 0.99 0.22 2000.67 0.95 - - - 2004 0.3 2002.88 0.98 0.31 2001.71 0.95 - - - (b-1)Watts DJ, 1998, NATURE, V393, P440 が含まれるクラスター 90 第 3 章 引用分析の手法と評価 表 3-9 (b-2) 重要論文のクラスターの正規化されたクラスターサイズ、平均出版年齢、密度(5) direct co biblio year size average birth year density size average birth year density size average birth year density 1999 0.01 1998.72 0.98 - - - 0.02 1998.8 0.97 2000 0.04 1999.56 0.99 0.05 1998.68 0.99 0.06 1999.18 0.99 2001 0.09 2000.21 0.99 0.1 1999.09 0.97 0.12 1999.85 0.99 2002 0.17 2001.15 0.99 0.3 1993.83 0.81 0.21 2001.24 0.98 2003 0.22 2002 0.99 0.22 2000.67 0.95 0.28 2002.05 0.98 2004 0.3 2002.88 0.98 0.31 2001.71 0.95 0.08 2002.21 0.31 (b-2)Barabasi AL, 1999, SCIENCE, V286, P509 が含まれるクラスター 91 第 3 章 引用分析の手法と評価 表 3-10 (c-1) 重要論文のクラスターの正規化されたクラスターサイズ、平均出版年齢、密度(6) direct co biblio year size average birth year density size average birth year density size average birth year density 1991 0.1 1967.97 0.99 - - - 0.26 1987.5 0.97 1992 0.08 1991.6 0.98 0.27 1984.36 0.95 0.1 1991.91 0.95 1993 0.1 1992.56 0.97 0.15 1991.49 0.96 0.12 1992.64 0.97 1994 0.09 1993.19 0.98 0.13 1988.63 0.91 0.11 1993.32 0.99 1995 0.1 1993.83 0.99 0.13 1992.01 0.98 0.11 1994.07 0.97 1996 0.1 1994.54 0.98 0.1 1990.51 0.84 0.13 1994.68 0.98 1997 0.11 1995.25 0.98 0.13 1993.95 0.96 0.14 1995.34 0.99 1998 0.11 1996.05 0.98 0.32 1992.88 0.87 0.14 1996.23 0.98 1999 0.14 1996.92 0.98 0.24 1995.49 0.98 0.01 1994.43 0.55 2000 0.21 1996.98 0.97 0.26 1996.38 0.98 0.13 1997.49 0.9 (c-1)IIJIMA, S, 1991, NATURE, V354, P56 が含まれるクラスター 92 第 3 章 引用分析の手法と評価 3.4. 考察 比較結果を整理したものが表 3-11 である。共引用ネットワークは、Hopcroft らにも指摘されたタイムラグがあるため(Hopcroft et al., 2004)、早期に新興論文 群を発見するという点で最も劣る結果であった。共引用ネットワークでは、あ る 2 つの論文がエッジで結ばれるには、その 2 つの論文よりうも後に出版され る別の論文がその 2 つの論文を引用する必要があるからで、共引用ネットワー クは本質的に引用が形成されるまでにタイムラグが必要とされる。 書誌結合ネットワークにはそのようなタイムラグは存在しない。直接引用ネ ットワークと書誌結合ネットワークが共引用ネットワークに比べれば新しい引 用には敏感である。この点では、書誌結合ネットワークは、他の 2 つの引用種 類よりもより多くのエッジをより早く発見できるので、最良であるようにも思 われる。だが、我々の結果では直接引用ネットワークと書誌結合ネットワーク に明確な優劣は存在しなかった。 93 第 3 章 引用分析の手法と評価 表 3-11 Research Domain Gallium Nitride Complex 3 種類の引用方法の比較結果のまとめ Core Paper Visibility (Normalized Size) Speed (Average Birth Year) Topological Relevance (Density) (a-1) NAKAMURA S, 1991, JPN J APPL biblio > co > direct PHYS PT 2, V30, P1705 direct > biblio > co direct > biblio > co (a-2) NAKAMURA S, 1992, JPN J APPL biblio > direct > co PHYS PT 1, V31, P1258 direct > co > biblio direct > biblio > co (a-3) NAKAMURA S, 1994, APPL PHYS co > biblio > direct LETT, V64, P1687 biblio > co > direct biblio > direct > co direct ≒ co direct > co (b-1) Watts DJ, 1998, NATURE, V393, P440 direct ≒ co Networks (b-2) Barabasi AL, 1999, SCIENCE, V286, direct ≒ biblio P509 direct ≒ biblio direct > biblio Carbon Nanotube (c-1) IIJIMA, S, 1991, NATURE, V354, P56 biblio > direct direct > biblio biblio > direct 94 第 3 章 引用分析の手法と評価 次に、各引用ネットワークの cohesiveness を評価するために、スモール・ワー ルド性を調べた。各ネットワークが「どの程度スモール・ワールド性を有して いるか」というのは、平均パス長 L とクラスター係数 C に依る(Watts & Strogatz, 1998)。平均パス長 L とクラスター係数 C の定義等、詳細は、「2.2.1 複雑ネット ワーク分析とは」を参照のこと。図 3-6 にランダムグラフの場合の C(rand), L(rand)で正規化した平均パス長 L とクラスター係数 C を示す。全てのネットワ ークにおいて、C>>C(rand)かつ L≒L(rand)であるため、スモール・ワールド性 を有していると言える。C が大きなネットワークでは、ノード X の隣人の隣人 はノード X の隣人である可能性が高い。引用の種類ごとに比較すると、C/C(rand) は直接引用ネットワークで最大で、書誌結合ネットワークで最小であった。 L/L(rand)は書誌結合ネットワークで最大で直接引用ネットワークで最小だった。 直接引用ネットワークで C/C(rand)が最大であったということは、直接引用ネッ トワークが最も cohesive な構造であるということを示しており、上述の「直接 引用ネットワークの密度が最も高い」という結果とも合致する。他方、共引用 ネットワークや書誌結合ネットワークは直接引用ネットワークよりもエッジ数 が多いにもかかわらず、C/C(rand)が小さくランダムネットワークに近いと考え られる。この結果は modurality Qmax の結果とも合致する。以上から、直接引用 ネットワークは最も cohesive な構造になりやすく、内容が似ている論文同士が 結びついている可能性が高いと考えられる。この特徴から、直接引用ネットワ ークが、新興論文群をより早くかつ効率的に発見するという観点からは最良だ と言える。 95 第 3 章 引用分析の手法と評価 図 3-6 学術領域、引用の種類ごとの平均パス長、クラスター係数 (それぞれ、(a)ガリウム・ナイトライド分野, (b)複雑ネットワーク分野, (c)ナ ノカーボン分野。また、凡例は直接引用(direct citation):●、共引用(co-citation): △、書誌結合(bibliographic coupling):■。) 直接引用ネットワークが最良だという理由がもう一つある。書誌結合ネット ワークや共引用ネットワークにおいて、時々、重要論文が最大連結成分から漏 れる場合がある。たとえば、“(b-1)Watts DJ, 1998, NATURE, V393, P440”は 1998 年の書誌結合ネットワークには含まれていなかった。つまり、書誌結合ネット ワークや共引用ネットワークを利用すると、重要論文が最大連結成分に含まれ ないというリスクが存在すると言える。 96 第 3 章 引用分析の手法と評価 また、書誌結合ネットワークが直接引用ネットワークよりも少し劣ったのは、 ネットワーク生成過程に問題があるからだ、と主張されるかもしれない。我々 の手法では、収集された論文間の引用を考慮したからだ。そこで、書誌結合(ex) と名付けたもう一つの種類のネットワークを作成した追加実験を行った。書誌 結合(ex)とは、収集した論文だけではなく、それらの論文から 1 パス先の論文ま でを含めたネットワークである。書誌結合(ex)の生成過程では、1 パス先の論文 はノードとして見なされるが、含まれなかった。前述の例では、論文 A と論文 B が直接 X を引用していて、X 自体がノードとしてネットワークに含まれてい ない場合でも A と B は書誌結合のエッジが張られる。このように追加されるエ ッジによって、書誌結合(ex)はよりよいパフォーマンスになる可能性がある。だ が、結果としては、書誌結合(ex)はうまく新興論文群を発見できなかった。書誌 結合(ex)ネットワークは、あまりにも密すぎて、Qmax は更に小さく、密度も更 ににくくなり、よりランダムネットワークに近い構造になった。 本節では、共引用、書誌結合、直接引用という 3 つの引用ネットワークのう ち、どれが新興論文群の発見に適しているかを調べた。ケーススタディを、ガ リウム・ナイトライド分野、複雑ネットワーク分野、ナノカーボン分野の 3 分 野で行った。3 種類の引用ネットワークを構築し、トポロジカルなクラスタリン グ手法でクラスターに分類し、あらかじめ定めた重要論文が含まれるクラスタ ーの“visibility”(正規化されたクラスターサイズ)、“speed”(平均出版年)、 “topological relevance”(密度)を評価した。 最良の引用分析手法は、より大きな新興論文群をより早く発見できる直接引 用であり、ワーストは共引用であった。共引用が最も劣った理由は、共引用が 生じるまでのタイムラグのせいであった。直接引用と書誌結合を比べると、ク ラスター係数が直接引用の方が大きく、引用で結ばれる論文間の意味的な類似 度が最も高く、また重要論文が最大連結成分に含まれないというリスクが最も 小さかいため、直接引用が最良であると結論づけられる。 本章では、2 章で定義した手法ありきで比較を行った。共引用ネットワーク、 書誌結合ネットワークを生成する際の閾値は 1 で実験を行った。共引用ネット 97 第 3 章 引用分析の手法と評価 ワーク、書誌結合ネットワークを生成する際の閾値を変えると異なる結果にな る可能性があるのではないかという批判もあるかもしれない。しかし、閾値を 上げても、これらの 2 つの引用が直接引用に勝ることはないと考えられる。と いうのは、閾値を上げれば上げるほど新しい論文へのリンク数が減るからであ る。 98 第 4 章 引用情報を用いた新興論文群の発見 第4章 引用情報を用いた新興論文群の発見 4.1. 本章の目的 今日のようにグローバル化、知識依存型経済の環境化においては、新しい科 学技術を用いて、急速に変化する経済環境に迅速かつ効率的に対応することが 競争力や成長力となる。ゆえに、企業や研究所における R&D マネージャーや政 策担当者にとって、膨大な学術論文の中から新興学術分野を発見するというの は重要な仕事なのである。しかし、このタスクは、学術分野が専門家され、細 分化されればされるほど、労働集約的で難しくなる。Davidson らは、この状況 を「これまでの歴史の中で人類は情報不足に苦しんできたが、電子時代初期の 今では情報過多に苦しむようになった」と述べている(Davidson et al., 1998)。故 に、膨大な論文群から、急進的イノベーションの中核となる論文群、少なくて もそれらの候補となる論文群を自動的に発見する手法は重要である。 本章の目的は 2 つある。一つ目は、本研究の第一の目的である「漸進的イノ ベーション」と「急進的イノベーション」を判別する方法論の確立である。二 つ目は本研究の第二の目的である「急進的イノベーション」の中核たる新興論 文群を発見する方法論の確立である。 新興論文群発見には、よく、共引用クラスターが用いられ、様々な手法で可 視化される。multidimensional scaling (MDS)を二次元平面にプロットする手法が 代表的であるが(Small, 1977)、空間的な特徴が明確には描けない。これまで、 self-organizing map (SOM) (Skupin, 2004) や pathfinder network (PFNET) (Chen, 1999, 2004)のように、可視化をより効率化するための多くの研究がなされてきた。 White らは、これらの 2 つの手法を比較し、PFNET は関係性について指示的で あるし、SOM は単に示唆に富むだけだ、と評している(White et al., 2004)。Morris 99 第 4 章 引用情報を用いた新興論文群の発見 らはクラスタリングによって作られた階層的な構造を時系列で可視化した (Morris et al., 2003)。引用ネットワークを活気に満ちた表現で表現できれば、膨 大な量の文書群から、新興論文群を発見するのに大きく寄与する(Boyack et al., 2002; Chen et al., 2002)。しかし、可視化によって新興論文群発見を行うと、結局 は判断を人間の主観にゆだねることになる。そこで、可視化に頼らず新興論文 群発見が行える指標を見つけることが重要である。本節での目的は、可視化に プラスして、トポロジカルな指標(ある論文が引用ネットワーク内で担う役割 やポジションを表す指標)によって新興論文群発見を行うための方法論を開発 することである。 4.2. 研究手法 引用情報とクラスタリングを用いた新興論文群発見の分析手法をに図 4-1 示 す。 図 4-1 引用情報とクラスタリングを用いた新興論文群発見の分析手法 はじめに ISI のデータベースよりデータを取得し、引用ネットワークを作成し た。その最大連結成分に対して、クラスタリングを実行し、その結果から重要 論文の役割を特定した。 100 第 4 章 引用情報を用いた新興論文群の発見 なお、詳細は「第 3 章 引用分析の手法と評価」の結論の通り、本章以下では、 引用を「直接引用」として引用ネットワークを作成している。 4.2.1. データ収集 ここでは、ガリウム・ナイトライド分野、複雑ネットワーク分野のデータを 2.4 節に示した方法で取得し、経時変化を分析した。分析対象は、ガリウム・ナ イトライド分野の場合は 1992 年から 2000 年、複雑ネットワーク分野の場合は 1994 年から 2000 年とした。たとえば、1995 年までのデータを分析するという 場合、「1995 年時点で入手可能なデータを用いて分析する」という意味である。 4.2.2. クラスタリング 新しい学術分野の候補を自動的に発見する手法を開発するために、本研究で は、2.3.3 節に記した複雑ネットワークにおけるクラスタリング手法を応用する。 クラスタリング手法を新興学術分野の発見に用いる理由は次のようなものであ る。新興論文群は、それまでは存在しなかった新しい学問分野を創出する場合 がほとんどである。新興論文群は、トポロジカルに見れば、新しいクラスター を作りだし自らがその中心になることで多くの引用を獲得するだろう。つまり、 学術論文の世界において、将来イノベーションの源泉となる学術論文は、その 分野の early stage において、Granovetter の言う「Strength of Weak Ties(弱い紐帯 の強さ)」の役割を担っているはずである(Granovetter, 1973)。従って、新興論文 群を特定するためには、この”Weak Tie”を切断し、密に結合した論文群を特定す ることが必須であると考えた。さらに、その密に結合した論文群を考察するこ とで、新興論文クラスターが特定できるはずである。 101 第 4 章 引用情報を用いた新興論文群の発見 4.2.3. 可視化 学術分野の引用ネットワークの全体像を把握するのに可視化は有用である。 本章では、2.3.4 節に示した LGL を用いて、クラスターごとに色を付けて可視化 を行った。 4.2.4. 各重要論文のトポロジカルな役割の特定 また、上述のように、単にクラスタリング、可視化するだけではなく、本論 文では、特定のトポロジカルな指標を用いて新興学術分野の発見が行えるよう にした。新興論文群の中心となる論文は、新しいクラスターを作りだし自らが その中心になると考え、1)ガリウム・ナイトライド分野のように、論文が密に結 合しあって成長していくような場合(「漸進的イノベーション」が起こっている 場合)、被引用数が多い論文は「グローバルなハブ」になっており、2)複雑ネッ トワーク分野のように、密に結合しあった論文群が疎に結合して成長していく ような場合(「急進的イノベーション」が起こっている場合)、被引用数が多い 論文は「ローカルなハブ」になっているのではないか、という仮説を立て、2.3.5 に記した重要論文の「トポロジカルな役割」 (たとえば、グローバルなハブなの か、ローカルなハブなのかなど)をトポロジカルな指標としてモニターするこ とで新興論文群発見ができるはずであると考えた。 4.2.5. 自然言語処理を用いたトピック抽出 前節までの項目で、トポロジカルな分析は行えるが、より新興論文群の発見 を容易にするために、本章では、クラスターごとのトピックを抽出した。具体 的には、2.3.6 節に示した自然言語処理による手法を用いて、各クラスターに含 まれる論文のアブストラクトから特徴語を抽出し、各クラスターの特徴語とし た。これらの特徴語抽出によって、各クラスターの内容の把握が容易になる。 102 第 4 章 引用情報を用いた新興論文群の発見 4.3. 結果 4.3.1. クラスタリング結果と可視化に関する結果 はじめに可視化の結果を記す。図 4-2、図 4-3、図 4-4 に両分野の進化の様子 を示す。図 4-2、図 4-3 においては、ノードの座標は最終年のもので固定されて いるが、図 4-4 においては年ごとに座標が再計算されている。これらを見る限 り、ガリウム・ナイトライド分野では、一つの塊が大きくなる「漸進的イノベ ーション」が起こっているのに対し、新興クラスターが分離され、独立して大 きくなる「急進的イノベーション」が起こっていることが分かる。 103 第 4 章 引用情報を用いた新興論文群の発見 図 4-2 ガリウム・ナイトライド分野の進化の様子 104 第 4 章 引用情報を用いた新興論文群の発見 図 4-3 複雑ネットワーク分野の進化の様子(1) 各ノードの座標は 2004 年時点のもので固定。 105 第 4 章 引用情報を用いた新興論文群の発見 図 4-4 複雑ネットワーク分野の進化の様子(2) 各ノードの座標は年ごとに計算。 106 第 4 章 引用情報を用いた新興論文群の発見 次にクラスタリング結果の詳細を示す。ガリウム・ナイトライド分野の 1992 年から 2004 年までの各クラスターに含まれる論文数(以下、クラスターサイズ とする)、各クラスターの平均年齢を図 4-5(a)に示す。各クラスターに含まれる 論文の平均年齢は、図 4-5 (a)に示されるように 1998 年までは減少するが、1998 年以降は上昇する。これは、1998 年以降は本分野の成長が鈍化したということ を意味する。2004 年には 3 つの大きなクラスターが存在するため、これらを G1, G2, G3 と名付ける。2004 年時点において、G1 は 2509 論文を含み、平均年齢は 1995.6、G2 は 2267 論文、1998.2、G3 は 1525 論文、1998.6 であった。 図 4-6 (a)は時系列でのクラスターの結合関係を示したものである。G1 が最も 似た論文が集まっていると言えよう。別の言い方をすれば、一度 G1 に含まれる と G1 からは出にくいということである。他方、G2, G3 はお互いに混合、交配さ れているよう見える。表 4-1 には、各クラスター内の主要論文リストを示す。 G1 は、バッファー・レイヤーや p-type doping 技術といった LED を実現する上 で不可欠な技術に関する新しい論文群が多く含まれている。他方、G2, G3 は合 成されたガリウム・ナイトライドフィルムの物理的な特性や発光デバイスの発 展に関する論文が多い。さらには、G1 の平均年齢が 3 つの中では最も高い。こ れらの結果から、ガリウム・ナイトライド分野では、物理的な特性やデバイス 製造においてまったく新しい研究分野を切り開いたというよりは、それまで存 在していた学術分野の中でイノベーションが主に起こったと言える。このこと は、ガリウム・ナイトライドにおけるイノベーションとは、バッファー・レイ ヤーや p-type doping という新しいプロセス開発におけるイノベーションだと認 識されているという事実と合致する。新興学術分野の出現を監視する際、各ク ラスターの平均年齢をモニターすることは有効である。だが、これらのイノベ ーションは既存のクラスターの中で起こっている。これは「漸進的イノベーシ ョン(incremental innovation)」である。図 4-6 (a)に示したように、ガリウム・ ナイトライド分野においては、各クラスターは内部で密に結合しあっており、 新しいクラスターが生まれたというよりは、クラスター内部で成長しているよ うに見える。 107 第 4 章 引用情報を用いた新興論文群の発見 図 4-5(b)は、複雑ネットワーク分野の 1994 年から 2004 年までの各クラスタ ーのサイズと各クラスターの平均年齢の関係である。ガリウム・ナイトライド 分野とは異なり、複雑ネットワーク分野では傾向が異なり、複雑ネットワーク 分野では多くのクラスターの平均年齢が変化せずに一定である。つまり、複雑 ネットワーク分野はまだ緩やかな成長過程にある分野であると言える。しかし、 2000 年に新興クラスターが図 4-5(b)の下部に出現したように見える。時系列で のクラスターの結合関係を示した図 4-6 (b)を見ると、より明らかになる。2004 年には 3 つの大きなクラスターが存在するため、これらを C1, C2, C3 と名付け る。2004 年時点において、C1 は 1256 論文を含み、平均年齢は 1995.7、G2 は 785 論文、1998.3、C3 は 1099 論文、2002.9 であった。表 4-2 には、各クラスター内 の主要論文リストを示す。C1 や C2 は典型的な社会学の論文が含まれ、C3 には 物理学の学術雑誌に掲載された論文が多く含まれる。これらの結果より、複雑 ネットワーク分野は、伝統的な社会学から物理学のクラスターに移り変わった と言える。社会学の中で物理系の論文群が成長したのではなく、社会学系から 物理系の論文群が飛び出して成長している。これは「急進的イノベーション (radical innovation)」である。 108 第 4 章 引用情報を用いた新興論文群の発見 図 4-5 クラスターの大きさと平均年齢 (○がクラスターを表し、○の大きさが相対的なクラスターの大きさを表す。 (a):ガリウム・ナイトライド分野、(b):複雑ネットワーク分野。) 109 第 4 章 引用情報を用いた新興論文群の発見 図 4-6 各クラスターの時系列での発展の様子 (○がクラスターを表し、○の大きさが相対的なクラスターの大きさを表す。 (a):ガリウム・ナイトライド分野、(b):複雑ネットワーク分野。t 年におけるク ラスターi から t+1 年におけるクラスターj へのパーセンテージは、[クラスターi の論文のうちクラスターj に移った論文数] / [クラスターi の論文数]で計算され る。) 110 第 4 章 学術分野の進化と転移の特定の分析結果 表 4-1 ガリウム・ナイトライド分野(2000 年)のクラスタリング結果 cluster # average id papers age Top 10 tf-idf terms G1 degrees, growth, substrate, films, ga, gaas, gan, nh, si, surfaces 2509 1995.6 Papers (TC(2000)>=150) year TC(2000) STRIFE S, 1992, J VAC SCI TECHNOL B, V10, P1237 1992 837 NAKAMURA S, 1994, APPL PHYS LETT, V64, P1687 1994 659 AMANO H, 1989, JPN J APPL PHYS PT 2, V28, PL2112 1989 519 AMANO H, 1986, APPL PHYS LETT, V48, P353 1986 488 NAKAMURA S, 1991, JPN J APPL PHYS PT 2, V30, PL1705 1991 395 AKASAKI I, 1989, J CRYST GROWTH, V98, P209 1989 306 NAKAMURA S, 1992, JPN J APPL PHYS PT 1, V31, P1258 1992 295 DINGLE R, 1971, PHYS REV B, V4, P1211 1971 293 STRITE S, 1991, J VAC SCI TECHNOL B, V9, P1924 1991 217 PAISLEY MJ, 1989, J VAC SCI TECHNOL A, V7, P701 1989 213 NAKAMURA S, 1995, JPN J APPL PHYS PT 2, V34, PL797 1995 198 MONEMAR B, 1974, PHYS REV B, V10, P676 1974 197 POWELL RC, 1993, J APPL PHYS, V73, P189 1993 181 LEI T, 1991, APPL PHYS LETT, V59, P944 1991 172 NAKAMURA S, 1992, JPN J APPL PHYS PT 2, V31, PL139 1992 163 DAVIS RF, 1991, PROC IEEE, V79, P702 1991 163 DINGLE R, 1971, SOLID STATE COMMUN, V9, P175 1971 160 LEI T, 1992, J APPL PHYS, V71, P4933 1992 156 111 第 4 章 学術分野の進化と転移の特定の分析結果 G2 G3 2267 1525 1998.2 1998.6 degrees, contact, gan, al, ni, ga, ti, au, physics, american institute gan, mg, layers, ga, physics, american institute, structures, defects, photoluminescence, strain MORKOC H, 1994, J APPL PHYS, V76, P1363 1994 518 MOHAMMAD SN, 1995, PROC IEEE, V83, P1306 1995 206 NEUGEBAUER J, 1994, PHYS REV B, V50, P8067 1994 205 OGINO T, 1980, JPN J APPL PHYS, V19, P2395 1980 181 BARKER AS, 1973, PHYS REV B, V7, P743 1973 176 Chichibu S, 1996, APPL PHYS LETT, V69, P4188 1996 172 Bernardini F, 1997, PHYS REV B, V56, P10024 1997 166 Nakamura S, 1996, JPN J APPL PHYS PT 2, V35, PL74 1996 500 LESTER SD, 1995, APPL PHYS LETT, V66, P1249 1995 285 NAKAMURA S, 1995, JPN J APPL PHYS PT 2, V34, PL1332 1995 236 Nakamura S, 1998, APPL PHYS LETT, V72, P211 1998 180 Akasaki I, 1996, ELECTRON LETT, V32, P1105 1996 167 Usui A, 1997, JPN J APPL PHYS PT 2, V36, PL899 1997 160 112 第 4 章 学術分野の進化と転移の特定の分析結果 表 4-2 cluster # average id papers age C1 C2 C3 1256 785 1099 1995.7 1998.3 2002.9 複雑ネットワーク分野(2004 年)のクラスタリング結果 Top 10 tf-idf terms support, women, patients, men, health, age, social support, friends, studies, loneliness, mortality Papers (TC(2004)>=50) year TC(2004) BERKMAN LF, 1979, AMER J EPIDEMIOL, V109, P186 1979 252 TOLSDORF CC, 1976, FAM PROCESS, V15, P407 1976 110 ORTHGOMER K, 1987, J CHRONIC DIS, V40, P949 1987 55 MCKINLAY JB, 1973, SOC FORCES, V51, P275 1973 54 SEEMAN TE, 1988, SOC SCI MED, V26, P737 1988 51 model, women, children, FREEMAN LC, 1979, SOC NETWORKS, V1, P215 groups, patients, paper, KLOVDAHL AS, 1985, SOC SCI MED, V21, P1203 studies, structure, families, developments, article 1979 162 1985 67 nodes, scale, graphs, model, vertices, proteins, links, distribution, topologies, degree distributions, connectivity Watts DJ, 1998, NATURE, V393, P440 1998 722 Barabasi AL, 1999, SCIENCE, V286, P509 1999 558 Albert R, 2002, REV MOD PHYS, V74, P47 2002 499 Strogatz SH, 2001, NATURE, V410, P268 2001 299 Albert R, 2000, NATURE, V406, P378 2000 248 Jeong H, 2000, NATURE, V407, P651 2000 243 Dorogovtsev SN, 2002, ADVAN PHYS, V51, P1079 2002 210 Barabasi AL, 1999, PHYSICA A, V272, P173 1999 148 Newman MEJ, 2003, SIAM REV, V45, P167 2003 133 113 第 4 章 学術分野の進化と転移の特定の分析結果 Cohen R, 2000, PHYS REV LETT, V85, P4626 2000 119 Newman MEJ, 1999, PHYS REV E, V60, P7332 1999 112 Barrat A, 2000, EUR PHYS J B, V13, P547 2000 106 Krapivsky PL, 2000, PHYS REV LETT, V85, P4629 2000 104 Liljeros F, 2001, NATURE, V411, P907 2001 103 Callaway DS, 2000, PHYS REV LETT, V85, P5468 2000 99 Barthelemy M, 1999, PHYS REV LETT, V82, P3180 1999 90 Newman MEJ, 2002, PHYS REV LETT, V89 2002 84 Moore C, 2000, PHYS REV E, V61, P5678 2000 83 Ravasz E, 2002, SCIENCE, V297, P1551 2002 78 Cohen R, 2001, PHYS REV LETT, V86, P3682 2001 71 Kuperman M, 2001, PHYS REV LETT, V86, P2909 2001 62 Newman MEJ, 1999, PHYS LETT A, V263, P341 1999 61 Milo R, 2002, SCIENCE, V298, P824 2002 60 Newman MEJ, 2000, PHYS REV LETT, V84, P3201 2000 59 Kleinberg JM, 2000, NATURE, V406, P845 2000 51 Barabasi AL, 2000, PHYSICA A, V281, P69 2000 51 Monasson R, 1999, EUR PHYS J B, V12, P555 1999 50 114 第 4 章 引用情報を用いた新興論文群の発見 4.3.2. 重要論文のトポロジカルな役割に関する結果 図 4-7 にガリウム・ナイトライド分野のノードの役割の経時変化(1992-2000 年)、複雑ネットワーク分野のノードの役割の経時変化(1994-2004 年)を示す。 図の縦軸は、クラスター内でどの程度ハブであるかを示すクラスター内次数係 数 z-score、横軸は、エッジが複数のクラスターに分散しているのかどうかを示 すモジュール間分散度 P である。ここでは、ガリウム・ナイトライド分野の場 合は 2000 年の、複雑ネットワーク分野の場合は 2004 年の被引用数上位 10 の論 文の z-score, P の経時変化を示した。ガリウム・ナイトライド分野の場合、 (R2)peripheral nodes から(R6) connector hubs に移動した論文がほとんどである。 時系列で見れば、P の値はあまり変わらずに z-score の値が上昇する傾向にあっ た。つまり、成長が鈍化した段階(maturation stage)に被引用数を多く獲得し、 各クラスター内でのハブとなっている論文は、学術分野の発展段階に依らず、 各クラスター間をつなぐような、ネットワーク全体のハブにもなっているとい うことを表す。他方、複雑ネットワーク分野の場合、(R1)ultra-peripheral nodes から(R5) provincial hubs に移動する論文がほとんどである。つまり、物理学系ク ラスターと社会学系クラスターの間には弱いつながりしかない。あるいは発展 の過程で全く別のクラスターになったと言っても良い。特に物理系の論文は、 (R5) provincial hubs に位置する傾向が強く、BERKMAN LF, 1979, FREEMAN LC, 1979 といった社会学の古い論文は、学術分野発展の初期段階で(R6) connector hubs に位置するが、発展が進むにつれて(R5) provincial hubs へと移行する。時系 列で見れば、P の値はあまり変わらずに z-score の値が上昇する傾向にあった。 社会学系の論文は物理学系のクラスターが出現するまでは全体の中心であり connecter hub であったが、物理学系クラスターが出現したことにより、provincial hub に移っていったということである。つまり、新興論文は発展段階に依らず、 自らのクラスター内で引用を獲得しながら成長し、旧来から存在する論文は、 学術分野発展の初期段階ではグローバルに引用を獲得しながら成長するが、新 興分野が誕生し発展するに伴い、役割がローカルなハブへと推移していくとい うことを示している。 115 第 4 章 引用情報を用いた新興論文群の発見 図 4-7 被引用数上位 10 論文のクラスター内での役割の変化 ((a):ガリウム・ナイトライド分野、(b):複雑ネットワーク分野。) 4.3.3. クラスター内論文の平均出版年と各クラスターのトピックの分析 本研究の第二の目的は、新興論文群を早期に発見することである。本研究は 116 第 4 章 引用情報を用いた新興論文群の発見 過去にイノベーションが起こった分野の歴史研究であるため、複雑ネットワー ク分野では 1998 年、1999 年頃がきっかけで新興論文群が多数生まれたというこ とは分かっている。そこで、本項では 1999 年、2000 年時点で新興論文群が発見 可能であったかどうか、可能であるとすればどのような方法で可能であったか を分析した。新興論文群の発見は 2000 年時点よりも 1999 年時点で行う方が困 難であるため、最初に 2000 年時点での分析を行った後に 1999 年時点での分析 を行った。 はじめに、複雑ネットワーク分野の 2000 年時点でのネットワークに対して、 クラスタリングを行った。複雑ネットワーク分野の 2000 年は、1998 年から物理 系の論文が出版され、その後繁栄したことを考えれば early stage であると言える。 その結果、28 クラスターに分割でき、Qmax= 0.717 であった。各クラスターの 論文数(cluster size)とクラスター内の論文の平均年齢(average age)の関係を 図 4-8 に示す。クラスター内論文数にも、クラスター平均年齢にも大きくばら つきがある。 117 第 4 章 引用情報を用いた新興論文群の発見 18.0 16.0 14.0 average age 12.0 10.0 8.0 6.0 4.0 2.0 0.0 0 50 100 150 200 250 300 350 cluster size 図 4-8 複雑ネットワーク分野(2000 年)のクラスタリング結果 表 4-3 には、(a)平均年齢が 10 以下、(b)クラスター論文数が 50 以上、 (c)TC(2000)>=30 となる論文が存在するという 3 つの条件を満たすクラスター (及びその論文一覧)とクラスターごとのトピック抽出結果を、図 4-9 にはク ラスタリング結果の可視化を示す。ここでの目的は、新興クラスターを特定す ることであるから、(a)論文の平均年齢が大きいクラスター、(b)小さいクラスタ ー、(c) TC(2000)>=30 となる論文が存在しないクラスターは紙面の都合上扱わな かった。また、表 4-3 には、各クラスターの tf-idf の上位 10 語を特徴語として 付与した。表 4-3 におけるクラスターごとの特徴語は、自然言語処理から自動 的に得られたものであり、図 4-9 のクラスター名は各分野のエキスパートによ って名付けられたものである。 たとえば"Social, Support or Disease"クラスターでは、patients, support, depression, schizophrenia, clients, mental illness, social support などが扱われている。このクラ 118 第 4 章 引用情報を用いた新興論文群の発見 スターの平均年齢は 8.4 年であった。他にも、"Social, Network Analysis"クラスタ ー(1993.5 年)は social structure について、” Social, Support”クラスター(1995.1 年)は supports, health, association, smoking and survival について、” Social, HIV” クラスターは infections through social networks に関して議論している比較的若い クラスターであった。しかし、”Physics, Small-World”クラスターは 2000 年にお いて 1998.9 年と圧倒的に若く、特徴語から判断するに全く異なったトピックを 扱っているいた。というのは、社会学系のクラスターの論文は主に社会学系の 雑誌に投稿されているのに対し、このクラスターに含まれる論文は Science, Nature, Physical Review といった物理学系の論文雑誌に掲載されていたからであ る。 また、再度、図 4-4 をみると、社会学系クラスター、物理・Water 系クラスタ ー、物理・Small-World クラスターの 3 つの大きなクラスターがあることがわか る。1998 年と 2004 年までを比べると、1998 年においては左上に社会学系のク ラスターのみが存在していたが、2004 年には社会学系の論文は引き続き出版さ れているものの、右下に物理系クラスターも現れていることがわかる。実際、 2001 年以降、物理学系の論文群が発見可能になっていると言えるだろう。 図 4-9 は、図 4-4 の 2000 年の図を拡大したものである。図 4-9 において、比 較的小さな”Social, Network Analysis”クラスターがが見て取れるが相互依存関係 は、図 4-4 のように時系列で分析するとよりはっきりする。時系列で可視化す ることで、”Physics, Small-World”クラスターが、既存クラスターの子クラスター として生まれたこと、その後徐々に独立したクラスターに成長していったこと がわかる。つまり、この物理学系クラスターは、既存の社会学分野から分離し て新興学術分野となったと言える。このように可視化することで、いつ新興ク ラスターが出現したのかを発見するのが容易ににある。図 4-2 はガリウム・ナ イトライド分野の可視化図だが、複雑ネットワーク分野とは異なり、一つの大 きな塊が成長している。前項では、トポロジカルな指標に基づいて漸進的イノ ベーションと急進的イノベーションの違いを判定する方法を示したが、可視化 を通じても明らかにできることが示された。 119 第 4 章 引用情報を用いた新興論文群の発見 続いて 1999 年時点での分析を行った。表 4-4 には、(a)クラスター論文数が 25 以上、(b)TC(1999)>=10 となる論文が存在する、(c)year(1999)>=1994 となる論 文が存在するという 3 つの条件を満たすクラスター(及びその論文一覧)とク ラスターごとのトピック抽出結果を、図 4-10 にはクラスタリング結果の可視化 を示す。ここでの目的は、新興クラスターを特定することであるから、(a)論文 の平均年齢が大きいクラスター、(a)小さいクラスター、(b) TC(1999)>=10 とな る論文が存在しないクラスター、(c) year(1999)>=1994 となる論文が存在しない クラスターは紙面の都合上扱わなかった。詳細な分析は 2000 年時点のものとほ ぼ同じであるため割愛するが、1999 年時点でも”Physics, Small-World”クラスター を新興クラスターとして抽出できたことが分かる。 120 第 4 章 引用情報を用いた新興論文群の発見 表 4-3 cluster # average id papers age C’1 C’2 C’3 331 322 281 1991.6 1993.5 1995.1 複雑ネットワーク分野(2000 年)のクラスタリング、トピック抽出結果 Top 10 tf-idf terms patients, supports, depression, schizophrenia, clients, mental illness, social support, women, child, families, treatment Papers (TC(2000)>=30) year TC(2000) z(2000) P(2000) TOLSDORF CC, 1976, PROCESS, V15, P407 FAM 1976 102 13.4 0.3 MCKINLAY JB, FORCES, V51, P275 SOC 1973 47 5.8 0.2 J 1979 39 2.9 0.7 model, scale, child, FREEMAN LC, 1979, SOC 1979 patients, women, NETWORKS, V1, P215 structure, families, BREIGER RL, 1975, J MATH 1975 paper, group, PSYCHOL, V12, P328 development, relationship 95 13.6 0.3 39 5.7 0.1 women, men, mortality, CI, supports, health, association, age, smoking, year, survival BERKMAN LF, 1979, AMER J 1979 EPIDEMIOL, V109, P186 189 14 0.4 ORTHGOMER K, 1987, J CHRONIC 1987 DIS, V40, P949 43 3.9 0.1 SEEMAN TE, 1987, AMER EPIDEMIOL, V126, P714 36 3.3 0 1973, HIRSCH BJ, 1979, AMER COMMUN PSYCHOL, V7, P263 121 J 1987 第 4 章 引用情報を用いた新興論文群の発見 HANSON BS, 1989, AMER EPIDEMIOL, V130, P100 J 1989 30 2.9 0.1 SEEMAN TE, 1988, SOC SCI MED, 1988 V26, P737 30 1.9 0.5 C’4 71 1998.9 world, dynamics, site, Watts DJ, 1998, NATURE, V393, 1998 connectivity, model, P440 graphs, transition, phenomena, vertices, probability, games 46 6.2 0 C’5 71 1997.1 HIV, infection, syphilis, KLOVDAHL AS, 1985, SOC SCI 1985 risk, HIV infection, drug MED, V21, P1203 injectors, transmission, persons, epidemic, HIV 43 4.4 0.4 32 3.2 0.4 transmission, AIDS KLOVDAHL AS, 1994, SOC SCI 1994 MED, V38, P79 平均出版年≧1990 & #nodes≧50 & TC(2000)≧30 のクラスター・論文のみ 122 第 4 章 引用情報を用いた新興論文群の発見 表 4-4 複雑ネットワーク分野(1999 年)のクラスタリング、トピック抽出結果 id # papers average age Top 10 tf-idf terms 1 318 1992 2 175 3 60 4 29 TC(1999) z(1999) P(1999) model, women, child, EMIRBAYER M, 1994, 1994 scale, patients, structure, AMER J SOCIOL, V99, P1411 group, families, paper, supports, development 10 1.15 0.26 1993.8 child, mother, peers, boys, CAIRNS RB, 1995, CHILD 1995 friendships, students, DEVELOP, V66, P1330 parents, adolescents, conflict, girls, friends 10 2.3 0.14 1996.4 HIV, partners, HIV infection, drug injectors, infection, risk, sexual abuse, transmission, HIV risk, mixing, epidemic KLOVDAHL AS, 1994, SOC 1994 SCI MED, V38, P79 27 3.36 0.25 NEAIGUS A, 1994, SOC SCI 1994 MED, V38, P67 21 2.17 0.36 WOODHOUSE DE, AIDS, V8, P1331 1994, 1994 17 2.51 0.09 ROTHENBERG RB, 1995, 1995 SOC NETWORKS, V17, P273 10 1.66 0.12 world, dynamics, input, Watts DJ, 1998, NATURE, 1998 vertices, elements, model, V393, P440 phenomena, connectivity, 14 3.68 0 1997.3 Papers (TC(2000)>=30) 123 year 第 4 章 引用情報を用いた新興論文群の発見 neural networks, critical point, CNN #nodes≧25 & TC(1999)≧10 & year≧1994 のクラスター・論文のみ 124 第 4 章 引用情報を用いた新興論文群の発見 図 4-9 複雑ネットワーク分野(2000 年)のクラスタリング結果の可視化 平均出版年≧1990 & #nodes≧50 のクラスターのみ 125 第 4 章 引用情報を用いた新興論文群の発見 図 4-10 複雑ネットワーク分野(1999 年)のクラスタリング結果の可視化 #nodes≧25 & TC(1999)≧10 & year≧1994 のクラスター・論文のみ 126 第 4 章 引用情報を用いた新興論文群の発見 4.4. 考察 4.4.1. 漸進的イノベーションと急進的イノベーションを判定する方法論 に関する考察 本節では、引用情報とクラスタリングを用いた新興論文群発見に関する比較 実験をガリウム・ナイトライド分野、複雑ネットワーク分野の 2 分野で行った。 各重要論文のネットワークにおけるトポロジカルな役割を分析することで、漸 進的イノベーションと急進的イノベーションを明確に区別することができた。 図 4-11 に示すように、漸進的イノベーションのプロセスでは、ブレークスルー は既存の学術領域内で起こり、ハブとなる重要論文の z も P も大きくこれらの 論文は connecter hub である。反対に、急進的イノベーションのプロセスでは、 ブレークするは既存の学術領域の中では起こらず、独立した新しいクラスター が生まれる。研究の中心が急速に移動し、ハブとなる重要論文は z が大きく P が小さい provincial hub になる。イノベーションの源泉となるような、引用を多 く獲得する論文は、1)漸進的イノベーションが起こっている場合は「グローバル なハブ」になっており、2)急進的イノベーションが起こっている場合は「ローカ ルなハブ」になっていると言うことができる。つまり、被引用数が多い、各ク ラスターでハブになっている論文が、ローカルなハブである場合、密に結合し あった論文群が疎に結合して成長していく急進的イノベーションが起こってい ると考えられる。以上より、急進的イノベーションの発見には、被引用数が多 い、各クラスターでハブになっている論文の役割を追跡することが有効である と言える。 z と P というトポロジカルな指標をモニターすることは、イノベーションの種 類の判定だけではなく、新興学術分野の発見に有効であった。しかし、わざわ ざトポロジカルな指標をモニターしなくても、各クラスター内の論文の増加数 127 第 4 章 引用情報を用いた新興論文群の発見 のみ追跡すれば良いではないかという反論があるかもしれない。だが、クラス タリングは毎年行われており、クラスタリング結果は毎年異なり、ある論文が 属するクラスターは毎年変化する。そのため、引用ネットワークのような autopoietic なシステムでは単に、被引用数を追いかけるだけではなく、トポロジ カルな指標を追跡することが重要であると言える。 図 4-11 イノベーションの種類の判定方法 4.4.2. 急進的イノベーションにおいて、新興学術分野を早期発見する方 法論に関する考察 引用ネットワークでは、似た内容の論文同士は強く引用し合い、内容が異な る論文同士は弱く引用しあっており、トポロジカルなクラスタリングによって、 内部で密に結合しあう構造のクラスターに分解することで、意味的にまとまり のある論文群を抽出することができる。 本章では、トポロジカルなクラスタリングを行い、各クラスターの平均出版 年、トピック、各クラスターの主要論文の z, P を分析することで、急進的イノ ベーションにおいて新興論文群を発見することができた。複雑ネットワーク分 128 第 4 章 引用情報を用いた新興論文群の発見 野では、1999 年時点で Watts, Barabasi 等の物理学クラスターを新興論文群とし て発見することができた。Watts 論文は 1998 年、Barabasi 論文は 1999 年に出版 されたものであるから、新興学術分野の主要論文が出版されてから 1∼2 年で新 興学術分野が発見できたことになる。そして、図 4-12 に示したように、1999 年時点では 29 論文のみであった物理学クラスターは 2004 年には 1,099 論文にま で成長した。また、1999 年時点で同クラスターの平均出版年は 1997.3 と非常に 若く、2004 年でも 2002.9 と非常に若いまま成長していることも分かる。本章の 手法は可視化では困難な新興学術の早期発見に有効である。図 4-13 に複雑ネッ トワーク分野の分野を改めて示すが、この可視化だけから 1999 年時点で新興学 術分野であると発見するのは困難である。 129 第 4 章 引用情報を用いた新興論文群の発見 図 4-12 複雑ネットワーク分野における物理学クラスターの 1999 年と 2004 年の比較 座標、色は各年で最適化して計算。 130 第 4 章 引用情報を用いた新興論文群の発見 図 4-13 複雑ネットワーク分野における物理学クラスターの進化 座標は 2004 年の描画結果で固定。色は 2004 年の物理学クラスターに該当するエッジのみ赤色で描画。 131 第 4 章 引用情報を用いた新興論文群の発見 本章での結果を一般化するために、新興クラスターとして抽出すべきクラス ターは、以下の特徴を持つクラスターであると言える。 1. クラスター内ハブ論文の z が大きく P が小さい(目安:z>2.5, P<0.3) 2. クラスター内ハブ論文が若い(図中の○が大きい) 3. クラスターの特徴語から見て、他のクラスターと異なるトピックを扱って いる。 第一の点は、新興クラスター内のハブ論文は、クラスター内から多くの引用 を獲得しているということを意味する。この条件は、クラスターサイズがある 程度大きいという条件も包含する。なぜならクラスター内論文数が少なすぎる と、z の値が大きくなりにくいからである。第二の点は、ハブ論文の若さである。 ハブ論文が若く、クラスター内から多くの引用を獲得している場合は新興クラ スターとして注目に値すると考えられる。ここで、クラスターの平均年齢では なく、クラスター内のハブ論文の年齢としているのは、前者を評価指標にした 場合、たまたま古い論文が多く含まれるクラスターに分類されてしまった場合 に重要な新興論文群を見落とす可能性があるためである。第三の点は意味的な 基準である。トピック抽出結果を見て、他のクラスターとは異なるトピックを 扱っている場合はやはり新興クラスターである可能性が高い。 これらの条件を検証するために、図 4-14、図 4-15 に複雑ネットワーク分野の それぞれ 2000 年、1999 年の各クラスターの被引用数が多い論文の z, P, 若さを 記した。2000 年時点ではクラスター#C4’が、1999 年時点ではクラスター#4 が上 記の条件に最もよく当てはまるクラスターであり、両クラスターとも Watts 論文 を含む、物理系クラスターである。また、扱っているトピックは前述のように 他のクラスターとは異なる。従って、複雑ネットワークの 1999 年、2000 年のい ずれの場合も前述の条件で新興論文群の発見が行えたと言える。 132 第 4 章 引用情報を用いた新興論文群の発見 図 4-14 複雑ネットワーク分野(2000 年)の各クラスターの被引用数が多い論文 の z, P, 若さ (丸印の色は表 4-3 のクラスターごとに異なる。丸印の大きさは論文の若さ (各論文の出版年-1970)。) 図 4-15 複雑ネットワーク分野(1999 年)の各クラスターの被引用数が多い論文 の z, P, 若さ (丸印の色は表 4-4 のクラスターごとに異なる。丸印の大きさは論文の若さ (各論文の出版年-1970)。) 133 第 4 章 引用情報を用いた新興論文群の発見 以上の結果をまとめると、イノベーションの種類の判定、急進的イノベーシ ョンにおける新興論文群の発見は図 4-16 に示す方法で行えば良いことが分か る。 図 4-16 急進的イノベーションにおける新興論文群の発見方法 なお、参考までに、付録に「付録 D:2000 年のガリウム・ナイトライド分野 の引用ネットワークのクラスタリング」 「付録 E:2004 年の複雑ネットワーク分 野のうち物理クラスターのみを対象とした引用ネットワークのクラスタリン グ」を付した。 134 第 5 章 引用情報を用いた将来の被引用数予測 第5章 引用情報を用いた将来の被引用数予測 5.1. 本章の目的 前章までの方法論で、1)イノベーションの種類の判定、2)急進的イノベーショ ンにおける、新興論文群の早期発見が実現できることが分かった。次の課題は、 本研究の第三の目的である、新興学術分野の中で、将来有望な論文を早期に発 見することである。 一般的に学術分野の進化は、図 5-1 のような S カーブで表現される(Braun, Schubert & Kostoff, 2000)。学術分野内の知識量はまだ少ない時期を initial stage とし、知識量が増加し始まった時期を early stage と呼ぶ。その後、知識量が増加 し続けている時期を expansion stage とし、知識量が最大値に達し、増加が止まる 時期を maturation stage とし、最後に知識量が減少し活気が失われる時期を decline stage と呼ぶことにする。Maturation stage や decline stage において、盛況であっ た学術分野やその中での重要な論文を指摘することは難しくないが、initial stage や early stage の時点で繁栄した段階で重要となるような知識を発見するのも困 難である。反対に、早い段階で、繁栄した段階で重要となる知識はどの知識か を予測できれば、我々の競争力はより増加するだろう。 135 第 5 章 引用情報を用いた将来の被引用数予測 図 5-1 学術分野の栄枯盛衰モデル 重要論文の発見に関する研究では、各論文の被引用回数が、当該論文の重要 度を表す指標としてよく使われるが、引用するという行為にはさまざまな動機 があることが他の研究で指摘されている。たとえば、Harter らは、図書館系や情 報系の 3 つの学術雑誌における引用する論文とされる論文の意味的な関係性を 分析し、引用する論文とされる論文の間には意味的な関係があまり無いことを 示した(Harter, Nisonger, & Weng, 1993)。別の例では、MacRoberts らは引用にバイ アスがかかるという問題、自分の文献を引用するという行為、引用されないが 影響力のある論文が存在するという問題を指摘した(MacRoberts & MacRoberts, 1989)。これらの批判はあるものの、多くの引用を集める論文は、少なくても新 しい学術分野を切り開いた象徴であるということに疑いはないだろう。故に、 その時点では有名ではないが、新しい学問分野を切り開き、多くの引用を獲得 するであろう論文候補を発見しようとする挑戦的な試みには意味がある。個々 の論文の引用行動を予測することができれば、自動的にイノベーションの源泉 を発見することができる。あるいは、控えめに言ってもその示唆を得ることが できるのだ。 136 第 5 章 引用情報を用いた将来の被引用数予測 科学計量学の分野では、個々の論文が将来、どのように引用されていくのか を解明しようとする研究が存在する。これらの研究は、図 5-2 に示したように、 用いるデータと分析手法によって大きく variable analysis と network analysis の 2 つに分類できる(Scott, 1991)。一つ目は、論文の attribute data から将来の引用行 動を予測する variable analysis である。attribute data というのはたとえば、著者の 有名度や論文の質である。Dalen らは、被引用数が著者の特徴、論文の特徴、掲 載される雑誌の特徴の影響を受けていることを示した(van Dalen & Henkens, 2001; van Dalen & Henkens, 2005)。また、引用行動の特徴を解明した研究の例と しては、Upadhye らがノーベル物理学賞を受賞した研究が、同時代にどのように 引用されたのかを分析した研究(Upadhye et al., 2004)や、Ahmed らが Watson & Click の有名な DNA に関する論文(Watson & Crick, 1953)への引用の 80%以上は、 主に 1)歴史背景記述、2)他の関連研究としての記述であるということを示した研 究(Ahmed et al., 2004)などがあげられる。 図 5-2 データの種類と分析方法 もう一つの分析手法が、引用ネットワークのトポロジカルな指標で将来の引 用行動を予測する network analysis である。network analysis は relational data を用 いるものである。あるノード(論文)のリンク数(被引用数)というのは、ト ポロジカルな指標の一つである。Adams は、論文出版直後の被引用数とその後 の被引用数の関係を分析し、出版後 2 年間に獲得する引用数がその後に獲得す 137 第 5 章 引用情報を用いた将来の被引用数予測 る引用数に大きく影響するということを示した(Adams, 2005)。この結果は、現 在多くの引用を獲得している論文は、将来も多くの引用を獲得する傾向にある ということを意味している。また、この結果は、Barabási らが提案した“preferential attachment” モ デ ル に よ く 似 て い る (Barabási & Albert, 1999) 。 “preferential attachment”モデルとは、現在多くのリンクを持つノードほど、将来多くのリンク を獲得しやすいという成長モデルである。現在、複雑ネットワーク分析の重要 性は増加し、注目を集めている。複雑ネットワーク分析は科学計量学の分野に も応用され始めている。たとえば、Chen は研究分野のパラダイムの動きを観測 するのに、媒介中心性を用いた(Chen, 2005)。また、Barabási らは複雑ネットワ ーク分析を科学者の共著関係ネットワークの分析に応用した(Barabási et al., 2002)。複雑ネットワーク分析は引用関係分析に応用されてきているものの、イ ノベーションの源泉を見つけるために、トポロジカルな構造をさらに分析し、 引用数とトポロジカルな構造から将来の引用数を推測する研究の余地余地は十 分にあると言える。 本章では、各々の論文の引用ネットワークにおけるポジションを追跡し、ネ ットワークにおけるポジションと将来引用を獲得する可能性の関係性を明らか にすることである。性質の異なる 2 分野のケーススタディを行うことで、引用 ネットワークにおける各論文の中心性から将来の被引用数を予測する方法論を 提案する。 5.2. 研究手法 本研究の第三の目的を達成するために、本章では、多くの引用を獲得する論 文は、過去において、トポロジカルな意味でどのような位置にあったのかとい うことを分析する。この仮説を検証するために、将来の被引用数と、引用関係 ネットワークにおける各論文のポジションを分析した。各論文のポジションと しては、クラスタリング中心性、距離中心性、媒介中心性という 3 つの中心性 138 第 5 章 引用情報を用いた将来の被引用数予測 (詳細は、2.3.7 節参照のこと。)の関係を取り上げた。さらに、3 つの中心性だ けでなく、現在の年齢、現時点の被引用数との関係も分析した。この分析の枠 組みは、図 5-3 に示した通りであり、クラスタリング中心性、距離中心性、媒 介中心性、年齢、現在の被引用数が将来の被引用数にどの程度影響するのかを 相関分析を用いて調べた。 図 5-3 将来の被引用数とネットワーク構造の関係の分析スキーム 各々の論文の引用ネットワークにおけるポジションを追跡し、ネットワーク におけるポジションと将来引用を獲得する可能性の関係性を明らかにするため に、ここでは複雑ネットワーク分野で提唱されてきた以下の 3 つの中心性(詳 細は、2.3.7 節参照のこと。)を引用関係ネットワークにおけるポジションである と見なして分析を行う。 クラスタリング中心性 Cl[i]:ノード i の隣人間に存在しうる最大エッ ジ数に対して、実際に何本のエッジが存在するかを表す割合。 距離中心性 Cc[i]: CC i 1 N 1 139 d ij j i 第 5 章 引用情報を用いた将来の被引用数予測 媒介中心性 Bc[i]: B c i i st s i t V st 引用関係ネットワークにおいては、共引用関係にある論文を引用している論 文は Cl[i]が高く、広い話題を扱っている論文は距離中心性が高く、それまで結 合していなかった論文同士を結合している論文であると考えられる。 また、距離中心性を算出するアルゴリズムを「付録 B:距離中心性(Closeness Centrality)算出のアルゴリズム」に、媒介中心性を算出するアルゴリズムを「付 録 C:媒介中心性(Betweenness Centrality)算出のアルゴリズム」に示す。 以下では、t 年における、クラスタリング中心性(clustering centrality)、距離 中心性(closeness centrality)、媒介中心性(betweenness centrality)、被引用数(times cited)、年齢(age)をそれぞれ、Cl(t), Cc(t), Bc(t), TC(t), Age(t)と書くこととする。 また、変数 A と変数 B の相関係数を COR[A, B].と書くことにする。 5.3. 結果 5.3.1. ガリウム・ナイトライド分野の結果 はじめに、ガリウム・ナイトライド分野における TC(t+m)と Cl(t), Cc(t), Bc(t), TC(t), Age(t)の相関分析の結果を図 5-4 に示す。たとえば、図 5-4 (a)においては、 t=1992, m は 1(t+m=1993)から 12(t+m=2004)までの場合の相関係数が描かれてい る。 ガリウム・ナイトライド分野においては、TC(t+m)は主に TC(t)と Bc(t)によっ て決まると言えるが、学術分野の発展段階に応じて 2 種類のトレンドがあると 言える。一つ目は early stage 以前(1992 年から 1994 年)で、もう一つは expansion stage 以降(1995 年以降)である。initial stage や early stage においては、COR[TC(t), 140 第 5 章 引用情報を用いた将来の被引用数予測 TC(t+m)] が小 さい m に対し ては最大 で ある が、m が大きくなるにつ れ て COR[TC(t), TC(t+m)]は小さくなる。他方、COR[Bc(t) , TC(t+m)]は大きな m の場 合に最大である。たとえば、図 5-4 (a)を見ると、COR[TC(1992), TC(1993)] > COR[Bc(1992), TC(1993)]であるが、COR[TC(1992), TC(2000)] < COR[Bc(1992), TC(2000)]である。また、expansion stage や maturation stage においては、m に依 ら ず COR[TC(t), TC(t+m)]が 最大 である。た と えば 、図 5-4 (d)を見る と 、 COR[TC(1995), TC(1995+m)]は m に依らず最大である。故に、expansion stage 以 降においては、TC(t)が TC(t+m)を最もよく説明する変数であるが、initial stage や early stage においては、TC(t)は m が小さい時のみ有効であり、m が大きい場 合は Bc(t)が TC(t+m)を最もよく説明する変数である。 次に、TC(t+m)と他の 3 変数(Cl(t), Cc(t), Age(t))の相関関係について述べる。 最初に、COR[Cl(t), TC(t+m)]は、小さい m に対して負で絶対値が小さく、大き い m に対してはゼロに近くなる。また、early stage 以前においては expansion stage 以降よりも、COR[Cl(t), TC(t+m))]の絶対値は大きくなる。次に、COR[Cc(t), TC(t+m)]は COR[TC(t), TC(t+m)]をちょうど正負を反転させたような形になる。 COR[Cc(t), TC(t+m)]の絶対値は、expansion stage 以降よりも early stage 以前の方 が大きい。最後に、COR[Age(t), TC(t+m)]も学術分野の発展段階に応じて 2 つに 分類できる。Early stage 以前では、小さい m に対して COR[Age(t), TC(t+m)]は正 で小さく、大きい m に対しては負で絶対値が小さい。Expansion stage 以降にお いては、COR[Age(t), TC(t+m)]は m が大きくなるにつれてゼロに近づく。 141 第 5 章 引用情報を用いた将来の被引用数予測 図 5-4 ガリウム・ナイトライド分野における相関分析 (図 5-4 は、TC(t+m)と Cl(t), Cc(t), Bc(t), TC(t), Age(t)の相関分析の結果を表す。 それぞれ、(a)1992, (b)1993, (c)1994, (d)1995 における相関係数を表す。また、凡 例は Cl(t):●、Cc(t):△、Bc(t):▲、TC(t):■、Age(t):□である。) 5.3.2. 複雑ネットワーク分野の結果 次に、複雑ネットワーク分野における TC(t+m)と Cl(t), Cc(t), Bc(t), TC(t), Age(t) の相関分析の結果を図 5-5 に示す。1998 年までの期間は、ガリウム・ナイトラ イド分野の expansion stage や maturation stage に非常によく似ている。たとえば、 図 5-4(f)と図 5-5(c)を比べると、これらの 2 つが似ていることは明らかである。 142 第 5 章 引用情報を用いた将来の被引用数予測 ところが、1999 年以降は 5 つの変数の TC(t+m)への影響が、特に大きな m に対 しては、それ以前よりも小さくなる。まるで、1998 年までの安定した状況下で、 突然変異が起こったかのようである。 図 5-5 複雑ネットワーク分野における相関分析 (図 5-5 は、TC(t+m)と Cl(t), Cc(t), Bc(t), TC(t), Age(t)の相関分析の結果を表す。 それぞれ、(a)1994, (b)1996, (c)1998, (d)1999 における相関係数を表す。また、凡 例は図 5-4 に同じである。) 143 第 5 章 引用情報を用いた将来の被引用数予測 5.4. 考察 5.4.1. ガリウム・ナイトライド分野の考察 はじめに、ガリウム・ナイトライド分野の場合を考察する。上述の通り、 TC(t+m)へ影響を与える変数は、学術分野の発展段階によって異なる。知識の量 が劇的に増加する expansion stage 以降においては、TC(t+m)は主に TC(t)で説明さ れる。この傾向は、既存研究の結果とも合致する。科学計量学の分野では、Adams が、イングランドで出版された論文を分析し、出版直後 2 年間に獲得する引用 数がその後の引用数にも強く影響するということを示した(Adams, 2005)。また、 複雑ネットワークの分野では、Barabási らは、”preferential attachment”というネッ トワークの成長モデルを提唱した(Barabási & Albert, 1999)。このモデルにおいて は、あるノードが単位時間あたりに得るエッジ数は、現在そのノードが持つエ ッジ数に比例するというものであり、d(TC(t))/dt ~ TC(t)と表現できる。つまり、 現在までに獲得した被引用数と将来引用を獲得する引用数の間には強い正の循 環が見られるということだ。実際、図 5-4 を見ると、maturation stage において は COR[TC(t), TC(t+m)]が最大であるが、これは maturation stage 頃になると個々 の論文への評価が概ね固まってくるからであると考えられる。 しかし、early stage 以前では、大きい m に対して COR[Bc(t), TC(t+m)]が COR[TC(t), TC(t+m)]よりも大きいということは驚くべき結果であった。また、m が大きくなるにつれて、COR[Bc(t), TC(t+m)]が大きくなるという事実によって、 トポロジカルな中心性で被引用数を説明しようという試みの可能性が示された とも言えるだろう。Barthélemy がは”preferential attachment”モデルで生成された スケールフリーネットワークにおいては、媒介中心性もスケールフリーの特徴 を持つことを示し、BC(t)は TC(t)と強い相関関係にあることを示した。ここでは さらに、トポロジーの動的な成長を考察することで、大きい m に対して、BC(t) は TC(t+m)と強い相関関係にあることが示せたことになる。以下では、媒介中心 性が大きい論文が遠い将来に多くの引用を獲得するメカニズムを考察する。上 144 第 5 章 引用情報を用いた将来の被引用数予測 述の通り、媒介中心性というのは、そのノードが他ノード間の最短パスに含ま れるかということを表す指標であり、ネットワークを通して情報が広がる際に どの程度影響力があるのか、ということを表していると解釈できる。従って、 媒介中心性が高い論文は、お互いに疎に結びついていた学術分野間を繋ぐ役割 を果たしていると言える。つまり、early stage において、被引用数は少ないが、 既存のお互いに結びついていない学術分野を結びつけるような論文は、将来多 くの引用を獲得する傾向にあるということだ。実際、図 5-6 のようにネットワ ーク構造を可視化すると TC(2000)と Bc(1992)が強い相関関係にあることは視覚 的にも明らかになる。被引用数というのは、あるノードの隣人からの引用しか 考慮されないのに対して、媒介中心性というのはネットワークのマクロ構造か ら計算されるものであり、遠い将来を予測するにはより良い指標であると言え る。 145 第 5 章 引用情報を用いた将来の被引用数予測 図 5-6 ガリウム・ナイトライド分野のネットワーク構造(2000 年) (図中では、2000 年までの被引用数が 100 以上の論文のみが描画されている。 丸の大きさは 2000 年までの被引用数の相対値を表し、丸の色は 1992 年時点で の媒介中心性の相対値を表す。白丸の論文は 1992 年時点では存在しなかった論 文、白灰色の論文は 1992 年時点での媒介中心性が 0.01 未満であった論文、黒灰 色の論文は 1992 年時点での媒介中心性が 0.01 以上 0.02 未満であった論文、黒 色の論文は 1992 年時点での媒介中心性が 0.02 以上であった論文を表す。ネット ワーク構造の可視化には、”pajek”というネットワーク分析ソフトウェアを用い た。可視化のアルゴリズムは、“Kamada-Kawai spring layout method(以下、「KK 法」とする。詳細は「付録 A:可視化のアルゴリズム」を参照のこと。)”を用い た。このアルゴリズムの詳細は「付録 A:可視化のアルゴリズム」に記すが、 エッジ上にばねを配置しネットワーク全体でのエネルギーを最小にするように 146 第 5 章 引用情報を用いた将来の被引用数予測 座標を決定するというアルゴリズムである。) 次に、残りの 3 変数との相関について考察する。第一に、COR[Cl(t), TC(t+m)] は負で絶対値が小さい。強くクラスタリングしている論文群は狭い範囲のトピ ックを扱っているため、将来の被引用数には負の影響をもたらすという考察が 可能であろう。媒介中心性が高い論文は異なる学術分野に橋をかけ、将来多く の引用を得るのに対して、クラスタリング中心性が高い論文は狭いトピックを 扱い、あまり多くの引用を得ないという結果は非常に対照的である。第二に、 COR[Cc(t), TC(t+m)]は COR[TC(t), TC(t+m)]と正反対である。距離中心性が小さ い論文は、他論文へのパス長という意味で中心に位置する論文であり、一般的 に 被 引用 が多い 論文は距離中 心性が 小さい。 故に 、COR[Cc(t), TC(t+m)] と COR[TC(t), TC(t+m)] は似 た 傾 向 を 持 つ と考 え ら れ る 。 し か し 、 COR[Cc(t), TC(t+m)]の絶対値は COR[TC(t), TC(t+m)]よりも小さいため、Cc(t)は Tc(t)よりも TC(t+m)に小さい影響しか与えていないことが分かる。第三に、年齢は遠い将来 の予測には適さないが、近い将来の予測には有用であると言える。Expansion stage や maturation stage に出版された論文は、initial stage に出版された論文だけ ではなく、early stage に出版された論文も引用する。そして、COR[Age(t), TC(t+m)] が maturation stage において正であるということから、maturation stage に出版さ れた論文から見れば、initial stage の論文の年齢と early stage の論文の年齢に差が ないということであろう。 5.4.2. 複雑ネットワーク分野の考察 ガリウム・ナイトライド分野に続き、本項では複雑ネットワーク分野の結果 について考察する。図 5-5 に示したように、1998 年以前の相関係数はガリウム・ ナイトライド分野の expansion stage か maturation stage に似ている。しかし、1998 年以降、全ての指標が TC(t+m)に与える影響が急激にゼロに近づく。何故、この 現象が起こったのであろうか。図 5-7 は 2004 年時点での複雑ネットワーク分野 147 第 5 章 引用情報を用いた将来の被引用数予測 の被引用数が 70 以上の論文を可視化したものである。図 5-7 を見れば明らかな ように、物理学系の論文と社会学系の論文の間に、(被引用数が 70 以上の)ハ ブ論文は存在しない。図 5-8 は 2001 年時点での複雑ネットワーク分野の被引用 数が 5 以上の論文を可視化したものである。図 5-8 を見れば Watts, 1998 と Freeman, 1979 の間には「弱い紐帯(weak tie)」を作り出す Valente, 1996 のような 存在があることが分かる。表 5-1 に示したように、Freeman, 1979 <- Valente, 1996 <- Newman, 1999 <- Watts, 1998 という一連の直接引用のつながりは、論文を読め ば、意味的なつながりはある。しかし、Valente, 1996 は多くの引用を獲得するこ となく、ハブ論文ではない。 つまり、図 5-9 に示したように、社会学論文群と物理学論文群の間には、 「弱 い紐帯(weak tie)」しか存在しない。2 つの論文群を仲介している論文は、多くの 引用を獲得するハブ論文ではない。社会学論文群の主たるハブ論文は、1998 年 以前に出版されたものであり、物理学論文群の主たるハブ論文は 1998 年以後に 出版されたものである。そこで、我々は図 5-10 に示したように 1998 年に全く 新しい学術分野が誕生したとの仮説を立て、1998 年以降に出版された論文のみ を対象として再度分析を行った。その相関分析の結果を図 5-11 に示す。この図 5-11 の相関係数は、ガリウム・ナイトライド分野の initial stage や early stage に 似ている。実際、1998 年以降に出版された論文群から成る「新しい学術分野」 では、小さい m に対しては、TC(t)が TC(t+m)を最もよく説明する変数であり、 大きい m に対しては、Bc(t)が TC(t+m)を最もよく説明する変数である。 148 第 5 章 引用情報を用いた将来の被引用数予測 図 5-7 複雑ネットワーク分野のネットワーク構造(2004 年) (2004 年時点での被引用数が 70 以上の論文のみ KK 法で描画。丸の大きさは 2004 年までの被引用数の相対値を表す。) 149 第 5 章 引用情報を用いた将来の被引用数予測 図 5-8 複雑ネットワーク分野のネットワーク構造(2001 年) (2001 年時点での被引用数が 5 以上の論文のみ KK 法で描画。丸の大きさは 2001 年までの被引用数の相対値を表す。括弧内の数字は 2001 年時点での被引用 数) 150 第 5 章 引用情報を用いた将来の被引用数予測 表 5-1 複雑ネットワーク分野(2001 年)の引用関係例 Paper 被 引 用 数 Title (2001) Freeman, 1979 109 CENTRALITY NETWORKS CLARIFICATION Valente, 1996 6 Social network thresholds diffusion of innovations in the SOCIAL NETWORKS Newman, 1999 25 Scaling and percolation small-world network model in the PHYSICAL REVIEW E Watts, 1998 129 Collective dynamics of 'small-world' NATURE networks 図 5-9 Journal IN SOCIAL SOCIAL CONCEPTUAL NETWORKS 複雑ネットワーク分野のネットワーク構造のモデル図 図 5-10 新興論文群のみの抽出方法 151 第 5 章 引用情報を用いた将来の被引用数予測 図 5-11 複雑ネットワーク分野における相関分析(1998 年以降のデータのみ) (図 5-11 は、TC(t+m)と Cl(t), Cc(t), Bc(t), TC(t), Age(t)の相関分析の結果を表す。 それぞれ、(a)1999, (b)2000 における相関係数を表す。また、凡例は図 5-4 に同 じである。) 5.4.3. 漸進的イノベーション、急進的イノベーションにおける将来の被 引用数予測 前章までで述べたようにガリウム・ナイトライド分野と複雑ネットワーク分 野のトポロジー(引用ネットワークの構造)は異なる。前者は論文群が一つの 塊のように密に結合しあって成長する漸進的イノベーションであり、後者は論 文群の塊同士が疎に結合している急進的イノベーションである。漸進的イノベ ーションが起こっている分野では、現在の被引用数が近い将来の被引用数に影 響を与え、媒介中心性が遠い将来の被引用数に影響を与えるということが本研 究で明らかになった。他方、図 5-12 に示すように、急進的イノベーションが起 こっている分野では、必ずしも分野間の架け橋となる論文が将来引用を獲得す 152 第 5 章 引用情報を用いた将来の被引用数予測 るわけではないため、上記の法則が成り立たず、相関係数がゼロに近づく。こ れは複雑ネットワーク分野において、活発に研究されている領域が社会学から 物理学へと移行したからであり、その間には壁が存在する。急進的イノベーシ ョンから漸進的イノベーションを抽出することで、被引用数と媒介中心性が将 来の引用行動を予測し、イノベーションの中核となる論文の発見を行うことが できる。 図 5-12 漸進的イノベーションと急進的イノベーション なお、本章では、被引用数の予測自体もまだ研究の余地があったためにまず は被引用数の予測を行ったが、本章の応用として、被引用数予測だけではなく、 被引用数の微分値(増加分)の予測も重要であると考えられる。 153 第 6 章 考察 第6章 考察 6.1. テキスト情報を用いた新興論文群の発見 6.1.1. 本節の目的 前章まででは引用ネットワークの分析を行った。2 章では、3 つの引用分析の 評価を行い、新興学術分野の発見には直接引用が適していることを示した。3 章 では、直接引用を用いた引用分析を行うことで、イノベーションの種別の判定、 新興学術分野の発見のための方法論を示し、4 章では将来の中核論文の発見を行 う方法論を提案した。 しかし、引用分析 1)引用までのタイムラグが発生する、2)論文が出版されたか ら、引用をある一定数獲得するまでに 1∼2 年はかかる、3)引用の恣意性、4)分 野が違いすぎると、似た内容を研究しているにも関わらず、互いに引用しない 場合もあるという課題がある。 そこで本章では、論文のテキスト情報を用いた分析によって引用分析を補う ことができないだろうかと考えた。内容が似ている論文同士は、似た語を用い ているはずであり、新興分野では、既存分野では使われていなかった新しい語 を用いた記述がされるはずであるという仮説の元、本節ではテキスト情報を用 い、急進的イノベーションを発見する方法論の構築を試みる。 6.1.2. テキスト情報を用いた新興論文群の発見に関する研究手法 特徴語と共起情報を用いた新興論文群発見の分析に際しては、図 6-1 に示し 154 第 6 章 考察 た通り、以下のステップによって行われる。 (1)学術論文 DB より、検索クエリを用いて学術論文データを取得 (2)y 年までに出版された各論文のアブストラクトから NC-Value 法で名詞 (句)を抽出 (3)抽出した特徴語のうち、複合語以外は除去。 (4)複合語のみから成る語の共起ネットワーク T(y)を生成 (5)T(y)の最大連結成分 TL(y)を生成 (6)トポロジカルなクラスタリング手法によってクラスターに分割 (7)可視化、計量分析、エキスパートによる判断 図 6-1 特徴語と共起情報を用いた新興論文群発見の分析手法 155 第 6 章 考察 6.1.2.1. 自然言語処理を用いた特徴語抽出 本章では、学術論文の概要(アブストラクト)を用い、アブストラクトから NC-Value 法(2.3.6 自然言語処理によるトピック抽出方法)を用いて重要用語を 抽出する。各論文のアブストラクトから、特徴語を抽出した後、複合語のみを 当該論文の特徴語する。複合語のみを扱うのは、一般語を除去するためである。 一般語が多く含まれた共起ネットワークでは、一般語が強いハブになりすぎて しまい、クラスタリングが有効に作用しないことが明白であるからである。近 年のように学術領域が専門化、細分化されてくると、多くの専門用語は複合語 であるみなすことができる。たとえば、” Watts & Strogatz, Nature, 1998”のアブス トラクトの一部は、図 6-2 の通りである。この文から NC-Value 法によって抽出 さ れ た 特 徴 語 は 、 Networks, dynamical systems, model biological oscillators, Josephson junction arrays, media, neural networks, game, control network, self となる が、このうち複合語のみを当該論文の特徴語として扱うため、dynamical systems, model biological oscillators, Josephson junction arrays, neural networks, control network のみが当該文の特徴語ということになる。 Networks of coupled dynamical systems have been used to model biological oscillators(1-4), Josephson junction arrays(5,6), excitable media(7), neural networks(8-10), spatial games(11), genetic control networks(12) and many other self-organizing systems. 図 6-2 “Watts & Strogatz, Nature, 1998”のアブストラクトの一部 6.1.2.2. 共起ネットワークの生成とクラスタリング 各論文から特徴語が抽出できた後、語句の共起ネットワークを作成する。同 156 第 6 章 考察 じ論文中に出てくる語句同士(共起関係にある語句同士)には、何らかの関係 があると考え、無向リンクを貼る。ここでは、特徴語集合 T の各語 i と j が 1 論 文以上で共起していれば、i と j の間に(無向)リンクを張り、年ごとに共起ネ ットワーク G(y)を生成する。その後、年ごとに G(y)の最大連結成分を取り、GL(y) とする。 クラスタリングは、 「2.3.3 トポロジカルなクラスタリング手法」と同じ手法を 用い、年ごとに共起ネットワークをクラスタリングによってクラスターに分割 した。 6.1.2.3. クラスタリング結果の検証 クラスタリング結果が出た後、1)各クラスターの語句が意味的なまとまりに分 類されているかどうかをエキスパートが確認、2)エキスパートが各クラスターに クラスター名を付け、3)各クラスターに含まれる語を含む論文を抽出し、各クラ スターの平均出版年等から新興学術分野発見に有効かどうかを確認するという ことをエキスパートが行う。 6.1.3. テキスト情報を用いた新興論文群の発見に関する結果 語句の共起ネットワークのノード数、エッジ数を図 6-3 に、語句の共起ネッ トワークの Qmax の推移を図 6-4 に示す。複雑ネットワーク分野のノード数、 エッジ数に比べて、ガリウム・ナイトライド分野のそれらは著しく少ない。こ の理由は 2 つ考えられる。一つ目は、ガリウム・ナイトライド分野は 1990 年頃 に early stage であり立ち上がったばかりの分野であったのに対し、複雑ネットワ ーク分野は 1998 年以前も社会学系の研究が多数存在していたただだと思われる。 二つ目は、ISI のデータに 1990 年以前の論文のアブストラクトのデータが含ま 157 第 6 章 考察 れていないものが多いという点である。1990 年以前は、学術論文が電子的にも 出版されていなかったため、アブストラクトのデータが欠損している可能性が ある。クラスタリング時の Qmax のデータを見る限り、共起ネットワークの Q 値は 0.7 程度と比較的高く、共起ネットワークは globally sparse, locally dense な 構造を有していることがわかる。 #nodes 25000 20000 15000 10000 5000 0 1990 1992 1994 1996 1998 2000 2002 2004 1990 1992 1994 1996 1998 2000 20 02 2004 #edges [ 10 5 ] 2 1 0 図 6-3 語句の共起ネットワークのノード数、エッジ数 (それぞれ、凡例はガリウム・ナイトライド分野:●、複雑ネットワーク分 野:△) 158 第 6 章 考察 Qmax 1 0.8 0.6 0.4 0.2 0 図 6-4 1990 1992 1994 1996 1998 2000 2002 2004 語句の共起ネットワークの Qmax の推移 (それぞれ、凡例はガリウム・ナイトライド分野:●、複雑ネットワーク分 野:△) 続いて、ガリウム・ナイトライド分野の語句の共起ネットワークのクラスタ リング結果(クラスターサイズと平均出版年)を図 6-5 に、複雑ネットワーク 分野のそれを図 6-6 に示す。語の平均出版年は、その語が出現する論文の出版 年齢の平均で計算され、クラスターの平均出版年は、クラスター内の語の平均 出版年の平均で計算される。両分野とも、語の平均出版年に差がなかった。た とえば、図 6-5 の(a-2)においては比較的サイズの大きいクラスターの平均出版 年は 1991 年から 1992 年の間に密集しており、図 6-6 の(b-2)においては比較的 サイズの大きい k るアスターの平均出版年は 1995 年から 1997 年の間に密集し ていた。つまり、平均出版年から、 「若い語を多く含むクラスター」を抽出する のは難しいと言える。 159 第 6 章 考察 図 6-5 ガリウム・ナイトライド分野の語句の共起ネットワークのクラスタリン グ結果(クラスターサイズと平均出版年) (それぞれ、a-1, a-2, a-3, a-4 は 1991 年、1992 年、1993 年、1994 年を表す。) 160 第 6 章 考察 図 6-6 複雑ネットワーク分野の語句の共起ネットワークのクラスタリング結 果(クラスターサイズと平均出版年) (それぞれ、b-1, b-2, b-3, b-4 は 1998 年、1999 年、2000 年、2001 年を表す。) 図 6-7 にクラスターの時系列での発展の様子を、表 6-1、表 6-2、 表 6-3 に それぞれガリウム・ナイトライド分野(1992 年)、複雑ネットワーク分野(1999 年)、 複雑ネットワーク分野(2000 年)のクラスタリング結果の詳細を示す。 表 6-1 のガリウム・ナイトライド分野の 1992 年時点でのクラスタリング結果 を見ると、クラスターごとに意味のまとまりのある語句が分類された。しかし、 最大クラスターが本分野の一般的な語を含み、主要論文もほぼこのクラスター に含まれており、時系列での統合関係を見ても、意味のある結果とは言い難か った。 161 第 6 章 考察 続いて、複雑ネットワーク分野の 1999 年時点(表 6-2)、2000 年時点(表 6-3) でのクラスタリング結果を見ると、クラスターごとに意味のまとまりのある語 句が分類された。1999 年の id=4, 10 は共に物理系の語を含み、物理系の重要論 文を含むクラスターであったが、2000 年の id=6 に統合された。また、2000 年の id=6 には物理系の重要論文も集約されていた。また、1999 年の id=16 の語を 2 語以上含む論文(表 6-4)は、全て、引用ネットワークでは最大連結成分から漏 れていた論文であった。2001 年に物理系の語群と統合される。 162 第 6 章 考察 図 6-7 各クラスターの時系列での発展の様子 (○がクラスターを表し、○の大きさが相対的なクラスターの大きさを表す。 (a):ガリウム・ナイトライド分野、(b):複雑ネットワーク分野。t 年におけるク ラスターi から t+1 年におけるクラスターj へのパーセンテージは、[クラスターi の論文のうちクラスターj に移った論文数] / [クラスターi の論文数]で計算され る。ガリウム・ナイトライド分野ではクラスターサイズが 50 以上、複雑ネット ワーク分野では 100 以上のクラスターのみを描画。矢印はパーセンテージが 33% 以上のもののみを描画。) 163 第 6 章 考察 表 6-1 id #terms ave. year visualization ガリウム・ナイトライド分野(1992 年)のクラスタリング CLUSTER NAME CORE PAPERS terms 1 121 1991.45 general Nakamura 全論 GaN film(1991, 17, 9, 67 / 119), room temperature(1991, 文 , Amano, 15, 9, 48 / 126), vapor deposition(1991, 15, 10, 49 / 130), gallium nitride(1990, 11, 6, 34 / 94), 50-degrees(1991, 8, 3, Akasaki 論文 24 / 78), 2 69 1991.42 band structure - phonon mode(1992, 2, , 9 / 11), pressure dependence(1992, 2, , 9 / 10), absorption spectroscopy(1992, 2, , 12 / 15), I-V(1991, 3, 2, 22 / 34), conduction band(1991, 3, 2, 20 / 41), 164 第 6 章 考察 3 66 1991.33 structure - GaAs substrate(1991, 6, 3, 25 / 32), N source(1992, 2, , 7 / 7), vapor phase epitaxy(1992, 2, , 6 / 16), lattice constant(1991, 3, 1, 12 / 21), GaAs multilayers(1992, 2, , 7 / 7), 4 64 1991.65 - - wurtzite structure(1991, 5, 1, 36 / 68), ground state(1992, 2, , 16 / 18), aluminum nitride(1991, 2, 1, 13 / 18), X-ray diffraction(1991, 2, 1, 18 / 25), boron nitride(1991, 2, 1, 21 / 24), 5 55 1991.65 - - band edge(1992, 2, , 15 / 16), growth temperature(1991, 3, 1, 28 / 40), nitrogen vacancy(1991, 2, 1, 21 / 24), carrier density(1991, 2, 1, 31 / 37), 165 第 6 章 考察 6 54 1991.24 - - low pressure(1991, 5, 1, 28 / 47), 80-degrees-C(1991, 4, 1, 11 / 29), substrate temperature(1991, 6, 4, 22 / 60), X-ray(1991, 2, 1, 8 / 25), x value(1991, 2, 1, 15 / 16), クラスターサイズ(特徴語数)が 50 以上のクラスターのみを表示。 表中の CLUSTER NAME 列(左から 5 つ目の列)はエキスパートによって名付けられたクラスター名。 表中の terms 列(最も右の列)の各語の括弧の中の数字は、順に、各語が登場する論文の平均出版年、各語の出現論文数、1 年前の各語の出現論文数、当該語が持つクラスター内エッジ数、当該語の全エッジ数。 166 第 6 章 考察 表 6-2 id #terms ave. year visualization 複雑ネットワーク分野(1999 年)のクラスタリング CLUSTER NAME 1 3,488 1996.03 [general] 2 2,548 1995.47 material complex CORE PAPERS - terms social network(1990, 337, 286, 1297 / 2492), social support(1991, 146, 124, 864 / 1071), well-being(1991, 70, 53, 426 / 553), family members(1991, 52, 39, 263 / 417), marital status(1991, 37, 27, 274 / 347), & Newman & Watts, random network(1990, 75, 62, 425 / 599), respect PHYSICAL to(1991, 40, 31, 145 / 415), network model(1991, 42, REVIEW E, 1999; 34, 288 / 460), American Institute(1995, 15, 9, 124 / Newman & Watts, 124), power spectrum(1991, 27, 21, 236 / 250), PHYSICS LETTERS A, 1999; 3 1,648 1996.00 infection - network analysis(1992, 38, 31, 170 / 237), case study(1991, 32, 25, 87 / 288), inject drug user(1993, 22, 16, 219 / 270), network theory(1991, 24, 19, 69 / 194), drug use(1990, 29, 24, 160 / 322), 167 第 6 章 考察 4 640 1996.32 neural complex & Watts & Strogatz, neural network(1991, 12, 7, 96 / 130), artificial neural Nature, 1998; network(1999, 2, , 26 / 28), complexity theory(1999, 2, , 6 / 35), cost effectiveness(1995, 3, 1, 18 / 20), policy network(1995, 5, 3, 38 / 41), 5 588 1995.78 employee - unemployment rate(1994, 3, 1, 28 / 34), market economy(1998, 3, 1, 14 / 30), economic theory(1995, 5, 3, 28 / 30), young people(1999, 2, , 3 / 5), unemployment concentration(1999, 2, , 3 / 5), 6 583 1995.61 trade/policy - decision making(1991, 13, 9, 55 / 102), group members(1992, 9, 5, 45 / 65), relationship development(1999, 2, , 13 / 15), network organization(1999, 2, , 16 / 18), social support network(1992, 3, 1, 16 / 20), 7 512 1995.80 classroom - social movement(1992, 10, 8, 26 / 57), research result(1997, 2, 1, 12 / 15), natural science(1998, 2, 1, 12 / 17), classroom interaction(1998, 2, 1, 32 / 34), telephone survey(1995, 3, 2, 38 / 49), 168 第 6 章 考察 8 305 1996.44 substance abuse - climate change(1999, 2, , 21 / 22), percolation path(1999, 2, , 18 / 19), power law frequency response(1999, 2, , 18 / 19), self-organization(1992, 5, 3, 33 / 38), staff member(1993, 3, 2, 19 / 27), 9 300 1996.26 material - normal conductor(1999, 2, , 22 / 24), phase transition(1991, 14, 12, 110 / 123), crossover electric field(1999, 2, , 22 / 24), lamellar phase(1991, 2, 1, 38 / 39), current density(1996, 2, 1, 30 / 31), 10 200 1995.58 web complex 11 186 1996.75 - & Barabasi & Albert, SCIENCE, 1999; Barabasi, Albert & Jeong, PHYSICA A, 1999 - path length(1999, 3, , 18 / 22), law distribution(1993, 3, 1, 13 / 42), World Wide Web(1997, 3, 1, 20 / 20), search engine(1997, 2, 1, 14 / 14), computing time(1996, 2, 1, 15 / 21), network tie(1992, 5, 3, 36 / 47), material resource(1998, 3, 1, 21 / 25), strong interaction(1999, 2, , 20 / 21), alliance formation(1995, 3, 1, 20 / 21), labor force(1993, 2, 1, 15 / 23), 169 第 6 章 考察 12 169 1995.21 physics - scale free(1992, 5, 3, 51 / 56), scale model(1991, 2, 1, 25 / 26), luster analysis(1993, 3, 2, 28 / 35), bulk phase Monte Carlo simulation technique(1994, 2, 2, 27 / 30), exponential function(1993, 2, 2, 33 / 36), 13 146 1995.18 - - public service(1991, 3, 2, 27 / 37), population size(1995, 3, 2, 18 / 20), network delay(1996, 3, 3, 40 / 41), third party(1991, 2, 2, 29 / 32), state machine(1995, 2, 2, 23 / 23), 14 138 1995.18 - - youth subculture(1995, 2, 1, 11 / 14), programming formulation(1996, 2, 1, 27 / 30), decision process(1993, 2, 1, 30 / 32), design approach(1990, 2, 1, 23 / 25), system design(1993, 2, 2, 24 / 25), 15 111 1995.64 - - manufacturing system(1998, 2, 1, 29 / 32), signaling network(1994, 2, 1, 6 / 6), distribution system(1992, 2, 2, 18 / 20), admission control(1997, 2, 2, 19 / 19), optimization problem(1991, 2, 2, 15 / 15), 170 第 6 章 考察 16 103 1996.73 gene - gene expression(1993, 5, 3, 58 / 61), transduction pathway(1998, 2, 1, 39 / 40), actin cytoskeleton(1995, 2, 1, 17 / 19), epithelial cell(1993, 2, 1, 33 / 34), intracellular signal(1993, 2, 2, 22 / 23), クラスターサイズ(特徴語数)が 100 以上のクラスターのみを表示。 表中の CLUSTER NAME 列(左から 5 つ目の列)はエキスパートによって名付けられたクラスター名。 表中の terms 列(最も右の列)の各語の括弧の中の数字は、順に、各語が登場する論文の平均出版年、各語の出現論文数、1 年前の各語の出現論文数、当該語が持つクラスター内エッジ数、当該語の全エッジ数。 171 第 6 章 考察 表 6-3 id #terms ave. year visualization 複雑ネットワーク分野(2000 年)のクラスタリング CLUSTER NAME CORE PAPERS terms 1 3,977 1996.48 [general] - social network(1990, 394, 337, 1474 / 2858), social support(1991, 163, 146, 976 / 1212), well-being(1991, 80, 70, 444 / 605), gender difference(1992, 33, 23, 182 / 245), respect to(1991, 48, 40, 158 / 469), 2 2,233 1996.03 material - random network(1990, 88, 75, 602 / 709), phase transition(1991, 19, 14, 91 / 151), correlation function(1990, 23, 19, 112 / 239), percolation threshold(1991, 14, 10, 115 / 155), American Institute(1995, 18, 15, 121 / 137), 3 2,104 1996.78 infection, complex - case study(1991, 41, 32, 131 / 366), network structure(1990, 51, 45, 111 / 456), New York(1995, 12, 6, 75 / 143), network analysis(1992, 43, 38, 178 / 252), World Wide Web(1997, 8, 3, 20 / 52), 172 第 6 章 考察 4 1,179 1995.98 material - power spectrum(1991, 33, 27, 273 / 304), body simulation(1991, 24, 19, 252 / 264), density profile(1993, 13, 9, 148 / 157), angular momentum(1991, 11, 8, 98 / 101), clustering properties(1993, 5, 2, 66 / 73), 5 1,140 1996.73 employee - labor market(1992, 13, 9, 94 / 161), social capital(1998, 6, 2, 32 / 46), electronic mail(1995, 5, 3, 34 / 52), social network tie(1992, 6, 4, 31 / 36), network tie(1992, 7, 5, 49 / 60), 6 1,059 1996.78 complex networks Watts & Strogatz, NATURE, 1998; Newman & Watts, PHYSICS LETTERS A, 1999; Newman & Watts, PHYSICAL REVIEW E, 1999; Newman, Moore & Watts, PHYSICAL REVIEW LETTERS, 2000; Barabasi & Albert, NATURE, complex network(1990, 16, 12, 111 / 167), length scale(1992, 6, 3, 47 / 52), Academic Press(1994, 21, 18, 124 / 220), information network(1993, 4, 2, 17 / 20), fire neuron(2000, 2, , 23 / 25), 173 第 6 章 考察 2000; Albert, Jeong & Barabasi, NATURE, 2000; Barabasi, Albert & Jeong, PHYSICA A, 2000 7 604 1996.78 - - network theory(1991, 27, 24, 144 / 217), group members(1992, 11, 9, 51 / 81), treatment setting(1994, 3, 1, 32 / 43), team member(2000, 2, , 20 / 22), working relationship(1995, 2, 1, 19 / 22), 8 503 1996.58 - - using social network(1995, 3, 1, 26 / 33), emerge out(2000, 2, , 14 / 15), participant observation(1995, 10, 8, 76 / 102), personality variable(1992, 3, 1, 24 / 29), using information(1998, 2, 1, 6 / 8), 9 324 1995.59 - - third party(1991, 4, 2, 36 / 45), Using information(1995, 3, 2, 22 / 23), Social Network Scale(1996, 2, 1, 10 / 14), family group(1995, 3, 3, 22 / 28), public service(1991, 3, 3, 15 / 37), 174 第 6 章 考察 10 277 1996.35 - - drug abuse(1992, 4, 3, 23 / 32), nursing home resident(1992, 4, 3, 11 / 14), co-operation(1995, 4, 3, 37 / 44), family violence(1993, 2, 1, 15 / 22), alcoholism treatment(1996, 3, 2, 22 / 33), 11 144 1995.44 - - separation process(1993, 2, 1, 17 / 20), function model(1999, 2, 1, 14 / 19), imaginary part(1996, 2, 1, 15 / 19), line shape(1993, 2, 1, 26 / 30), water content(1996, 4, 3, 41 / 51), 12 104 1995.51 - - time scale(1992, 3, 2, 30 / 37), social construct(1999, 2, 1, 8 / 11), dialect contact(1997, 2, 1, 16 / 18), oscillation frequency(1993, 2, 2, 26 / 32), time-dependent(1993, 2, 2, 22 / 29), 13 104 1996.35 - - stress response(1998, 2, 1, 20 / 20), transduction pathway(1998, 2, 2, 39 / 40), actin cytoskeleton(1995, 2, 2, 4 / 19), intracellular signal(1993, 2, 2, 23 / 23), gene expression(1993, 5, 5, 58 / 61), クラスターサイズ(特徴語数)が 100 以上のクラスターのみを表示。 175 第 6 章 考察 表中の CLUSTER NAME 列(左から 5 つ目の列)はエキスパートによって名付けられたクラスター名。 表中の terms 列(最も右の列)の各語の括弧の中の数字は、順に、各語が登場する論文の平均出版年、各語の出現論文数、1 年前の各語の出現論文数、当該語が持つクラスター内エッジ数、当該語の全エッジ数。 176 第 6 章 考察 表 6-4 複雑ネットワーク分野の 2000 年時点でのクラスター#16 の語を 2 語以 上含む論文群 Anisowicz, A; Sotiropoulou, G; Sager, R, MOLECULAR MEDICINE, 1999 Kultz, D; Burg, M, JOURNAL OF EXPERIMENTAL BIOLOGY, 1998 Goode, BL; Wong, JJ; Butty, AC; Peter, M; McCormack, AL; Yates, JR; Drubin, DG; Barnes, G, JOURNAL OF CELL BIOLOGY, 1999 Naor, Z; Shacham, S; Harris, D; Seger, R; Reiss, N, CELLULAR AND MOLECULAR NEUROBIOLOGY, 1995 Lehrach, H; Bancroft, D; Maier, E, INTERDISCIPLINARY SCIENCE REVIEWS, 1997 BARTELS, H; POTTER, IC, CELL AND TISSUE RESEARCH, 1993 FOSTER, DA, MATHEMATICAL BIOSCIENCES, 1993 Bertorello, AM; Katz, AI, NEWS IN PHYSIOLOGICAL SCIENCES, 1995 Wu, Q; Maniatis, T, CELL, 1999 6.1.4. テキスト情報を用いた新興論文群の発見に関する考察 はじめに、クラスターの語の平均出版年を見ると、両分野とも語の平均出版 年に差がなかった。つまり、平均出版年から、「若い語を多く含むクラスター」 を抽出するのは難しかった。これは、若い語だけで共起することは無く、若い 語も必ず古い語と共起しているためであると考えられる。 クラスタリング結果を見ると、各クラスターごとに意味的にまとまりのある 語が分類されたことが分かる。ガリウム・ナイトライド分野では、全体の語数 が少なかった。また、Nakamura 論文の主な発明は、buffer layer(->GaN film quality), electron diffraction(->p-type doping)の 2 つだが、GaN film quality も p-type doping どちらも語としては既出のものであるため、主要な語が一つのクラスターにま とまった。複雑ネットワーク分野では、1999 年時点でもエキスパートの力を借 りれば、物理学の語句を含むクラスターが出現していることは発見できる。ま 177 第 6 章 考察 た、それらのクラスターは 2000 年には一つのクラスターに統合され、重要論文 も統合されているため、現実に合致する結果であったと言える。また、複雑ネ ットワーク分野での結果のように、語の共起ネットワークを分析することで、 引用には現れない意味的な論文群を抽出可能である。 テキスト情報を用いた共起ネットワークの複雑ネットワーク分野では、本研 究の目的を満たすことは難しかった。第一に、イノベーションの種別の判定は 難しかった。第二に、各クラスターは意味的なまとまりをなしていることは確 認されたが、新興学術分野の発見はエキスパートによらない限り難しかった。 というのは、 (引用分析の際とは異なり)各クラスターの平均出版年に差がなく、 指標だけを追跡して、新興学術分野の発見を行うのは難しかったためである。 エキスパートが各クラスターの語を見れば十分に、そのクラスターの語がそれ までにない新しい語群かどうかを判定することはできると考えられる。エキス パートによる判定までふまえれば、複雑ネットワーク分野では 1999 年時点で物 理学系の語句が独立したクラスターとして抽出され、物理系の重要論文もそれ らの語を含んでいた。引用分析では、最大連結成分に含まれない論文群も、語 句の共起ネットワークを用いることで、発見することができた。 178 第 6 章 考察 6.2. 考察 本研究では、学術論文の引用ネットワークを複雑ネットワーク分析すること で、急進的イノベーションの中核となる学術論文を早期に発見する方法論を提 案する。これを実現するために 3 つの目的を設定した。第一の目的は、漸進的 イノベーションと急進的イノベーションを判定する方法論を構築することであ り、第二の目的は、急進的イノベーションにおいて、新興学術分野を早期発見 する方法論を構築することであった。そして、第三の目的は、漸進的イノベー ションにおいて、将来中核となる論文を早期発見する方法論を構築することで あった。 現在、科学、社会科学の論文データベースの中で、最良なデータベースの一 つが Institute for Scientific Information (ISI)が提供しているデータベースであるが、 このデータベースからあらかじめ選定したクエリを用いて論文を検索、抽出す る。論文をノード、引用をエッジとみなし、引用ネットワークを生成し、その 最大連結成分をトポロジカルなクラスタリング手法によってクラスターに分割 し、分析した。また、各論文の引用ネットワーク中での中心性の分析も行った。 また、本研究では、既にイノベーションが起こったということが明らかな 2 つ の学術分野を選定し、ケーススタディを行った。一つ目の学術分野はガリウム・ ナイトライド分野である。ガリウム・ナイトライド分野は、応用物理学分野、 応用工学分野における突出したイノベーションの例として広く認識されており、 漸進的イノベーションが起こった分野であると考えられるため選定した。二つ 目は、複雑ネットワーク分野であり、当分野は近年新しい学術分野を切り開い た例として認識されている。複雑ネットワーク分野は上述のように元来、社会 学が中心であったが 1998 年以降、急激に物理学研究が増加しており、急進的イ ノベーションが起こった分野であると考えられるため選定した。 はじめに、第 3 章 引用分析の手法と評価では、直接引用(direct citation)、共引 179 第 6 章 考察 用(co-citation, Small, 1973)、書誌結合(bibliographic coupling, Kessler, 1963)という 主に 3 種類の引用のうちどの引用手法が最も新興学術分野の発見に適している かを分析した。3 種類の引用ネットワークを構築し、トポロジカルなクラスタリ ング手法でクラスターに分類し、あらかじめ定めた各分野の重要論文が含まれ るクラスターのパフォーマンスを”visibility(クラスターの相対的な大きさ)”, “speed(クラスター内論文の平均出版年齢)”, “topological relevance(クラスター 内のエッジ密度)”の 3 つで評価した。最良の引用分析手法は、より大きな新興 論文群をより早く発見できる直接引用であり、ワーストは共引用であった。共 引用が最も劣った理由は、共引用が生じるまでのタイムラグのせいであった。 直接引用と書誌結合を比べると、クラスター係数が直接引用の方が大きく、引 用で結ばれる論文間の意味的な類似度が最も高く、また重要論文が最大連結成 分に含まれないというリスクが最も小さかいため、直接引用が最良であると結 論づけられた。 第 4 章 引用情報を用いた新興論文群の発見では、第一の目的を達成するため に、クラスター内次数係数(within-module degree)z-score、モジュール間分散度 (participation coefficient)P を分析することで各重要論文のトポロジカルな役割 の特定を行い、漸進的イノベーションと急進的イノベーションを明確に区別す る方法を提案した。漸進的イノベーションのプロセスでは、ブレークスルーは 既存の学術領域内で起こり、ハブとなる重要論文の z も P も大きくこれらの論 文は「グローバルなハブ」である。反対に、急進的イノベーションのプロセス では、ブレークするは既存の学術領域の中では起こらず、独立した新しいクラ スターが生まれる。研究の中心が急速に移動し、ハブとなる重要論文は z が大 きく P が小さい「ローカルなハブ」になる。さらに、第二の目的を達成するた めに、トポロジカルなクラスタリングによって論文を各クラスターに分類した 後、各クラスターの主要論文の z, P、各クラスターの平均出版年、自然言語処理 によって抽出された各クラスターのトピックを分析することで、急進的イノベ ーションにおいて新興論文群を発見することができた。新興論文群として抽出 すべきクラスターは、1) クラスター内ハブ論文の z が大きく P が小さい(目安: 180 第 6 章 考察 z>2.5, P<0.3)、2) クラスター内ハブ論文が若い、3) クラスターの特徴語から見 て、他のクラスターと異なるトピックを扱っているという特徴を持つクラスタ ーであった。 第 5 章 引用情報を用いた将来の被引用数予測では、第三の目的を達成するた めに、多くの引用を獲得する論文は、過去において、トポロジカルな意味でど のような位置にあったのかということを分析した。具体的には、クラスタリン グ中心性、距離中心性、媒介中心性という 3 つの中心性、現在の年齢、現時点 の被引用数のそれぞれと将来の被引用数との相関関係を調べることにより、将 来引用を獲得する論文の特徴を明らかにした。漸進的イノベーションが起こっ ている分野では、学術分野の知識量が増加し始まった段階において、現在の被 引用数が近い将来の被引用数に影響を与え、媒介中心性が遠い将来の被引用数 に影響を与えるということが本研究で明らかになった。急進的イノベーション が起こっている分野では、必ずしも分野間の架け橋となる論文が将来引用を獲 得するわけではないため、上記の法則が成り立たず、相関係数がゼロに近づく。 しかし、急進的イノベーションが起こっている場合でも、第 4 章 引用情報を用 いた新興論文群の発見の方法で、新興学術分野のみを抽出すれば、現在の被引 用数、媒介中心性から将来引用を獲得する可能性の高い論文を予測できた。 最後に、本章では、テキスト情報を用いた新興論文群の発見を試みた。自然 言語処理によって各論文のアブストラクトから抽出された複合語のみから成る 語の共起ネットワークを作成し、トポロジカルなクラスタリング手法によって クラスターに分割、分析した。クラスターごとに意味的にまとまりのある語が 分類されたが、クラスターの語の平均出版年から、若い語を多く含むクラスタ ーを抽出するのは難しかった。これは、若い語だけで共起することは無く、若 い語も必ず古い語と共起しているためであると考えられる。引用分析では、最 大連結成分に含まれない論文群も、語句の共起ネットワークを用いることで、 発見することができた。 以上の結果を整理すると、表 6-5 のようになる。これらの結果から、急進的 イノベーションの中核となる学術論文を早期に発見する方法論を以下のように 181 第 6 章 考察 提案する。 1. 2. 3. 引用ネットワークをクラスタリングし、クラスター内次数 z とクラスター間 分散度 P を分析し、イノベーションの種別の判定を行う。 z, P ともに大:漸進的イノベーション z 大, P 小:急進的イノベーション 急進的イノベーションにおける新興学術分野の発見には、引用ネットワーク のクラスタリングを主に、補助的に共起ネットワークのクラスタリングを用 いる。 引用ネットワークをクラスタリングし、トピック抽出、可視化する。 以下の 3 つの特徴を持つクラスターを新興学術分野と見なす。 A) クラスター内ハブ論文の z が大きく P が小さい(目安:z>2.5, P<0.3) B) クラスター内ハブ論文が若い C) クラスターの特徴語から見て、他のクラスターと異なるトピックを 扱っている。 さらに、補助的に、語句の共起ネットワークのクラスタリング結果から、 抽出した新興学術分野の他には新興トピックがないかどうかを確認す る。 抽出された新興学術分野(漸進的イノベーション)において、将来の被引用 数の予測には、媒介中心性と被引用数を評価する。 182 第 6 章 考察 表 6-5 本研究の目的と結果 章 手法\目的 イ ノ ベ ー シ 急進的イノベーシ 漸進的イノベーシ ョ ン の 種 別 ョンにおける新興 ョンにおける新興 の判定 学術分野発見 論文発見 4章 引用ネットワーク のクラスタリン グ、z, P 分析 ◎ - - 引用ネットワーク のクラスタリン グ、クラスターの - ◎ ○ ○ - ◎ - △(ただし、引用 分析では発見でき ない知見を得られ る可能性あり) - 平均年齢+トピッ ク抽出の分析 5章 引用ネットワーク 中における媒介中 心性と被引用数の 分析 6 章 共起ネットワーク 前半 のクラスタリング 本研究では、学術領域の進化の過程を追跡し、漸進的イノベーション、急進 的イノベーションの違いを判定し、急進的イノベーションの中から新興学術分 野を発見し、イノベーションの中核となる論文を発見する手法を提案した。上 述のように、我々の手法は、可視化だけではなくトポロジカルな指標も用いて、 リサーチ・フロントを発見するツールとなりうることが結果から証明された。 本提案手法は将来予測であるため、本質的に、予測時点でそれらが将来イノベ ーションとなるかどうかを保証するものではないが、少なくても有用な候補を 発見することには有効である。本手法で、コンピューターによる計算によって、 183 第 6 章 考察 リサーチ・フロントをモニターし、新興学術分野を発見することが可能になる。 近年、学術領域の専門家、細分化や情報量の増大によって、R&D 活動のマネジ メントにおいて、学術領域を俯瞰し、新興学術分野を発見するのはますます困 難になってきている。しかし、現状ではまだ学術領域を俯瞰し、新興学術分野 を発見する研究者、R&D マネージャー、政策担当者が不足している。我々のト ポロジカルな手法は、"Research on Research (R on R)"にとって有用なツールと成 りうり、情報爆発時代における新興学術分野発見のための科学技術となるだろ う。我々の手法は、R on R、テクノロジー・マネジメントのための定量的な手法 であり、これらの学術分野に貢献できると考えられる。 最後に、我々の手法の課題にも言及する必要がある。一つ目の課題は引用の タイムラグに関してである。本研究では、主として引用情報を用いているため、 引用のタイムラグが存在することである。我々の手法は、直接引用を用いるた め、ある論文が出版され、その論文が当該分野の他の論文を引用していれさえ すれば最大連結成分に含まれるが、被引用数という意味ではタイムラグが発生 する。論文が他の論文に引用されるまでには、最低でも 1∼2 年はかかる。また、 研究が終わってから論文が出版されるまでにも 1∼2 年要するのが一般的である。 故に、技術マネジメントや政策研究という文脈では、国際会議等で発表される 未出版論文やエキスパートの意見も分析対象に含めるべきかもしれない。また、 我々は学術論文のみを分析対象としたが、イノベーションを研究するに際して は不十分である。今後の課題としては、本手法を特許にも適用することである。 そうすることで、重要なイノベーションが従来の研究分野と結びついているの か、新しい独立した研究分野を形成しているのかを判定可能となり、学術世界 と産業間の情報の行き来がより明確になるはずである。 二つ目の課題は、エキスパートへの依存である。一般的に、新興学術分野の 発見には大きく分けて 2 つの方法がある(Kostoff & Schaller, 2001)。一つ目は、エ キスパートによる方法で、各分野の専門家によって学術分野が体系立てられる 方法である。この方法は、今日のように情報過多な時代においては、多くの場 合、時間がかかりすぎたり、主観的になりすぎたりするという弱点がある。も 184 第 6 章 考察 う一つの方法は、コンピューターを用いる方法で、情報量が増えても対応可能 な手法であり、エキスパート法を代替する手法として期待されている。専門で ない分野であっても、新興学術分野を発見する科学技術に対するニーズが日増 しに高まっている(van Raan, 1996; Kostoff et al., 1997, 2001; Losiewicz et al., 2000; Boyack and Böner, 2003; Porter, 2005; Buter et al., 2006)。本提案手法は基本的には コンピューターを用いて全て計算が行われるため、全てをエキスパートが行う 場合に比べて、優れいている。初期の引用データが必要であり、学術論文が出 版され、学術領域が形成されてからある程度の時間を必要とする。この時間は 長いため、エキスパートによる手法の方が有効かもしれない。しかし、我々の 手法は、次の三つの理由でエキスパートによる手法よりも優れていると言える。 第一に、エキスパートによる判断は必ずしもいつも正しいとは限らないという 点である。エキスパートであっても、新しいトレンドを見誤ることはある。本 提案手法の出力である新興論文群の候補はエキスパートにとっても新たな発見 であり、学術分野を俯瞰するに際して、新たな視点を提供できると考えられる。 第二に、多数のエキスパートに協力を得るにはコストがかかる。引用を獲得す る前の論文を評価するには多くのエキスパートが必要である。第三に、我々の 手法はスケーラブルである。論文の出版サイクルが短くなり、論文の出版数が 増えても、我々の手法は有効である。ISI のような学術論文データベースから膨 大な学術論文データを収集し、そこから重要な知識を得るために、そして、エ キスパートによる手法の代替手段としてコンピューターによる手法を確立する ために、情報科学分野の研究者は努力すべきであると信じている。しかしなが ら、本提案手法では、コンピューターによって出力された結果を人間たるエキ スパートが判断するというハイブリッドモデルであるということは言及してお く。 最後の課題は、クエリの表す広さとその影響範囲にある。複雑ネットワーク 分野のケースで、多くの語をクエリに用いたのは、クエリ選定によって重要な 論文が漏れることを避けるためであった。この操作自体、結果に影響を与える ものではない。仮に、全論文の引用データを有している場合を想定しみると、 185 第 6 章 考察 仮に我々の手法で新興学術分野が発見できるとすると、物理学クラスターが新 興クラスターであることに疑いの余地はない。世の中の全論文を集めることは 大変困難なタスクであり現実的でないために、我々は、全論文により近くなる ように多くのクエリを用いた。だが、クエリ選定が結果に影響を与えるのでは ないかと考えるのは当然である。"social network*"というクエリで収集したデー タを用いて再実験を行ったが、結果はほぼ同等であった。この結果から、でき るだけ早く新興学術分野を発見したい場合、クエリを広めに選定し、学術分野 を包含するようなコーパスを取得するのが良いと言える。本提案手法の入力は キーワード、出力は将来イノベーションの中核となる論文(群)の候補でるが、 実際、キーワードの表す対象の広さを広げて行くと、漸進的イノベーションで あったものが急進的イノベーションになると考えられる。 6.3. 再生医療分野への提案手法の適用 本節では、前節での提案手法の有効性を検証するために、再生医療分野で新 興論文群の発見を行う。 6.3.1. 再生医療分野の概要とデータ収集 再生医療の主な研究対象は、幹細胞(stem cell)であり、幹細胞研究は主に 2 つ に分類できる。一つ目は embryonic stem cell (ES 細胞、胚幹細胞)に関するもので あり、もう一つが adult stem cell (成体幹細胞), somatic stem cell (体性幹細胞)に関 するものである。2006 年に京都大学のの山中教授のグループが発見した Induced pluripotent stem cells (iPS cells, 人工[誘導]多能性幹細胞)の研究も adult cell 研 究の一部である。この分野は、近年めざましく発展し注目されている分野であ 186 第 6 章 考察 る。ここでは、"regenerative medicine*" OR "ES cell*" or "Embryonic stem cell*" OR "EMBRYO-DERIVED stem cell*" OR "iPS cell*" or "pluripotent stem cell*" OR "adult stem cell*" OR "somatic stem cell*"という検索クエリを用いてデータを取得 した。データは 2008/12/18 時点で入手可能なもののみである。図 6-8 に同分野 の論文の出版数の推移を示す。図 6-8 では同時に、ES 細胞("ES cell*" or "Embryonic stem cell*" OR "EMBRYO-DERIVED stem cell*")、成体幹細胞("iPS cell*" or "pluripotent stem cell*" OR "adult stem cell*" OR "somatic stem cell*")で検 索した場合の論文数の推移を示す。17,824 論文が取得でき、2008 年の最大連結 成分に含まれる論文数は、14,305(80%)であった。 #papers 3000 2000 1000 0 1960 1970 図 6-8 1980 1990 2000 2010 再生医療分野における論文数 (●:全論文、△:ES 細胞、□:成体幹細胞) 6.3.2. 結果 本項では前節の提案手法を適用した場合の結果を示す。はじめに、イノベー 187 第 6 章 考察 ションの種別の判定に関して、図 6-9 に 2008 年時点での被引用数上位 10 論文 の z, P を示す。2004 年頃までは急進的イノベーションであるが、その後徐々に 漸進的イノベーションに推移していっていることが分かる。被引用数が上位の 論文は 2004 年頃までは P の値が小さく、ローカルは名部であるが、それ以降、 P の値が増大しグローバルなハブになる。 図 6-9 被引用数上位 10 論文のクラスター内での役割の変化 次に、新興学術分野の発見のために、クラスタリングを行った結果を図 6-10 に示す。これを見ると、2004 年に若いクラスターR1 が一つ誕生し、若いまま成 長を続ける。2007 年には、R2, R3 という 2 つのクラスターに分離し、2008 年に は R4, R5 となっていることが分かる。 188 第 6 章 考察 図 6-10 クラスタリング結果 (a)クラスターの大きさと平均年齢、(b) 各クラスターの時系列での発展の様子。 2004 年時点でのクラスターの様子を表 6-6 に、可視化を図 6-11 に示す。A) クラスター内ハブ論文の z が大きく P が小さい(目安:z>2.5, P<0.3)、B)クラス ター内ハブ論文が若い、C)クラスターの特徴語から見て、他のクラスターと異 なるトピックを扱っている、という 3 つの条件を満たす論文を含むクラスター は前述の R1(#1)のみであり、特徴語からこのクラスターは ES 細胞を扱うクラス 189 第 6 章 考察 ターである。ES 細胞研究はそれまでも行われてきたが、主に人間の再生医療へ の応用などの研究が若いハブ論文に目立つ。 続いて、2007 年時点でのクラスターの様子を表 6-7 に、可視化を図 6-12 に示 す。主に 3 つのクラスターに分割され、#0 は 4777 論文、平均出版年が 2000.1 と古いクラスターであり、mice 等の語を含む。#1(R2)は 3045 論文、平均出版年 が 2004.7 と若く、特徴語から ES 細胞クラスターであることと言える。#2(R3) は 2946 論文、平均出版年が 2004.8 とさらに若い。#2(R3)には、京都大学の山中 教授の論文 TAKAHASHI K, 2006, CELL, V126, P663 も含まれており、論文のタ イトルに{pluripotent, adult} stem cell という語を含むタイトルが多く、成体幹細胞 クラスターであると言える。 さらに 2008 年時点でのクラスターの様子を表 6-8 に、可視化を図 6-13 に示 す。主に 3 つのクラスターに分割され、#0 は 5121 論文、平均出版年が 2000.5 と古いクラスターであり、mice 等の語を含む。#1(R4)は 4640 論文、平均出版年 が 2005.5 と若く、特徴語から ES 細胞クラスターであることと言える。#2(R5) は 2513 論文、平均出版年が 2005.6 とさらに若い。表 6-9 に#2(R5)クラスターの ハブ論文のタイトルを示す。R3 に比べて、”Induction of pluripotent stem cell”とい う語が多くタイトルに含まれており、成体幹細胞クラスターの中でも iPS 細胞に 関する研究がこの 1 年で大きく発展したことが分かる。 190 第 6 章 考察 表 6-6 id 1(R1) #papers 1916 Ave. year 2002.2 TC year z 306 2000 11.19 202 188 2001 2000 7.87 6.25 再生医療分野(2004 年)のクラスタリング結果 p 0.15 0.06 0.27 name title REUBINOFF BE, 2000, NAT Embryonic stem cell lines from human blastocysts: BIOTECHNOL, V18, P399 somatic differentiation in vitro LUMELSKY N, 2001, Differentiation of embryonic stem cells to SCIENCE, V292, P1389 insulin-secreting structures similar to pancreatic islets NIWA Quantitative H, 2000, NATURE GENET, V24, P372 expression of Oct-3/4 defines differentiation, dedifferentiation or self-renewal of ES cells 184 176 175 3 877 1998.9 95 2002 2000 1999 1999 7.1 6.73 6.25 6.42 0.04 0.04 0.1 0.1 TERADA N, 2002, NATURE, Bone marrow cells adopt the phenotype of other cells V416, P542 by spontaneous cell fusion LEE SH, 2000, NAT Efficient generation of midbrain and hindbrain BIOTECHNOL, V18, P675 neurons from mouse embryonic stem cells PITTENGER Multilineage potential of adult human mesenchymal MF, 1999, SCIENCE, V284, P143 stem cells OKANO M, 1999, CELL, V99, DNA methyltransferases Dnmt3a and Dnmt3b are P247 essential for de novo methylation and mammalian development #nodes≧500 & TC(2004)≧50 & z(2004)>=2.5 & year≧1999 の論文を含むクラスターのみ 191 第 6 章 考察 図 6-11 再生医療分野(2004 年)のクラスタリング結果の可視化 #nodes≧500 のクラスターのみ 192 第 6 章 考察 表 6-7 id 1 (R2) 2 (R3) 再生医療分野(2007 年)のクラスタリング結果 #papers ave. year TC year z p 3045 2004.7 189 2004 4.42 0.34 181 2004 4.29 0.33 166 2005 4.48 0.22 153 2004 4.01 0.21 195 2005 7.19 0.49 153 2006 6.76 0.28 132 2006 5.96 0.18 116 2006 4.79 0.45 2946 2004.8 name DRAPER JS, title 2004, NAT Recurrent gain of chromosomes 17q and 12 in cultured BIOTECHNOL, V22, P53 human embryonic stem cells COWAN CA, 2004, N ENGL J Derivation of embryonic stem-cell lines from human MED, V350, P1353 XU RH, 2005, METHODS, V2, P185 AMIT M, 2004, REPROD, V70, P837 blastocysts NAT Basic FGF and suppression of BMP signaling sustain undifferentiated proliferation of human ES cells BIOL Feeder layer- and serum-free culture of human embryonic stem cells BOYER LA, 2005, CELL, Core V122, P947 transcriptional regulatory circuitry in human embryonic stem cells LEE TI, 2006, CELL, V125, Control of developmental regulator's by polycomb in P301 human embryonic stem cells BOYER LA, 2006, NATURE, Polycomb complexes repress developmental regulators in V441, P349 murine embryonic stem cells TAKAHASHI K, 2006, CELL, Induction of pluripotent stem cells from mouse embryonic V126, P663 and adult fibroblast cultures by defined factors 193 第 6 章 考察 116 2006 5.27 0.33 113 2004 4.79 0.38 113 2006 5.32 0.19 101 2004 4.25 0.21 LOH YH, 2006, NATURE The Oct4 and Nanog transcription network regulates GENET, V38, P431 pluripotency in mouse embryonic stem cells WAGERS AJ, 2004, CELL, V116, P639 BERNSTEIN BE, CELL, V125, P315 DOR Y, 2004, V429, P41 Plasticity of adult stem cells 2006, A bivalent chromatin structure marks key developmental genes in embryonic stem cells NATURE, Adult pancreatic beta-cells are formed by self-duplication rather than stem-cell differentiation #nodes≧500 & TC(2007)≧100 & z(2007)>=4 & year≧2004 の論文を含むクラスターのみ 194 第 6 章 考察 図 6-12 再生医療分野(2007 年)のクラスタリング結果の可視化 #nodes≧1,000 のクラスターのみ 195 第 6 章 考察 表 6-8 再生医療分野(2008 年)のクラスタリング結果 id #papers ave. year terms TC year z p name 1(R4) 4640 2005.5 cell, stem cells, differentiation, 240 2004 5.84 0.29 COWAN CA, 2004, N ENGL J MED, V350, neurons, tissues, culture, es cells, transplantation, potential, P1353 237 2004 5.5 0.33 expression 2(R5) 3 2513 745 2005.6 2005.5 DRAPER JS, 2004, NAT BIOTECHNOL, V22, P53 221 2005 5.02 0.39 XU RH, 2005, NAT METHODS, V2, P185 cells, 386 2006 12.17 0.41 TAKAHASHI K, 2006, CELL, V126, P663 expression, methylation, dna, es 353 2005 11.67 0.36 BOYER LA, 2005, CELL, V122, P947 cells, dna methylation, role 262 2006 9.74 0.18 LEE TI, 2006, CELL, V125, P301 241 2007 6.55 0.5 TAKAHASHI K, 2007, CELL, V131, P861 234 2006 8.77 0.12 BOYER LA, 2006, NATURE, V441, P349 220 2007 5.96 0.48 YU JY, 2007, SCIENCE, V318, P1917 219 2006 8.02 0.26 LOH YH, 2006, NATURE GENET, V38, P431 218 2006 8.4 0.13 BERNSTEIN BE, 2006, CELL, V125, P315 206 2007 6.76 0.37 OKITA K, 2007, NATURE, V448, P313 201 2007 6.93 0.33 WERNIG M, 2007, NATURE, V448, P318 161 2004 4.8 0.65 KUBO A, 2004, DEVELOPMENT, V131, oct, genes, cell, stem cell, insulin, beta, hepatocytes, 196 第 6 章 考察 diabetes, islets, stem cells, differentiation, beta cells, pancreas P1651 130 2004 4.92 0.5 DOR Y, 2004, NATURE, V429, P41 87 2004 3.55 0.49 SEABERG RM, 2004, NAT BIOTECHNOL, V22, P1115 #nodes≧100 & TC(2008)≧10 & z(2008)>=2.5 & year≧2004 の論文を含むクラスターのみ 197 第 6 章 考察 表 6-9 TC year z p 386 2006 12.17 0.41 再生医療分野(2008 年)のクラスタリング結果(クラスター#2 のみ) name title TAKAHASHI K, 2006, CELL, V126, P663 Induction of pluripotent stem cells from mouse embryonic and adult fibroblast cultures by defined factors 353 2005 11.67 0.36 BOYER LA, 2005, CELL, V122, P947 Core transcriptional regulatory circuitry in human embryonic stem cells 262 2006 9.74 0.18 LEE TI, 2006, CELL, V125, P301 Control of developmental regulator's by polycomb in human embryonic stem cells 241 2007 6.55 0.5 TAKAHASHI K, 2007, CELL, V131, P861 Induction of pluripotent stem cells from adult human fibroblasts by defined factors 234 2006 8.77 0.12 BOYER LA, 2006, NATURE, V441, P349 Polycomb complexes repress developmental regulators in murine embryonic stem cells 220 2007 5.96 0.48 YU JY, 2007, SCIENCE, V318, P1917 Induced pluripotent stem cell lines derived from human somatic cells 219 2006 8.02 0.26 LOH YH, 2006, NATURE GENET, V38, P431 The Oct4 and Nanog transcription network regulates pluripotency in mouse embryonic stem cells 218 2006 8.4 0.13 BERNSTEIN BE, 2006, CELL, V125, P315 A bivalent chromatin structure marks key developmental genes in embryonic stem cells 206 2007 6.76 0.37 OKITA K, 2007, NATURE, V448, P313 Generation of germline-competent induced pluripotent stem cells 201 2007 6.93 0.33 WERNIG M, 2007, NATURE, V448, P318 In vitro reprogramming of fibroblasts into a pluripotent ES-cell-like state 198 第 6 章 考察 図 6-13 再生医療分野(2008 年)のクラスタリング結果の可視化 #nodes≧3,000 のクラスターのみ 199 第 6 章 考察 6.3.3. 考察 本節では、前節の提案手法を再生医療分野に適用した。イノベーションの種 別の判定では、同分野は 2004 年頃までは急進的イノベーションであるが、その 後徐々に漸進的イノベーションに推移していっていることが分かる。2004 年時 点で、ES 細胞研究はそれまでも行われてきたが、主に人間の再生医療への応用 などの論文がハブ論文となる若いクラスターが誕生し、若いまま成長を続け、 2007 年時点で、ES 細胞と成体幹細胞/iPS クラスターに分離された。 2007 年時点では ES 細胞と成体幹細胞/iPS クラスターが新興クラスターとして 発見可能であり、#1(R2)が ES 細胞、#2(R3)が成体幹細胞であった。#2(R3)の論 文には{pluripotent, adult} stem cell という語を含むタイトルが多く、 成体幹細胞 クラスターが発見できた。さらに、2008 年では、#1(R4)が ES 細胞、#2(R5)が成 体幹細胞であるが、#2(R5)の中で最も被引用数が多いハブ論文(TAKAHASHI K, 2006, CELL, V126, P663)、最も若いハブ論文(TAKAHASHI K, 2007, CELL, V131, P861)は iPS 細胞を生成可能にした論文であると言われており、このクラスター が現在最も急進的なクラスターである。以上から、再生医療分野においては、 提案手法の有効性が確認できた。 最後に、提案手法の最後の将来の被引用数予測を行う。本分野は現在まさに 成長を始めた early stage であるため、2008 年時点における最も急進的なクラス ターである R5 に属する論文のうち、媒介中心性が大きい順にに示す。当該分野 が成熟するまで、これらの論文がいくつ引用を獲得するかという検証は行えな いが、提案手法が正しければ、これらの論文のうちのいくつかが将来のハブ論 文になるはずである。 200 第 6 章 考察 表 6-10 year 再生医療分野(2008 年のクラスター#2)の媒介中心性が大きい論文 name Bc 2008 LIU N, 2008, J CELL BIOCHEM, V104, P2348 0.000317 2003 ILIA M, 2003, EXP NEUROL, V181, P159 0.00028 2005 AMBROSI DJ, 2005, J CELL MOL MED, V9, P320 0.000264 2005 GOWHER H, 2005, BIOCHEMISTRY-USA, V44, P9899 0.000264 2005 MA MC, 2005, MAMM GENOME, V16, P391 0.000264 2007 LIU N, 2007, J CELL PHYSIOL, V211, P279 0.000144 2007 LIM LS, 2007, MOL BIOL CELL, V18, P1348 0.000144 2007 RAUCH T, 2007, PROC NAT ACAD SCI USA, V104, P5527 0.000144 2007 COSTA S, 2007, TR CELL BIOL, V17, P101 0.000144 2007 TANAY A, 2007, PROC NAT ACAD SCI USA, V104, P5521 0.000144 2007 KIM SY, 2007, J BIOL CHEM, V282, P9962 0.000144 2007 CHO HS, 2007, J BIOCHEM MOL BIOL, V40, P151 0.000144 2007 SENE KH, 2007, BMC GENOMICS, V8 0.000144 2007 INOUE T, 2007, DEVELOPMENT, V134, P1679 0.000144 2007 ROMAGNANI P, 2007, CURR MEDICINAL CHEM, V14, P1129 0.000144 2007 FODDE R, 2007, CURR OPIN CELL BIOL, V19, P150 0.000144 2007 BOHM J, 2007, BIOCHEM BIOPHYS RES COMMUN, V356, P773 0.000144 2007 MIYABAYASHI T, 2007, PROC NAT ACAD SCI USA, V104, P5668 0.000144 2007 ANDERSSON KE, 2007, MOL INTERV, V7, P79 0.000144 201 第 7 章 結論 第7章 結論 7.1. 結論 学術研究(Science)での研究成果が、技術開発(Technology)に応用され、製品・ サービス(Industry)が生み出されるというサイクルの時間が従来に比べて圧倒的 に短くなってきている。従って、技術経営戦略を立案するには、将来のイノベ ーションの中核を早期発見することが重要である。イノベーションの種類を、 技術的連続性の有無を基準として分類すると、従来的技術の延長線上にある改 良型のイノベーションである「漸進的イノベーション(incremental innovation)」と 従来の技術と抜本的に異なる非連続なイノベーション「急進的イノベーション (radical innovation)」に分類できる。技術経営戦略の立案のためには、特に、急進 的イノベーションの中核となる研究を早期発見することが重要である。何故な ら、漸進的イノベーションに比べ、急進的イノベーションの方が、その非連続 性が故に、企業や社会に対する影響が大きくなるからである。本研究では、学 術研究に基づいたテクノロジー・イノベーション(science-oriented technology innovation)を扱い、学術論文から急進的イノベーションの中核となる論文を早期 に発見する方法論を提案した。これを実現するために 3 つの目的を設定した。 第一の目的は、漸進的イノベーションと急進的イノベーションを判定する方法 論を構築することであり、第二の目的は、急進的イノベーションにおいて、新 興学術分野を早期発見する方法論を構築することであった。そして、第三の目 的は、漸進的イノベーションにおいて、将来中核となる論文を早期発見する方 法論を構築することであった。 現在、科学、社会科学の論文データベースの中で、最良なデータベースの一 つが Institute for Scientific Information (ISI)が提供しているデータベースであるが、 このデータベースからあらかじめ選定したクエリを用いて論文を検索、抽出す 202 第 7 章 結論 る。論文をノード、引用をエッジとみなし、引用ネットワークを生成し、その 最大連結成分をトポロジカルなクラスタリング手法によってクラスターに分割 し、分析した。また、各論文の引用ネットワーク中での中心性の分析も行った。 また、本研究では、既にイノベーションが起こったということが明らかな 2 つ の学術分野を選定し、ケーススタディを行った。一つ目の学術分野はガリウム・ ナイトライド分野である。ガリウム・ナイトライド分野は、応用物理学分野、 応用工学分野における突出したイノベーションの例として広く認識されており、 漸進的イノベーションが起こった分野であると考えられるため選定した。二つ 目は、複雑ネットワーク分野であり、当分野は近年新しい学術分野を切り開い た例として認識されている。複雑ネットワーク分野は上述のように元来、社会 学が中心であったが 1998 年以降、急激に物理学研究が増加しており、急進的イ ノベーションが起こった分野であると考えられるため選定した。 はじめに、直接引用(direct citation)、共引用(co-citation)、書誌結合(bibliographic coupling)という主に 3 種類の引用のうちどの引用手法が最も新興学術分野の発 見に適しているかを分析した。3 種類の引用ネットワークを構築し、トポロジカ ルなクラスタリング手法でクラスターに分類し、あらかじめ定めた各分野の重 要論文が含まれるクラスターのパフォーマンスを”visibility(クラスターの相対 的な大きさ)”, “speed(クラスター内論文の平均出版年齢)”, “topological relevance (クラスター内のエッジ密度)”の 3 つで評価した。最良の引用分析手法は、よ り大きな新興論文群をより早く発見できる直接引用であり、ワーストは共引用 であった。共引用が最も劣った理由は、共引用が生じるまでのタイムラグのせ いであった。直接引用と書誌結合を比べると、クラスター係数が直接引用の方 が大きく、引用で結ばれる論文間の意味的な類似度が最も高く、また重要論文 が最大連結成分に含まれないというリスクが最も小さかいため、直接引用が最 良であると結論づけられた。 第一の目的を達成するために、クラスター内次数係数(within-module degree) z-score、モジュール間分散度(participation coefficient)P を分析することで各重 要論文のトポロジカルな役割の特定を行い、漸進的イノベーションと急進的イ 203 第 7 章 結論 ノベーションを明確に区別する方法を提案した。漸進的イノベーションのプロ セスでは、ブレークスルーは既存の学術領域内で起こり、ハブとなる重要論文 の z も P も大きくこれらの論文は「グローバルなハブ」である。反対に、急進 的イノベーションのプロセスでは、ブレークするは既存の学術領域の中では起 こらず、独立した新しいクラスターが生まれる。研究の中心が急速に移動し、 ハブとなる重要論文は z が大きく P が小さい「ローカルなハブ」になる。さら に、第二の目的を達成するために、トポロジカルなクラスタリングによって論 文を各クラスターに分類した後、各クラスターの主要論文の z, P、各クラスター の平均出版年、自然言語処理によって抽出された各クラスターのトピックを分 析することで、急進的イノベーションにおいて新興論文群を発見することがで きた。新興論文群として抽出すべきクラスターは、1) クラスター内ハブ論文の z が大きく P が小さい、2) クラスター内ハブ論文が若い、3) クラスターの特徴 語から見て、他のクラスターと異なるトピックを扱っているという特徴を持つ クラスターであった。 第三の目的を達成するために、多くの引用を獲得する論文は、過去において、 トポロジカルな意味でどのような位置にあったのかということを分析した。具 体的には、クラスタリング中心性、距離中心性、媒介中心性という 3 つの中心 性、現在の年齢、現時点の被引用数のそれぞれと将来の被引用数との相関関係 を調べることにより、将来引用を獲得する論文の特徴を明らかにした。漸進的 イノベーションが起こっている分野では、学術分野の知識量が増加し始まった 段階において、現在の被引用数が近い将来の被引用数に影響を与え、媒介中心 性が遠い将来の被引用数に影響を与えるということが本研究で明らかになった。 急進的イノベーションが起こっている分野では、必ずしも分野間の架け橋とな る論文が将来引用を獲得するわけではないため、上記の法則が成り立たず、相 関係数がゼロに近づく。しかし、急進的イノベーションが起こっている場合で も、上述の方法で、新興学術分野のみを抽出すれば、現在の被引用数、媒介中 心性から将来引用を獲得する可能性の高い論文を予測できた。 以上の結果から、急進的イノベーションの中核となる学術論文を早期に発見 204 第 7 章 結論 する方法論を提案した。 7.2. 急進的イノベーションの早期発見のための方法論の提案 最後に、本研究の結果から、急進的イノベーションの中核となる学術論文を 早期に発見する方法論を以下のように提案する。 1. 2. 3. 引用ネットワークをクラスタリングし、クラスター内次数 z とクラスター 間分散度 P を分析し、イノベーションの種別の判定を行う。 z, P ともに大:漸進的イノベーション z 大, P 小:急進的イノベーション 急進的イノベーションにおける新興学術分野の発見には、引用ネットワー クのクラスタリングを主に、補助的に共起ネットワークのクラスタリング を用いる。 引用ネットワークをクラスタリングし、トピック抽出、可視化する。 以下の 3 つの特徴を持つクラスターを新興学術分野と見なす。 A) クラスター内ハブ論文の z が大きく P が小さい(目安:z>2.5, P<0.3) B) クラスター内ハブ論文が若い C) クラスターの特徴語から見て、他のクラスターと異なるトピックを 扱っている。 さらに、補助的に、語句の共起ネットワークのクラスタリング結果から、 抽出した新興学術分野の他には新興トピックがないかどうかを確認す る。 抽出された新興学術分野(漸進的イノベーション)において、将来の被引 用数の予測には、媒介中心性と被引用数を評価する。 205 参考文献 参考文献 [1] Adai, A. T., Date, S.V., Wieland, S., & Marcotte, E.M. (2004). LGL: Creating a map of protein function with an algorithm for visualizing very large biological networks. Journal of Mplecular Biology, 340(1), 179-190. [2] Adams, J. (1990). Fundamental stocks of knowledge and productivity growth. Journal of Political Economy, 98, 673-702. [3] Adams, J. (2005). Early citation counts correlate with accumulated impact. Scientometrics, 63(3), 567-581. [4] Ahmed, T., Johnson, B., Oppenheim, C., & Peck, C. (2004). Highly cited old papers and the reasons why they continue to be cited. Part II. The 1953 Watson and Crick article on the structure of DNA. Scientometrics, 61(2), 147-156. [5] Akasaki, I. (1998). Evolution of Nitride Semiconductors. Materials Research Society Symposium Proceedings, 482, 3-14. [6] Akasaki, I., Amano, H., Koide, Y., Hiramatsu, K., & Sawaki, N. (1989). Effects of AIN Buffer Layer on Crystallographic Structure and on Electrical and Optical-Properties of GaN and Ga1-Xalxn(0-Less-Than-X-Less-Than-or-Equal-to-0.4) Films Grown on Sapphire Substrate by Movpe. Journal of Crystal Growth, 98, 209-219. [7] Albert, M. B., Avery, D., Narin F., & McAllister P. (1991). Direct validation of citation counts as indicators of industrially important patents, Research Policy, 20, 251-259. [8] Albert, R., & Barabási, A. L. (2002). Statistical mechanics of complex networks. REVIEWS OF MODERN PHYSICS, 74(1), 47-97. 206 参考文献 [9] Albert, R., Jeong, H., & Barabási, AL. (2000). Error and attack tolerance of complex networks. Nature, 406, 378. [10] Amano, H., Kito, M., Hiramatsu, K., & Akasaki, I. (1989). P-Type Conduction in Mg-Doped GaN Treated with Low-Energy Electron Beam Irradiation (LEEBI). Japanese Journal of Applied Physics Part 2 Letters, 28(12), L2112-L2114. [11] Amano, H., Sawaki, N., Akasaki, I., & Toyoda, Y. (1986). Metalorganic Vapor-Phase Epitaxial-Growth of a High-Quality GaN Film Using an AIN Buffer Layer. Applied Physics Letters, 48, 353. [12] Bader, M. A. (2008). Managing intellectual property in the financial services industry sector: Learning from Swiss Re., Technovation, 28(4), 196-207. [13] Barabási, A. L., & Albert, R. (1999). Emergence of scaling in random networks. Science, 286, 509-512. [14] Barabási, A.L., Jeong, H., Neda, Z., Ravasz, E., Schubert, A., & Vicsek, T. (2002). Evolution of the social network of scientific collaborations. Physica A, 311, 590-614. [15] Barthélemy, M. (2004). Betweenness centrality in large complex networks. The Eueropean Physical Journal B, 38, 163-168. [16] Besselaar, van den P., & Leydesdorff, L. (1996). Mapping change in scientific specialties: A scientometric reconstruction of the development of artificial intelligence. Journal of the American Society for Information Science, 47, 415–436. [17] Boyack, K. W., Wylie, B. N., & Davidson, G. S. (2002). Domain Visualization Using VxInsight for Science and Technology Management. Journal of the American Society for Information Science and Technology, 53, 764-774. [18] Boyack, K.W., & Böner, K. (2003). Indicator-Assisted Evaluation and Funding of Research: Visualizing the Influence of Grants on the Number and Citation Counts of Research Papers. Journal of the American Society for Information Science and 207 参考文献 Technology, 54, 447-461. [19] Braam, R. R., Moed, H. F., & van Raan, A. F. J. (1991). Mapping of Science by Combined Co-Citation and Word Analysis. I. Structural Aspects. Journal of the American Society for Information Science, 42, 233-251. [20] Brandes, U. (2001). A Faster Algorithm for Betweeness. Centrality. Journal of Mathematical Sociology, 25(2):163-177. [21] Braun, T., Schubert, A. P., & Kostoff, R. N. (2000). Growth and trends of fullerene research as reflected in its journal literature. Chemical Reviews, 100(1), 23-37. [22] Braun, T., Szabadi-Peresztegi, Z., Kovacs-Nemeth, E. (2003). No-bells for ambiguous lists of ranked Nobelists as science indicators of national merit in physics, chemistry and medicine, 1901-2001. Scientometrics, 56 (1), 3-42. [23] Buter, R.K., Noyons, E.C.M., van Mackelenbergh, M., & Laine, T. (2006). Combining concept maps and bibliometric maps: First explorations, Scientometrics, 66, 377-387. [24] Capocci, A., Servedio, V. D. P., Caldarelli, G., F. Colaiori. (2005). Detecting communities in large networks. Physica A, 352, 669-676. [25] Chen, C. (1999). Visualising semantic spaces and author co-citation networks in digital libraries. Information Processing and Management, 35, 401-420. [26] Chen, C. (2004). Searching for intellectual turning points: Progressive knowledge domain visualization. Proceedings of the National Academy of Sciences of the United States of America, 101 (1), 5303-5310. [27] Chen, C. (2005). Measuring the movement of a research paradigm, Proceedings of SPIE-IS&T: Visualization and Data Analysis 2005 (VDA2005) (pp. 63-76). San Jose: SPIE and IS&T. [28] Chen, C. (2006). CiteSpace II: Detecting and visualizing emerging trends and 208 参考文献 transient patterns in scientific literature. Journal of the American Society for Information Science and Technology, 57 (3), 359-377. [29] Chen, C., Cribbin, T., Macredie, R., & Morar, S. (2002). Visualizing and Tracking the Growth of Competing Paradigms: Two Case Studies. Journal of the American Society for Information Science and Technology, 53, 678-689. [30] Chen, C., Kuljis, J., & Paul, R. J. (2001). Visualizing Latent Domain Knowledge. IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews, 31, 518-529. [31] Clauset, A. (2005). Finding local community structure in networks. Physical Review E, 72, 026132. [32] Clauset, A., Newman, M. E. J. & Moore, C. (2004). Finding Community Structure in Very Large Networks. Physical Review E, 70, 066111. [33] Davidson, G. S., Hendrickson, B., Johnson, D. K., Meyers, C. E., & Wylie, B. N. (1998). Knowledge Mining With VxInsight: Discovery Through Interaction. Journal of Intelligent Information Systems, 11, 259–285. [34] de Solla Price, D.J. (1965). Networks of Scientific Papers. Science, 149, 510-515. [35] de Solla Price, D.J. (1970). Citation measures of hard science, soft science, technology, and nonscience. Communication Among Scientists and Engineers. NELSON, C. E., POLLACK, D. (Eds), Lexington, Mass, D.C. Heath & Co. [36] Dingle, R., Shaklee, K.L., Leheny, R.F., & Zetterst, R.B. (1971). Stimulated Emission and Laser Action In Gallium Nitride. Applied Physics Letters, 19(1), 5. [37] Eades, P. (1984). A Heuristic for Graph Drawing. Congressus Numerantium, 42, 149-160. [38] Egghe, L., Rousseau, R. (2002). Co-citation, bibliographic coupling and a characterization of lattice citation networks. Scientometrics, 55 (3), 349-361. 209 参考文献 [39] Erdös, P., & Rényi, A. (1959). On random graphs, Publicationes Mathematicae Debrecen, 6, 290–297. [40] Erdös, P., & Rényi, A. (1960). On the evolution of random graphs. Magyar Tud. Akad. Mat. Kut. Int. Kzl., 5, 17–61. [41] Erdös, P., & Rényi, A. (1961). On the strength of connectedness of a random graph. Acta Math., Acad. Sci. Hungar., 12, 261–267. [42] Fang, Y., Rousseau, R. (2001). Lattices in citation networks: An investigation into the structure of citation graphs. Scientometrics, 50 (2), 273-287. [43] Fleming, L., & Sorenson, O. (2004). Science As a Map In Technological Search. Strategic Management Journal, 25, 909-928. [44] Frantzi, K., Ananiadou, S., & Mima, H. (2000). Natural language processing for digital libraries Automatic recognition of multi-word terms: the C-value/NC-value method. International Journal on Digital Libraries, 3, 115–130. [45] Freeman, L. C. (1977). A set of measures of centrality based on betweenness. Sociometry, 40, 35-41. [46] Frietsch, R., & Grupp, H. (2006). There's a new man in town: the paradigm shift in optical technology. Technovation, 26(1), 13-29. [47] Fruchterman, T. & Reingold, E. (1991). Graph Drawing by Force-directed Placement. Software-Practice and Experience, 21, 1129-1164. [48] Garfield, E. (1972). Citation analysis as a tool in journal evaluation. Science, 178 (4060), 471-479. [49] Garfield, E. (2004). Historiographic mapping of knowledge domains literature. Journal of Information Science, 30 (2), 119-145. [50] Girvan, M. & Newman, M. E. J. (2002). Community structure in social and biological networks. Proceedings of the National Academy of Sciences, 99(12), 210 参考文献 7821-7826. [51] Granovetter, M. (1973). Strength of Weak Ties. American Journal of Sociology, 78, 1360–1380. [52] Guimera, R., & Amaral, L. A. N. (2005). Functional cartography of complex metabolic networks. Nature, 433, 895-900. [53] Hanel, P. (2006). Intellectual property rights business management practices: A survey of the literature. Technovation, 26(8), 895-931. [54] Harter, S. P., Nisonger, T. E., & Weng, A. (1993). Semantic Relationships between Cited and Citing Articles in Library and Information Science Journals. Journal of the American Society for Information Science, 44(9), 543-552. [55] Hashimoto, K., Irie, H. & Fujishima, A. (2005). TiO2 photocatalysis: A historical overview and future prospects. Japanese Journal of Applied Physics, 44, 8269-8285. [56] Hopcroft, J., Khan, O., Kulis, B., & Selman, B. (2004). Tracking evolving communities in large linked networks. Proceedings of the National Academy of Sciences, 101, 5249-5253. [57] Institute for Scientific Information (ISI)., http://scientific.thomson.com/isi/. [58] Jaffe, A. (1989). Real effects of academic research. American Economic Review, 79, 957-970. [59] Jaffe, A., & Trajtenberg, M. (1996). Flows of knowledge from universities and federal labs: modeling the flow of patent citations over time and across institutional and geographic boundaries. Proceedings of the National Academy of Sciences, 93 (12), 671-677. [60] Jeong, H., Tombor, B., Albert, R., Oltval, ZN., & Barabási, AL. (2000). The large-scale organization of metabolic networks. Nature, 407, 651-654. 211 参考文献 [61] Kamada, T. & Kawai, S. (1989). An Algorithm for Drawing General Undirected Graphs. Information Processing Letters, 31, 7-15. [62] Karazija, R., Momkauskaite, A. (2004). The Nobel prize in physics - regularities and tendencies. Scientometrics, 61 (2), 191-205. [63] Kessler, M.M. (1963). Bibliographic coupling between scientific papers. American Documentation, 14, 10–25. [64] Klavans, R., Boyack, K.W. (2006). Identifying a Better Measure of Relatedness for Mapping Science. Journal of the American Society for Information Science and Technology, 57, 251-263. [65] Kostoff, R. N., Braun, T., Schubert, A., Toothman, D. R., & Humenik, J. A. (2000). Fullerene data mining using bibliometrics and database tomography. Journal of Chemical Information and Computer Sciences, 40(1), 19-39. [66] Kostoff, R. N., del Río, J. A., Humenik, J. A., García, E. O., & Ramírez, A. M. (2001). Citation Mining: Integrating Text Mining and Bibliometrics for Research User Profiling. Journal of the American Society for Information Science and Technology, 52, 1148-1156. [67] Kostoff, R. N., Eberhart, H. J., & Toothman, D. R. (1997). Database tomography for information retrieval. Journal of Information Science, 23, 301-311. [68] Kostoff, R. N., & Schaller, R. R. (2001). Science and technology roadmaps. IEEE Transactions on Engineering Management, 48, 132-143. [69] Leydesdorff, L. (2007). Mapping Interdisciplinarity at the Interfaces between the Science Citation Index and the Social Science Citation Index. Scientometrics, 71(3), 391-405. [70] Leydesdorff, L. (2007). "Betweenness Centrality" as an Indicator of the "Interdisciplinarity" of Scientific Journals. Journal of the American Society for Information Science and Technology, 58(9), 1303-1309. 212 参考文献 [71] Leydesdorff, L., Cozzens, S., & van den Besselaar, P. (1994). Tracking areas of strategic importance using scientometric mappings. Research Policy, 23, 217-229. [72] Losiewicz, P., Oard, D. W., & Kostoff, R. N. (2000). Textual data mining to support science and technology management. Journal of Intelligent Information Systems, 15(2), 99-119. [73] MacRoberts, M. H., & MacRoberts, B. F. (1989). Problems of Citation Analysis: A Critical Review. Journal of the American Society for Information Science, 40(5), 342-349. [74] Mansfield, E. (1972). Contribution of R&D to economic growth in the United States. Science, 175, 477-486. [75] Massini, S., Lewin, A. Y., & Greve H. R. (2005). Innovators and imitators: Organizational reference groups and adoption of organizational routines. Research Policy, 34, 1550-1569. [76] Mayer, M., Pareira, T. S., Persson, O., & Granstrand, O. (2004). The scientometric world of Keith Pavitt: A tribute to his contributions to research policy and patent analysis. Research Policy, 33, 1405-1417. [77] Milgram, S. (1967). The small world problem, Psychology Today, 2, 60–67. [78] Mima, H., Frantzi, K. & Ananiadou S. (1998). The C-value / Example-based approach to the automatic recognition of multi-word terms for cross-language terminology. Proc. Int. Joint Workshop on Cross-Language Issues in AI. Held at 5th Pacific Rim Int. Conf. on Artificial IntelligenceI (PRICAI' 98). Singapore, 10–21. [79] Morris, S.A., Yen, G., Wu, Z., & Asnake, B. (2003). Time Line Visualization of Research Fronts. Journal of the American Society for Information Science and Technology, 54, 413-422. [80] Nakamura, S., Iwasa, N., Senoh, M., & Mukai, T. (1992). Hole Compensation Mechanism of p-type GaN Films. Japanese Journal of Applied Physics Part 1, 31, 213 参考文献 1258-1266. [81] Nakamura, S., Mukai, T., & Sengh, M. (1994). Candela-class high-brightness InGan-AlGan double heterostructure blue light-emitting diodes. Applied Physics Letter, 64(13), 1687-1689. [82] Nakamura, S., Senoh, M., Nagahama, S., Iwasa, N., Yamada, T., Matsushita, T., Kiyoku, H., & Sugimoto, Y. (1996). InGaN-based multi-quantum-well-structure laser diodes. Japanese Journal of Applied Physics Part 2 Letters, 35(1B), L74-L76. [83] Narin, F., & Hamilton, K.S. (1996). Bibliometric performance measures. Scientometrics, 36, 293-310. [84] Newman, M. E. J. (2003). The Structure and Function of Complex Networks. SIAM Review, 45(2), 167-256. [85] Newman, M. E. J. (2004). Fast algorithm for detecting community structure in networks. Physical Review E, 69, 066133. [86] Newman, M.E.J., & Girvan M., 2004. Finding and evaluating community structure in networks. Physical Review E, 69, 026113. [87] Niosi, J. (1999). Fourth-generation R&D: From linear models to flexible innovation. Journal of Business Research, 45, 111-117. [88] Palla, G., Derenyi, I., Farkas, I., & Vicsek, T. (2005). Uncovering the overlapping community structure of complex networks in nature and society. Nature, 435, 814-818. [89] Pankove, J.I., Berkeyhe, J.E., Maruska, H.P., & Wittke, J. (1970). Luminescent properties of GaN. Solid State Communications, 8, 1051. [90] Peters, H.P.F., & van Raan, A.F.J. (1993a). Co-word-based science maps of chemical engineering. Part I: Representations by direct multidimensional scaling. Research Policy, 22, 23-45. 214 参考文献 [91] Peters, H.P.F., & van Raan, A.F.J. (1993b). Co-word-based science maps of chemical engineering. Part II: Representations by combined clustering and multidimensional scaling. Research Policy, 22, 47-71. [92] Porter, A. L. (2005). QTIP: Quick technology intelligence processes. Technological Forecasting & Social Change, 72, 1070-1081 [93] Radicchi, F., Castellano, C., Cecconi, F., Loreto, V., & Parisi, D. (2004). Defining and identifying communities in networks. Proceedings of the National Academy of Sciences, 101(9), 2659-2663. [94] Rosenberg, N. (1974). Science, invention, and economic growth. Economic Journal, 84, 90-108. [95] Sabidussi, G. (1966). The centrality index of a graph. Psychometrika, 31, 581-603. [96] Scott, J. (1991). Social Network Analysis: A Handbook, Sage Pubns. [97] Schiminovich, S. (1971). Automatic Classification and Retrieval of Documents by Means of a Bibliographic Pattern Discovery Algorithm. Information Storage and Retrieval, 6, 417-435. [98] Shibata, N., Kajikawa, Y., Takeda, Y., & Matsushima, K. (2008). Detecting Emerging Research Fronts Based on Topological Measures in Citation Networks of Scientific Publications. Technovation, 28(11), 758-775. [99] Shibata, N., Kajikawa, Y., & Matsushima, K. (2007). Topological analysis of citation networks to discover the future core articles. Journal of the American Society for Information Science and Technology, 58(6), 872-882. [100] Skupin, A. (2004). The world of geography: Visualizing a knowledge domain with cartographic means. Proceedings of the National Academy of Sciences, 101, 5274-5278. [101] Small, H. (1973). Co-citation in the scientific literature: A new measure of the 215 参考文献 relationship between two documents. Journal of the American Society for Information Science, 24, 265–269. [102] Small, H.G. (1977). A co-citation model of a scientific specialty: A longitudinal study of collagen research. Social Studies of Science, 7, 139-166. [103] Small, H. (1997). Update on science mapping: creating large document spaces. Scientometrics, 38, 275-293. [104] Small, H. (2006). Tracking and predicting growth areas in science. Scientometrics, 68(3), 595-610. [105] Small, H.G., & Griffith, B.C. (1974). The structure of scientific literatures: I. Identifying and graphing specialties. Science Studies, 4, 17–40. [106] Son, S., Jeong, H., & dong Noh, J. (2005). Random field Ising model and community structure in complex networks. cond-mat/0502672. [107] Sorenson, O., & Fleming, L. (2004). Science and the diffusion of knowledge. Research Policy, 33, 1615-1634. [108] Storto, C. (2006). A method based on patent analysis for the investigation of technological innovation strategies: The European medical prostheses industry. Technovation, 26(8), 932-942. [109] Sveikauskas, L. (1981). Technological inputs and multifactor productivity growth. Review of Economics and Statistics, 63, 275-282. [110] Swanson, D. R. (1986). Fish oil, Raynauds syndrome, and undiscovered public knowledge. Perspectives in Biology and Medicine, 30, 7-18. [111] Tijssen, R. J. W. (2002). Science dependence of technologies: evidence from inventions and their inventors. Research Policy, 31, 509-526. [112] Tryk, D. A., Fujishima, A., & Honda, K. (2000). Recent topics in photoelectrochemistry: achievements and future prospects. Electrochimica Acta, 216 参考文献 45, 2363-2376. [113] Upadhye, R. P., Kalyane, V. L., Kumar, V., & Prakasan, E. R. (2004). Scientometric analysis of synchronous references in the Physics Nobel lectures, 1981-1985: A pilot study. Scientometrics, 61(1), 55-68. [114] van Dalen, H. P., & Henkens, K. (2001). What makes a scientific article influential? The case of demographers. Scientometrics, 50(3), 455-482. [115] van Dalen, H. P., & Henkens, K. (2005). Signals in science - On the importance of signaling in gaining attention in science. Scientometrics, 64, 209-233. [116] van Raan, A. F. J. (1996). Advanced Bibliometric Methods as Quantitative core of Peer Review Based Evaluation and Foresight Exercises. Scientometrics, 36, 397-420. [117] van Raan, A. F. J., & van Leeuwen, T. N. (2002). Assessment of the scientific basis of interdisciplinary, applied research Application of bibliometric methods in Nutrition and Food Research. Research Policy, 31, 611-632. [118] Watts, D. J., & Strogatz, S. H. (1998). Collective dynamics of “small-world” networks. Nature, 393, 440-442. [119] Weeber, M., Klein, H., de Jong-van den Berg, L.T.W., & Vos, R. (2001). Using concepts in literature-based discovery: Simulating Swanson’s Raynaud–fish oil and migraine–magnesium discoveries. Journal of American Society for Information Science and Technology, 52(7), 548-557. [120] White, H. D., Lin, X., Buzydlowski, J. W., & Chen, C. (2004). User-controlled mapping of significant literatures. Proceedings of the National Academy of Sciences, 101, 5297-5302 [121] Williams, R., & Edge, D. (1996). The social shaping of technology. Research Policy, 25, 865-899. [122] Young, M., Sager, J., Csárdi, G., Haga, P. (2004). An Agent-Based Algorithm 217 参考文献 for Detection Community Structure in Networks. cond-mat/0408263. [123] Zhou P., Leydesdorff, L. (2006). The emergence of China as a leading nation in science. Research Policy, 35, 83-104. [124] アルバート・ラズロ・バラバシ, 青木 薫 (翻訳). (2002). 新ネットワーク 思考―世界のしくみを読み解く. NHK 出版. [125] クレイトン・クリステンセン. 2001. イノベーションのジレンマ―技術革 新が巨大企業を滅ぼすとき, 翔泳社. [126] 佐野幸恵. (2002). ネットワークの違いがダイナミクスに与える影響 奈 良女子大学大学院人間文化研究科物理科学専攻 2002 年度修士論文. [127] ダンカン ワッツ, 辻 竜平 (翻訳), 友知 政樹 (翻訳). (2004). スモール ワールド・ネットワーク―世界を知るための新科学的思考法. 阪急コミュ ニケーションズ. [128] 西尾元宏, 板ばねモデルを用いたインタラクティブな曲線グラフ描画手 法とその応用に関する研究, 東京大学大学院工学系研究科環境海洋工学専 攻 平成 14 年度修士論文, 第 2 章. [129] 増田 直紀 & 今野 紀雄. (2005). 複雑ネットワークの科学. 産業図書. 218 謝辞 謝辞 本研究を行うにあたり、東京大学大学院工学系研究科 技術経営戦略学専攻 松島克守教授、同研究科 総合研究機構 坂田一郎教授、同研究科 技術経営戦略 学専攻 松尾豊准教授には研究活動のあらゆる段階において貴重なアドバイス を賜り、また叱咤激励していただき、心より深謝いたします。自らの手で新し い研究を切り開きたいという私のわがままを受け入れていただき、結果が出な かった時期も文句一つ言わずに我慢していただく先生方の忍耐が無ければ、私 の本研究は存在しませんでした。 松島研究室の梶川裕矢助教、武田善行助教には膨大な時間を割いていただき、 理論武装から精神的なサポートまで、私の研究に多大なご指導を受け賜りまし た。梶川先生、武田先生がいなければ、私はこれほどまでに真剣に研究ができ なかったとさえ思います。また、工学系研究科工業教育推進機構の美馬秀樹特 任助教授には自然言語処理の分野で多大なるサポートをしていただきました。 ここに心より感謝の気持ちを表したいと思います。 松島研究室の同門の皆様には、御自分の研究に忙しい中、私の研究について 貴重な時間を割いて議論していただきました。また、松島研究室秘書の石原絢 さんには、研究室での生活など多岐に渡りお世話になりました。深く感謝いた します。 平成 20 年 12 月 15 日 東京大学大学院 工学系研究科 技術経営戦略学専攻 松島研究室 博士課程 3 年 柴田 尚樹 219 研究業績 研究業績 以下に示す研究業績のうち、本博士論文に特に関係が深いものには(*)を記す。 査読付論文 (英文) (*)N. Shibata, Y. Kajikawa, and K. Matsushima "Topological analysis of citation networks to discover the future core papers" Journal of the American Society for Information Science and Technology 58(6) (2007) 872-882. (*)N. Shibata, Y. Kajikawa, Y. Takeda, and K. Matsushima "Detecting emerging research fronts based on topological measures in citation networks of scientific publications" Technovation 28(11) (2008) 758-775. (*)N. Shibata, Y. Kajikawa, Y. Takeda, and K. Matsushima "Comparative study on methods of detecting research fronts using different types of citation" Journal of the American Society for Information Science and Technology (2009), in press. 220 研究業績 国際会議 Business Incubation in Japan: Current Practice and Recommendations I. Sakata, K. Fujisue, and N. Shibata Proceedings of 17th International Conference on Business Incubation (May 18-21, 2003) in Richmond Virginia. M. Uchida, N. Shibata, and S. Shirayama. Identification and visualization of emerging trends from Blogosphere. In Proceedings of International Conference on Weblogs and Social Meida (ICWSM), pp. 305-306, (2007). in Boulder. N. Shibata, M. Uchida, Y. Kajikawa, Y. Takeda, S. Shirayama, and K. Matsushima "Identifying the Large-Scale Structure of Blogosphere" In Proceedings of The International Workshop and Conference on Network Science (NetSci07) in New York, (May 22-25, 2007). 査読付論文 (邦文) 坂田一郎、柴田尚樹、小島拓也、梶川裕矢、松島克守 「 地 域 経 済 圏 の 成 長 に と っ て 最 適 な 地 域 ネ ッ ト ワ ー ク と は ― Small-World Networks の視点による4地域クラスターの比較分析―」 一橋ビジネスレヴュー 53 (2005) 182-195. 坂田一郎、梶川裕矢、武田善行、柴田尚樹、橋本正洋、松島克守 「地域クラスター・ネットワークの構造分析− Small-world Networks 化し た関西医療及び九州半導体産業ネットワーク― RIETI Discussion Paper Series 06-J-055 (2006). 221 研究業績 坂田一郎、梶川裕矢、武田善行、橋本正洋、柴田尚樹、松島克守 「地域クラスターのネットワーク形成のダイナミクス―12 地域・分野のネット ワーク・アーキテクチュアの比較分析−」 RIETI Discussion Paper Series 07-J -023 (2007). 坂田一郎、梶川裕矢、武田善行、柴田尚樹、橋本正洋、松島克守 「北海道アグリバイオ・クラスター・ネットワークの構造分析―クラスターの 診断法の確立に向けて―」 開発技術 13 (2007) 31-43. 橋本正洋、梶川裕矢、武田善行、柴田尚樹、坂田一郎、松島克守 「クラスターネットワークにおける研究大学の役割と機能」 日本知財学会誌, 5 (2008) 27-51. 平田竹男、佐藤俊一、浦嶋亮介、柴田尚樹、梶川裕矢 「浦和レッドダイヤモンズの自律的経営と成長要因」 スポーツ産業学研究, 18 (2008) 59-77. 国内学会 (*)柴田尚樹 「学術論文の引用ネットワークからの新興学術分野の抽出」 第 2 回ネットワーク生態学シンポジウム 情報処理学会 ネットワーク生態学研 究グループ(神戸、2006 年 3 月 13-14 日) 柴田尚樹・内田誠 「ブログ記事ネットワークにおけるトピックマップの作成」 222 研究業績 第 2 回ネットワーク生態学シンポジウム 情報処理学会 ネットワーク生態学研 究グループ(神戸、2006 年 3 月 13-14 日) 柴田尚樹 「ブログ記事ネットワークの構造分析」 2006 年ビジネスモデル学会春季年次大会(東京、2006 年 3 月 25 日) 橋本正洋・柴田尚樹・武田善行・坂田一郎・梶川裕矢・松島克守 「大学 Melting pot 仮説の検討」 2006 年ビジネスモデル学会春季年次大会(東京、2006 年 3 月 25 日) 坂田一郎・柴田尚樹・武田善行・橋本正洋・梶川裕矢・松島克守 「産学官の知識ネットワークの研究−Small-world Networks 化した関西医療及び 九州半導体産業ネットワーク―」 2006 年ビジネスモデル学会春季年次大会(東京、2006 年 3 月 25 日) 内田誠・柴田尚樹 「ブログ記事ネットワークからの emerging topic の抽出と可視化」 第 20 回人工知能学会全国大会論文集(東京、2006 年 6 月 7-9 日) 坂田一郎・梶川裕矢・武田善行・柴田尚樹・橋本正洋・松島克守 「地域ネットワークのアーキテクチュアの分析手法の提案−9クラスターの比 較分析−」 2006 年ビジネスモデル学会秋季年次大会(東京、2006 年 10 月 14 日) 橋本正洋・梶川裕矢・武田善行・柴田尚樹・坂田一郎・松島克守 「クラスターネットワークにおける研究大学の役割と機能」 2006 年ビジネスモデル学会秋季年次大会(東京、2006 年 10 月 14 日) 223 研究業績 平田竹男・佐藤峻一・浦嶋亮介・柴田尚樹・梶川裕矢 「浦和レッドダイヤモンズとアルビレックス新潟の成功要因比較」 2007 年ビジネスモデル学会春季年次大会(東京、2007 年 3 月 29 日) 橋本正洋・梶川裕矢・武田善行・柴田尚樹・坂田一郎・松島克守 「日本のイノベーションシステム構築における大学の位置づけに関する考察」 2007 年ビジネスモデル学会春季年次大会(東京、2007 年 3 月 29 日) 橋本正洋・梶川裕矢・武田善行・柴田尚樹・坂田一郎・松島克守 「ナショナルイノベーションシステム構築のための構造改革的政策の展開と大 学機能」 第 5 回日本知財学会 学術研究発表会(東京、2007 年 6 月 30 日-7 月 1 日) 224 付録 付録 付録 A:可視化のアルゴリズム グラフレイアウトに用いられるモデルは、遺伝子モデル、生物モデル、力学 モデル等であるがそのなかでも特に力学的なモデルがよく用いられる。これは、 日常的に目にする自然界の力学的な現象を用いることで視覚的に自然なレイア ウトができると考えられているからである。 力学的モデルによるレイアウト手法では、グラフの各要素に様々な力学的相 互作用を仮定し、その中で力学的にエネルギーの小さい状態になるようにレイ アウトを変化させる。このようなアプローチでは直接レイアウトの審美的基準 を扱うわけではないが、モデルの各力学要素がそれぞれ様々な審美的基準に対 応し、エネルギーの小さい状態を求めることが審美的基準を満たすレイアウト を求めることになる。このようなレイアウト手法を力指向的手法(Force-Directed Method)とも呼ぶ。 以下に、力学的モデルを用いたグラフレイアウト手法の研究例について述べ る。はじめに、もっとも基本的な Spring Embedder について概説し、次に pajek15 で実装されている KK 法、FR 法について整理する。最後に、LGL のアルゴリズ ムについて整理する。 なお、可視化に関するアルゴリズムは、本研究の主眼ではないため、ここで は、西尾の論文(西尾, 2002)より一部を引用する。 力指向的手法において最も簡潔でよく知られたモデルが、Eades(Eades, 1984) 15 http://vlado.fmf.uni-lj.si/pub/networks/pajek/ 225 付録 による Spring Embedder である。このモデルでは、エッジを自然長を持った ばねと仮定し、エッジで接続した(隣接した)ノード間にはばね力を模した力、 隣接しないノード同士には逆 2 乗則の斥力によって互いに反発しあう力を仮定 する。各ノードに働く力の合計を計算し、それに従ってノードを移動させる処 理の繰り返し計算でレイアウトを変形させることにより、ノードが近づきすぎ ず、隣接ノードが近くに配置され、エッジの長さが均一に近く、対称的なレイ アウトを得るという手法である。このモデルはこの後に提案された多くの力指 向的手法のベースとなっているが、計算量が大きい、力の定義が単純すぎてグ ラフによってはうまくレイアウトできない、局所最適解に陥る、収束しない、 などの問題があり、様々な改良手法が開発されている。 Kamada ら(Kamada & Kawai, 1989)は、Eades のモデルから逆 2 乗則の斥力を 取り除き、代わりにすべてのノード同士がばねでつながれていて、各ばねはノ ード間の最短パス長によって決まる自然長を持っているようなモデルを提案し た。モデルは全体のエネルギーE によって定義されている。 ただし、n はグラフにおけるノード数、kvivj は頂点 vi, vj 間を結ぶばねのばね定 数、lvivj はそのばねの自然長、dvivj は頂点 vi, vj 間の距離である。このモデルでは トポロジカルな距離が近いノードほど近くに配置されたレイアウトを得る。計 算の手順としては、Eades の Spring Embedder がグラフ全体の移動を繰り返す のに対し、KK のアルゴリズムでは一回の繰り返し計算で一つのノードのみを 扱う。移動させるノードは、上式の偏微分を用いて計算されるノード vi のエネ ルギーEi に基づいて決定し、移動は Newton-Raphson 法による(表 AP-1 参照)。 226 付録 表 AP-1 KK 法のアルゴリズム16 Fruchterman ら(Fruchterman & Reingold, 1991)は、新たな引力・斥力要素の定義 によって Eades のアルゴリズムを拡張した。つまり、エッジで接続されたノード 同士はノード間の距離の 2 乗に比例する引力 Fa を受け、すべてのノード同士は ノード間の距離に反比例する斥力 Fr を受けるようなモデルである。 ただし、d がノード間の距離、l は隣接ノード間の理想距離(ばねの自然長) で ある。これにより、Eades のアルゴリズムと同じような特徴を持ったレイアウト モデルがシンプルに表現され、計算も効率化された。 さらに、Fruchterman らはレイアウトモデルに温度の概念とその冷却過程を導 入した。つまり、レイアウト計算の初期の段階では系全体の温度が高く、各要 素が大きなエネルギーを持つ状態と考えて各ノードを大きく移動させ、計算が 進むにつれて系全体の温度を低く、つまり各ノードの移動量を小さくしていく ようにしたのである。これは繰り返し計算一回におけるノードの移動許容距離 を制限し、その許容範囲を繰り返し計算の回数が進むごとに減らしていくこと 16 http://cgi.members.interq.or.jp/pacific/moto/shuron/より抜粋。 227 付録 で実現されている。これによりノードを大きく動かしすぎることを避け、計算 が適切に収束に向かう。所謂、Simulated Annealing である。 続いて、Large Graph Layout(LGL)17について述べる。LGL は、テキサス大 学の Adai ら(Adai, et al., 2004)によって開発されたネットワーク可視化アプリケ ーションであり、大規模なネットワークの可視化を行うために開発されたもの である。 実際、LGL では表 AP-2 に示すアルゴリズムで描画が行われる。そのプロセ スの様子を図 AP-1 に示す。 17 http://bioinformatics.icmb.utexas.edu/lgl/ 228 付録 表 AP-2 LGL による可視化のアルゴリズム 1. 最も距離中心性が小さいノードを中心に配置する(図 AP-1 の黒 丸)。このノードをレベル 0 とし、以下レベル 0 のノードから 1 ステ ップで到達できるノードをレベル 1、レベル 1 のノードから 1 ステ ップで到達できるノードをレベル 2 とする。 2. レベル 1 のノードをレベル 0 のノードの周辺にランダムに配置する (図 AP-1 の赤丸)。 3. エッジをばねと見なし、レベル 1 のノードのエネルギーが最小にな るように座標を決定する。ここで、エネルギーは下式で定義される。 kr=0 for lxjl>r ka, kr: the attractive and repulsive spring constants a:the equilibrium length of the spring connected to adjacent vertex i lkxjl: the Euclidean distance of separation between the two vertices sharing the edge (the spring) e: the number of edges connected to vertex u lkxjl:the distance of separation between the current vertex and a neighboring vertex j m: the number of localized vertices satisfying lkxjl>r 4. 2, 3 をネットワークの直径回数分だけ繰り返す。 229 付録 図 AP-1 18 LGL の可視化プロセス18 Adai, et al., 2004 より抜粋。 230 付録 付録 B:距離中心性(Closeness Centrality)算出のアルゴリズム ノード間の最短パス長を求める方法は、古くから研究されてきた。最短パス 長を求めるアルゴリズムには、全ての 2 点間の最短路・最短距離を求める方法 であるウォーシャル・フロイド法(Warshall-Floyd 法)、特定の 2 点間の最短路・ 最短距離を求めるダイクストラ法(Dijkstra 法)などがある。複雑ネットワーク 分析における距離中心性は、全ての 2 点間の最短路・最短距離を求める必要が あるため、ウォーシャル・フロイド法(Warshall-Floyd 法)が有効であると考え られる。そこで、以下で、ウォーシャル・フロイド法(Warshall-Floyd 法)のア ルゴリズムを概説する。 まず、ノード i から j に向かうエッジがある場合はその距離 d ij を、ない場合は ∞とした直接距離行列を作成する。次に、i から j に別の 1 点を経由した場合(エ ッジ 2 本)の最短路・最短距離を求め、距離行列を更新する。その際、次に経 由する点を pij として記憶しておく。更新された距離行列を用いてこの操作を再 度行えば、枝 4 本まで使った最短路・最短距離が求まる。この操作を 2 h n 1と なるまで h 回繰り返せば、 最終的な最短経路・最短距離が求まる。これをアル ゴリズムとして表記したものが、表 AP-3 である。 231 付録 表 AP-3 ワーシャル・フロイド法による距離中心性算出のアルゴリズム 1. pij 2. 全ての i, j, k ji N , h=1 とする。 N, i Nk d ij d ik d kj pij d ik d kj i, j に対し、 d ij d ik d kj であれば、 とする。 n 1 であれば終了。 3. 2h 4. h=h+1 として 2 へ戻る。 この方法は、エッジに重み(距離)がついた場合、エッジが有向の場合でも 適用できるという利点もあるが、時間計算量が O(n3)で、空間計算量が O(3n2)で あり計算に時間がかかる。 また、最短パスに含まれる頂点行列 行列 d ij pij はここでは不要で、実際には最短パス のみが求まればよいため、あるノードを起点にして、エッジを一段階ず つたどっていき、全てのノードまでの到達ステップをカウントするという方法 が現実的ではある。この手法の場合、時間計算量はグラフの形状によって O(n)~O(n2)まで、平均して O(nlogn)で計算可能である。 232 付録 付録 C:媒介中心性(Betweenness Centrality)算出のアルゴリズム 媒介中心性の概念や定義は、1979 年に Freeman によって提唱されたものであ るが(Freeman, 1979)、長年計算量の大きさが問題となっていた。媒介中心性を求 める高速なアルゴリズムは 2001 年に、Brandes によって提唱された(Brandes, 2001)。そのアルゴリズムは、表 AP-4 に示す通りである。 表 AP-4 19 媒介中心性算出のアルゴリズム19 Brandes, 2001 より抜粋。 233 付録 この手法によって、重み付きグラフの場合、時間計算量は O(nm + n2 log n)、 空間計算量は O(n +m)必要であるが、重みなしグラフの場合、時間計算量は O(nm) まで減少させることができる。図 AP-2 は、従来手法とこの手法で媒介中心性の 計算にかかる時間を表している。ここでは、無向ランダムグラフを用い、ノー ド数を 100 から 2000 まで変化させて(それに伴い密度は 10-90%へ変化する)時 間を計測した。 図 AP-2 20 媒介中心性算出のアルゴリズムの計算時間20 Brandes, 2001 より抜粋。 234 付録 付録 D:2000 年のガリウム・ナイトライド分野の引用ネットワー クのクラスタリング ガリウム・ナイトライド分野の 2000 年時点でのネットワークに対して、 「4.3.3 クラスター内論文の平均出版年と各クラスターのトピックの分析」と同じ操作 を行ったものである。ガリウム・ナイトライドの 2000 年は maturation stage であ ると言える。その結果、28 クラスターに分割でき、Qmax=0.388 であった。各ク ラスターの論文数(cluster size)とクラスター内の論文の平均年齢(average age) の 関 係 を 図 AP-3 に 示 す 。 ま た 、 (a) ク ラ ス タ ー 論 文 数 が 1,000 以 上 、 (b)TC(2000)>=150 となる論文が存在するという 2 つの条件を満たすクラスター (及びその論文一覧)を表 AP-5 に示す。また、表 AP-5 には、各クラスターの tf-idf の上位 10 語を特徴語として付与した。ここで、クラスター#0 は degrees, growth, substrate などを特徴語に含み、Nakamura, 1994; AMANO, 1989; AMANO, 1986; AKASAKI, 1989 に代表される「プロセス」クラスター、クラスター#2 は、 degrees, contact, American institute を特徴語に含み、MORKOC H, 1994 に代表され る 「 デ バ イ ス 」 ク ラ ス タ ー 、 ク ラ ス タ ー #1 は layers, structures, defects, photoluminescence, strain などを特徴語に含み、Nakamura S, 1996; LESTER SD, 1995; NAKAMURA S, 1995; Nakamura S, 1998 に代表される「物性」クラスターで あると言うことができよう。さらに、 「プロセス」クラスター(#0)は平均年齢 が 1995.6 年と老いているのに対し、 「デバイス」クラスター(#2)、 「物性」クラ スター(#1)はそれぞれ 1998.2 年、1998.6 年と若いクラスターとなっている。 エキスパートによれば、この結果はガリウム・ナイトライド分野の特徴をよく 表している。通常、ガリウム・ナイトライド分野のような物質系の分野では、 はじめにプロセスが発明され、次に物性が研究され、最後にデバイスが開発さ れるというプロセスを踏むのが一般的である。ところが、ガリウム・ナイトラ イド分野は中村修二氏らの貢献によって、近年希に見るスピードで発展した分 野として有名である。実際、 「物性」クラスターと「デバイス」クラスターの年 235 付録 齢が近いこと、デバイス研究が物性研究とほぼ同時進行で発展してきたことが よく分かる。 以上 2 つの追加実験もふまえると、1)クラスタリングによってクラスターの老 若が明確に分類される、2)クラスターごとの代表的な論文、特徴語をエキスパー トに見せた限りにおいては、論文の分類、特徴語ともに現実に合致する結果で あるとの評価を得た。従って、ここで提案しているクラスターごとの特徴語か ら新興クラスターを発見する方法は有効であると言えよう。 8.0 7.0 average age 6.0 5.0 4.0 3.0 2.0 1.0 0.0 0 500 1,000 1,500 2,000 2,500 3,000 cluster size 図 AP-3 ガリウム・ナイトライド分野(2000 年)のクラスタリング結果(1) 236 付録 表 AP-5 cluster # papers id 0 average ガリウム・ナイトライド分野(2000 年)のクラスタリング結果(2) Top 10 tf-idf terms Papers (TC(2000)>=150) year Bc(2000) TC(2000) degrees, growth, substrate, STRIFE S, 1992, J VAC SCI TECHNOL B, V10, P1237 1992 0.12998 837 films, ga, gaas, gan, nh, si, NAKAMURA S, 1994, APPL PHYS LETT, V64, P1687 1994 0.06786 659 surfaces AMANO H, 1989, JPN J APPL PHYS PT 2, V28, PL2112 1989 0.037437 519 AMANO H, 1986, APPL PHYS LETT, V48, P353 1986 0.025432 488 NAKAMURA S, 1991, JPN J APPL PHYS PT 2, V30, PL1705 1991 0.015141 395 AKASAKI I, 1989, J CRYST GROWTH, V98, P209 1989 0.01654 306 NAKAMURA S, 1992, JPN J APPL PHYS PT 1, V31, P1258 1992 0.008266 295 DINGLE R, 1971, PHYS REV B, V4, P1211 1971 0.017927 293 STRITE S, 1991, J VAC SCI TECHNOL B, V9, P1924 1991 0.007583 217 PAISLEY MJ, 1989, J VAC SCI TECHNOL A, V7, P701 1989 0.003313 213 NAKAMURA S, 1995, JPN J APPL PHYS PT 2, V34, PL797 1995 0.007681 198 MONEMAR B, 1974, PHYS REV B, V10, P676 1974 0.008114 197 POWELL RC, 1993, J APPL PHYS, V73, P189 1993 0.005201 181 LEI T, 1991, APPL PHYS LETT, V59, P944 1991 0.004149 172 NAKAMURA S, 1992, JPN J APPL PHYS PT 2, V31, PL139 1992 0.001914 163 DAVIS RF, 1991, PROC IEEE, V79, P702 1991 0.002113 163 DINGLE R, 1971, SOLID STATE COMMUN, V9, P175 1971 0.002206 160 LEI T, 1992, J APPL PHYS, V71, P4933 1992 0.003498 156 age 2,509 1995.6 237 付録 2 1 2,267 1,525 1998.2 1998.6 degrees, contact, gan, al, MORKOC H, 1994, J APPL PHYS, V76, P1363 1994 0.055754 518 ni, ga, ti, au, physics, MOHAMMAD SN, 1995, PROC IEEE, V83, P1306 1995 0.01262 206 american institute NEUGEBAUER J, 1994, PHYS REV B, V50, P8067 1994 0.005241 205 OGINO T, 1980, JPN J APPL PHYS, V19, P2395 1980 0.003091 181 BARKER AS, 1973, PHYS REV B, V7, P743 1973 0.01206 176 Chichibu S, 1996, APPL PHYS LETT, V69, P4188 1996 0.005802 172 Bernardini F, 1997, PHYS REV B, V56, P10024 1997 0.004453 166 Nakamura S, 1996, JPN J APPL PHYS PT 2, V35, PL74 1996 0.031132 500 physics, american institute, LESTER SD, 1995, APPL PHYS LETT, V66, P1249 1995 0.014733 285 structures, NAKAMURA S, 1995, JPN J APPL PHYS PT 2, V34, PL1332 1995 0.014273 236 Nakamura S, 1998, APPL PHYS LETT, V72, P211 1998 0.0181 180 Akasaki I, 1996, ELECTRON LETT, V32, P1105 1996 0.002109 167 Usui A, 1997, JPN J APPL PHYS PT 2, V36, PL899 1997 0.007272 160 gan, mg, layers, ga, defects, photoluminescence, strain 238 付録 図 AP-4 ガリウム・ナイトライド分野(2000 年)のクラスタリング結果(3) 239 付録 付録 E:2004 年の複雑ネットワーク分野のうち物理クラスターの みを対象とした引用ネットワークのクラスタリング ここでは、図 AP-5 に示したように、2000 年時点で「物理学クラスター」に 分類された論文に 2001 年以降に出版された論文を加えた論文群から、最大連結 成分のみを抽出した。その結果、1,464 本の論文の引用関係ネットワークが抽出 された。 1970-2000年に 出版された論文 2000時点で 「物理クラス ター」に分類さ れた論文 2001-2004年に 出版された論文 複雑ネットワーク分野の全論文 (3,928論文) 図 AP-5 「新興学術分野」として抽出した論文 (1,464論文) 物理学クラスターの抽出方法 図 AP-6 に物理学クラスターの論文数と被引用数の経時変化を示す。2000 年 から論文数が増加を始め、2005 年以降も増加を続けている。 240 付録 600 3,000 200 1,000 100 500 0 図 AP-6 2000 1,500 1995 300 1990 2,000 1985 400 1980 2,500 1975 500 1970 # papers 3,500 papers citations # citations 700 0 物理学クラスターにおける論文数と引用数 次に、抽出された物理学クラスター内で、さらに「急進的イノベーション」 が起こっていないかどうかを確認する。物理学クラスターの 2004 年時点でのネ ットワークに対して、クラスタリングを行った。複雑ネットワーク分野の 2004 年は、1998 年から物理系の論文が出版され、その後繁栄したことを考えれば expansion stage であると言える。その結果、19 クラスターに分割でき、Qmax= 0.370 であった。各クラスターの論文数(cluster size)とクラスター内の論文の 平均年齢(average age)の関係を図 AP-7 に示す。クラスター内論文数にはばら つきがあるが、クラスター平均年齢は若いクラスターが非常に多い。クラスタ ー平均年齢が 4 歳以下と若く、クラスター内論文数が 100 以上であるような大 きなクラスターは 4 つしか存在しない。また、(a)クラスター論文数が 100 以上、 (b)TC(2004)>=50 となる論文が存在するという 2 つの条件を満たすクラスター (及びその論文一覧)を表 AP-6 に示す。また、表 AP-6 には、各クラスターの tf-idf の上位 10 語を特徴語として付与した。図 AP-8 に LGL を用いて、複雑ネ ットワーク分野(2000 年)を可視化した図を示す。可視性を確保するために、同じ クラスター内のエッジのみ、クラスターごとの色を変えて描き、ノードを描い ていない。また、図中の英単語は特徴語を表し、#id、[age]はそれぞれ表 AP-6 241 付録 の cluster id、average age に対応する。 表 AP-6 の特徴語、論文リストから、クラスター#0 はスモール・ワールドク ラスター、#1 はバイオネットワーククラスター、#2 は社会学クラスター、#3 は スケールフリークラスターと言うことができよう。この結果は各種教科書の記 述とも一致し、非常に納得のいくものである。また、クラスター平均年齢が#2, #0, #2, #1 の順に若く、さらに経時変化(図 AP-9)を見れば、現実と非常に合致し ていると言える。 クラスタリングの際の Q 値の最大値が Qmax= 0.370 が低かったことからも分 かるように、この物理学クラスター内で起こっているイノベーションは急進的 イノベーションではなく、漸進的イノベーションである。 20.00 18.00 16.00 average age 14.00 12.00 10.00 8.00 6.00 4.00 2.00 0.00 0 100 200 300 400 cluster size 図 AP-7 物理学クラスター(2004 年)のクラスタリング結果(1) 242 500 付録 表 AP-6 cluster # average id papers age 0 1 3 347 324 390 2002.35 2002.74 2003.08 物理学クラスター(2004 年)のクラスタリング結果(2) Top 10 tf-idf terms Papers (TC(2004)>=50) year Bc(2004) TC(2004) model, network, graphs, world, transition, Watts DJ, 1998, NATURE, V393, P440 1998 0.758267 722 connections, synchronization, nodes, phase Newman MEJ, 1999, PHYS REV E, V60, P7332 1999 0.003225 112 transition, shortcuts Barrat A, 2000, EUR PHYS J B, V13, P547 2000 0.000269 106 Barthelemy M, 1999, PHYS REV LETT, V82, P3180 1999 0.013152 90 Moore C, 2000, PHYS REV E, V61, P5678 2000 0.001125 83 Kuperman M, 2001, PHYS REV LETT, V86, P2909 2001 0.000241 62 Newman MEJ, 1999, PHYS LETT A, V263, P341 1999 0.000123 61 Newman MEJ, 2000, PHYS REV LETT, V84, P3201 2000 0.000185 59 Kleinberg JM, 2000, NATURE, V406, P845 2000 0.007148 51 Monasson R, 1999, EUR PHYS J B, V12, P555 1999 0.000626 50 proteins, genes, network, scale, interactions, Barabasi AL, 1999, SCIENCE, V286, P509 1999 0.173141 558 model, graphs, distributions, pathway, nodes Jeong H, 2000, NATURE, V407, P651 2000 0.042207 243 Ravasz E, 2002, SCIENCE, V297, P1551 2002 0.006287 78 Milo R, 2002, SCIENCE, V298, P824 2002 0.006262 60 nodes, model, scale, network, vertices, Albert R, 2002, REV MOD PHYS, V74, P47 2002 0.151596 499 degree distributions, graphs, links, gamma, Albert R, 2000, NATURE, V406, P378 2000 0.029497 248 degree Dorogovtsev SN, 2002, ADVAN PHYS, V51, P1079 2002 0.006101 210 Barabasi AL, 1999, PHYSICA A, V272, P173 1999 0.003023 148 243 付録 4 91 2003.33 community structure, food webs, algorithm, Newman MEJ, 2003, SIAM REV, V45, P167 2003 0.069734 133 Cohen R, 2000, PHYS REV LETT, V85, P4626 2000 0.000363 119 Krapivsky PL, 2000, PHYS REV LETT, V85, P4629 2000 0.000465 104 Liljeros F, 2001, NATURE, V411, P907 2001 0.003273 103 Callaway DS, 2000, PHYS REV LETT, V85, P5468 2000 0.000317 99 Newman MEJ, 2002, PHYS REV LETT, V89 2002 0.001055 84 Cohen R, 2001, PHYS REV LETT, V86, P3682 2001 4.11E-05 71 Barabasi AL, 2000, PHYSICA A, V281, P69 2000 0.011343 51 Strogatz SH, 2001, NATURE, V410, P268 2001 0.029329 299 nodes, network, states, dynamics, scale, community, model 244 付録 図 AP-8 物理学クラスター(2004 年)のクラスタリング結果(3) 245 付録 1998 1999 2000 2001 2002 2003 図 AP-9 物理学クラスターのクラスタリング結果の経時変化 続いて、物理学クラスター内のノードの役割の経時変化(1992-2000 年)を図 246 付録 AP-10 に示す。図の縦軸は、クラスター内でどの程度ハブであるかを示すクラス ター内次数係数 z-score、横軸は、エッジが複数のクラスターに分散しているの かどうかを示すモジュール間分散度 P である。ここでは、物理学クラスター内 の 2004 年の被引用数上位 10 の論文の z-score, P の経時変化を示した。 図 AP-10 を見ると、(R6) connector hubs に位置する論文がほとんどである。時 系列で見れば、P の値はあまり変わらずに z-score の値が上昇する傾向にあった。 つまり、学術分野が急速に発展する段階で引用を多く得る論文は、各クラスタ ー間をつなぐような、ネットワーク全体のハブにもなっているということを表 しているため、 「急進的イノベーション」は起こっていないということがここで も言えよう。 図 AP-10 物理学クラスターのノードの役割の経時変化(1998-2004 年) 247 付録 表 AP-7 物理学クラスターの 2001 年における媒介中心性の上位 20 論文 Rank name published Title Bc(2001) year 1 Watts DJ, 1998, NATURE, V393, 1998 P440 2 DERRIDA Collective dynamics of 'small-world' 0.992795 RANDOM NETWORKS OF AUTOMATA - 0.149724 networks B, 1986, 1986 EUROPHYS LETT, V1, P45 A SIMPLE ANNEALED APPROXIMATION 3 Gurtovenko AA, 2001, J CHEM 2001 PHYS, V115, P4924 Relaxation of disordered polymer networks: 0.126084 Regular lattice made up of small-world Rouse networks 4 Dodds PS, 2001, PHYS REV E, 2001 V6302 5 Geometry of river networks. I. Scaling, 0.103287 fluctuations, and deviations Barabasi AL, 1999, SCIENCE, 1999 Emergence of scaling in random networks 0.078859 1999 Unified view of scaling laws for river 0.071147 V286, P509 6 Dodds PS, 1999, PHYS REV E, V59, P4865 7 networks Barthelemy M, 1999, PHYS 1999 REV LETT, V82, P3180 8 Small-world networks: Evidence for a 0.067376 crossover picture FLORY PJ, 1976, PROC ROY 1976 SOC LONDON SER A, V351, STATISTICAL THERMODYNAMICS OF 0.062704 RANDOM NETWORKS P351 9 Jeong H, 2000, NATURE, V407, 2000 P651 10 Albert R, 2000, NATURE, V406, 2000 Dorogovtsev SN, 2001, PHYS 2001 Tadic B, 2001, PHYSICA A, KIRCHNER 0.051334 Scaling properties of scale-free evolving 0.045987 networks: Continuous approach 2001 V293, P273 13 Error and attack tolerance of complex networks REV E, V6305 12 0.053079 networks P378 11 The large-scale organization of metabolic Dynamics of directed graphs: the 0.038275 OF 0.036136 World-Wide Web JW, 1993, 1993 GEOLOGY, V21, P591 STATISTICAL INEVITABILITY HORTON LAWS AND THE APPARENT RANDOMNESS OF STREAM CHANNEL NETWORKS 14 Newman MEJ, 2001, PHYS REV 2001 Scientific 248 collaboration networks. II. 0.025329 付録 E, V6401 Shortest paths, weighted networks, and centrality 15 Weisbuch G, 2000, INT J MOD 2000 PHYS C, V11, P1263 16 Dorogovtsev SN, 0.018293 fluctuations 2000, 2000 EUROPHYS LETT, V52, P33 17 Self-organized percolation and critical sales Morelli LG, 2001, PHYS REV E, Scaling behaviour of developing and 0.016323 decaying networks 2001 Synchronization of Kauffman networks 0.014691 1994 SETTING THE ACTIVITY LEVEL IN 0.011933 V6303, Part. no. 18 MINAI AA, 1994, NEURAL COMPUT, V6, P85 19 Newman MEJ, 1999, PHYS REV SPARSE RANDOM NETWORKS 1999 E, V60, P7332 20 Barabasi AL, 1999, PHYSICA A, V272, P173 Scaling and percolation in the small-world 0.007317 network model 1999 Mean-field theory for scale-free random networks 249 0.006754 付録 表 AP-8 rank 物理学クラスターの 2004 年における被引用数の上位 20 論文 name published Title TC(2004) year 1 Watts DJ, 1998, NATURE, V393, 1998 P440 2 Barabasi AL, 1999, SCIENCE, Collective dynamics of 'small-world' 722 networks 1999 Emergence of scaling in random networks 558 2002 Statistical mechanics of complex networks 499 2001 Exploring complex networks 299 2000 Error and attack tolerance of complex 248 V286, P509 3 Albert R, 2002, REV MOD PHYS, V74, P47 4 Strogatz SH, 2001, NATURE, V410, P268 5 Albert R, 2000, NATURE, V406, P378 6 Jeong H, 2000, NATURE, V407, networks 2000 P651 7 Dorogovtsev SN, 2002, ADVAN The large-scale organization of metabolic 243 networks 2002 Evolution of networks 210 1999 Mean-field theory for scale-free random 148 PHYS, V51, P1079 8 Barabasi AL, 1999, PHYSICA A, V272, P173 9 Newman MEJ, 2003, SIAM REV, networks 2003 V45, P167 10 Cohen R, 2000, PHYS REV Newman MEJ, 1999, PHYS REV 2000 Barrat A, 2000, EUR PHYS J B, 1999 Krapivsky PL, 2000, PHYS REV 119 Scaling and percolation in the small-world 112 network model 2000 V13, P547 13 Resilience of the Internet to random breakdowns E, V60, P7332 12 133 networks LETT, V85, P4626 11 The structure and function of complex On the properties of small-world network 106 models 2000 Connectivity of growing random networks 104 2001 The web of human sexual contacts 103 2000 Network LETT, V85, P4629 14 Liljeros F, 2001, NATURE, V411, P907 15 Callaway DS, 2000, PHYS REV LETT, V85, P5468 16 Barthelemy M, 1999, PHYS REV LETT, V82, P3180 robustness and fragility: 99 Small-world networks: Evidence for a 90 Percolation on random graphs 1999 crossover picture 250 付録 17 Newman MEJ, 2002, PHYS REV 2002 Assortative mixing in networks 84 2000 Epidemics and percolation in small-world 83 LETT, V89 18 Moore C, 2000, PHYS REV E, V61, P5678 19 Ravasz E, 2002, SCIENCE, V297, networks 2002 P1551 20 Cohen R, 2001, PHYS REV LETT, V86, P3682 Hierarchical organization of modularity in 78 metabolic networks 2001 Breakdown of the internet under intentional attack 251 71