Comments
Description
Transcript
共同研究の関係を用いた研究領域の時系列解析
佐藤和宏,市瀬龍太郎,栗原 聡,沼尾正行:共同研究の関係を用いた 研究領域の時系列解析,日本ソフトウェア科学会ネットワークが創発す る知能研究会第4回ワークショップ(JWEIN08),pp. 86-92, 2008. 1 JWEIN08 ¯¯ 共同研究の関係を用いた研究領域の時系列解析 Time Series Analysis of Research Subjects using Collaborative Research Relationship 佐藤 和宏 大阪大学大学院情報科学研究科 Kazuhiro Satoh Graduate School of Information Science and Technology, Osaka University 市瀬 龍太郎 国立情報学研究所 Ryutaro Ichise National Institute of Informatics 栗原 聡 大阪大学産業科学研究所 Satoshi Kurihara The Institute of Scientific and Industrial Research, Osaka University 沼尾 正行 日本学術振興会学術システム研究センター / 大阪大学産業科学研究所 Masayuki Numao Japan Society for the Promotion of Science / The Institute of Scientific and Industrial Research, Osaka University キーワード: data minig, knowledge discovery, knowledge domain visualization 概要 本研究の目的は,研究助成金申請データから研究分野間の関係性を抽出する手法を,研究領域の時系列変化 の解析に応用することである.従来,学術研究の動向を調べる研究としては,論文のデータを用いる事が一般的で あった.しかし論文を用いる方法には,研究分野によってバイアスがかかるという問題がある.これに対し著者ら は,研究分野間の関係性の抽出に研究助成金申請データを用いることを提案し,その有効性を 2005 年度の科研費 申請データを用いて示した.本論文では,その手法を複数年度のデータに対して適用し研究領域の時系列変化の解 析を行った結果について説明する.解析結果として,時系列変化の抽出に対する有効性を示唆する結果が得られた. 1. は じ め に は,科学の知識が書かれている論文のデータに基づいて行 われている.典型的なアプローチの一つは,共引用ネット 科学の知識は,私たちの生活を向上させるのに不可欠 ワーク [10] のような引用情報を用いるものである.Chen である.そのため,世界中で多くの研究者が科学的な知 と Paul は,論文のデータに含まれる引用の情報を利用 識の発見に取り組んでいる.現在の科学研究は,物理学や して,研究に対する影響力から研究分野の構造をつきと 数学といった古典的な科学から,ナノマイクロ科学や環 めている [3].阪らは,共引用関係を用いて研究領域を 境科学といった複合領域まで幅広い分野をカバーしてい 決定し,さらに研究領域間の距離を各研究領域における る.その結果,非常に多くの科学的な知識が,急速に生み 発表論文の分野分布から求める事で,学際的・分野融合 出されている.Testa らが報告 [11] しているように,現 的研究領域の分析を行っている [14].論文データの共著 在,出版される学術雑誌は,20 年前に比べると,70%以 ネットワークは,研究者のグループを同定するのに有用 上増加していることも,これを裏付けている. である.例えば,Börner らが共著ネットワークを利用し このように急速に拡大している科学研究に対して,現 在の科学研究の全体像を掴むことは,研究の戦略を決定 する研究企画者や研究費マネージャにとって重要なこと となる.たとえば,ある特定の研究分野と別の研究分野 の共同研究が急速に拡大していることが分かれば,革新 的な技術がその分野において生み出されていると予想す ることができる.なぜならば,そのような技術は,複数 の研究領域の融合により生み出されるからである.その ような研究領域として,医療と工学を融合した医工学な どの新領域が上げられるであろう. このような学術研究の全体像をつかむ研究のほとんど ている [2].また,市瀬らは,コミュニティとして,研究 者グループの発見を行っている [6, 5].論文の概要も研 究領域を理解するのに有用である.Skupin [8, 9] や市瀬 ら [4] は,研究領域の関係を解明するのに研究の概要やタ イトルを利用している.しかし,論文のデータを利用す ることは,バイアスがかかってしまう問題点がある.そ れぞれの研究領域では,異なる論文出版の形式を取るた め,論文だけで一律に異なる研究領域を取り扱うのは難 しい.例えば,生物学の分野では,ジャーナル論文が多 く発行されているが,数学の分野では,ジャーナル論文 がそれに比べて,あまり発行されないなどの違いがある. 2 JWEIN08 その結果,論文のデータを利用して,異なる研究領域を 同じように比較することは難しいと言える. 䃐 䃑 㼏㼍㼠㼑㼓㼛㼞㼥 異なる研究分野に対し規格化されたデータの一つに,研 究助成金の申請データがある [13].研究助成金の申請は, 研究分野に関わらず同様の形式で提出され,専門家のピ 㻭 㻮 㻯 アレビューにかけられる.論文のデータとは異なり研究 㼍㼜㼜㼘㼕㼏㼍㼠㼕㼛㼚 㼐㼛㼏㼡㼙㼑㼚㼠 分野ごとのバイアスの問題が発生しないため,学術研究 全体に対する知識を収集するという目的に対して,研究 助成金のデータを用いることが有効であると考えられる. 㻝 市瀬らは,[12] において研究助成金申請データから研究 㻞 㻟 㻠 分野間の関係性を抽出する手法を提案している.本論文 㼞㼑㼟㼑㼍㼞㼏㼔㼑㼞㼟 では,この手法について説明すると共に,それを複数年 度にわたり適用することで,研究分野間の関係性の時系 列での変化に関する解析を行う. 図 1 研究助成金申請データの構造モデル 本論文の構成を以下に示す.2 章では研究助成金申請 データのモデルについて説明し,3 章で研究助成金申請 データから研究分野間の関係性を抽出する手法 [12] につ 図 1 において,申請文書と研究分野の関係,そして申 いて説明する.4 章では,実験に用いる研究助成金申請 請文書と研究者の間の関係は線で表現されている.申請 データである,科研費申請データについて説明する.5 文書として A,B,C の三つの文書が示されており,う 章では,3 章で説明した手法の評価実験と結果の考察に ち二つが分野 α に,一つが分野 β に提出されている.そ ついて説明する.5.2 節では,[12] で実施した特定の年度 れぞれの申請文書は研究プロジェクトに対する企画であ の研究分野間の関係性の抽出結果について説明する.5.3 り,3 つの研究プロジェクトに対して合わせて 4 人の研 節では,本論文で新しく実施した時系列変化の解析結果 究者が関係している.図 1 では,各申請に対する研究代 について説明する.そして 6 章で結論と今後の課題につ 表者は実線で,研究分担者は点線で示されている.例え いて説明する. ば,研究者 1 は申請 A の研究代表者であり,研究者 2 は 申請 A の研究分担者であるとともに申請 B の研究代表 2. 研究助成金申請データのモデル 本章では,本研究で用いる研究助成金申請データのモ 者でもある. 3. 研究分野間の関係性 デルについて説明する.現在,日本には基礎研究から応 用研究まで,様々なタイプの研究助成金が存在する.そ 図 1 に示すように研究助成金申請データをモデル化す して,研究助成金のタイプによって必要となる記述内容 ることで,研究テーマ間の関係性を抽出することが出来 が異なる.たとえば,基礎研究の助成金申請に対しては る.例えば,図 1 の研究者 4 について考えてみると,彼 論文や研究の動向が重要な役割を果たし,応用研究に対 は分野 β の申請 C の研究代表者であるので分野 β の専 しては特許や社会動向が重要な役割を果たす. 門家であると考えられる.しかしながら,彼は分野 α の 本研究では,研究助成金申請データについて,研究分 申請 B の研究分担者でもある.この事から,彼は分野 α 野,研究代表者の氏名,研究グループメンバーの氏名と に分野 β の知識を提供する役割を担っていることが分か いう最小限の要素が含まれていると仮定する.一般的に, る.この様に,このモデルを用いることで学際的な研究 研究助成金申請データには研究分野の情報が含まれる. 分野を特定することが出来る.学際的な研究は時として もしこの情報が抜けていれば,同分野の専門家によるピ 革新的な技術の開発に対して重要となる.学際的な研究 アレビューを行うことが出来ないからである.言い方を 分野の例として,生物学,医学,情報学などの分野が関 変えると,研究分野の情報はピアレビューを行う専門家 係するゲノム科学などが挙げられる.もし最近の密接に を選ぶために必要となる.そのため,申請者によって研 関係する研究分野を特定することが出来れば,新しく興 究分野の情報が付加されていると期待することが出来る. りつつある革新的な技術を特定することが出来る. また,助成金を申請する研究プロジェクトは,一人以上 上でも触れたように,本研究では,学際的な分野を特 の研究者から成る研究グループによって実施される.以 定するために図 1 の研究者 4 の様に複数の研究テーマに 降では,研究を申請した人を研究代表者,他の研究者を またがって研究する研究者の人数を用いる.この方法に 研究分担者と呼ぶ.研究助成金申請データに対して上記 より,研究テーマ間の関係性の強さを評価することがで の要素を仮定することにより,図 1 に示すモデルを構築 き,また研究テーマをノードとし,研究テーマ間の関係 することが出来る. 性をエッジとしたグラフを求めることが出来る.例えば 3 共同研究の関係を用いた研究領域の時系列解析 図 1 において,分野 α を表現するノードと分野 β を表現 するノードは,研究者 4 のみによってつながっているの で,重さ 1 のエッジによって接続される.ここで,研究 者 2 は複数の研究プロジェクトのメンバであるが,両方 のプロジェクト共に分野 α に属しているため,彼は学際 的研究に寄与していないことに注意する必要がある.そ のため,彼の貢献は提案手法によって得られるグラフ上 には現れない. 図 2 科研費の研究分野階層構造 4. 科学研究費補助金 表 1 日本の政府から提供される研究助成金は複数存在する. その中でもっとも一般的なものが,日本学術振興会およ び文部科学省によって提供される科学研究費補助金 [13] である.以降では,これを科研費と呼ぶ.本研究では,こ の科研費の申請データを実験用データとして用いる. それぞれの科研費の応募文書に対して,応募者は研究 プロジェクト名,研究代表者名と研究分担者名,研究計 画,経費の要求額,ピアレビューのための研究分野など の情報から成る研究提案書を提出する必要がある.応募 された研究はピアレビューにかけられ採択が決定される. ピアレビューのプロセスは日本学術振興会および文部科 分野名と略称 略称 分野名 GA CA HS SS MP CH EN BI AG MS TA 総合領域 複合新領域 人文学 社会科学 数物系科学 化学 工学 生物学 農学 医歯薬学 時限付き分科細目 学省によって公平に行われる. 研究者は,応募フォームに従って新たな研究プロジェク 研究を促進する必要がある.そのため,この特別な細目 トについて説明する必要がある.科研費には,基盤研究, が一時的に時限付き分科細目に設定されている.このよ 若手研究,萌芽研究など幾つかの種類が存在する.通例 うに時限付き分科細目は様々な分野の混合として成立し として,一人の研究者が研究代表者として応募できるの ている.そのため時限付き分科細目には分科がなく,細 は,一年間当たり一つの研究プロジェクトに限られてい 目のみで編成されている. る.しかしながら,幾つかの種類の科研費は,応募者に 対して複数のプロジェクトでの応募を許可している.そ 5. 実 験 のため,応募者は複数の応募の研究代表者になることが 出来る.しかしながら,科研費は複数の研究分担者にな ることは制限していない. 5・1 科研費申請データと実験設定 3 章で説明した手法を評価するために,科研費申請デー 前章において,研究分野の情報を用いた研究助成金申 タを用いた実験を行った.用いたデータは 2005 年度か 請データのモデルについて説明した.科研費申請の研究 ら 2007 年度の科研費申請データである.分野ごとの分科 分野は,図 2 に示すように階層的に編成される.最上位の 数,細目数を表 2 に示す.この数は,2005 年度から 2007 層は分野と呼ばれ,表 1 に示す 11 種類の研究分野から構 年度のあいだ変化しなかった.3 章で説明した手法を用 成される.各分野は幾つかの分科からなる.例えば,工学 いて,各細目間の関係性を調査した. の分野は図 2 に示すように電気電子工学や機械工学など 実験で用いたデータの一般的な統計情報を表 3,表 4, から成る.そして分野と同様に,各分科は複数の細目に 表 5 に示す.ここで,1 行目は各分野の応募数,2 行目は 分けられる.ここで,時限付き分科細目のみ特殊な構造 研究代表者数である.一般的に一つの応募に対して一人 をしていることに注意する必要がある.時限付き分科細 の研究代表者が存在するため,研究代表者数と応募数は 目は,重要性が高く迅速な促進が必要な,一時的な研究 等しくなるはずである.しかしながら,実際は研究代表 細目から成る.例えば,2005 年度の時限付き分科細目の 者数のほうが応募数よりも少ない.これは一人で複数応 細目の一つにアレルギー学がある.通常,アレルギー学 募している研究者が存在するためである.3 行目は,分野 は免疫学の細目として分類される.しかしながら,アレ ごとの研究分担者として登録されている研究者の人数で ルギー学は免疫学のごく小さな領域に過ぎないため,免 ある.4 行目は,分野ごとの研究代表者と研究分担者の 疫学のグループでのみアレルギー学の応募を審査した場 合計人数である.これは,複数の応募に重複して記述さ 合,多くの研究を採択することは難しい.現在多くの患 れている人数を含むのべ合計人数である.例えば表 3 の 者がアレルギーによって苦しんでいるため,この分野の 総合領域を見ると,研究代表者数が 9547 人であり研究分 4 JWEIN08 表 2 分科数 細目数 GA 10 30 表 3 応募数 研究代表者数 研究分担者数 総研究者数 平均人数 GA 9949 9547 8330 20212 2.032 CA 4369 4152 4744 9897 2.265 表 4 応募数 研究代表者数 研究分担者数 総研究者数 平均人数 GA 10041 9655 7806 19370 1.929 応募数 研究代表者数 研究分担者数 総研究者数 平均人数 GA 10577 10127 8659 20745 1.961 CA 4255 4091 4220 9049 2.127 表 5 CA 4215 4030 4377 9086 2.156 CA 8 16 HS 7 24 SS 7 29 分野ごとの分科数,細目数 MP 5 21 CH 3 13 EN 8 49 BI 3 18 AG 9 27 MS 8 70 TA 14 total 68 311 分野ごとの応募数,研究者数および一応募辺りの研究者数 (2005 年度) HS 4192 4140 4080 9218 2.199 SS 6275 6179 6111 13718 2.186 MP 5366 5004 4524 12459 2.322 CH 3515 3174 1748 5589 1.590 EN 12001 10952 8360 23523 1.960 BI 3385 3172 1753 5543 1.638 AG 5048 4644 3855 10312 2.043 MS 27002 25577 19067 58731 2.175 TA 558 558 707 1342 2.405 total 81660 – – 170544 2.088 TA 487 487 636 1164 2.390 total 81051 – – 162806 2.009 TA 772 772 852 1703 2.206 total 83841 – – 169482 2.021 分野ごとの応募数,研究者数および一応募辺りの研究者数 (2006 年度) HS 4323 4279 4092 9240 2.137 SS 6521 6428 6194 13999 2.147 MP 5198 4912 4105 11181 2.151 CH 3394 3100 1305 4908 1.446 EN 11560 10639 7406 21304 1.843 BI 3311 3126 1530 5098 1.540 AG 5175 4811 3705 10040 1.940 MS 26786 25603 18844 57453 2.145 分野ごとの応募数,研究者数および一応募辺りの研究者数 (2007 年度) HS 4704 4651 4816 10323 2.195 SS 6928 6841 6644 14587 2.106 MP 5219 4855 4772 11345 2.174 CH 3394 3052 1423 5011 1.476 EN 11760 10740 7701 21436 1.823 BI 3355 3127 1781 5393 1.607 AG 5194 4779 3915 10112 1.947 MS 27723 26449 20675 59741 2.155 担者数が 8330 人である.これらを合計すると 17877 人 こで,ノードの大きさは応募数を表し,色は研究分野を となるが,総研究者数は 20212 人とそれよりも大きい数 表している.各ノードの番号は,研究細目番号と対応し 字となっている.これは,総研究者数の値は複数の応募 ている.この番号は,総合領域,複合新領域,人文学,社 に重複して記述されている研究者をカウントしているた 会科学,数物系科学,化学,工学,生物学,農学,医歯薬 めである.5 行目は一応募あたりの研究者数の平均人数 学そして時限付き分科細目の細目の順番につけられてい である.この数値は,分野ごとの協調の傾向を知るため る.例えば,図 3 の左上に位置する,3000 番付近の赤色 に重要となる.例えば,研究代表者を除いた一応募あた のノード群は人文学の細目を表している.図より,総合 りの平均研究者数は,生物学の分野では 0.638 人であり, 領域の黒色のノードと複合新領域の茶色のノードは,複 複合新領域の分野では 1.265 人である.この事は,複合 数の分野をつなぐ役割を果たしている事がわかる.実際 新領域は生物学に比べて研究の目的を達成するためによ これらの分野は,近年新しく持ち上がった問題の解決や, り多くの研究者を必要とする事を示している. 新しい技術の開発などを目的として設置された研究分野 であり,化学や生物学,社会科学など様々な分野の知識 5・2 実 験 1 を必要とする.例えば,複合新領域の細目の一つである マイクロナノデバイス (細目番号 2103) は新しい技術を まず 2005 年度のデータを用いて,特定の年度の分野間 開発するための重要な細目である.図3から,この細目 のつながりに関する調査を行った.3章で説明した手法 は薄膜・表面界面物性(4902)と電子デバイス・電子機 を用いて,2005 年度の科研費申請データに対するグラフ 器(5103)の知識を必要とすることが分かる. を作成した.グラフの描画には Pajek[1] を用い,ノード の配置には Kamada-Kawai モデル [7] を用いた.また, 提案手法を用いることで,上記のような知識を科研費 細目を表すノードを分野ごとにまとめるために,分野内 申請データから得ることが出来る.上記のほかに,医歯 のノードをつなぐエッジを追加している.例えば,総合 薬学の領域では分野内の協調が多くなされている事や, 領域の 30 細目は,それぞれ不可視のエッジでつながれて 生物学の分野では他の分野との協調がつながりが少ない いる.また単純化のために,応募数が 100 以下のノード 事などが分かる.これは,医歯薬学の研究には様々な分 および重み 20 以下のエッジは除去している. 野の知識を必要とするが,生物学の研究は他の分野の知 図 3 に,提案手法によって得られたグラフを示す.こ 識をあまり必要としない事を示唆している.また複合新 5 共同研究の関係を用いた研究領域の時系列解析 ேᩥᏛ 31022802 2805 2902 2801 2903 2806 2803 3002 9022 9021 9020 9019 9018 9017 9015 9014 9012 9011 2804 2901 3001 30033103 ᩘ≀⣔⛉Ꮫ 4201 4405 4105 4104 4305 41024101 4304 3005 3104 3201 3004 3301 3101 3105 4103 ♫⛉Ꮫ 4401 3702 3902 3401 3602 4004 3605 3701 3606 3603 3703 3407 3901 4003 3404 340334023501 3405 4001 3502 3904 3801 3607 3601 3604 4002 3406 9026 9024 9023 6901 7001 7215 6904 4704 4402 4407 4404 ⥲ྜ㡿ᇦ 3802 3903 4602 4601 1602 1104 1401 1402 1901 1003 26011701 1801 1201 1004 1010 1009 2202 1501 1005 1011 1601 1007 1002 1006 2201 2102 1008 2101 2301 2103 1303 1403 1101 1102 1302 2302 1103 2001 1301 10012701 1502 2004 2003 2401 2501 2002 7206 7305 68057302 7303 4702 4603 4701 4801 4705 50065402 5605 5101 49055002 5104 5606 4904 5406 5003 5005 5603 5105 5403 5301 5204 4903 5604 5201 5405 5206 5404 5107 5302 5303 5001 5401 5607 5602 5601 55035304 5501 5004 5502 4803 4902 4901 5202 5106 5203 5205 5007 5102 5103 5504 」ྜ᪂㡿ᇦ 7301 7203 6801 7201 7402 7102 7407 7205 7403 7101 7404 7304 7401 6803 7503 7210 7501 6902 74067409 72146806 7502 7308 7307 7209 7103 7204 7408 7213 7208 7306 6911 7207 6903 6905 6804 7212 6906 6909 6910 7405 6802 7309 7002 6908 7202 6912 6913 6907 Ꮫ 4706 ᕤᏛ 7211 7003 7313 7312 7311 7310 6201 6301 6401 5702 6105 6604 6602 5701 5806 5802 59025704 5807 5705 5804 5703 5805 5803 6701 6102 6104 5706 ་ṑ⸆Ꮫ 9025 43064406 4403 4802 48044703 4303 4302 4501 4301 6003 6702 6004 6002 6501 6503 6601 6101 6005 6103 66056202 6502 6001 6302 6603 ㎰Ꮫ 5801 5901 ⏕≀Ꮫ 図 3 研究分野間の関係 (2005 年度) ேᩥᏛ 31022802 2805 2902 2801 2903 2806 2803 3002 9022 2804 2901 3001 30033103 ᩘ≀⣔⛉Ꮫ 4201 4405 3004 3105 4105 4104 4305 41024101 4304 3005 3104 3201 3301 3101 43064406 4403 4802 48044703 4303 4302 4501 4301 4103 ♫⛉Ꮫ 4401 Ꮫ 4702 3401 4603 4704 4402 4407 3602 4404 4004 4602 3605 3701 3606 4601 4705 3603 4701 3703 3407 3901 4801 4003 3404 1602 1104 340334023501 1401 1402 1901 3405 1003 2601 1701 1801 4706 4001 3502 1201 1004 3904 3801 3607 1010 1009 4803 2202 1501 50065402 3601 1005 1011 3604 4902 1601 1007 1002 4901 5605 1006 2201 2102 4002 3406 5101 5202 49055002 1008 5104 5606 ⥲ྜ㡿ᇦ 3802 5106 5203 5205 4904 2101 2301 3903 5007 5406 5003 2103 5102 5005 1303 5103 1403 1101 5603 5105 1102 1302 2302 5403 5301 1103 5204 2001 1301 5504 4903 10012701 5604 1502 9031 5201 5206 5404 5107 5405 2004 9030 9029 5302 9028 5303 2003 9027 5001 9026 5401 5607 2401 2501 9024 2002 9023 5602 5601 55035304 5501 7206 5004 7305 6901 5502 7302 7001 6805 」ྜ᪂㡿ᇦ 7303 7215 6904 7301 7203 6801 ᕤᏛ 7211 7313 7201 7402 7003 7312 7311 7102 7407 7310 6201 7205 7403 7101 6301 7404 7304 7401 6803 6401 6701 7210 7503 7501 6902 74067409 72146806 7502 6102 7307 7208 7209 7103 72047308 7408 6104 73067213 7207 6911 5702 6105 6903 6905 6804 6503 7212 6906 6910 6003 6702 6909 6802 7405 6004 5706 6601 7309 7002 6002 6908 7202 6912 6101 6913 6604 6907 6602 6005 6501 3702 3902 9025 ་ṑ⸆Ꮫ 5701 5806 5802 ⏕≀Ꮫ 59025704 5807 5705 5804 5703 5805 5803 6103 66056202 6502 6001 6302 6603 5801 5901 ㎰Ꮫ 図 4 研究分野間の関係 (2006 年度) 領域の地域研究(2601)は,人文科学や社会学の多くの の研究プロジェクトのメンバーとなっている研究者の人 細目にとって重要な細目であることが分かる.このこと 数を表している.例えば,総合領域の中の複数の細目で から,複合新領域は両分野にとって重要な分野であるこ 研究を行っている研究者数は 1974 人であり,総合領域 とが分かる. と複合新領域の両方の細目で研究を行っている研究者数 次に,実験結果について定量的な議論を行う.表 6 は, は 754 人である.ここで,本研究では細目間のつながり 複数の細目にまたがって研究を行っている研究者数,つ の方向性を考えていないため,表 6 は対称的であること まり図 3 のエッジ数を分野ごとにまとめた表である.表 に注意する必要がある.また図 3 のグラフでは.20 人以 の上および左の列は研究分野を表し,数値は複数の細目 下の重みのエッジは枝刈りしているため,表の値に比べ 6 JWEIN08 ேᩥᏛ 31022802 2805 2902 2801 2903 2806 2803 3002 2804 2901 2904 3001 2851 30033103 ᩘ≀⣔⛉Ꮫ 4201 4405 4105 4104 4305 41024101 4304 3005 3104 3201 3004 3301 3101 3105 ♫⛉Ꮫ 4103 4401 3702 3902 3401 3602 4004 3605 3701 3606 3603 3703 3407 3901 4003 3404 340334023501 3405 4001 3502 3904 3801 3607 3601 3604 4002 3406 3802 3903 43064406 4403 4802 48044703 4303 4302 4501 4301 9035 4704 4402 4407 4404 ⥲ྜ㡿ᇦ 4602 4601 1602 1104 1401 1402 1901 1003 26011701 1801 1201 1004 1010 1009 2202 1501 1005 1011 1601 1007 1002 1006 2201 2102 1008 2101 2301 2103 1303 1403 1101 1102 1302 2303 2302 1103 2001 1301 10012701 1502 2004 2003 2401 2501 2002 9033 9032 9031 9030 9029 9028 9027 9026 9024 9023 7504 7206 7410 7305 6901 7001 680573027216 7303 7215 6904 7301 7203 6801 7211 7313 7201 7402 7003 7312 7311 7102 7310 7205 7403 7407 7101 7404 7304 7401 6803 7503 7210 7501 6902 74067409 72146806 7502 7308 7307 7209 7103 7204 7408 7213 7208 7306 6911 7207 6903 6905 6804 7212 6906 6909 6910 7405 6802 7309 7002 6908 7202 6912 6913 6907 Ꮫ 4702 4603 4701 4801 4705 9034 4706 50065402 5605 5101 49055002 5104 5606 4904 5406 5003 5005 5603 5105 5403 5301 5204 4903 5604 5201 5405 5206 5404 5107 5302 5303 5001 5401 5607 5602 5601 55035304 5501 5004 5502 4803 4902 4901 5202 5106 5203 5205 5007 5102 5103 5504 」ྜ᪂㡿ᇦ ᕤᏛ 6201 6301 6401 5702 6105 6102 6104 5706 6604 6602 ་ṑ⸆Ꮫ 5701 9025 5802 5806 59025704 5807 5705 5804 5703 5805 5803 ⏕≀Ꮫ 6701 6003 6702 6004 6002 6501 6503 6601 6101 6005 6103 66056202 6502 6001 6302 6603 ㎰Ꮫ 5801 5901 図 5 研究分野間の関係 (2007 年度) グラフ上のエッジ数は少なくなっている.合計人数を見 2007 年度のグラフを示す.これらの図から分かる事とし ると,総合領域と医歯薬学において多くの研究者が複数 て,まず社会科学と医歯薬学とのつながりの変化が挙げ の細目で研究を行っていることがわかる.しかし学際的 られる.図 5 を見ると,社会科学の臨床心理学 (3903) と な傾向は二つの分野で異なる.総合領域では,全体の 20 医歯薬学の精神神経科学 (7215) との間のエッジと,社会 %以下が複合領域内の細目同士でのつながりであるが, 科学の社会福祉学 (3802) と医歯薬学の地域老人看護学 医歯薬学では,全体のほぼ 60 %が医歯薬学内の細目同 (7504) の間のエッジが新しく発生している.この事から, 士のつながりである.この事からも,複合領域は学際的 社会科学と医歯薬学の間の繋がりが近年強くなって来て な研究を促進する上で重要な役割を担っている事が分か いるという事が分かる.また,図 3 と図 4 とを比べると, る.この様な傾向は,図 3 からも読み取ることができる. 工学と他の分野との繋がり,特に数物系科学との繋がり 一方,細目間のつながりが少ない分野としては,人文学, が減少していることが分かる.2005 年度には存在した数 化学,生物学があるが,これらも研究の傾向はそれぞれ 物系科学の数学一般 (4103) と工学の工学基礎 (4905) と 異なる.人文学,化学は特定の分野のみと強く関係して の間のエッジや,数物系科学の原始・分子・量子エレク いるが,生物学は様々な分野と広く関係している.この トロニクス・プラズマ (4105) と工学の原子力学 (5606) 傾向もまた,図 3 からも読み取ることができる.ここで との間のエッジ等が,2006 年度には消滅している. 図 3 では,人文学,化学の分野内のエッジに比べて,生 物学の分野内のエッジが表の数値以上に少なく見えるが, 提案手法を用いることで,上記のような研究分野の時 これは重みの小さいエッジを枝刈りしているためである. 系列変化に関する知識を科研費申請データから得ること が出来る.上記の知識について専門家へのヒアリングを 5・3 実 験 2 実施したところ,社会科学と医歯薬学の間の変化につい ては専門家がその様な社会情勢を認識している事を確認 次に 2005 年度から 2007 年度のデータを用いて,分野 することが出来た.この事は提案手法を用いることによっ 間のつながりの時系列変化に関する調査を行った.実験 て様々な分野に対する新たな研究動向を自動的に発見で 1 と同様に,提案手法を用いて 2006 年度,2007 年度の 科研費申請データに対するグラフを作成し,Pajek を用 きることを示唆している.一方,2005 年度から 2006 年 いてその描画を行った.ここで年度ごとの比較を容易に 研費申請の制度の変化が原因だという意見を頂いた.近 するために,各ノードは図 3 と同様の位置に配置してい 年,科研費申請において研究分担者に課せられる責任が る.またエッジの枝狩りは,実験 1 と同様の条件で行っ 増加し,その結果研究グループのメンバーを公式に研究 ている. 分担者として申請することが減ってきている.そのため, 図 4,図 5 に,提案手法によって得られた 2006 年度, 度の工学の変化については,研究情勢の変化ではなく,科 2006 年度は 2005 年度に比べて工学の分野を中心にエッ 7 共同研究の関係を用いた研究領域の時系列解析 表 6 複数の細目で研究を行っている研究者数 (2005 年度) GA CA HS SS MP CH EN BI AG MS GA 1974 754 538 922 477 151 1268 325 380 3532 CA 754 621 410 528 673 503 1827 457 876 861 HS 538 410 838 517 33 2 73 31 71 59 SS 922 528 517 1382 58 4 122 21 88 351 MP 477 673 33 58 1466 202 962 116 93 65 ジ数が減少したのだと思われる.これは,工学の分野に CH 151 503 2 4 202 698 693 83 98 227 EN 1268 1827 73 122 962 693 3298 109 337 451 BI 325 457 31 21 116 83 109 461 447 732 AG 380 876 71 88 93 98 337 447 1340 456 MS 3532 861 59 351 65 227 451 732 456 9928 Total 10321 7510 2572 3993 4145 2661 9140 2782 4186 16662 報を直接可視化する事が考えられる. 限らず他の分野にも言える事だが,特に工学は他の分野 との連携が密なため,この減少が顕著に現れたのだと思 ♢ 参 考 文 献 ♢ われる.この問題を受けて,2007 年度からは従来の研 究分担者よりも責任の少ない連携研究者という形で研究 グループのメンバーを登録できるという制度が始まった. 2007 年度のエッジ数が 2006 年度に比べてやや増加傾向 にあるのは,従来申請していなかった研究グループのメ ンバーをこの連携研究者として申請しているためである と思われる. 6. 終 わ り に 本論文では,研究助成金申請データから研究分野間の 関係性を抽出する手法について説明すると共に,その手 法を複数年度に渡り適用することで研究分野間の関係性 の時系列変化に関する解析を行った.その結果,社会科 学と医歯薬学の関係の変化など,専門家の認識する研究 動向の変化を確認することが出来た.この様に,この手 法が研究領域の時系列変化の抽出に対しても有効である ことを示唆する結果が得られた. 今後の課題としては,モデルの改善,可視化方法の改 善の 2 点が挙げられる.モデルの改善としては,まず分 野間の繋がりの方向性を考慮することが考えられる.例 えば図 1 において,分野 α と β は研究者 4 を通じて関 係しているが,研究者 4 は分野 α に対しては研究代表者 として関わっており,分野 β に対しては研究分担者とし て関わっているため,研究者 4 を介した分野 α と β の 関係性は非対称である.この様な非対称の関係を,エッ ジの方向性としてモデル化することで,現在のモデルで は見落とされていた情報が抽出できると考えられる.ま た,科学研究費補助金のデータ項目のうちで,分科や種 別(萌芽研究,若手研究,基盤研究)など現在用いてい ない情報を用いることも考えられる.可視化方法の改善 としては,時系列変化の可視化がある.今回は,各年度 のデータを可視化し,それらを単純に比較することで時 系列変化に対する知見を得ている.これに対し年度ごと のエッジの差分を見せるなどの方法で,時系列変化の情 [1] Vladimir Batagelj and Andrej Mrvar. Pajek Reference Manual, 2008. [2] Katy Börner, Luca Dall’Asta, Weimao Ke, and Alessandro Vespignani. Studying the emerging global brain: Analyzing and visualizing the impact of co-authorship teams. Complexity, 10(4):58–67, 2005. [3] Chaomei Chen and Ray J. Paul. Visualizing a knowledge domain’s intellectual structure. Computer, 34(3):65– 71, 2001. [4] Ryutaro Ichise, Setsu Fujita, Taichi Muraki, and Hideaki Takeda. Research mining using the relationships among authors, topics and papers. In Proceedings of the 11th International Conference on Information Visualization, pages 425–430, 2007. [5] Ryutaro Ichise, Hideaki Takeda, and Taichi Muraki. Research community mining with topic identification. In Proceedings of the 10th International Conference on Information Visualization, pages 276–281, 2006. [6] Ryutaro Ichise, Hideaki Takeda, and Kosuke Ueyama. Community mining tool using bibliography data. In Proceedings of the 9th International Conference on Information Visualization, pages 953–958, 2005. [7] Tomihisa Kamada and Satoru Kawai. An algorithm for drawing general undirected graphs. Information Processing Letters, 31:7–15, 1989. [8] Andre Skupin. A cartographic approach to visualizing conference abstracts. IEEE Computer and Graphics and Applications, 22(1):50–58, 2002. [9] Andre Skupin. The world of geography: Visualizing a knowledge domain with cartographic means. Proceedings of the National Academy of Sciences, 101(1):5274–5278, 2004. [10] Henry Small. Co-citation in the scientific literature: A new measure of the relationship between two documents. Journal of the American Society of Information Science, 24:265–269, 1973. [11] James Testa. Journal selection for web of science. Thomson-UniBio Press joint seminar, Tokyo, 2007-4-5, 2007. [12] Ryutaro Ichise, Kazuhiro Satoh, Masayuki Numao. Elucidating Relationships among Research Subjects from Grant Application Data. In Proceedings of the 12th International Conference on Information Visualization, pages 427–432, 2008. [13] 沼尾 正行. 科学研究費に関する各種データの分析−データ マイニングおよび研究者ネットワーク分析に向けて−. 学術月 報. 60 (10). pages 38–43. Oct 2007. [14] 阪彩香, 伊神正貫, 桑原輝隆 : 科学技術政策研究所 NISTEP REPORT No.110 サイエンスマップ 2006