...

滋賀県研究者情報システムの 性能改善について

by user

on
Category: Documents
16

views

Report

Comments

Transcript

滋賀県研究者情報システムの 性能改善について
I
論文
はじめに
滋賀県 から受託事業契約している1)滋賀県研
究者情報システム(愛称をちえナビという。以下、
「ちえナビ」と記す)のWebサーバが滋賀大学情報
滋賀県研究者情報システムの
テキストマイニングによる
性能改善について
処理センターにある。ちえナビは筆者 2)が2003 年
に滋賀県より研究委託され設計・開発したシステ
ムで、その理論と設計に関しては彦根論叢第348
号にて報告している
[Tani 2004]。ちえナビは5年
間の 研究委託期間を経て、2008年より滋賀大学
の受託事業となり今日に至っている。
本稿は、彦根論叢第348号では言及できなかっ
たちえナビの検索性能に関する評価と、テキストマ
イニングによるシソーラス辞書拡張による性能改
善について論じる。一般的に検索性能は、適合す
る情報を漏れなく出力する再現率
(recall)と、ユー
谷口伸一
Shinichi Taniguchi
滋賀大学 経済学部 / 教授
ザが 必要としている情報を的確 に出力 する精度
(precision)で評価されるが、再現率と精度とはト
レードオフの関係になることがわかっている。当該
システムは産学官連携 を推進 する大学と公設機
関のコーディネータの利用を主たる目的としていた
ため、研究者 の 網羅性を 優先 することが 要件 で
あった。そこで、ちえナビでは汎用シソーラス辞書
を搭載して検索質問の 拡張を行い再現率 の向上
を図った。しかし、汎用シソーラス辞書 の利用に
は精度をより一層低下させるという問題 がある。ま
た、近年、一般ユーザの利用が増加してきているこ
とから、ちえナビの再現率と精度の定量的な性能
評価に基づいて、一般ユーザの満足度を向上させ
るために精度の改善を図る必要がある。一方、情
報検索理論 では汎用シソーラス辞書 の改善法 が
一つの課題としてある。これらの精度とシソーラス
辞書の課題に対して、テキストマイニングからのア
プローチによる解決法を提案する。
1)担当部署は滋賀県商工観光労働部
中小企業支援課である。
2)プログラムのコーディングと実装は、
当時指導大学院生であったCHHY HUY
(現在、カンボジア在住)が担当した。
100
彦根論叢
2014 Spring / No.399
以下、Ⅱでは、ちえナビの開発経緯と利用状況
究者情報検索のためにキーワードを入力して検索
を 示 す。Ⅲでは情報検索技術と性能評価尺度を
処理を実行した回数を集計したものである。ちえ
説明して、ちえナビの再現率と精度の定量的な性
ナビはその集計機能を有している。Fig.1より2011
能評価を行う。そして、Ⅳでテキストマイニングに
年度から急増して、2013年度は25,000アクセスに
よるシソーラス辞書の拡張法を提案し、検索性能
達し、近年の利用が増していることがわかる。一方、
が改善されることを示す。
月別のアクセス数 では、1月から3月にかけての 年
度末 が 多く、他の月の20% 増となる特徴 がみられ
II
ちえナビの開発経緯と利用状況
る。これらは企業等 の経済活動と連動しているも
のと考えられる。
滋賀県は2002年に滋賀大学との共同研究「滋
年度別アクセス数推移
賀県内中小企業知的財産権 の 創造・保護・活用
30,000
策 」を 行 い、TLO3)の 設 立 に 関 して 検 討 した
25,000
管理運用にリスクがあることを考慮し、ハードとな
るTLOを設立することよりも産学官連携を担当す
る県内公設機関のコーディネータや大学関係者ら
が、大学のシーズと企業のニーズをマッチングする
うえで 重要 な 情報源 となる 滋賀県 研究者 情報
検索回数
[Ohmura 200]。その結果、TLOの維持および
20,000
15,000
10,000
5,000
データベースと産学官連携 の環境整備というソフ
2005
2006
2007
2008
2009
2010
トの充実を図ることにした。ちえナビは、この結論
Fig.1 ちえナビの年度別アクセス数推移
を受けて研究委託され開発されたものである。
2011
2012
2013
年度
今日、大学等の技術移転については、当時のよ
うな勢いはないが、日本 の科学技術を牽引するた
めの大学 の 使命 であることに変わりはない。また、
III
情報検索システムの 性能評価
文部科学省は、大学が自治体と連携し、全学的に
3.1. ちえナビの 検索技術
地域を志向した教育・研究・社会貢献を進めて、
性能評価について論じるにあたり、ちえナビの
課題解決に資 する様々な人材や 情報・技術 が集
検索技術を参考文献[Tani 2004]に基づき、以
まる地域コミュニティの中核的存在としての大学
下のとおり要約する。
の機能強化を図る
「地
(知)の拠点整備事業
(大学
4)
(1) クローラ
(crawler)が滋賀県内9大学と2 工業
COC事業)」の推進を決めている 。社会科学分
技術センターの 研究者紹介Webページを巡
野も含めて大学を取り巻く環境変化のなか、ちえ
回して研究者情報を収集する。これを文書集
ナビの存在価値が再び高まると筆者は考えている。
合
(document set):Dとする。D=
[d1, d2 , …
Fig.1 は、ちえナビのアクセス数推移である。こ
dn]と表す。
のアクセス数は、Webページビューとは異なり、研
3)Technology Licensing Organizationの略。
「大学等における技術に関する研究成果の
民間事業者 への移転の促進に関する法律
(1998年5月6日)」
に基づき、特許庁により承認あるいは認定された
技術移転事業者のこと。現在、承認TLO 38 機関、
滋賀県研究者情報システムのテキストマイニングによる性能改善につ
いて
認定 TLO 3 機関が存在する。
http://www.jpo.go.jp/kanren/tlo.htm
文部科学省
「地
(知)の拠点整備事業
(大学COC事業)
」
。
4)
http://www.mext.go.jp/a_menu/koutou/kaikaku/coc/
index.htm
谷口伸一
101
(2) 文書集合Dを形態素解析して、文書集合Dか
ら 抽出 され た 索引語集合(indexing term
書d jと検索質問 ベクトルqとの 類似度を計算
する。
set):Tを作成する。T=[t1, t 2 , …, tm]と表す。
(3) 文書集合Dと索引語集合Tから索引語t iのidf
(inverse document frequency)を計算する。
たとえば、
t iのidf はn/n iとなる。ここで、nは文
m
d j・q
cos(dj , q) =
=
dj ・ q
wijを 要素 とする 索引語・文 書行列(term-
m
2
∑wij
i=1
書総数、n iはt iを含む文書数を表す。
(4) ベクトル 空間 モデルに 基 づき文書集合Dを
∑ wij wqi
i=1
m
2
∑wqi
(3)
i=1
j 研究者名と研究内容)を類似度順に
(7)文書d(
表示する。
document matrix)を次式(1)で算出する。
ここで、w ijは文書d jに出現する索引語t iの重
3.2. 情報検索システ ムの 有効性 の 評価尺度
み で あ る。t i の 重 み は t i の 頻 度 tf(term
情報検索システムの有効性は検索結果に対し
frequency)と、
(3)で求めたt iのidf の積で求
与えられる評価であり、これに関する評価尺度とし
まる。このような 重 み 付 けをtf-idf 法という
て、以下の3つが考えられる
[Toku ]。
[Kita 2002]。ちえナビは
(1)から
(4)で求め
た種々の値を研究者情報データベースとして
(2) 適切性
(pertinence)
管理している。
(3) 有用性
(usefulness)
w11
w12
w 21 … wn1
w 22 … wn2
…
…
…
…
D= [d1 d2 … dn ] =
適合性は 客観的な判断を前提として検索質問
に適合 する文書 を文書集合 から検索 できる度合
(1)
で計られる。適切性はユーザの情報要求を満足さ
せる文書 を文書集合 から検索 できる度合 で 計ら
w1m w 2m … w nm
れる。すなわち適合性はあるパラダイムやある分
(5)検索キーワードが入力されると、
(1)式の列と
野に存在する合意によって判断されるものであり、
同様 に 検索質問 ベクトルqを次式(2)で 求
適切性はユーザ 個々の 知識構造によって判断さ
める。
れる個人的なものである[Foskett 2]
[Kemp
4]。
wq1
wq2
たとえば、ちえナビを利用するユーザAに対して
(2)
…
q=
(1) 適合性
(relevance)
研究者XとYを検索結果として与えたとする。事前
にユーザAが研究者Xの研究内容を知っていた場
wqm
合、研究者Xの情報提供は適切ではないと判断さ
ここで、wqiは検索質問に含まれるキーワードqiに
れる。適合性と適切性には次式(4)の関係が成り
対応する索引語t iの重みである。
立つといえる。
(6) つぎに、索引語・文書行列Dと検索質問ベク
トルqのコサイン尺度を次式
(3)で求めて、文
102
適合性∋適切性
彦根論叢
( 4)
2014 Spring / No.399
一方、有用性はユーザAが情報要求の段階では
collection)と呼 ばれる適合性情報の付与された
考えていなかった価値をこの文書によって新たに
評価データを用いる。
得た場合 に生じる。以上のことから、適切性と有
用性はユーザの知識構造 あるいは主観的判断に
3.4. テスト・コレクションの 設定と作成
依存するため客観的、定量的に評価することが難
テスト・コレクションは、ちえナビが対象にする
しい。そこで、一般的に適合性が 情報検索システ
全研究者に基づき作成すべきであるが、多様な分
ムの有効性を評価する尺度として用いられる。
野 の 多数 の 研究者 について 検索質問を設定し、
それぞれの研究者についてその適合性を判定する
3.3. 再現率と精度
ことは極めて困難な作業 である。一般には、文書
適合性に基づく情報検索システムの評価は、次
集合 のサンプリングを行い、そのサンプルと設定
の2つの観点から評価される。
する検索質問により適合性をあらかじめ判定して
(1) 完全性
(completeness)
おいて、再現率と精度を推定する手法が用いられ
(2) 正確性
(accuracy)
ている
[Kishi ]。
完全性は検索質問に適合 する文書を漏 れなく
そこで本研究では、長浜 バイオ大学をサンプリ
検索 できる度合を表し、評価尺度として再現率R
ング 対象とした。その理由は以下のとおりである。
(recall)で定義される。また、正確性は検索質問
に適合 する文書だけを検索できる度合を表し、精
(1) 研究内容の記載が充実していること。
(2) 単科大学 であるため、研究分野 が 限定され
度 P(precision)で定義される。それらをTable.1
適合性の判定 が正確になること。このことは、
の交差行列で説明する。
Ⅳのシソーラスの拡張による性能改善を試 み
るうえでも合理的である。
Table.1 文書集合と検索文書の交差行列
(3) シソーラス辞書活用の 有効性を 判断 する目
検索された文書 検索されなかった文書
的において研究者数が適度であること。
適合文書
w
x
テスト・コレクションはバイオサイエンス学科
非適合文書
y
z
(遺伝子生命科学コース、分子生命科学コース、
細胞生命科学コース、環境生命科学コース)24名、
A)再現率R:次式
(5)で求められる。
R= w w
+ x
アニマルバイオサイエンス学科 9名、コンピュータ
(5)
B)精度 P:次式
(6)で求められる。
P= w w
+y
バイオサイエンス学科8 名、一般教育・ビジネス
教育4名に客員教授 7名を加えた52 名の教員を対
象にした。
(6)
また、検索キーワードとしてDNA・遺伝子・細
胞 から病気治療 や 創薬に至る研究範囲を勘案し
この定義 に基 づき再現率と精度を計算するた
て、その中核的物質となる「タンパク質」を設定し
めには、検索対象となる文書集合Dの文書d jに対
た。そして、適合性の判断には、バイオテクノロジー
して、検索質問qiの適合性が与えられている必要
による動植物(特に人)の基礎研究および病気の
がある。一 般 には、テスト・ コレクション(test
原因解明や創薬に関わる研究内容を基準とした。
滋賀県研究者情報システムのテキストマイニングによる性能改善につ
いて
谷口伸一
103
その結果 20 名を適合と判断したが、結果的に妥当
20となる。再現率と精度 は4 、5列目のように計算
なテスト・コレクションとなった。
される。たとえば、順位5の 再現率 は(5)式 から
w=5であるため0.25(5/20)となる。一方、精度は
3.5. ちえナビの 再現率と精度 による
順位5までの文書 すべてが 適合しているため(6)
性能評価と考察
式のw=5, y=0より1.0(5/5)となる。なお、再現率
3.5.1. シソーラス辞書を使用しない場合の
がR i の と き の 精 度 を 再 現 率 レ ベ ル(recall
検索性能
level):R iでの精度レベル
(precision level):Piとい
Table.2は、シソーラス辞書 を使用しないで 検
う。上位 から何番目までを検索結果として採用す
索質問「 タンパク質」により長浜 バイオ大学 の 研
るかにより再現率−精度特性は変化するが、本稿
究者を検索した結果である。順位は、ベクトル 空
ではシステムが出力した全ての検索結果を採用し
間モデルによる(3)式で算出されるコサイン尺度
て、これを総合性能と呼ぶことにする。シソーラス
(>0)の順である。3 列目の適合性は3.4.のテスト・
辞書を使用しない場合の総合性能は順位19の再
コレクションに基 づき適合 するものを○で示して
現率 0.60、精度 0.63となる。この値を以降の 性能
いる。本研究では研究者と適合性のデータベース
評価の目安とする。
を作成し、検索結果との自然結合により得ている。
このTable.2の 再現率を横軸にとり、精度を 縦
性能評価にあたり、まず再現率と精度の計算方
軸にとって再現率−精度 グラフを描くとFig.2とな
法について説明する。検索質問「タンパク質」に適
る。再現率と精度は
[0, 1.0]の範囲をとるが、両者
合する文書は20 件である。つまり
(5)式のw + xは
が1.0に近いほど検索システムの性能は高いといえ
る。しかし、実際には両者はトレード・オフ
(trade-
off)の関係にあり、再現率を上げようとすると精度
Table.2 シソーラスを利用しない場合の
「タンパク質」による検索結果
順位 研究者ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
R07
R14
R17
R43
R23
R28
R03
R15
R16
R25
R48
R35
R13
R30
R22
R39
R46
R19
R24
適合性
○
○
○
○
○
○
○
○
○
○
○
○
104
再現率R
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.35
0.40
0.40
0.40
0.45
0.45
0.50
0.55
0.55
0.60
0.60
0.60
精度 P
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.88
0.89
0.80
0.73
0.75
0.69
0.71
0.73
0.69
0.71
0.67
0.63
が下がり、逆に精度を上げようとすると再現率が下
がる。よって、実際の検索システムでは利用目的に
応じてどちらかを高めるようなシステム設計がなさ
れる。
ちえナビの場合、一般ユーザの立場からは精度
の高いシステムが要求されるであろう。一方、大学
関係者 の立場 からは,研究者 の産学官連携機会
の公平性から検索漏 れの少ない再現率 の高いシ
ステムが求められる。産学官連携コーディネータは、
ケースに応じて再現率と精度の優先要求が変わる
であろう。ちえナビはⅡの開発経緯 で 述べたよう
に大学 の産学官連携機会 の公平性を考慮して再
現率を優先することになった。ただし、
tf-idf 法によ
る検索語の重み付けと
(3)式のベクトル 空間モデ
ルによるコサイン尺度によって検索結果 をランキ
彦根論叢
2014 Spring / No.399
ング 表示することで再現率優先の弊害を補正して
いる。Fig.2は、その特長をよく表している。
順位 研究者ID
再現率-精度グラフ(タンパク質で検索)
1.0
0.9
0.8
精度(precision)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Table.3 シソーラスを利用した
「タンパク質」による検索結果
0.9
1.0
再現率(recall)
Fig.2 Table.2の再現率−精度グラフ
3.5.2. シソーラス辞書を使用した場合の検索性能
つぎにシソーラス辞書 を 利用した 場合 の 検索
結果 をTable.3に 示 す。検索件数 が27となり、シ
ソーラス辞書を利用しない場合の1.4 倍となる。こ
れはタンパク質の 類義語 が 付加されたことにより、
(2)式の検索質問ベクトルが拡張され、
(1)式の
索引語・文書行列から求められるコサイン尺度が
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
R48
R07
R17
R03
R43
R14
R11
R41
R23
R35
R10
R13
R28
R15
R19
R16
R25
R20
R30
R42
R39
R32
R22
R51
R38
R46
R24
適合性
○
○
○
○
○
○
○
○
○
○
○
○
○
再現率R
精度 P
0.00
0.05
0.10
0.10
0.15
0.20
0.20
0.25
0.30
0.35
0.35
0.35
0.40
0.40
0.40
0.45
0.45
0.45
0.50
0.50
0.50
0.50
0.55
0.60
0.60
0.65
0.65
0.00
0.50
0.67
0.50
0.60
0.67
0.57
0.63
0.67
0.70
0.64
0.58
0.62
0.57
0.53
0.56
0.53
0.50
0.53
0.50
0.48
0.45
0.48
0.50
0.48
0.50
0.48
大きくなり、より多くの研究者が出力されたためで
ある。その結果、本評価ではテスト・コレクション
再現率-精度グラフ
(シソーラスを利用してタンパク質で検索)
に適合しない研究者が順位1になってしまっている。
1.0
また、検索件数は増えたが適合 する研究者は1件
0.48となりシソーラス辞書を利用しない場合と比
べて良いとはいえない。特に順位19の再現率レベ
ルで比べると、再現率と精度がそれぞれ0.50、0.53
となり著しく性能低下している。
Table.3の 再現率−精度 グラフはFig.3となり、
参考文献では掲載されることのないグラフを示す
が、類似度に基づくランキング表示を行うとこのよ
0.8
精度(precision)
増えたにとどまり、総合性能は再現率 0.65、精度
0.9
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Fig.3 Table.3の再現率−精度グラフ
うなことが起こる。
滋賀県研究者情報システムのテキストマイニングによる性能改善につ
いて
0.9
1.0
再現率(recall)
谷口伸一
105
ところで、一般には検索質問ごとに再現率−精
度特性が異なる。総合的な性能評価を行うために
IV
テキストマイニングによる
シソーラス 辞書 の改善と性能評価
は、複数の検索質問からなる検索質問集合に対す
る再現率と精度の平均値で評価すべきであろう。
ちえナビでは、
(株)言語工学研究所 5)の汎用シ
その評価式には以下の2つがあるので参考までに
ソーラス辞書を利用している。3.5.の検索質問「タ
付記する。
ンパク質」はシソーラス辞書によって以下のように
(1) マクロ平均(macro average):検索質問ごと
拡張されている。
の再現率と精度を平均 する。それらのマクロ
イ) 同義語:蛋白質、たんぱく質、たん白質
平均RとPはそれぞれ
(7)式と
(8)式で計算で
ロ) 狭義語:アルブミン、カゼイン、ガンマ・グロ
きる。ただし、Q は検索質問の総数、w i , x i , yi
ブリン、ガンマグロブリン、グリシニン、グロ
はTable.1と同じ意味で添字は検索質問を表
ブリン、ケラチン、コラーゲン、ゼラチン、フィ
している。
ブリン、プロテイン、ヘパリン、ミオシン、ラク
1
R= Q
∑ i =1
1
P= Q
∑ i =1
Q
Q
トフェリン、レクチン
wi
wi + x i
(7)
ハ) 広義語:栄養|種類、栄養素
ニ) 関連語:でんぷん、ビタミン、ミネラル、脂肪、
炭水化物、糖、糖質、糖類、必す微量元素、ペ
wi
wi + y i
(8)
プトン、ポリペプチド、脂質、無機質、水
Table.3の順位1の 研究者R48は「 タンパク質、
(2) マイクロ平均(micro average):検索質問を
プロテイン、デンプン、脂質」が検索質問ベクトル
区別せずにTable.1のような交差行列を作成
qの 要素となり、結果的 にコサイン尺度 が 大きく
し平均を求める。再現率と精度のマイクロ平
なったが、研究内容は植物の環境適応を支えるメ
均RとPはそれぞれ(9)式と
(10)式で計算で
カニズムであるため適合しないと判定していた。
きる。
ところで、ちえナビは、すべての類義語を使用す
R=
P=
るのではなく、一般ユーザに対してはイ)同義語に
∑Qi=1 wi
(9)
wi + )
xi
∑Qi=1 ( よる検索質問の 拡張を行い、コーディネータに対
してはイ)からハ)に示された類義語を選択できる
ようにしている。したがって、Table.3(Fig.3)の結
∑ Qi=1 wi
(10)
wi + yi)
∑ Qi=1 ( 果になるわけではない。そこで、以下、4.1.ではイ)
同義語のみの拡張によるちえナビの性能評価を示
マクロ平均は個別の検索質問を区別し、それら
し、4.2.では先行研究 から汎用シソーラス辞書 の
を等しく重要だと考えて平均化しているのに対し、
問題を考察し、4.3.にてテキストマイニングによる
マイクロ平均 では 検索質問を区別しない評価方
シソーラス辞書 の拡張法を提案して、その性能評
式である。
価に基づき提案手法の有効性を示す。
(株)エクシングに
5)当社は2013年7月1日をもって
すべての事業を譲渡している。
106
彦根論叢
2014 Spring / No.399
(1) 汎用シソーラスには固有名詞 や 分野 に依存
4.1. 一般 ユーザ 向 けシソーラス 拡張 による
する語が収録されていない。
性能評価
3.5.のように、イ)からニ)までのすべての 類義
(2) 汎用シソーラスには 連想関係 や 推論を必要
語 を使用した場合 の 検索性能 はシソーラス辞書
とするような語 の関係 は必ずしも記述されて
を使用しない場合より劣ることが明らかとなった。
いない。
しかし、ちえナビの一般ユーザに対する仕様では、 (3) 汎用シソーラスは分野 に 独立に語 の関係 を
イ)同義語 のみを検索質問の拡張に用いており、
考えているので、検索対象となっている分野と
Fig.4に示す再現率−精度グラフとなる。検索件数
は関係ない方向に索引語が拡張されてしまう。
は21件となり、総合性能は再現率0.65、精度0.62
これらの改善策として、
「同じ文脈に出現する語
となる。また、順位19の 再現率レベルにおける精
は意味的にも似ているはずである」という分布仮説
度レベルは、それぞれ0.65、0.68となり、いずれの
(distribution hypothesis)に基づくシソーラス構
場合もシソーラス辞書を利用することで 性能が改
(1) ある動詞 の主語あるいは目的語 の関係 から
善される。
名詞を分類する
[Hind 0]。
再現率-精度グラフ
(タンパク質とシソーラスで検索)
(2) 目的語の関係のみを用いる
[Pere ]。
(3) 分類語彙表を用いて分類語彙表にない語に
1.0
0.9
分類語彙表の意味コードを付加する[ Naka
0.8
]。
精度(precision)
0.7
0.6
(4)分布仮説に基 づく語 の距離を用いて新しい
0.5
語を既存のシソーラス辞書の適切なクラスに
0.4
分類する
[Toku ]。
0.3
0.2
(5) 汎用のシソーラス辞書と分布仮説に基づくシ
0.1
0.0
築の研究が以下のように行われてきている。
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
ソーラスを組み合わせる
[Manda ]。
再現率(recall)
Fig.4 一般ユーザ 向けシソーラス拡張による
再現率−精度グラフ
4.3. テキストマイニングによる
シソーラス 辞書 の 拡張と性能改善
4.2. 汎用シソーラス 辞書 の 問題と改善法
筆者は、4.2.の汎用シソーラス辞書 の問題であ
R.Mandana, T.Tokunagaらはテスト・コレク
る下線部と分布仮説に基 づく研究に着目した。す
ション”
Cranfield ”や”
INSPEC ”など7種に対して
なわち、同じ専門分野 の 研究者 が 使用する専門
汎用シソーラス辞書”WordNet ”を用いて検索質
用語には共通性があり、かつ依存関係があると仮
問の拡張を行い、検索性能を検証した。その結果、 定し、その専門分野 の文書集合 の共起語情報に
汎用シソーラス辞書 では性能 が 十分 に改善され
基づく汎用シソーラス辞書の拡張が有効であると
ないことを明らかにしている
[Manda ]。
考えた。そこで、テスト・コレクションの文書集合
その原因として、以下の理由を挙げている
[Toku
を テキストマイニングツ ール TTM(Tiny Text
]。
Miner)[Matsu 200]と統計解析プログラム言
滋賀県研究者情報システムのテキストマイニングによる性能改善につ
いて
谷口伸一
107
語R[Ishi 200]
[Ishi 202]を利用して、専門用
語 の 共起語情報を発見しシソーラス辞書 の 拡張
を行った。そのステップを以下に示す。
Step1. 長浜 バイオ大学 の 研究者をタグにし、そ
の 研究内容 をテキストとするCSVファイルを
作成する。仮に”N_Bio.csv”とする。
Step2. ”N_Bio.csv”をTTMの入力ファイルにし
て、出力フォーマットttm3(語×タグのクロス
集計)とttm5(語×語のクロス集計)のファイ
ル を 作 成 す る。そ の 際、形 態 素 解 析 に
Fig.5 共起語情報のネットワーク図
MeCab 6)を使用する。また、品詞は名詞のみ
とする。
Step3. ttm3から語とタグの出現頻度を観察する。
また、ttm5から語と語 の 共起語情報を観察
する。その結果、”N_Bio.csv”から抽出され
る語数
(形態素)は名詞
(合成名詞を含む)だ
けでも2,832語となるため解析が困難である。
そこで、抽出された語から
「研究」や
「開発」な
どの不要語をファイル化する。
Step4. Step2にもどり、Step3で 作成した 不要語
ファイルを指定して、再度ttm3,ttm5を求 め
有意な語の共起語情報を得る。
Step5.“N_bio_ttm5.csv”の2行目と2列目を削
除し、Rのigraphライブラリーを利用してplot
図 を 作 成 す る。Fruchterman-Reingold
layout 7)で 作成して 加工したものがFig.5で
ある。
Fig.5から「タンパク質」と「がん」に共起語関係
を認めることができる。そこで、
「 がん」をタンパク
質のイ)同義語としてシソーラス辞書に追加して効
果を計測する。ちえナビにはシソーラス辞書 の 拡
張機能を組み込 んでいる。その拡張方法は補足と
してFig.7に示す。
Table.4 共起情報に基づく
拡張シソーラスによる検索結果
順位 研究者ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
R03
R30
R07
R41
R17
R22
R14
R43
R21
R28
R01
R23
R13
R15
R42
R04
R32
R25
R46
R35
R48
R16
R11
R06
R47
R29
R39
R19
R24
適合
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
再現率R
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.60
0.60
0.60
0.60
0.60
0.60
0.65
0.70
0.70
0.75
0.75
0.75
0.75
0.80
0.80
0.80
0.80
6)http://mecab.googlecode.com/svn/trunk/mecab/
7)このアルゴリズムは、グラフの辺ができるだけ
doc/index.html
交差しないようにする。
108
彦根論叢
2014 Spring / No.399
精度 P
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.92
0.86
0.80
0.75
0.71
0.67
0.68
0.70
0.67
0.68
0.65
0.63
0.60
0.62
0.59
0.57
0.55
する語は、文書d j(D∋d j)においても共起する確
再現率-精度グラフ
(タンパク質と拡張シソーラスで検索)
率が高いためである。
1.0
したがって、それぞれの分野で有益な共起語情
0.9
精度(precision)
0.8
報を見つけ出すことが 要諦となる。この課題 の 解
0.7
0.6
決コストは、類義語を網羅的に増やすコストよりも
0.5
はるかに小さいと考える。
0.4
0.3
V
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
再現率(recall)
おわりに
本論文 では滋賀県より業務委託されている滋
Fig.6 拡張シソーラスによる検索結果の
賀県研究者情報システム「 ちえナビ」の検索性能
再現率−精度グラフ
について、適合性の尺度である再現率と精度に基
づきテスト・コレクションを作成して定量的に評価
拡張 したシソーラス辞書 による 検索結果 を
した。特に、再現率を向上させるために搭載してい
Table.4に示し、その再現率−精度 グラフをFig.6
る汎用シソーラス辞書 の 特性を明らかにした。そ
に示す。
して、汎用シソーラス辞書 では分野に依存する語
検索件数 は29 件 となり、総合 性能 は 再現率
が収録されないという問題に着目してテキストマイ
0.80、精度0.55となった。特筆すべきは順位12ま
ニングによるシソーラス辞書 の改善法を考案した。
での精度が1.0を示し、シソーラス辞書を利用しな
すなわち、専門分野 の文書集合をテキストマイニ
い場合 のTable.2(Fig.2)と比べて約 2倍 の 性能
ングし、その 共起語情報 から専門用語 の 依存関
改善となった。このことは出力結果 の上位 から閲
係を発見し、その関係に基づいて汎用シソーラス
覧 するユーザに高 い満足度を与える。このように
辞書の拡張を試 みた。その結果、再現率と精度の
専門分野 に依存する共起語情報 からシソーラス
両者の改善に有効であることが示された。よって、
辞書を拡張する手法には有効性が認められる。
本手法は、ちえナビのような専門分野 の情報を扱
ところで、共起語情報では共起関係が強い、つ
う情報検索システムにおいて特に効果的であり応
まり共起頻度 の高 いことが 必ずしもシソーラス辞
用性がある手法といえる。また、近年増加している
書 の拡張に寄与しないことに注意する必要がある。 一般ユーザのシステム利用満足度を高めるために
本研究の文書集合では「タンパク質」と「遺伝子」
精度 の 改善 が 求 められる。本提案手法 はこの 課
の共起頻度 が最も高い。試しにタンパク質の同義
題解決にも有効である。
語に遺伝子を加えてシソーラス辞書を拡張すると
ところで、
「 タンパク質」を検索質問とするテス
40 件が検索され再現率レベルは0.98となるが、そ
ト・コレクションの 作成において、テキストマイニ
の 精度レベルは0.48にとどまる。また、順位19の
ングで見出した共起語「 がん」の意識が適合性の
再現率と精度 は0.60と0.63となりシソーラス辞書
判定に影響を与えていたのではないかという主観
を利用しない場合と変わらない。つまり、tf-idf の
性混入の問題 が懸念される。しかし、Table.4にお
概念と同様に、文書集合Dにおいて高頻度で共起
いて精度が1.0を維持する順位12までに
「タンパク
滋賀県研究者情報システムのテキストマイニングによる性能改善につ
いて
谷口伸一
109
質」を一語も含まず「がん」のみで検索されたもの
今後の課題として、他の専門分野を対象に分野
は順位9の1件 のみであった。このことは、共起語
に依存するシソーラス辞書の拡張が残される。
情報によるシソーラス辞書 の 拡張 が、ベクトル 空
間モデルによる類似度計算に作用し、4.1.のシソー
【付記】
ラス辞書 の 拡張前 では下位にあった 適合者を上
まず、2003 年時、多くの自治体 が競って作成し
位に浮上させたことを表す。よって、テストコレク
た研究者情報データベースであるが、その後諸般
ション作成における主観性のバイアスは極めて小
の 事情によりほとんどが廃止になるなかで、委託
さく、シソーラス辞書 の 拡張効果といえる。また、
業務を継続して下さっている滋賀県 の取り組みに
「 タンパク質 or がん」を検索質問にすればシソー
敬意の念と感謝を申し上げる。
ラス辞書 の 拡張 は不要ではないかという考えもあ
そして、本論文 は森將豪教授退職記念特集に
る。しかし、そのような検索質問の 組み合 わせは
掲載されるものであるが、先生には公私にわたり
考えにくいといえる。仮にそのような組み合 わせが
多大な世話を受けてきた。なかでも体力向上のた
行われた場合、ユーザの検索要求における比重は
めに体育館 でのトレーニングに誘って下されたこ
「 がん」の方が高いと考えるのが妥当であり、本研
とや、京都大学 の博士号を取得するにあたって先
究 のテスト・コレクションによる検索性能評価と
生 の 博士論文を手本として 提供下されたことは、
は別の課題である検索質問に関する問題と考える。
孤軍奮闘していた筆者にとって大きな励ましとなっ
この点に関しては、検索キーワードごとにユーザの
た。衷心より感謝の意を表す。
意図で比重を付けられる仕組みをちえナビは備え
ている。
補足
Fig.7 ちえナビのシソーラス拡張機能
110
彦根論叢
2014 Spring / No.399
参考文献
[Foskett 2]Foskett, D. J.(2) /
“A note on the concept of relevance”,
Information Storage and Retrieval (
 2)
, pp.-, 2
[Hind 0]Hindle,D. (0) /
“Noun Classification from predicate-argument
structures”In Proceedings of the 2th Annual Meeting
of the Association for Computational Linguistics,
pp.2-2.
[Ishi 200]石田基広
(2008)
/
「Rによるテキストマイニング入門」
/
森北出版、pp.54-130 。
[Ishi 202]石田基広、金 明哲
(2012)
/
「コーパスとテキストマイニング」
/
森北出版、pp.198-203。
[Kemp 4]Kemp,D.A.(1974)
“/
[Salton ]Salton,G., Wong,A. and Yang,CS.() /
“A Vector Space Model for automatic indexing ”
Communication of the ACM, Vol., No.,
pp.-20.
[Tani 2004]谷口伸一
(2004)
/
「滋賀県研究者情報データベースシステムの研究と設計」
彦根論叢第348号/滋賀大学経済学部、pp.99-127。
[Toku ]Tokunaga,T., Fujii,A., Iwayama,M.,
Sakurai,N. and Tanaka,H.() /
“Extending a thesaurus by classifying words”
In Proceedings of the ACL/EACL Workshop on
Automatic Information Extraction and Building of
Lexical Semantic Resources for NLP Applications,
pp.-2.
[Toku ]徳永健伸
(1999)
/
「情報検索と言語処理」
/東京大学出版、pp.69-95、1999
Relevance, pertinence and information system
development ”Information Storage and Retrieval 10(2)、
pp.37-47.
[Kishi ]岸田和明
(1998)
/
「情報検索の理論と技術」
/
勁草書房、pp.234-253。
[Kita 2002]北研二、津田和彦、獅子堀正幹
(2002)
/
「情報検索アルゴリズム」
/共立出版、pp.52-89。
[Manda ]
Mandara,R., Tokunaga,
T. & Tanaka,H.() /
“ The use of WordNet in information retrieval ”
Proceedings of Coling-ACL ’ workshop
“Usage of WordNet in Natural Language Processing
Systems”, pp.-.
[Matsu 200]松村真宏、三浦麻子
(2009)
/
「人文・社会科学のためのテキストマイニング」
/
誠信書房、pp.21-76 。
[ Naka ]中野洋
(1981)
/
「分類番号つけ支援システム」
情報処理学会計算機言語研究会, CL-25, 1981
[Ohmura 200]大村和夫、吉田慶志
(2002)
/
「滋賀県内中小企業知的財産権の創造・保護・活用策」
/
滋賀県。
[Pere ]Pereira,F., Tishby,N. & Lee,L.() /
“Distributional clustering of English words”
Proceeding of the st Annual meeting of
the Association for Computational Linguistics,
pp.-0.
滋賀県研究者情報システムのテキストマイニングによる性能改善につ
いて
谷口伸一
111
Improvements to a Shiga-Based
Academic Research Retrieval System
through the Application of Text Mining
Shinichi Taniguchi
For this paper, the performance of an academic research retrieval system called “ChieNavi” was quantitatively evaluated for its
performance based on Recall and Precision.
Here, “Chie-Navi” commissioned by Shiga Prefecture in 2004 aims to navigate academic
researchers in Shiga to coordinators who work
at industrial support organizations. Recall is
the fraction of relevant documents that are retrieved to the query, while Precision is the
fraction of the retrieved documents that are
relevant to the user's information need. Generally, Relationship between Recall and Precision
are a trade-off. Therefore, "Chie-Navi" gives
priority to Recall in order to provide appropriate researchers to the coordinators without
omission. To improve the performance of Recall, a general-purpose thesaurus is applied to
"Chie-Navi".
On the other hand, a number of access by
general users has been increasing recently. So it
is necessary to improve the performance of Precision. To achieve this purpose, performance of
a general-purpose thesaurus has to be evaluated
quantitatively and applied a method for improving Precision. To do so, first, a test
collection was created to determine the correctness to the query. Second, the performance
based on Recall and Precision was evaluated in
the case of utilizing the thesaurus or not. As a
result, Recall was improved well, but Precision
was not improved so much.
112
Generally, dependence on the words in a different group is not contained in a thesaurus. In
other words, a thesaurus is a reference work
that lists words grouped together according to
similarity of meaning. However, it is said a
combination of that dependence is effective to
improve a general-purpose thesaurus. So, the
author applied text mining techniques in order
to discover dependence on the words, and added dependent words in a different group, such
as Protein and Cancer, to the thesaurus.
Through the feasibility test, it turned out that
this method was able to effectively improve not
only Recall but also Precision.
THE HIKONE RONSO
2014 Spring / No.399
Improvements to a Shiga-Based Academic Research Retrieval
System through the Application of Text Mining
Shinichi Taniguchi
113
Fly UP