...

Wikipediaを手がかりとしたパスファインダー自動生成システム

by user

on
Category: Documents
6

views

Report

Comments

Transcript

Wikipediaを手がかりとしたパスファインダー自動生成システム
Wikipedia を手がかりとしたパスファインダー自動生成システム
08GMI15 坂井 哲
指導教員 増田 英孝
る.専門家による慎重な作業を経てトップダウン的に構築さ
1. は じ め に
れていることから,安定的に利用することができる,深い組
インターネットの普及により日々新しい情報が増え続けて
織化がなされているという長所がある.しかし,語彙量が少
いる.今日では,われわれは調べごとがある場合には何らか
なく,改定の周期が長いため新しくできた概念には対応しに
のキーワードを Web 検索サービスに入力することにより,そ
くいという欠点がある.
のキーワードを含む Web ページ群を検索結果として得るこ
Wikipedia は,Web 上で共同編集されている多言語百科事
とができる.しかし,Web 上の情報は必ずしも信頼性が高い
典で,誰でもどこからでも自由に編集することができる.多
わけではなく,また膨大な検索結果から必要とする情報のみ
数の人が編集に参加していることから,世界中の多くの概念
を得ることは難しい.一方,図書館の膨大な資料は過去から
を網羅している.各記事にはカテゴリが付与されていて,1
蓄積され,信頼性が高く,非常に良く組織化されている.し
つの記事・カテゴリに対し複数の上位概念(カテゴリ)を与
かし,資料が書架に並ぶまでにある程度時間がかかったり,
えることができる点が他の分類体系と大きく異なる.その結
うまく利用するには知識が必要とされる.これらの情報探索
果,各記事に対して多様な観点がカテゴリのネットワークと
における問題点を解決するために,手がかりを得やすい Web
して付与されている.しかし,専門家だけが編集するわけで
情報資源を探索の入り口として利用し,図書館情報資源を導
はないので,記事の信頼性,組織化の正確性を損なう場合が
1)2)
く方法を既に我々は提案している
.
ある.
また,図書館には利用者の情報探索を支援するパスファイ
2.2 統合利用の活用例
ンダーというものが存在する.これはある特定のトピック毎
我々はお互いの欠点を相互に補完するために,これらを統
にまとめられた調べ方のガイドのようなものである.情報探
合的に利用する手法を提案している1)2) .図 1 に統合利用の
索を行う際に最初に必要となるのは,このようなタイプの情
活用例を示す。
報資源ではないかと我々は考える.本研究では1)2) で示され
まず,情報探索の出発点としての Wikipedia の活用につい
る Wikipedia と図書館分類体系を統合する手法を用いて,パ
て説明する.ここで,Wikipedia の記事「阪神・淡路大震災」
スファインダーの自動生成システムの開発を目指す.
には,カテゴリとして「日本の経済史」
「地震の歴史」が付与
2. 図書館分類体系と Wikipedia の統合利用
されている.さらに,カテゴリ「日本の経済史」には上位カ
テゴリとして「経済史」が,カテゴリ「地震の歴史」には上
2.1 図書館分類体系と Wikipedia の比較
位カテゴリとして「災害と防災の歴史」
「地震」が付与されて
パスファインダー自動生成のために利用する分類体系とし
いる.このように,Wikipedia の記事を一つとりあげてみる
て,BSH(図書館件名標目表),NDLSH(国立国会図書館件名
と,関連するカテゴリ群をツリー構造として取り出せること
標目表),Wikipedia がある.図書館分類体系と Wikipedia
がわかる.このツリー構造をたどることで,
「阪神・淡路大震
にはそれぞれ利点と欠点がある.各分類体系の比較を表 1 に
災」について調べる際の切り口が明確になっていく.結果と
示す.
して,
「阪神・淡路大震災」という探索主題を,
「経済史」「災
表 1 図書館分類体系と Wikipedia の比較
BSH,NDLSH
Wikipedia
アプローチ
短所
トップダウン的
安定
深い組織化
多様な観点の反映不可
新しい概念を含まず
ボトムアップ的
多様な観点の反映
新しい概念への対応
不安定
浅い組織化
上位概念
原則として1つもつ
複数もてる
長所
害」「地震」に一般化して調べることが可能となる.
次に,Wikipedia カテゴリと図書館の分類体系 (BSH,
NDC) の対応付けと,図書館の分類体系の活用について説
明する.Wikipedia カテゴリと図書館の分類体系の間には,
カテゴリ名が一致するものが存在する,図 1 では,
「経済史」
「災害」「地震」が一致している.この一致を利用することに
より,Wikipedia の活用によって一般化された探索主題を,
図書館の分類体系によってさらに掘り下げていくことが可能
BSH,NDLSH は件名標目表といい,資料の主題や形式を
どんなキーワード(件名)で表すかについての約束事である.
図書やパンフレットなどの図書館資料には,件名が1つ,又
となる,
3. 情報探索支援システムの設計と実装
は複数割り当てられている.件名を付与することにより,主
統合利用のメリットを示すためには,情報検索の現場で実
題を表す統制キーワードによる図書館資料の検索が可能にな
運用システムを多数のユーザに使ってもらうことが不可欠と
図 1 図書館分類体系と Wikipedia カテゴリの統合
図2
教科書問題パスファインダー(一部抜粋)
なる.そこで,株式会社 Littel3) の協力の下に「図書館レファ
レンスサービス支援システム Littel Navigator(以下,LN)」
を開発した.LN は「図書館と Web の長所を活かせる検索
システム」を開発コンセプトとし,曖昧な質問(キーワード)
から具体的な事項へ誘導し,自動レファレンス応答の実現を
図るものである.LN は「情報探索のヒント」検索システム
という側面も持たせているため,
「パスファインダー自動生成
システム」と言い換えることもできる.
3.1 パスファインダーとは
パスファインダーの例を図 2 に示す.パスファインダーと
は,特定の主題やトピックに関する資料・情報を探す際に,図
書館が提供できる関連資料をリストとして提供するサービス
のことであり,各図書館が Web サイトなどを用いて広く公開
している.現在は図書館員が人手で作成していてカバレッジ
が低いという問題があるが,情報探索を行う際に最初に必要
となるのは,このようなタイプの情報資源ではないかと我々
図 3 Littel Navigator 動作画面
は考える.これをヒントとして,LN のユーザインタフェー
スはパスファインダーをイメージしている.
3.2 実 行 例
取り組みを情報探索支援システムとして開発した.
今後は図書館情報資源と Web 情報資源の意味的な対応付
LN の動作画面を用いて「阪神・淡路大震災」に関する探索
けの精度向上と,その評価が必要となり,さらに,その成果
ナビゲーションの一例を説明する.まず,利用者は検索キー
を本システムに反映させる必要がある.また,それに伴いシ
ワード入力欄に「阪神・淡路大震災」と入力する.すると,図
ステムの性能評価も行う必要がある.
3 の検索結果が出力される.出力される情報は,
「主題(テー
マ)」,
「主題(テーマ)導出パス」,
「NDC コード」,
「情報リ
ソース」,
「関連項目」,
「外部リンク」,
「メタサーチボタン」,
「探索履歴」が提示される.利用者は目的に応じた,情報資
源を選択してゆく.図 3 の「NDC コード」を選択した場合,
各図書館の OPAC で NDC 番号検索を行った結果が別ウィ
ンドウで表示され,必要な書籍について調査を行うことが出
来る.
4. お わ り に
本論文では,図書館と Web の情報探索における双方の問
題点を上げ,Wikipedia を仲立ちさせることを提案し,図書
館情報と Web 情報の統合利用を可能とした.さらに我々の
参 考
文
献
1) 清田陽司, 田村悟之, 中川裕志, 増田英孝. ReferenceNavigator: 異種オントロジーの統合ブラウジングツール
∼図書館の分類体系と Wikipedia カテゴリの対応付け
∼. 言語処理学会第 13 回年次大会ワークショップ「言語
的オントロジーの構築・連携・利用」論文集 (2007)
2) 田村 悟之, 清田 陽司, 増田 英孝, 中川 裕志. 図書館にお
ける自動レファレンスサービスシステムの実現に向けて
∼Web 上の二次情報と図書館の一次情報の統合∼.情報
処理学会 研究報告 情報学基礎 (SIG-FI)(2007)
3) 株式会社リッテル
http://www.littel.co.jp/
Fly UP