Comments
Description
Transcript
電子図書館システムのためのブラウジング 検索機能
特 集 電子図書館システムのためのブラウジング 検索機能 Browsing Search Functions for Digital Library Systems あらまし 最近のコンピュータネットワークとパーソナルコンピュータ技術の発展により,電子 図書館においても,分散した情報源から情報検索する必要性が増している。テキストに 関しては,古くから情報検索システムが開発されてきたが,他のメディアで表現された 情報に関しては効率的な検索がいまだ実現できていない。また,テキストに対しても, インターネット上にあるような種々雑多な大量のデータを対象にする場合は検索効率が 悪くなってくる。 本稿では,これらの問題を実用的なレベルで解決するために,検索結果の情報を対象 に,この情報を特徴付けるキーワードや色などの特徴をもとに分類し,さらに,この分 類結果を使ってブラウジングに適するように情報を3次元空間に配置する方法について 述べる。さらに,この方法が,検索結果の情報を多様な見方で概観する機能を実現し, マルチメディアデータに対しても適用できることを示す。 Abstract Due to the development of new network and computer technologies, there is a growing demand for digital library systems that can retrieve many kinds of distributed information resources. An effective retrieval system for all media except text has yet to be developed, however. Moreover, existing text retrieval systems cannot effectively retrieve from among a variety of data items on the Internet. To resolve such problems, we have developed a new 3-D browsing space system. In this system, characteristic values are selected to represent data items in a retrieved set, along with the creation of information distribution and 3-D browsing space. This paper describes how our new system satisfies various user requirements for the retrieval of multimedia data. 418 柿元俊博(かきもと としひろ) 1973年京都大学大学院理学研究科物 理学第一専攻修士課程了。同年富士 通入社。以来機械翻訳,情報検索シ ステムの開発に従事。 パーソナルシステム研究所 FUJITSU.49, 6, pp.418-422 (11,1998) 電子図書館システムのためのブラウジング検索機能 ○○○○○○○ ま え が き この方式は以下のような特長を持つ。 (1) 既存のハンティング検索の結果をブラウジングする 最近のコンピュータネットワークとパーソナルコン ためには絞り込みが不十分な場合でも,これまでより ピュータ技術の発展は,電子図書館システムに分散した も大量の検索結果のブラウジングを効率よく実現する 情報源から種々雑多な情報を検索する要求を増大させて ことができる。 おり,その利用者の広がりが,これまで利用しなかった (2) 対象情報の集合を記述する特徴表現と,ブラウジン 多くの人達へ情報を提供しなければならなくしている。 グ情報空間の軸の選択をユーザに制御させることによ そのため,情報検索システムは,従来の図書館システム り,ユーザの観点を反映させることができる。 においても主要機能であったが,電子図書館システムに (3) ブラウジング情報空間を表現する特徴表現の効果的 おいては,さらに重要になってきている。 な選択手法により,対象情報を均一に空間配置し,そ 電子図書館システムの情報検索システムへの要求は以 の計算量を削減することができる。 下のようなものがある。第一に,大量の情報を処理する 必要があるため,高速性が要求される。第二に,大量で (4) ブラウジング情報空間構成法はテキスト,画像,音 声などのメディアに依存せず適用できる。 種々雑多な情報を検索するため,検索精度を高める必要 以下ではブラウジング検索機能の概要と,その中心機 がある。第三に情報の表現形態がテキストだけでなく静 能であるブラウジング情報空間の構成方法とその評価結 止画像,動画像,音情報などディジタル化可能な多種類 果について述べる。 の表現メディアに対応する必要がある。第四に,いろい ろな利用者の多種多様な検索要求に対応する必要がある。 ○○○○○○○ ブラウジング検索機能 情報検索は大きく分けて,検索要求を表現する検索 ブラウジング検索とハンティング検索を3次元情報空間 キーを指定して検索を実現するハンティング検索と,対 インタフェースで統合した図-1のようなシステム構成を 象情報の分類または構造化によって情報を選択して検索 考えた。 を実現するブラウジング検索からなる。本稿では,ブラ 本システムでは,情報検索の対象である情報データと ウジング検索の立場から,上述の第二∼第四の課題を解 して,電子図書館を前提に図書データを想定し,それに 決する方法を述べる。 対して特徴表現 ブラウジング検索技術は,従来のものは固定された概念 図書データの特徴表現としては,キ−ワ−ド,著者名, 階層をメニューとして提示するものであった。そのため, 発行年,価格,ペ−ジ数,表紙画像の色などが考えられ ユーザの多様な見方に対応することができず,非効率的な るが,以下では理解を容易にするために,キーワードを 場合も多かった。これに対して動的にクラスタリングを行 考える。 う研究もあるが,そのまま適用するのは計算時間の問題で 検索はブラウジング検索機能とハンティング検索機能 困難であった。ここで述べるブラウジング検索技術は, から構成される。ハンティング検索は通常のキーワード これらの問題を実用的なレベルで解決するものである。 検索と同様に検索キーを含む検索式に適合する図書デー 3 次 元 情 報 空 間 イ ン タ フ ェ ー ス (注1) が抽出されていることを前提にする。 ブラウジング検索 3次元情報探索 空間の作成 情報分布空間 の作成 検索結果の情報 データと特徴表現の 対応 ブラウジング制御 検索式の 評価 特徴表現の抽出 検索実行 ハンティング検索 図-1 システム構成 Fig.1-System structure. (注1)情報を特徴付ける表現で,テキストの場合のキーワードや画像の 場合の色などを表す。 FUJITSU.49, 6, (11,1998) 419 電子図書館システムのためのブラウジング検索機能 (4) タの検索結果の集合を得るものである。以下では,この 構成する方法としてはGalaxy of Newsシステム がある ハンティング検索はキーワード検索などの既存の方式を が,これはキーワードの関係を抽出し,リンク構造を表 利用するものとする。 示するものであるので,キーワード以外の特徴表現への ブラウジング検索では,検索結果集合の中の図書デー 適用や対象情報の変化に対する汎用性に困難がある。 タを対応するキーワードにより情報分布空間に分布さ そこで,3次元の広さの限られたディスプレイ装置を前 せ,つぎに,この情報分布空間をもとにして情報選択を 提に検索対象を容易に認識することができるように検索 容易にするために3次元情報探索空間を構成し,3次元情 結果集合を均一に分布させる2次元の情報分布空間を作成 報空間インタフェースによりブラウジングを実現する。 し,その情報分布空間をもとにナビゲーション軸の追加 さらに,ブラウジングをナビゲーションする制御機構を で3次元化することにより3次元情報探索空間を作成し, 備えることにより,ユーザの要求に対応して3次元情報空 ブラウジングを効率化する方法を考えた。 間の再構成を実現するなど柔軟に対応することができる。 ここでは情報分布空間および3次元情報探索空間の作成 情報分布空間は,図書データから抽出したキーワード 法について説明し,最後に情報分布空間作成法の評価に から均一な分布空間を作成するのに必要なキーワードを ついてまとめる。 選択し,この選択されたキーワードで作られるベクトル ● 情報分布空間の作成 空間を2次元空間に写像 (注2) したものである。 これは,大きく分けて,キーワードの選択と多次元空 3次元情報探索空間は図書データの種類や利用者の検索 目的,検索要求の表現方法に応じて2次元の情報分布空間 間から2次元空間への写像からなる。 【キーワードの選択】 に1次元のナビゲーション軸を加えた方法で構成する。こ 特徴表現の選択方法は,画像処理の分野で多くの特徴 のナビゲーション軸としては,情報量に関する階層化の 表現から画像を分類するのに適する特徴表現を選択する 軸や時間軸などを選択することができる。 方法が考えられてきている。しかし,キーワードの選択 ブラウジング制御は,情報分布空間の作成から,3次元 に画像処理の分野で考えられた連続量を対象にした手法 情報探索空間の作成までブラウジング空間の作成を制御 では適用し難い点がある。そこで,図書データの集合を し,ユーザの観点を表現するために,情報分布空間を構 ブラウジングする観点から,均一に空間に分布させる 成するキーワードの指定や,ナビゲーション軸の指定を可 キーワード選択法を考えた。以下では,各図書データに 能にする。図書データの直接指定や空間の範囲を指定する 対するキーワードの出現頻度が1以上の場合に,そのキー ことにより,ユーザが検索結果情報をより適する情報に絞 ワードは図書データに属するものとしてキーワード選択 り込む機能を実現する。そのほかに,このブラウジングを 方法を説明する。 支援する機能として視点位置を確認する機能や情報選択を (1) 各図書データに含まれる全キーワードを対象にし, 容易にする3次元形状で情報を表現する機能などがある。 キーワードが全図書データの半分に属する場合を最適 このようにブラウジング検索をもとにしてハンティン だと考えて,順にキーワードを採用する。これは検索 グ検索を組み合わせて効率的な検索を実現する。以下で 結果集合に含まれる全図書データを半分に分割するよ ○○○○○○○ は,この機能の中心部分である3次元情報探索空間構成法 うなキーワードを選ぶことを意味する。 式で表現する とその試作評価について述べる。 と w i をキーワード k i が属する図書データ数, m を全 (1) 3 次元情報探索空間構成法 3次元情報空間構成法について,これまでの研究成果の データ数とすると1/2基準値vi =│wi / m − 0.5│と定 義し,vi の小さいもの順に選択することになる。 (2) 以前に選択したキーワードのvjとvi の値が同一の場 利用可能性を述べ,本方式について詳細を述べる。 合には,出現頻度の総計が多い方を選択する。これ 情報検索システムを類似の考え方で構成したScatter/ は,すでに選択したキーワードと同じような分割をす Gatherシステム (2), (3) (注3) では,クラスタリング を利用して いる。しかし,クラスタを必ずしもうまく決めることが できないなど汎用性に問題がある。3次元情報探索空間を る場合には,一つのみ選択することを意味する。 (3) 選択したキーワードの数が一定値(試作の場合は9) になったら終了する。それ以外の場合には,つぎに小 さなvi を選択し,(2)に戻る。 (注2)ベクトル空間と2次元空間の位置を対応付けし,ベクトル空間の位置 から2次元空間の位置へ変換することを言う。 (注3)情報の集合をキーワードや色などの特徴により分類する方法を言う。 420 以上の結果,各図書データは,選択されたキーワード を要素とし,その出現頻度を値とするキーワードベクト FUJITSU.49, 6, (11,1998) 電子図書館システムのためのブラウジング検索機能 図-2 階層空間 Fig.2-Hierarchy of space. ルを持つことになる。 【多次元空間から2次元空間への写像】 選択されたキーワードによるキーワード空間から, 図-3 図書データの3次元情報探索空間の例 Fig.3-Example of 3-D information browsing space. キーワードベクトル間の距離(類似度)を利用して,この 距離が近い図書データは近くに配置するように2次元空間 への写像を行う必要がある。これは,コホネンの自己組 (5) 織化マップ(SOM:Self Organizing Map) を利用し,距 離はコサイン関数を採用して写像を実施した。 SOMは,n × nの2次元正方格子の各格子点にキーワー ドベクトルを対応させ,このキーワードベクトルを,類 似度を基準として各図書データのキーワードベクトルの 類似するものを近くに配置するように学習させるもので ある。各格子に一つの図書データを割り振るように,nは √ m を超える最小の整数とした。学習した格子は2次元空 図-4 写真データに適用した時間軸を持つ3次元情報探索空間の例 Fig.4-Example of 3-D browsing space with time coordinate for set of scenery photographs. 間を構成し,これが情報分布空間となる。 各図書データは,そのキーワードベクトルと最も類似度 この3次元情報探索空間に,座標として採用したキー の高いキーワードベクトルを持つ格子点に配置する。選択 ワードを第0階層として作成する。この情報により分布の したキーワードはそのキーワードのみを一つ含む図書デー 方向性を感覚的に認識させることができる。さらに, タと考えると単位ベクトルを持つと考えることができる。 キーワード選択の方法により中立語は出てこないため, ● 3次元情報探索空間の作成 つぎのハンティング検索用のキーワード候補として役に これは2次元の情報分布空間に1次元のナビゲーション 立つ可能性もある。 軸を追加し3次元化したものである。このナビゲーション この空間構成法に対応して,ウォークスルーは,XY平 軸として,データ数の軸を考え,図書データの数に関す 面上の移動とZ軸 (ナビゲーション軸) 方向の移動とに切り る階層化を実施したものと,時間や空間などの図書デー 替えて操作し,視点の方向は固定することで,位置を見 タの共通的に存在する属性を1軸としたものがある。 失うことを防ぐようにしている。さらに,3次元空間の特 とし,一定の基 前者は,情報分布空間を最下層 (第n層) 徴を生かすため,表示情報そのものを3次元形状で表現 準で分割し,各分割単位の代表の図書データを,2次元位 し,3次元形状の特徴により情報選択を判断するため,こ 置はそのままに,第n − 1階層の図書データとするもので の3次元形状を傾ける機能を用意している。 ある。さらに,選択したキーワード数と同程度の数を持 図-3は図書データの3次元情報探索空間の例である。 つ階層まで,この過程を繰り返すことにより構成するも 図-4は同じ方法を写真データに適用し作成したもので, のである。図-2は階層空間の説明図である。 時間軸を持つ3次元情報探索空間の例である。この場合の 後者は図書データを共通的な属性値によりナビゲーショ 特徴表現には色ヒストグラムを利用した。 ン軸上に分散させるものである。軸の例としては,図書 ● 情報分布空間作成法の評価 データの著者,出版年,ページ数,価格などが考えられる。 キーワード選択とSOMの結果を,選択したキーワード FUJITSU.49, 6, (11,1998) 421 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 6 実行時間(秒) 被覆率と均一性 電子図書館システムのためのブラウジング検索機能 :被覆率 :均一性 :キーワード選択 :SOM :計(レスポンス) 5 4 3 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0 100 200 300 400 データ数 選択されたキーワード 図-5 選択されたキーワードの被覆率と情報分布の均一性 Fig.5-Covering rate of selected keywords and uniformity of distribution. の被覆率,情報分布の均一性,計算時間の観点から評価 (6) した。以下の評価結果は,科学技術図書1,095件 を対象 に検索した結果の件数が100件以上の35件の検索結果集合 500 600 図-6 キーワード選択とSOMの実行時間 Fig.6-Execution time of selection of keywords and SOM. ○○○○○○○ ウェアの進歩でこの範囲に入ることも可能と考える。 む す び 電子図書館で利用できるブラウジング検索機能につい を対象にして平均を取ったものである。 て説明し,情報分布空間の作成方法と評価,3次元情報探 (1) 選択したキーワードの被覆率 被覆率は選択したキーワードを一つ以上含む図書データ 索空間の構成と事例を紹介した。今回,試作したシステ の全体の図書データに対する割合を表現したものである。 ムはブラウジング検索の全機能を実現できた訳ではない 被覆率の結果は,図-5で示すように,キーワード選択数 が,その有効性を確認できた。また,写真データ,音響 が2個の場合が79.2%で,9個で97.5%になり,キーワード データ などのテキスト以外のメディアに対しても適用評 選択数が増加するとともに徐々に100%へ近づいている。 価を実施している。今後は,このようなブラウジング検 (7) 索を主体としたマルチメディア情報検索システムが電子 (2) 情報分布の均一性 均一分布は情報がマップの各格子点に一つ配置される 図書館システムで実用化されていくものと考える。 状態を理想として,それからのずれを表わすことにし た。これを以下の式で表現した。 参考文献 n(i,j)を位置(i,j)に配置された情報数とし,nを全情 報数とすると, (1) T. Kakimoto and Y. Kambayashi:Function of Browsing Navigator.Proc. of International Symposium on Digital Media 2 (n(i,j)−1)/nとなる。 均一性 = ∑ i, j Information Base,Nara,Japan,pp.101-105,Nov. 1997. この値は,全格子数が全情報数に等しいとすると,情 (2) D. R. Cutting et al.:Scatter/Gather:A Cluster-based 報が各格子に一つずつ配置された場合には0になり,情報 Approach to Browsing Large Document Collections.ACM が全格子の半分に二つずつ配置された場合には1になる。 SIG-IR'92,pp.318-329(1992). その結果,この値は0に近い方が分布が均一だと考えられ (3) D. R. Cutting et al.:Constant Interaction-Time Scatter/ る。図-5の場合には,キーワード数2個の場合に0.4で,9 Gather Browsing of Very Large Document Collections.ACM 個の場合に0.1で,9個以上では,キーワード数の増加とと SIG-IR'93,pp.126-134(1993). もに0.1より低くなる。 (4) G. Earl Rennison:Galaxy of News.An Approach to (3) 計算時間の評価 Visualizing and Understanding Expansive News Landscape. 科学技術図書データに対して,キーワード選択数9の 場合のキーワード選択とSOMの計算時間の結果を図-6に 示 す 。 537件 で 約 5.2秒 で あ っ た 。 測 定 環 境 と し て , (注4) PentiumPro (注5) 200 MHz,178 MBメモリ,WindowsNT, VC++4.2を利用した。この結果から,通常レスポンスタイ ムの基準は3秒がよく利用されるが,近い将来にハード UIST'94,pp.3-12(1994). (5) T. Kohonen:The Self-Organizing Map.Proc. of the IEEE, 78,9,pp.1464-1480(1990). (6) 谷口ほか:電子図書館Ariadneの開発 (2) .情報管理,38, 4,pp.324-337(1995). (7) 増井,柿元:感性語評価を利用した音響探索の試み.情報 処理学会音楽情報科学研究会, 98-MUS-26, pp.115-122(1998). (注4)米国インテル社の登録商標。 (注5)米国Microsoft Corporationの米国および他の国における登録商標。 422 FUJITSU.49, 6, (11,1998)