Comments
Description
Transcript
言語知識に基づいた検索支援システム
特 集 言語知識に基づいた検索支援システム Interactive Search System Based on Language Information あらまし 一般のユーザでも,簡単に効率良く,意図する情報を手に入れることができるような 検索支援システムの実現を目指し,3種類の検索支援インタフェースを開発した。これ らは,検索対象となるテキストから抽出した言語知識−単語,単語と単語との関係,文 章の主題や重要情報など−を利用して検索支援を行うものである。インタフェースの一 つ目は,検索結果を絞り込むためのキータームの候補を表示して,複雑な検索式の作成 を支援する「絞り込み支援検索」である。二つ目は,記事の主題や重要情報を抽出して おくことによって,製品動向調査や業界動向調査を目的とする検索を支援する 「テンプ レート検索」 である。三つ目はキータームの共起語を用いて,新しい事実の発見を支援 する「発見的検索」である。 本稿では,これら3種類の検索インタフェースとその仕組みについて紹介する。 Abstract We recently developed three types of interactive search interfaces for a new searching system that can be used by anyone to easily and efficiently retrieve desired information. These interfaces support search operation based on such linguistic information as the relationship between words, specific contents and important information extracted from text to be searched. The“narrow support search”interface is used to display candidate key words and enable complex queries to narrow down retrieval results. The“template search”interface is used to extract specified contents and information in printed material for evaluating trends in products and industry, for example. The“heuristic retrieval”interface is used to reveal new factual information by displaying the multiple appearances of key words. This paper describes these three interfaces and the mechanisms by which they operate. 428 橋本三奈子(はしもと みなこ) 松井くにお(まつい くにお) 1984年東京女子大学文理学部日本文 学科卒。同年富士通入社,7月情報処 理振興事業協会出向。1997年4月復 職。現在情報検索,辞書構築の研究 開発に従事。 ネットワークコンテンツ本部技術開発 統括部インターネットソフトウェア部 1 9 8 0 年静岡大学工学部情報工学科 卒。同年(株)富士通研究所入社。以 来自然言語処理,文書情報処理の研 究開発に従事。 マルチメディアシステム研究所ド キュメント処理研究部 FUJITSU.49, 6, pp.428-433 (11,1998) 言語知識に基づいた検索支援システム ○○○○○○○ ま え が き てしまう。 ● 適切なキータームを思い付かない インターネットの普及に伴い,ネットワーク上には大 例えば,「環境ホルモン」について調べたいと思ったと 量の情報が蓄積されている。これらの情報は,詳細な設 きに,キータームとして「環境ホルモン」という単語だけ 計に基づいて整理されて収められたデータベースではな を入力しても,非常に多くの記事が検索されてしまう。 く,報告書や,レポート,議事録など,ばらばらの書式 記事の中には,環境ホルモンとは何かということや,そ で記載された単なる電子データであることが多い。電子 の影響や対策方法について解説したもの,調査の計画や 図書館に収められるコンテンツにも,題名,著者,出版 報告について書かれたもの,セミナーや本の紹介,個人 社などの整理された書誌情報以外に,本文そのものが収 の意見など様々なものが存在する。このような場合に 録される機会が増えてきた。それに伴って,うろ覚えの は,検索結果を絞り込むためのキータームを「AND演算 本の題名を調べる,という単純な検索サービスだけでは 子」で追加することで,目的の情報に近づいていくのだ なく,ある問題の現状について調べたい,ある人の意見 が,一般のユーザではどんなキータームを追加したらよ が書かれた本を探したい,話題の本が読みたいという本来 いか思い付かないことも多い。 の目的や内容にそくした検索サービスが求められている。 ● キータームをどう展開していいか分からない しかし,情報が蓄積されればされるほど,必要とする 例えば,ヨーロッパにおける環境ホルモンの現状につ 情報を探し出すことは逆に難しくなってくる。そのた いて調べようと,「ヨーロッパ」をキータームとして追加 め,大量の情報の中から,利用者が必要とする情報を適 しても,今度は逆に検索結果が少なすぎるということに 切に,かつ容易に探し出す技術の開発を目的として,テ なる。実際の文章には,「フランス」 「イギリス」 「パリ」 キスト検索支援システム (注1) を研究開発した。 「ロンドン」という各国ごと,各都市ごとの記事として述 このテキスト検索支援システムでは,対象とするテキ ストデータとして新聞記事の電子データ ( 注2 ) を利用し た。新聞記事には,「発行日付」 「見出し」のような書誌 べられていることが多いからである。また国名の表記も 「フランス」 「イギリス」ではなく,新聞記事なら「仏国」 「英国」あるいは「仏」 「英」と書かれていることもある。 情報が付加されているが,記事本文は構造化されていな ● 数値の範囲が指定できない い生の文章である。このシステムでは,大量に蓄積され 例えば,「A社の20万円台のパソコン」を調べたい場 た新聞記事情報からユーザが望む記事を簡単に,効率的 合,文字列の全文検索による方法では,「A社 AND 20万 に検索できるように,3種類の検索インタフェースを開 円 AND パソコン」という条件を指定すれば,これらの文 発した。 字列を含む記事は検索できるが,23万円あるいは27万円 ○○○○○○○ 本稿では,この検索支援システムのインタフェースと のパソコンに関する記事が存在していても,これらを検 仕組みについて述べる。 索することはできない。「OR演算子」を用いて検索条件 キーターム検索の問題点 新聞記事情報のクリッピングサービスや検索サービス を記載しても,200,000円のようなアラビア数字による表 記や二十万円のような漢数字による表記を考慮すれば, 「20万円台」という条件をキータームで表現するのは不可 は既に商用サービスとして実現されているが,現在実現 能である。 できているサービスは,記事に付加したキータームとの このように,現状の検索サービスでは,ユーザが本当 照合による検索や,文字列や形態素の全文検索による検 に欲しい情報を手に入れるためには,複雑な検索式を書 索である。しかし,このような方法では,一般のユーザ いたり,数段階のステップを踏んだりする必要があり,一 によっては適切なキータームが見つからない,思い付か 般のユーザでは使いこなすのが難しいものになっている。 ない,あるいはキータームにならない,ということが多 い。その結果,検索結果が多すぎたり,少なすぎたりし て,本当に欲しい情報が見つからないという問題が起き (注1)このシステムは,特別認可法人である情報処理振興事業協会の 「創造的ソフトウエア育成事業」の一テーマである,「マルチメ ディアフィルタリング技術の開発」の一環として開発したもので (1) ある。 (注2)「日本経済新聞CD-ROM1990年度版∼1996年度版」を利用した。 FUJITSU.49, 6, (11,1998) ○○○○○○○ 言語知識を利用した検索 上に述べたような問題を解決するため,つぎのような 方法で,一般のユーザでも簡単に効率良く,意図する情 報を手に入れることができるような検索支援システムの 開発を目指した。 その方法とは,検索対象となるテキストから,単語, 429 言語知識に基づいた検索支援システム 単語と単語との関係,文章の主題や重要情報などを知識 として抽出し,その言語知識を利用して,検索を支援す 検索インタフェース 要求 分析・整理・提示 言語知識 る方法である。 この方法は,さらに大きく二つに分類できる。一つ は,ある語と同じ意味を表わす語を集めた同義語辞書, 検索エンジン Terass 回答 ある概念を親とみなしたときに,兄弟の関係にあたる語 インデックス インデキシング を集めた兄弟語辞書,ある単語とともに出現する確率の 高い語を共起語として抽出した共起語辞書,さらに各記 ユーザ プロファイル 検索対象データ 新聞記事 知識抽出 事に出現する単語の中で出現頻度や出現位置に基づいて 重要な語を抽出した特徴語辞書を利用して,検索式の作 図-1 システムイメージ図 Fig.1-System architecture. 成を支援するという方法である。 もう一つは,検索対象となる新聞記事に,単語や文章 きるようになっている。 の意味を表わすような属性情報,簡単に言えば「タグ」を ● 検索範囲の縮少 付加しておいて,その属性情報に基づいて,検索を行う 上のようにして,このシステムでは,ユーザが入力し という方法である。 たキータームに同義語を展開した検索式によって検索 この方法を利用したテキストフィルタリングシステム し,検索結果の記事見出し一覧を表示する。そして,こ を並列コンピュータ“AP3000”上に構築した。システム の記事見出し一覧と同時に,検索結果を絞り込むための 全体のイメージ図を図-1に示す。検索エンジンは富士通 候補となる絞り込み用キータームリストを表示するの (2) 研究所で開発したTerass を使用した。次章以降で,具体 ○○○○○○○ が,このシステムの特徴である。この絞り込み用キー 的な検索インタフェースを例示しながら,これらの仕組 タームには,各記事に出現する単語の中で出現頻度の高 みについて解説する。 い索引語を用いている。このシステムでは,各新聞記事 絞り込み支援検索 を形態素解析し,出現頻度や出現位置に基づいて単語を 抽出し,特徴語辞書として登録しておく。そして,ユー 前に述べたように,ユーザが必要とする情報を得るた ザがあるキータームで検索した結果に対し,それらの記 めには,複雑な検索式を作成しなければならないが,そ 事の特徴語を抽出して,つぎのようなリストを作成する。 れは一般のユーザには困難なことである。この検索式の 欧州通貨統合,欧州連合条約,首脳会議,安全保障 作成を支援するのが,「絞り込み支援検索」である。 政策,加盟国,雇用最優先,ユーゴスラビア,ギリ ここでは,上に述べた同義語辞書,特徴語辞書を利用 シャ,ドイツ,自動車輸出,ISO,品質保証規格, する。 環境,軍事介入,外交政策,排出削減 ● 検索範囲の拡張 ユーザは,目的とする記事に近づくために検索結果を まず,ユーザが思い付いて入力したキータームに対 絞り込みたいと思う場合には,絞り込み用キータームリ し,同義語辞書の中からキータームと同じ意味を表す単 ストの中から,関連するキータームを選ぶだけで,検索 語を探し,「OR演算子」で展開した検索式を自動的に作 式が追加され,もう一度検索することができる。 成して検索する。例えば,キータームが「EU」 であれば ユーザは検索の始めには何々について調べたいという 以下のような検索式が作成される(「+」は「OR演算子」を ような漠然とした要求を持っているだけのことが多い。 示す)。 今まで述べたような対話的な操作を何度か繰り返すこと EU + 欧州連合 + ヨーロッパ連合 + European Union によって,その過程の中で,ユーザは自分が欲する情報 同義語は,<略語><異表記><英語><旧名>など が何であるかを明確化していき,検索式を生成して,興 の観点で分類されている。 味のある記事にたどりつく。このような検索の方法を支 欧州連合<英語│英略語>EU 欧州連合<英語│英名>European Union 欧州連合<異表示│異称>ヨーロッパ連合 ○○○○○○○ 援するのが,絞り込み支援検索である。 テンプレート検索 ユーザは,検索プロファイルの設定時に,キーターム 検索の目的や欲しい記事の種類が始めからはっきりし を同義語に展開するかどうかを,この観点ごとに選択で ている場合には,キータームを基本とする検索では,煩 430 FUJITSU.49, 6, (11,1998) 言語知識に基づいた検索支援システム わしいことがある。 そのため,検索をビジネスの場での用途に絞り,その 中でも,他社動向調査,業界動向調査,製品動向調査と いう目的に限定して,ユーザが必要な情報を手に入れる ための検索インタフェースを開発した。 ● 記事の主題や重要情報の構造化 このシステムでは,記事に含まれているすべての単語 を一律に検索対象とするのではなく,記事の主題や,記 事の中の重要な情報を抽出して構造化しておき,それを 検索対象とする。そのために,まず記事の主題を取り出 し,つぎにその主題において重要な情報,例えば製品発 売の記事であれば,発売元の組織名や,発売される製品 種,製品名,価格などの情報を抜き出し,それを属性情 報としてタグ付けし,構造化して記事に付加することに 図-2 テンプレート検索(製品販売記事に対する条件入力用テン プレート) Fig.2-Searching interface which uses a template(for the case of searching articles on product sales). (3) した。今回扱った記事の主題は,他社・業界・製品動向 の調査という目的のために必要なものとして選んだ,新 出しとして「カメラ」を選び,観点として「製造会社」を 製品情報,新技術の研究開発情報,新事業情報,組織の 選んでから兄弟語に展開するというボタンを押すと,以 合併情報の四つである。 下のように,組織名を列挙した検索式が自動的に入力さ 記事本文から,記事の主題や組織名,製品種,価格, (4) れる。 発売日のような属性情報を抽出する方法 については,こ キヤノン株式会社 + 株式会社ニコン + ミノルタ株式 こでは詳述しないが,抽出した情報を以下のように構造 会社 + オリンパス光学工業株式会社 + 旭光学工業株 化しておく。検索の対象は,記事本文そのものではな 式会社 + マミヤ・オーピー株式会社 く,このような構造化された属性情報である。 また,製品種を入力する際には,見出しとして「飲料」 <記事ID>19960223001 を選び,観点として「アルコール飲料」を選ぶと,以下の <主題>製品販売 ような製品種名に展開される。 <発売元組織名>ニコン アルマニャック + ウイスキー + しょうちゅう + ス <製品種>二倍ズームコンパクトカメラ ピリッツ + ビール + カクテル + ラム酒+リキュー <製品名>ニコン ミニズーム ル + ワイン + 果実酒 + 甘酒 + ブランデー + 洋酒 <価格 value='46,000' unit='円'>四万六千 + コニャック + 日本酒 + 発砲酒 + 洋酒 <発売日付 value='19960224'>二十四日 業界動向,製品動向を調査する際には,関連する組織 ● 検索軸の指定 や製品をいちいち入力するのは面倒なため,このような 検索条件は,記事の主題別に入力用のテンプレートを 辞書が非常に便利である。また,自動的に同義語展開す 用意し,そのテンプレートに沿ってユーザに入力しても るという設定をしておけば,システムはこれらをさらに らう。このテンプレートが検索軸となる。例えば,図-2 同義語に展開して検索するため,略称で記載された記事 に示すのは,新製品情報を検索する際の条件入力用テン も検索できる。 プレートである。発売元である組織名,製品種,価格, 検索条件には,このほかに,価格,発売日が数値で指 発売日を入力できるようになっている。 定できる。価格や日付は,記事中には,「二十万円台」 ここでは,組織名として「富士通」,製品種として「パ 「三十九万九千円」 「三日」「来月」のような日本語表現で ソコン」 のようにユーザが自分で条件を入力する以外に, 記載されているが,これを数値に変換して格納している 兄弟語辞書を使って条件入力を支援するインタフェース ため,数値として検索可能になる。 を開発した。 ● 表形式による検索結果表示 兄弟語辞書とは,ある概念を親とみなしたときに, 図-2で指定した条件を用いて検索すると,図-3のような 兄弟の関係にあたる語を集めたものであり,一般に言 結果がレポート形式で表示される。組織名,製品種,製 う「シソーラス」である。組織名を入力する際には,見 品名,価格,発売日,記事見出しが一覧となって表示さ FUJITSU.49, 6, (11,1998) 431 言語知識に基づいた検索支援システム 図-3 テンプレート検索(製品販売記事結果画面) Fig.3-Searching interface which uses a template (retrieval result for product sales articles). 図-4 発見的検索(共通共起語一覧表画面) Fig.4-Heuristic searching (table of common words in co-occurrence words). 「エジプト」の共起語 れるので,見易く,使い易いものになっている。利用者 ムバラク,ヨルダン,ムーサ,カイロ,シリア,シャ はこの検索結果をもとに,大手カメラメーカによる1998年 ルム,綿花,ピラミッド,大統領,… 度のコンパクトカメラの発売動向といったものをレポー 「大統領」の共起語 トにしてプレゼンテーションすることも簡単に行える。 廬泰愚,ムバラク,全斗煥,ミッテラン,エリ なお現在の手法では,すべての文書に対して,主題と ツィン,ゴルバチョフ,フジモリ,フセイン,ク 重要情報の抽出や構造化ができるわけではないため,扱 リントン, … える対象が限定されてしまうという問題がある。新聞記 検索条件に「エジプトの大統領」と入れた場合には, 事は半定型的な文章で読者を意識して記述されているた 「エジプト」の共起語と「大統領」の共起語とで共通するも め,比較的主題や重要情報を抽出しやすいが,社説や解 のを探し表示するので,「ムバラク」が一番始めに表示さ 説記事では,抽出は難しい。けれども,例にあげた新製 れることになる。 品情報の調査のように,検索目的や検索対象となる記事 ● 情報整理による知識の発見 ○○○○○○○ の内容が明確な場合には,この章に述べたテンプレート 図-4は,検索条件に「エジプトの大統領」と入れ,さら 検索が有効である。 にエジプトを大統領制の国という観点で兄弟語に展開し 発見的検索 てさらに検索したときの結果画面である。 エジプトでは「ムバラク」,ロシアでは「エリツィ 新聞記事のように,日々新しく生み出され,そして, ン」,フィリピンでは「ラモス」が一番上に表示されてい 蓄積されるテキストにおいては,月日の流れの中での新 る。メキシコでは,1993年から1994年度にかけて,「サ 情報や,情報の変化を発見することも,検索技術の一つ リナス」から「セディジョ」に代わっている。どうしてだ の応用である。この章では,このような発見を支援する ろうと疑問に思ったときに,この 「サリナス」をクリック 試みとして開発した「発見的検索」インタフェースを紹介 すると,「サリナス」を検索条件として,記事の検索がで する。 きるようになっている。その結果,「メキシコ,セディ ● 共起語の自動抽出 ジョ政権」 という記事見出しが見つかり,さらにこの記事 このシステムでは,新聞の発行年度ごとに作成した共 本文を見ると,1994年に大統領選挙があり,大統領がサ 起語辞書を用いている。これは,対象とするテキストの リナスからセディジョに交代したことが確かめられる。 中で,ある単語とともに出現する確率の高い語を,相互 共起語辞書は,一文中の近い位置での共起出現を前提 情報量をもとに計算し共起語としたもので,全自動で作 として全自動で作成しているため,抽出できる情報とで (5), (6) 成することができる辞書である。 きない情報がある。すでに常識になっていて,わざわざ 例えば,1996年度の日本経済新聞の記事を用いれば, 文章に書かれないような単語は,共起語として抽出しに 「エジプト」の共起語,「大統領」の共起語は以下のものが くい。例えば,日本の新聞では,「日本の小渕首相」とい 全自動で抽出される。 432 う表現はないため,「首相」という単語の共起語に「日 FUJITSU.49, 6, (11,1998) 言語知識に基づいた検索支援システム 本」が抽出できない。したがって,「日本の首相」という ていく所存である。 条件を入力しても「橋本」「小渕」などが表示できないと 最後に,同義語辞書,兄弟語辞書の作成を行った財団法 いう欠点がある。 人計量計画研究所殿にこの場を借りて感謝の意を表する。 しかし,この発見的検索では,共起語をヒントにし て,利用者が検索によって,忘れていたものを思い出 ○○○○○○○ す,新しい事実を発見する,ということができるように なっている。 む す び 以上,「絞り込み支援検索」「テンプレート検索」「発 参考文献 (1) 秋元ほか:「マルチメディアフィルタリング技術」の開発. 創造的ソフトウエア育成事業最終成果発表会論文集,pp.721728(1998). (2) 松井,難波,井形:大容量情報全文検索エンジンTerass. FUJITSU,48,3,pp.240-243(1997). 見的検索」 の三つの検索支援インタフェースについて述べ (3) 西野ほか:トップダウンなパターン解析に基づく情報抽 た。これらは,検索対象となるテキストから,単語,単 出.情報処理学会自然言語処理研究会,NL124-13,pp.95-102 語と単語との関係,文章の主題,重要情報などを知識と して抽出し,その言語知識を利用して,検索を支援する 方法に基づいたものである。 (1998). (4) 西野,落谷,橋本:文書中の情報を整理する情報抽出技 術.FUJITSU,49,6,pp.439-443(1998). この検索支援システムにより,一般のユーザでも,意 (5) Church,K. and Hanks,P:Word Association Norms, 図に沿う情報を簡単に効率良く検索することが可能にな Mutual Information,and Lexicography.Computational ると考えられる。ただし,それぞれの検索インタフェー Linguistics,16,1,pp.22-29(1990). スには,検索目的や対象によって一長一短がある。今後 は,ユーザの検索目的や検索内容をさらに分析し,より (6) 颯々野:大規模コーパスからの関連語自動抽出.言語処理 学会第4回年次大会発表論文集,B1-4(1998). 簡便で効率の良い検索支援インタフェースを研究開発し FUJITSU.49, 6, (11,1998) 433