Comments
Description
Transcript
文書知識に基づく文書情報のプレゼンテーションシート自動作成支援ツール
第 3 回 MYCOM2002 第3回MYCOM資料 2002年6月17日,18日 「文書知識に基づく文書情報のプレゼンテーションシート 自動作成支援ツール」 羽山 徹彩 ∗↓ 杉山 公造 ↓ 國藤 進 ↓ Tesssai Hayama Kozo Sugiyama Susumu Kunifuji ↓ 北陸先端科学技術大学院大学 知識科学研究科 所在地:石川県能美郡辰口町旭台1−1 e-mail:[email protected](羽山徹彩 宛) Abstract:本研究では、文書情報から知識抽出をおこない、知識表現をおこなうことでプレゼンテーショ ンシート自動作成支援ツールの設計および構築をおこなった。人間が文書を理解するために必要な知識 として文脈的知識、背景的知識、詳細的知識の3つの知識を定義し 、それら知識に対する情報技術的ア プローチを適用した。実装したシステムでは、プレゼンテーションシート作成の時間短縮と表現の充実 を目指す。 1 はじめに 情報化社会の進展にともない個人が扱う情報量が増大している。人間が膨大な情報群から必要な情報を取り出し 、利 用することは困難を伴う。そのため、情報処理分野では、人間が効率よく情報獲得するための支援ツールの研究が数 多くなされている。また、近年 WEB やデジタル化された文献などのテキストデータが増えたことで、それを計算機 上で扱う自然言語処理技術も実用化されてきており、テキストマイニング技術など のテキストデータから人間にとっ て利用性のある知識を獲得する技術の研究もなされている。 本研究では、アブ ストラクトの文書情報を用いたプレゼンテーションシートの自動作成支援ツールの設計および構 築を目指している。プレゼンテーションシートは、発表のときに用いられるツールであり、その用途は 、情報を効率 よく伝えるための支援ツールである。学会などでは、発表の際に配られるアブ ストラクトの内容を理解するための支 援ツールとして使用する。そのため、プレゼンテーションシートの内容は、その文書情報から文書知識を取り出した 表現であるといえる。 文書からのプレゼンテーションシート自動作成の研究はまだなく、我々は人間が文書を理解するために用いる知識 要素を定義し 、それに対する情報処理技術的なアプローチを適用することでプレゼンテーションシート自動作成支援 ツールの実現を試みる。 2 アプローチ 我々は、人間が文書情報から文書知識を獲得している知識要素として文脈的知識( Context Knowledge ) 、背景的知 識( Background Knowledge )、詳細的知識( Object Knowledge )の3つの知識を考え、それらに情報技術を適用し て文書からの知識抽出をおこなった。それら3つの知識とそれらに対する情報技術的なアプローチの詳細を以下に述 べる。 2.1 文脈的知識( Context Knowledge ) 文脈的知識とは、ある知識が有効に適用される状況を示した知識である。たとえ知識が存在したとしても、それを 有効に活用する状況がなければ意味を成さない。そのため、その知識を有効に適用可能となる状況を考える必要があ る。有効な状況を把握し 、知識をその状況で適用することにより知識の有効化がおこなわれる。 文脈的知識に対する情報技術的なアプローチとして、我々は TF・IDF 法 3) を用いて文書中に出現する順番を保持 しつつ、ランクの高い文を取り出すことをおこなった。それにより、文書が持つ文脈の保持と文書の中の重要文抽出 が可能になると考える。本稿では、抽出された重要文を文脈文と呼ぶ。今回の文脈文の抽出には、テキスト簡易要約 器 Posum1を用いた。 TF・IDF 法とは、情報検索分野において索引語の重み付けに一般的に用いられている技法である。TF 法は、索引 語の頻度をもとに重み付けする技法であり、式 (1) で示すようにある文書中に含まれる索引語ごとの頻度で表わす尺 度である。今回は、索引語の出現頻度を文書中のすべての索引語の出現数で割った式 (2) の相対頻度を TF 法の重み として採用した。 wtd = tf (t, d) 1 北陸先端科学技術大学院大学 島津研究室において開発 66 (1) tf (t, d) s∈d tf (s, d) wtd = (2) * wtd:文書 d における索引語 t の重み、s:文書に出現する索引語 IDF 法は、索引語の特定性をもとに重み付けする技法であり、式 (3) で定義されるようにある索引語が全文書中の どれくらいの文書に出現するかを表す尺度である。 idf (t) = log N +1 f d(t) (3) * N :文書中の文数、f d(t):索引語 t が出現する文頻度数 TF・IDF 法は、TF 法と IDF 法を積算した技法である。テキスト簡易要約器 Posum は、TF・IDF 法を用いた要約 システムであり、一文当りの「名詞」、 「動詞」、 「形容詞」を TF・IDF 法で求めた値を足し合わせた値を文の重要度 とし 、重要度の高い文を取り出す方法を用いている。1) 今回は、要約率 30 %( 文書中から重要度の高い 30 %の文を 抽出すること )でおこなったが 、今後要約率の設定についても考えていかなければならない。 2.2 背景的知識( Background Knowledge ) 情報には、意味合いが含まれている。この意味合いは 、人間が情報を受け取る際に自分の経験や体験に基づき、情 報が持つ意味を瞬時に感じ取れるものである。例えば 、石川県から滋賀県の琵琶湖コンフェレンスセンターへ「移動」 という言葉が与えられたとき、電車での移動、車での移動、バスでの移動、足を使った移動を考える様々な移動への 意味合いがある。つまり、人間は情報を自らの知識をもって広がりをもたせることをおこなっている。我々は、この 広がりを持たせる個々の知識を背景的知識と呼ぶ。 背景的知識に対する情報技術的なアプローチとして、我々は重要単語にもとづく参照リストを用いて文脈文を階層 的にクラスタリングし構造木を生成した。そして、それをもとにプレゼンテーションシートのレ イアウトへ変換する ことを自動でおこなった。その結果、各文脈文に付加された各階層の見出しを見ることで各文の内容が表現され 、文 脈文の見出しの流れを追うことで文書の内容の流れが表現される。 参照リストにもとづくクラスタリングおよび構造木の生成と構造木にもとづくレ イアウト変換の手法を、Fig.1 を用 いて説明する。Fig.1 は、 「1.はじめに」を適用した文のクラスタリングに基づく構造木生成とレ イアウト変換の処 理を説明した図である。 2.2.1 参照リスト にもとづくクラスタリングおよび構造木の生成 クラスタリングは、参照リストをつかっておこなう。参照リストの作成手順は、以下の手順に従う。 1. キーワード に TF・IDF 法による重要度とそのキーワード に含む文脈文を付加する( Fig.1 では、キーワード の 含む文脈文を番号表示している) 2. キーワード を重要度を用いて高い順番に並び替える 3. キーワード を含む文の数が多い順番に並び替える 以上の処理手順により、キーワード は、含む文の数が多い順番に並び替えられ 、含む文が同じ数の場合は、重要度 が高いキーワードが上位に位置する参照リストが生成される。キーワード とは、TF・IDF 法により重要度 0.8 以上の 文書中の名詞を指す。 次に、作成された参照リストを使用して、クラスタリング処理をおこなう。クラスタリング処理手法の処理手順を、 以下に示す。 1. 参照リストの一番目のキーワード に含む文脈文の文番号を構造木のルートに置く 2. 各ノード において文脈文の数より少なく、文番号を内包する文番号をもつキーワードを参照リストから取り出す 3. 参照リストから取り出した文脈文の文番号をノード の左下へ付け足し 、含まれなかった文番号を右下へ付け足す 4. 2,3 の操作を文番号が1つになるか、リストに含まれる番号がなくなるまで繰り返す 以上の操作により、Fig.1 のような各ノード にキーワード と文脈文の文番号を保持する構造木が作成される。 67 Fig. 1 文のクラスタリングに基づく構造木生成とレ イアウト変換 2.2.2 構造木にもとづくレ イアウト 変換 我々は、前節で作成した構造木をもとに各文脈文と背景的知識として表現するキーワード のレ イアウトを決定した。 レ イアウト表記は、アウトライン的な表現であり構造木の各ノード の階層値とキーワード をもとにおこなった。プレ ゼンテーションシートでは、アウトライン的な表現を使用することが一般的であり、そのような表記のほうが適して いると考える。構造木からアウトライン的な表現への変換手法は、以下のルールをもとに作成する。 Rule 1:構造木のルートから左の枝を優先的にたど っていく Rule 2:リーフへたど りついた場合は、1階層上のノード に戻り、たど っていない枝へ進む Rule 3:新たなノード やリーフをたど った場合、その階層とキーワード を記憶し 、一度たど ったノード の値は記 憶しない Rule 4:すべてのノード をたど り、右のリーフへたど りついた時、終了とする 上記の Rule に従い記憶された各ノード の階層値とキーワード をたどった順番により表記することでアウトラインの 階層表現への変換が可能になる。 具体例として、Fig.1 の構造木にもとづくレイアウト変換を説明する。Fig.1 の構造木を上記の Rule をもとに各ノー ド の階層値とキーワード を順次記憶していくと以下のような順番になる。 [階層の値:キーワード ] - [0:人間] → [1:ツール 、支援] → [2:情報、効果] → [リーフ:1] → [2:文書、プレゼンテーションシート、作成、理解] → . . . その結果、ノード に記憶された階層値とキーワード を展開していくと Fig.1 における構造木からレ イアウト変換後 のアウトライン的な表現に変換される。 68 2.3 詳細的知識( Object Knowledge ) 文書情報の中には、特定の対象について述べている情報がある。このような情報は、対象を特徴付けたり、定義付 けたりしている。そのため、人はその情報の内容を通して、対象に対しての深い知識を獲得することができる。我々 は、対象に対しての知識を詳細的知識と呼ぶ 詳細的知識を文書から抽出する情報技術的なアプローチとして、我々は重要単語に付加する助詞「が 」や「は」に ついて注目し 、文脈文以外に含まれる文を抽出した。 自然言語処理の分野において、文書の主題や焦点を見つける一般的な方法としては、 「が 」や「は」などの助詞を探 2) す方法 がある。主題とは、前の話の流れに続く、現在の大まかな流れである。焦点とは、新たな情報の中で強調し たことである。主題には、助詞「が 」や「は」が付加する名詞がなりやすく、焦点には、助詞「が /に /へ/と/・ ・ ・」が 付加する名詞がなりやすい。文脈文として選択されなかった文でも文書の主題や焦点になりうる可能性のある文があ る。本稿では、このような文を詳細文と呼ぶ。 我々の詳細文を抽出した方法は、TF・IDF 法によりある閾値2を超える重要単語に対し助詞「は」が付加している 文脈文以外の文を詳細文として抽出した。抽出した詳細文は、含まれる重要単語を含む文脈文に対しての詳細的知識 としてレ イアウトの際に近くに配置する。 現在のシステムでは、助詞「は」のみを用いており、今後、 「が 」、 「には」、 「とは」などの助詞の適用も考えていく 必要があり、適用する TF・IDF の閾値を検証する必要がある。 2.4 細分化手法を用いた可視化 プレゼンテーションシートでは、語と語の関係や意味的つながりを語で表現するだけでなく、矢印や線の結びつき などの記号で表現する場合が多々ある。しかし 、アブ ストラクトでは、語と語のつながりや意味的つながりを文書で 表現することがほとんどであり、前置詞、動詞、格助詞など 機能語を用いて文中で語と語の関係や意味的つながりを 記述している。3) 本研究では、語と語の関係や意味的つながりを言語的表現から記号的表現に変換することを支援する方法として文 の細分化処理をおこなった。文の細分化手法は 、読点ごとに文を細分化し 、その細分化された語を TF・IDF 法によ り選別された重要語に挟まれた語と挟まれなかった語に分ける。挟まれなかった語は、括弧で括る。重要単語で挟ま れた語は、TF・IDF 法で適用した形態素が名詞であるため文の断片的内容が含まれる。また、括弧で括られた語は、 動詞や前置詞などの機能語が含まれる。そのため、矢印や線の結びつきなどの記号に変換しやすい。 具体的に「1.はじめに」の一文の細分化処理から記号を付加するまでの変換プロセスを Fig.2 に示す。 Fig. 2 「1.はじめに」の一文の細分化処理から記号を付加するまでの変換プロセス Fig.2 は、原文、細分化処理、記号を用いた表現の結果を示している。色の濃い文字は、TF・IDF 法による重要単 語である。原文では、一文をそのまま表記しているが 、細分化処理では、句点ごとに語を区切り、重要単語で鋏まれ ていない語を括弧で括っている。記号を用いた表現では、括弧で括られた語を記号を使って手動で変換した。 「コメン ト:∼」は、この文を説明する言葉であり、記号を用いた表現の結果が意味的に表現されていることがわかる。以上 から記号を付加した表現は 、原文に比べ洗練されており、理解しやすい表現であり、細分化処理は、原文から記号を 付加した表現への移行を支援している。 2 今回は、ヒューリスティックに 0.8 以上を考えた 69 3 システム設計 システム設計について、Fig.3 を用いて説明する。 Fig. 3 システムの概念設計図 本システムは、アブ ストラクトのテキストデータをもとに、プレゼンテーションシートの自動作成をおこなうシス テムを目指す。入力データは 、アブ ストラクトのテキストデータであり、処理フェーズへデータを渡す。処理フェー ズは、まず入力テキストデータを形態素解析3と文脈文抽出の処理4をおこなう。形態素解析とは、与えられた文を形 態素に解析することであり、それぞれの形態素の品詞対応情報も含まれる。形態素解析された結果を用いて、品詞が 名詞ー一般、名詞ーサ変接続、未知語である単語を TF・IDF 法を用いて重み付けをおこなう。4) 重み付けされた単 語をもとに、文脈文のクラスタリング処理と詳細文の決定をおこなう。文脈文のクラスタリング処理は、2.2 節で述べ た手法を適用し 、詳細文の決定は、2.3 節で述べた手法を適用する。最後に、詳細文とクラスタリング処理結果を用い て、レ イアウト変換処理をおこない、文の細分化処理を適用する。細分化処理方法は、2.4 節で述べた手法を適用する。 今回用いたレ イアウトは 、Fig.4 に示すレ イアウトである。プレゼンテーションシートとして表示するレ イアウト は、710 × 550pixel に表示し 、シートのタイトルは最上部の 710 × 30pixel 、キーワード は階層の値が1つ低くなるご とに 40pixel 下に、文脈文は最終的に含まれるキーワード より 60pixel 下、80pixel 右に 、詳細文は付加する文脈文よ り 30pixel 下、40pixel 右に、それぞれ表示する。今後、最も有効なレ イアウトを検証し 、実装する必要がある。 Fig. 4 今回用いたレ イアウト 3 奈良先端科学技術大学院大学松本研究室の「茶筅」を用いた。 4 北陸先端科学技術大学院大学島津研究室「簡易要約システム Posum 」を用いた。 70 4 システム構築 我々は 、システムのプロトタイプを構築した。システムのプ ロトタイプを Fig.5 に示す。システムの実装は、イン タフェースを JAVA で、文書処理を Perl で実装した。システムのプロトタイプの機能は、以下のとおりである。 • システムへのテキストの入力は、テキストファイルをマウスで範囲選択することでおこなう • システムの処理は、テキスト簡易要約器 Posum の動作環境である Linux でおこなった • システムの出力は、編集可能なソフトウェア上に表示する。編集機能は、以下に示す 文字の入力・編集、丸・四角・矢印の図形描画、保存・過去に保存したファイルの読み込み、指定した図形・ 文字の削除、図形・文字に対して指定した図形・文字を後ろへ移動、描画した図形・文字の移動、文字のフォン ト・サイズ・太さを選択できる、印刷が可能 Fig. 5 構築したシステム Fig.5 に示す構築したシステムは、テキストエディタと処理結果を表示するグラフィックエディタからなる。テキス トエデ ィタにおいて、マウスで選択したテキストデータを入力とし 、グラフィックエデ ィタにより出力結果の編集が 可能である。 実際に本稿の「 1.はじめに」を本システムを用いてプレゼンテーションシートを作成した。作成手順は、Fig.6 を 用いて説明する。まず、本システムの出力結果において括弧で括られた語に対しての冗長語の削除と記号変換をおこ ない、それをもとに体裁を整える。その結果、Fig.6 のプレゼンテーションシートが作成される。この作成されたプレ ゼンテーションシートは、実際の研究発表に用いた。 71 Fig. 6 システムの結果を用いたプレゼンテーションシートの作成手順 5 今後の課題 本研究の今後の課題を以下に述べる。 5.1 各アプローチの確立 3つの知識へのアプローチは、洗練された処理方法であるとはいえない。そのため、各アプローチをより適切な手 法として確立する必要がある。以下に各知識のアプローチへの課題を述べる。 • 文脈的知識のアプローチへの課題 ユーザが望むプレゼンテーションシートの内容へのカスタマイズを考えていかなければならない。特に、ユーザ が望むシート枚数への対応として、要約率の調整があげられる。 • 背景的知識のアプローチへの課題 構造木からレ イアウト変換されたアウトライン表現は、文脈文がもつ文脈の保持が難しくなる状況がある。Fig.7 を見ると、文書番号が上から下へ、下から上へと繰り返す状況がある。そのため、構造木の作成において文脈が 乱れないために何らかの制約を加えなければならないと考える。 • 詳細的知識のアプローチへの課題 現在、詳細文抽出のために助詞「は」のみを適用している。今後、各助詞の性質を考慮し 、他の助詞への適 用をおこなっていきたい。 72 Fig. 7 今後の課題のためのアウトライン表示図 5.2 プレゼンテーションシート においての境界 現在構築したシステムでは、プレゼンテーションシートの境界を分けることが出来ない。我々は、プレゼンテーショ ンシートの境界を分けることへのアプローチとして背景的知識の階層値0と文脈的知識の文脈文を利用することを考 えている。Fig.7 に示すように、背景的知識の階層値0において境目ができ、文脈文の流れが上下しない箇所がある。 このような箇所をプレゼンテーションシートの境界になると考える。 5.3 本システムへの図の取り込み 一般的に使用されているプレゼンテーションシートは、図的表現を多く用いる。図的表現は、人間にとって直感的 に理解することに有効的である。本システムでは、入力に文書のみのテキストデータを用いているため、アブ ストラ クトの図を取り込むことは出来ない。しかし 、入力データを図の情報をもつアブ ストラクトの TEX テキストデータ にすることで図を取り込むことが可能であり、今後取り組んでいく。 5.4 動作環境の OS 依存性をなくす 処理フェーズで Posum が Linux に依存しているため、現在のシステムは、Linux 環境を必要としている。しかし 、 Posum の処理を自らプログラムを作成し 、システムに組み込むことで、動作環境の OS 依存性をなくすことができる。 5.5 実利用可能システムの実装 現在のシステムは、表現を確立するためのプロトタイプであり、一度に複数枚のプレゼンテーションシートは作成 できない。そのため、複数枚のプレゼンテーションシートの作成可能であり、それを用いて実際にプレゼンテーショ ンが可能なシステムを構築していきたい。 5.6 その他 その他の主な課題として、システムのインターフェースの洗練と厳密な評価実験があげれれる。 6 最後に 本研究では、文書情報から文書知識を抽出し 、表現することで、プレゼンテーションシート自動作成支援システム を設計および構築した。現在、本研究は、プロトタイプシステムにおいて各アプローチを実装した段階である。今後、 様々な課題を克服し 、より人間に文書情報を理解する文書知識と知識表現を導き出し 、それらを適用した実利用可能 なプレゼンテーションシート自動作成支援システムの実現を目指していく。 参考文献 1) 望月源5『テキスト簡易要約器 Posum version 1.50.2 マニュアル』 ( 北陸先端科学技術大学院大学 島津研究室) 2) 長尾真 編『自然言語処理』 ( 岩波書店,1996 ) 3) 徳永健伸『情報検索と言語処理』 ( 東京大学出版会,1999 ) 4) 松本裕治 他『形態素解析「茶筅」version2.2.7 使用説明書 』 ( 奈良先端科学技術大学院大学 松本研究室) 5 現在、東京外国語大学 外国語学部 言語情報講座に所属されておられます 73