Comments
Description
Transcript
利用者の観点に基づく複数文書要約
利用者の観点に基づく複数文書要約 関 洋 平 ‡ 江 口 浩 二 † , ‡ 神門 典子 † , ‡ † 国 立 情 報学研究所 ‡ 総 合 研 究大学院大学複合科学研究科情報学専攻 目的 ``利用者の観点に基づく複数文書要約’’ ’ とは,利用者が各々の主観に基づき, さまざまなジャンルの文書集合から, 適切な情報を抽出するためのタスクに 関する研究である。本研究により,利 用者は,``事実を報告する’’,``意見を 重視した’’,あるいは ``知識を重視した’’ 要約を手にすることができる。 主題/状況による情報要求 複数文書要約研究の目標は,ある主題 に関連した文書集合から内容を抽出し て,ユーザの要求に応じて重要な内容 を提示することにある。クエリーや質 問により,利用者の要求はサブトピッ クとして表現することができる。しか し,複数のジャンルから構成される文 書では,図1の2名のユーザの利用状況 に関連した要求のような別の側面にも 着目することができる。本研究では, この側面を3つの要約タイプとして表現 する。要約の観点は,主題と要約タイ プの組み合わせとして定義する。 要約タイプ 要約タイプは情報の対象(要約)と情 報要求の関係として定義する。本研究 では,NTCIR-3 TSC2 の要約テストコ レクションの分析の結果として,3つの 要約タイプを定義した。 1. 事実報告タイプ 2. 意見重視タイプ 3. 知識重視タイプ 文書ジャンル ``文書ジャンル’’ は通常文書の役割を考 慮した文書タイプとして定義される: ``社説’’, ``報道記事’’などが例である。 3. 要約文字数 の指定 サブトピックに焦点を当てた要約は文書クラスタリングの技術 に基づき実現している。元文書を段落単位で分割した後,要約 文の数の定数倍に基づき段落単位の文書をクラスタに分ける。 この点の技術については,NTCIR-4 TSC3 ( Text Summrization Challenge) に参加し,9チーム中2番目の評価を得た。 この特性はSVMなどにより学習できる。 表1. 観点に基づく要約のテストコレクション サブトピックに焦点を当てた要約 1. サブトピックの指定 4. 要約生成 図2. Summarizer With Interactive-clustering from Multi-Viewpoints (SWIM) 本研究では,文書タイプを特徴付ける 4つの非排他的な特性を元文書に設定し て,要約タイプの区別に利用した。 1. 状況即時/詳細描写性 2. 議論性 3. 非個人スタイル 4. 事実性/意見性 22のトピックについて,事実報告型・意見重視型・知識重視型 の3種類の要約を同一の人間が作成し,観点に基づく要約の評価 のためのテストコレクションを作成した。要約文字数は800文字 であり,正解文IDに基づきNTCIR-4 TSC3 と同じ評価ができる。 情報要求の二つの側面,主題と要約タイプを取り扱うために, インタラクティブに情報要求に応じるための要約システムを図 2のように実現した。 2. 要約タイプの 指定 図1. 観点に基づく複数文書要約 ID S010 S020 S030 S040 S050 S060 S070 S080 S090 S100 S110 S120 S130 S140 S150 S160 S170 S180 S190 S200 S210 S220 課題 トピック 欧州通貨統合 年金支払い抑制 粉飾決算 イトマン事件 ペイオフ解禁 次世代デジタル携帯 ガイドライン関連法 コソボ 戦略兵器削減 脳死判定 少年審判 情報公開法 ドナーカード 確定拠出型年金 遺伝子組み換え食品 組織犯罪対策法 臨界事故 金融ビッグバン プルサーマル 戦域ミサイル防衛 中国国有企業 北アイルランド紛争 記事集合 文字数合計 記事数 20530 10 21704 10 21207 9 20647 10 19251 11 20353 11 20687 9 20583 11 15499 8 21052 7 20967 11 16953 8 15902 10 19131 12 20225 12 21425 8 16935 7 19411 8 19092 9 17323 8 13529 6 14241 10 1. 異なるユーザの情報要求に応じるための観点に基づく要約 の枠組みを提案した。 2. 観点を指定できる要約インタフェースを実現した。 3. 観点はサブトピックと要約タイプの組み合わせで定義した。 4. 要約タイプを区別するために,文書ジャンルと文タイプ の情報を利用した。 5. 文書ジャンルを特性の集合として定義した。 6. 評価のための要約テストコレクションを作成した。 要約タイプに焦点を当てた要約 要約タイプの区別は文書ジャンルと文タイプを利用している。 1. 事実報告型 事実性を持つ文書と解説文を中心に構成 2. 意見重視型 意見性を持つ文書と意見文を中心に構成 3. 知識重視型 詳細描写性を持つ文書から事実・見通し文を中心に構成 平成16年度国立情報学研究所オープンハウス 平成16年5月31日~6月1日 於 国立情報学研究所 Summarizer With Interactive-clustering from Multi-viewpoints (SWIM) Yohei Seki‡ , Koji Eguchi†, ‡ , and Noriko Ka ndo†, ‡ † N a t i o nal Institute of Informatic s, Ja pa n ‡ D epa r tment of Informatic s, Th e Gra d ua te U n ive r s it y f o r Ad va nce d S t u d i es, Ja p a n OBJECTIVES ``Multi-genre document summarization’’ is an information-seeking task that is available for users who have perceived and assessed subjective relevant information. They can retrieve ``opinion-focused’’, ``news-focused’’, or ``encyclopedic knowledge-focused’’ summaries. Topical/Situational Information Requirements The goal of Multi-Document Summarization is defined as ``to extract content from a collection of related documents and present the most important content sensitive to the user’s needs’’ [Mani, 2001]. With queries, the user’s requirements can be expressed as subtopics. In the multi-genre document summarization case, we also focused on another aspect of the user’s requirements relating to the user’s intention concerning the situational relevance, as shown in Figure 1. We defined three summary types. Summary Types Summary Types are defined in terms of the relations between information objects (summaries) and information need. Figure 1. Multi-Genre Document We set up three types of summary by analysis of the text summaries in NTCIR 3 Summarization SUMM test collections: for the source documents that relate to 1. Fact-reporting the document types: 2. Opinion-oriented 1. Situation-dependent 3. Data (Knowledge)-centered 2. Argumentation 3. Impersonal style Document Genre 4 Fact-reporting/Opinion-focused ``Genre’’ is usually defined as document types: ``editorials’’’, ``news-reports’’, etc. These features were learned automatically We set four non-exclusive genre features with SVM (Support Vector Machines). In order to treat the two aspects of information requirements, we implemented an interactive summarization system, as shown in Figure 2. Subtopic-focused Summarization We implemented a subtopic-focused summarization with a document clustering technique. We segmented the source documents into paragraph units and clustered them using the output summary size. 4. Produce Summary 1. Specify Subtopic 3. Specify Summary Size 2. Specify Summary Type Figure 2. Summarizer With Interactive-clustering from Multi-Viewpoints (SWIM) In order to evaluate the effectiveness of this technique, we participated in the NTCIR-4 TSC Workshop convented by the NII, Japan, and my team ranked in second place out of 9 teams. Summary type-focused Summarization We evaluated the multi document summaries in terms of four genre features. We made test collections, there were 22 topics for three type multi-document summaries. Topics were shown in Table 1. Table 1. Test Collection for Multi-Viewpoint Summarization Task ID S010 S020 S030 S040 S050 S060 S070 S080 S090 S100 S110 S120 S130 S140 S150 S160 S170 S180 S190 S200 S210 S220 Topic European monetary union Annual pension Accounting fraud Itoman fraud case Removal of deposit insurance Digital cellular phone Guidelines for Japan-U.S. defense cooperation Kosovo Strategic arms reduction Brain-death diagnosis Juvenile proceedings Freedom of Information Act Donor card Defined contribution pension plan Genetically-enginered foods Organized Crime Control Act Criticality-caused nuclear accident Financial Big Bang Pluthermal Theater Missile Defenses Government-owned company in China Conflict of Nothern Ireland Source Articles # of Characters # of Articles 20530 21704 21207 20647 19251 20353 20687 20583 15499 21052 20967 16953 15902 19131 20225 21425 16935 19411 19092 17323 13529 14241 10 10 9 10 11 11 9 11 8 7 11 8 10 12 12 8 7 8 9 8 6 10 1. We proposed a multi-genre document summarization framework that is preferable for different user’s viewpoints, based on information requirements. 2. We implemented an experimental system and evaluated it. 3. Multi-genre document summaries were produced from userspecified subtopics and summary type information. To produce summaries with different summary types, we used genrediscriminating features and sentence type information. 4. We showed improved coverage by producing summaries with positive/negative genre-feature documents only. 5. We gave instructions about the summary types to assessors and made a test collection to evaluate our three-ummary-type strategy. Three forms of summary type-focused summary were produced using document genre information and sentence type information. 1. Fact-reporting Type Summary Produce summaries of only Fact-reporting type documents. 2. Opinion-oriented Type Summary Produce summaries focused on ``opinion’’ type sentences. 3. Knowledge-centered Type Summary NII Open House 2004 Produce summaries with less situation-dependent genre documents. May 31-June 1, 2004, National Institute of Informatics Tsuda Book Navi 書籍検索システムにおける実空間と仮想空間の融合 実際に本を見に行く 書籍検索システム 1画面 10~20冊 1. 2. 3. 4. 本を調べに行く 図書館 仮想空間:検索 本システム 検索表示 融合 実空間:散策 1つの本棚で統合 検索結果を本棚 に並べて表示 選択した本が配置されて いる本棚へ移動する 1画面 70~80冊 選択した本の持つ キーワードで検索する 背表紙を眺める 本を手にとって、 内容を見る 隣の本棚へ移動 別の場所へ移動 書棚表示 実際の図書館の 本棚を再現 1. 2. 3. 4. 本をカーソルでなぞり、 簡易情報をブラウズ 本をクリックして、 詳細情報を見る 本棚移動ボタンを クリック フロアーマップをクリック 津田塾大学図書館利用サポートシステム 津田塾大学図書データ ・ 和書 10万冊 ・ 洋書 9万冊 フロアーマップ キーワード検索用テキストフィールド 赤い点ー書棚表示における現在位置 青い点ー検索結果本が配置されている本棚の位置 クリックすると、その位置にある本棚を表示 複数のキーワードを指定した場合、AND検索 詳細情報表示 簡易情報表示 タイトル、著者、出版者、本のキーワード 階数移動ボタン 本の基本情報に加え、表紙、目次、 紹介文、貸出状況確認ページへのリンク カーソルをあてることにより、 検索結果の散らばりを把握 クリックでフロアーマップを変更 候補を表示する本棚 本の高さとページ数から、 本の大きさを決定 (ただし、閾値あり) 本棚に入りきらない場合は、 機能本で続きを閲覧 機能本 本棚右下の5冊 ・ 表示しきれなかった本の続きを表示 ・ 前の履歴へ移動 ・ 次の履歴へ移動 ・ 検索表示と書棚表示の移動 ・ 本システムのヘルプ表示 本棚移動ボタン 書棚表示の場合のみ表示 検索表示では、検索に使用した キーワードを表示 総合研究大学院大学 情報学専攻 博士課程1年 梶山 朋子 Concentric Ring View 多面的な検索とブラウジングの統合 手法 背景 目的 検索条件を入力する時、 微妙な変化を持つ値を言葉で 表現するのは難しい 1.多次元属性情報において、 様々な属性を、同一操作で扱える 「葉の形・・・花の色・・・」 検索結果を順番にブラウズ 時間と労力がかかる 1.GUI カテゴリーリング ・ 離散量 (言葉) ・ 非循環連続量(形、サイズ) ・ 循環連続量(時間、色、季節) 属性の整列 ・ 属性を検索の切り口として利用 キーリング カテゴリに対するキーの整列 ・ キー = リング下部 (キーの幅はリング数に比例) ・ 順序 = キーの優先順位 2. 候補を閲覧しながら、キーを調節できる 3. 直感的で簡単に操作できる 2.候補の表示 候補を見ながら、 条件を微調節できるとうれしい ・ 重み付けに基き、中心から同心円上に配置 ・ 表示の大きさは、中心からの距離に反比例 ・ カーソル近接で拡大 「この形! この色!・・・ この花だ!」 画像検索システム Webページのフリー素材画像 10195枚 カテゴリ 画像から自動的に計算 ・ ・ ・ ・ 色 (特徴色2色) 雰囲気(パステル調 - 暗い) 縦横比(縦長 - 正方形 - 横長) サイズ(画像のbyte数) 操作 ・ リング追加 カテゴリリングをクリック ・ リング回転 ホイールクリック&回転 ドラッグ ・ リング削除 キーリングをクリック ・ 優先順位を1つ上げる キーリングを右クリック ・ 原寸大表示 カーソル近接 初期画面 色リング追加 色リング回転 色リング回転 雰囲気リング削除 原寸大表示 縦横比率リング追加 雰囲気リング追加 色リング回転 縦横比リング削除 優先度変更 雰囲気リング削除 雰囲気リング追加 色リング追加 総合研究大学院大学 情報学専攻 博士課程1年 梶山 朋子 感情抽出とその応用 Emotion Extraction and its Applications 中山 記男† Norio Nakayama 江口 浩二†‡ Koji Eguchi 神門 典子†‡ Noriko Kando † 総合研究大学院大学情報学専攻 はじめに ‡ 国立情報学研究所 BlogのようなWebサイト形態の増加により・・・ 問題の焦点 様々な製品や事象に対して、非常に多くの意見が Webサイトを通して得られるようになった。 ・どこに意見が書かれているか ・その意見がどのような内容であるか 解決策のひとつ : 情報抽出 本研究の着眼点 情報抽出の中でも評判情報に着目した技術 ・対象に対する評判を検索し、意見を抽出 ・テキストに含まれる書き手の感情を抽出 ・感情表現に色を用いる 文書からの感情抽出 感情記述部分の特定: 文書から感情を抽出し、処理する流れは・・・ 1. 文書中の感情記述部分を特定する 2. 感情記述部位が表す感情を特定する 3. 判断された感情に基づいた処理を行う 4. いろいろなアプリケーションに応用する 応用の例: ・ある集団の文書に含まれる感情から、集団の感情を理解 ・文書に含まれる感情の分布傾向から、文書を分類 ・手紙に対して最も適した感情を含む返事作成の支援 ・感情による文書の分類(検索結果等に用いる) 感情記述部分は・・・ ・AからDへ向かうほど抽出パターンが複雑になる ・AからDへ向かうほど感情の特定も困難となる 本研究では、Cの段階までを扱おうと考えている 感情の記述にはいくつかの階層があると仮定 (現段階では4階層を仮定している) -----------------------------------------------------------A:感情語によって感情が直接記述されている ex.私は、この本が嫌いだ! -----------------------------------------------------------B:固有の表現によって感情が記述されている ex.あの案件を考えると頭が痛くなる。 (頭が痛くなるほど嫌だ) -----------------------------------------------------------C:推測することで理解できる感情が記述されて いる ex.私は派手な音楽が嫌いなのだ。 ・・・(中略)・・・ このCDは派手であった。 (推測:だから嫌いだ) -----------------------------------------------------------D:書き手本人を知っていないと理解できないよう な感情が記述されている ex.今日は凍った歩道ですべってしまった。 (書き手が受験生だった場合、悲しみが こもっているかもしれない) 感情の色表現 この感情は・・・ 感情などを示す語から連想される色を用いることによって、 感情を言葉に変換して扱うよりも直感的な処理ができるの ではないか。 「怒り」 かなぁ 「後悔」 かなぁ 「失望」 かなぁ それとも?? 辞書に登録された語1171件に対し、あらかじめ定義した36 色の中から肯定表現・否定表現別に各1色を割り当てた。 語の例 肯定表現のとき 否定表現のとき この感情は・・・ ■この色で 楽しい 楽しい 楽しいわけではない 色の例 #FFFFCC ■(明るい黄) #333300 ■(薄暗い緑) あらわせるかも しれない! ある感情 感情を言葉にする のは難しい。 ある感情 感情を色で表現し たほうが直感的で はないか。