...

利用者の観点に基づく複数文書要約

by user

on
Category: Documents
8

views

Report

Comments

Transcript

利用者の観点に基づく複数文書要約
利用者の観点に基づく複数文書要約
関 洋 平 ‡ 江 口 浩 二 † , ‡ 神門 典子 † , ‡
† 国 立 情 報学研究所
‡ 総 合 研 究大学院大学複合科学研究科情報学専攻
目的
``利用者の観点に基づく複数文書要約’’ ’
とは,利用者が各々の主観に基づき,
さまざまなジャンルの文書集合から,
適切な情報を抽出するためのタスクに
関する研究である。本研究により,利
用者は,``事実を報告する’’,``意見を
重視した’’,あるいは ``知識を重視した’’
要約を手にすることができる。
主題/状況による情報要求
複数文書要約研究の目標は,ある主題
に関連した文書集合から内容を抽出し
て,ユーザの要求に応じて重要な内容
を提示することにある。クエリーや質
問により,利用者の要求はサブトピッ
クとして表現することができる。しか
し,複数のジャンルから構成される文
書では,図1の2名のユーザの利用状況
に関連した要求のような別の側面にも
着目することができる。本研究では,
この側面を3つの要約タイプとして表現
する。要約の観点は,主題と要約タイ
プの組み合わせとして定義する。
要約タイプ
要約タイプは情報の対象(要約)と情
報要求の関係として定義する。本研究
では,NTCIR-3 TSC2 の要約テストコ
レクションの分析の結果として,3つの
要約タイプを定義した。
1. 事実報告タイプ
2. 意見重視タイプ
3. 知識重視タイプ
文書ジャンル
``文書ジャンル’’ は通常文書の役割を考
慮した文書タイプとして定義される: ``社説’’, ``報道記事’’などが例である。
3. 要約文字数
の指定
サブトピックに焦点を当てた要約は文書クラスタリングの技術
に基づき実現している。元文書を段落単位で分割した後,要約
文の数の定数倍に基づき段落単位の文書をクラスタに分ける。
この点の技術については,NTCIR-4 TSC3 ( Text Summrization
Challenge) に参加し,9チーム中2番目の評価を得た。
この特性はSVMなどにより学習できる。
表1. 観点に基づく要約のテストコレクション
サブトピックに焦点を当てた要約
1. サブトピックの指定
4. 要約生成
図2. Summarizer With Interactive-clustering
from Multi-Viewpoints (SWIM)
本研究では,文書タイプを特徴付ける
4つの非排他的な特性を元文書に設定し
て,要約タイプの区別に利用した。
1. 状況即時/詳細描写性
2. 議論性
3. 非個人スタイル
4. 事実性/意見性
22のトピックについて,事実報告型・意見重視型・知識重視型
の3種類の要約を同一の人間が作成し,観点に基づく要約の評価
のためのテストコレクションを作成した。要約文字数は800文字
であり,正解文IDに基づきNTCIR-4 TSC3 と同じ評価ができる。
情報要求の二つの側面,主題と要約タイプを取り扱うために,
インタラクティブに情報要求に応じるための要約システムを図
2のように実現した。
2. 要約タイプの
指定
図1. 観点に基づく複数文書要約
ID
S010
S020
S030
S040
S050
S060
S070
S080
S090
S100
S110
S120
S130
S140
S150
S160
S170
S180
S190
S200
S210
S220
課題
トピック
欧州通貨統合
年金支払い抑制
粉飾決算
イトマン事件
ペイオフ解禁
次世代デジタル携帯
ガイドライン関連法
コソボ
戦略兵器削減
脳死判定
少年審判
情報公開法
ドナーカード
確定拠出型年金
遺伝子組み換え食品
組織犯罪対策法
臨界事故
金融ビッグバン
プルサーマル
戦域ミサイル防衛
中国国有企業
北アイルランド紛争
記事集合
文字数合計 記事数
20530
10
21704
10
21207
9
20647
10
19251
11
20353
11
20687
9
20583
11
15499
8
21052
7
20967
11
16953
8
15902
10
19131
12
20225
12
21425
8
16935
7
19411
8
19092
9
17323
8
13529
6
14241
10
1. 異なるユーザの情報要求に応じるための観点に基づく要約
の枠組みを提案した。
2. 観点を指定できる要約インタフェースを実現した。
3. 観点はサブトピックと要約タイプの組み合わせで定義した。
4. 要約タイプを区別するために,文書ジャンルと文タイプ
の情報を利用した。
5. 文書ジャンルを特性の集合として定義した。
6. 評価のための要約テストコレクションを作成した。
要約タイプに焦点を当てた要約
要約タイプの区別は文書ジャンルと文タイプを利用している。
1. 事実報告型
事実性を持つ文書と解説文を中心に構成
2. 意見重視型
意見性を持つ文書と意見文を中心に構成
3. 知識重視型
詳細描写性を持つ文書から事実・見通し文を中心に構成
平成16年度国立情報学研究所オープンハウス
平成16年5月31日~6月1日 於 国立情報学研究所
Summarizer With Interactive-clustering
from Multi-viewpoints (SWIM)
Yohei Seki‡ , Koji Eguchi†, ‡ , and Noriko Ka ndo†, ‡
† N a t i o nal Institute of Informatic s, Ja pa n
‡
D epa r tment of Informatic s, Th e Gra d ua te U n ive r s it y f o r Ad va nce d S t u d i es, Ja p a n
OBJECTIVES
``Multi-genre document summarization’’ is
an information-seeking task that is
available for users who have perceived
and assessed subjective relevant
information. They can retrieve
``opinion-focused’’, ``news-focused’’, or
``encyclopedic knowledge-focused’’
summaries.
Topical/Situational
Information Requirements
The goal of Multi-Document
Summarization is defined as ``to extract
content from a collection of related
documents and present the most important
content sensitive to the user’s needs’’ [Mani,
2001]. With queries, the user’s
requirements can be expressed as
subtopics. In the multi-genre document
summarization case, we also focused on
another aspect of the user’s requirements
relating to the user’s intention concerning
the situational relevance, as shown in
Figure 1. We defined three summary
types.
Summary Types
Summary Types are defined in terms of
the relations between information objects
(summaries) and information need.
Figure 1. Multi-Genre Document
We set up three types of summary by
analysis of the text summaries in NTCIR 3
Summarization
SUMM test collections:
for the source documents that relate to
1. Fact-reporting
the document types:
2. Opinion-oriented
1. Situation-dependent
3. Data (Knowledge)-centered
2. Argumentation
3. Impersonal style
Document Genre
4 Fact-reporting/Opinion-focused
``Genre’’ is usually defined as document
types: ``editorials’’’, ``news-reports’’, etc.
These features were learned automatically
We set four non-exclusive genre features
with SVM (Support Vector Machines).
In order to treat the two aspects of information requirements, we
implemented an interactive summarization system, as shown in
Figure 2.
Subtopic-focused Summarization
We implemented a subtopic-focused summarization with a document
clustering technique. We segmented the source documents into
paragraph units and clustered them using the output summary size.
4. Produce Summary
1. Specify Subtopic
3. Specify
Summary Size
2. Specify
Summary Type
Figure 2. Summarizer With Interactive-clustering
from Multi-Viewpoints (SWIM)
In order to evaluate the effectiveness of this technique, we
participated in the NTCIR-4 TSC Workshop convented by the NII,
Japan, and my team ranked in second place out of 9 teams.
Summary type-focused Summarization
We evaluated the multi document summaries in terms of four genre
features. We made test collections, there were 22 topics for three type
multi-document summaries. Topics were shown in Table 1.
Table 1. Test Collection for Multi-Viewpoint Summarization
Task
ID
S010
S020
S030
S040
S050
S060
S070
S080
S090
S100
S110
S120
S130
S140
S150
S160
S170
S180
S190
S200
S210
S220
Topic
European monetary union
Annual pension
Accounting fraud
Itoman fraud case
Removal of deposit insurance
Digital cellular phone
Guidelines for Japan-U.S. defense cooperation
Kosovo
Strategic arms reduction
Brain-death diagnosis
Juvenile proceedings
Freedom of Information Act
Donor card
Defined contribution pension plan
Genetically-enginered foods
Organized Crime Control Act
Criticality-caused nuclear accident
Financial Big Bang
Pluthermal
Theater Missile Defenses
Government-owned company in China
Conflict of Nothern Ireland
Source Articles
# of Characters
# of Articles
20530
21704
21207
20647
19251
20353
20687
20583
15499
21052
20967
16953
15902
19131
20225
21425
16935
19411
19092
17323
13529
14241
10
10
9
10
11
11
9
11
8
7
11
8
10
12
12
8
7
8
9
8
6
10
1. We proposed a multi-genre document summarization framework
that is preferable for different user’s viewpoints, based on information
requirements.
2. We implemented an experimental system and evaluated it.
3. Multi-genre document summaries were produced from userspecified subtopics and summary type information. To produce
summaries with different summary types, we used genrediscriminating features and sentence type information.
4. We showed improved coverage by producing summaries with
positive/negative genre-feature documents only.
5. We gave instructions about the summary types to assessors
and made a test collection to evaluate our three-ummary-type strategy.
Three forms of summary type-focused summary were produced
using document genre information and sentence type information.
1. Fact-reporting Type Summary
Produce summaries of only Fact-reporting type documents.
2. Opinion-oriented Type Summary
Produce summaries focused on ``opinion’’ type sentences.
3. Knowledge-centered Type Summary
NII Open House 2004
Produce summaries with less situation-dependent genre documents. May 31-June 1, 2004, National Institute of Informatics
Tsuda Book Navi
書籍検索システムにおける実空間と仮想空間の融合
実際に本を見に行く
書籍検索システム
1画面 10~20冊
1.
2.
3.
4.
本を調べに行く
図書館
仮想空間:検索
本システム
検索表示
融合
実空間:散策
1つの本棚で統合
検索結果を本棚
に並べて表示
選択した本が配置されて
いる本棚へ移動する
1画面 70~80冊
選択した本の持つ
キーワードで検索する
背表紙を眺める
本を手にとって、
内容を見る
隣の本棚へ移動
別の場所へ移動
書棚表示
実際の図書館の
本棚を再現
1.
2.
3.
4.
本をカーソルでなぞり、
簡易情報をブラウズ
本をクリックして、
詳細情報を見る
本棚移動ボタンを
クリック
フロアーマップをクリック
津田塾大学図書館利用サポートシステム
津田塾大学図書データ
・ 和書 10万冊 ・ 洋書 9万冊
フロアーマップ
キーワード検索用テキストフィールド
赤い点ー書棚表示における現在位置
青い点ー検索結果本が配置されている本棚の位置
クリックすると、その位置にある本棚を表示
複数のキーワードを指定した場合、AND検索
詳細情報表示
簡易情報表示
タイトル、著者、出版者、本のキーワード
階数移動ボタン
本の基本情報に加え、表紙、目次、
紹介文、貸出状況確認ページへのリンク
カーソルをあてることにより、
検索結果の散らばりを把握
クリックでフロアーマップを変更
候補を表示する本棚
本の高さとページ数から、
本の大きさを決定 (ただし、閾値あり)
本棚に入りきらない場合は、
機能本で続きを閲覧
機能本
本棚右下の5冊
・ 表示しきれなかった本の続きを表示
・ 前の履歴へ移動
・ 次の履歴へ移動
・ 検索表示と書棚表示の移動
・ 本システムのヘルプ表示
本棚移動ボタン
書棚表示の場合のみ表示
検索表示では、検索に使用した
キーワードを表示
総合研究大学院大学 情報学専攻 博士課程1年 梶山 朋子
Concentric Ring View
多面的な検索とブラウジングの統合
手法
背景
目的
検索条件を入力する時、
微妙な変化を持つ値を言葉で
表現するのは難しい
1.多次元属性情報において、
様々な属性を、同一操作で扱える
「葉の形・・・花の色・・・」
検索結果を順番にブラウズ
時間と労力がかかる
1.GUI
カテゴリーリング
・ 離散量 (言葉)
・ 非循環連続量(形、サイズ)
・ 循環連続量(時間、色、季節)
属性の整列
・ 属性を検索の切り口として利用
キーリング
カテゴリに対するキーの整列
・ キー = リング下部 (キーの幅はリング数に比例)
・ 順序 = キーの優先順位
2. 候補を閲覧しながら、キーを調節できる
3. 直感的で簡単に操作できる
2.候補の表示
候補を見ながら、
条件を微調節できるとうれしい
・ 重み付けに基き、中心から同心円上に配置
・ 表示の大きさは、中心からの距離に反比例
・ カーソル近接で拡大
「この形! この色!・・・ この花だ!」
画像検索システム
Webページのフリー素材画像
10195枚
カテゴリ
画像から自動的に計算
・
・
・
・
色 (特徴色2色)
雰囲気(パステル調 - 暗い)
縦横比(縦長 - 正方形 - 横長)
サイズ(画像のbyte数)
操作
・ リング追加
カテゴリリングをクリック
・ リング回転
ホイールクリック&回転
ドラッグ
・ リング削除
キーリングをクリック
・ 優先順位を1つ上げる
キーリングを右クリック
・ 原寸大表示
カーソル近接
初期画面 色リング追加 色リング回転 色リング回転
雰囲気リング削除 原寸大表示 縦横比率リング追加 雰囲気リング追加 色リング回転 縦横比リング削除 優先度変更 雰囲気リング削除
雰囲気リング追加 色リング追加 総合研究大学院大学 情報学専攻 博士課程1年 梶山 朋子
感情抽出とその応用
Emotion Extraction and its Applications
中山 記男†
Norio Nakayama
江口 浩二†‡
Koji Eguchi
神門 典子†‡
Noriko Kando
† 総合研究大学院大学情報学専攻
はじめに
‡ 国立情報学研究所
BlogのようなWebサイト形態の増加により・・・
問題の焦点
様々な製品や事象に対して、非常に多くの意見が
Webサイトを通して得られるようになった。
・どこに意見が書かれているか
・その意見がどのような内容であるか
解決策のひとつ : 情報抽出
本研究の着眼点
情報抽出の中でも評判情報に着目した技術
・対象に対する評判を検索し、意見を抽出
・テキストに含まれる書き手の感情を抽出
・感情表現に色を用いる
文書からの感情抽出
感情記述部分の特定:
文書から感情を抽出し、処理する流れは・・・
1. 文書中の感情記述部分を特定する
2. 感情記述部位が表す感情を特定する
3. 判断された感情に基づいた処理を行う
4. いろいろなアプリケーションに応用する
応用の例:
・ある集団の文書に含まれる感情から、集団の感情を理解
・文書に含まれる感情の分布傾向から、文書を分類
・手紙に対して最も適した感情を含む返事作成の支援
・感情による文書の分類(検索結果等に用いる)
感情記述部分は・・・
・AからDへ向かうほど抽出パターンが複雑になる
・AからDへ向かうほど感情の特定も困難となる
本研究では、Cの段階までを扱おうと考えている
感情の記述にはいくつかの階層があると仮定
(現段階では4階層を仮定している)
-----------------------------------------------------------A:感情語によって感情が直接記述されている
ex.私は、この本が嫌いだ!
-----------------------------------------------------------B:固有の表現によって感情が記述されている
ex.あの案件を考えると頭が痛くなる。
(頭が痛くなるほど嫌だ)
-----------------------------------------------------------C:推測することで理解できる感情が記述されて
いる
ex.私は派手な音楽が嫌いなのだ。
・・・(中略)・・・
このCDは派手であった。
(推測:だから嫌いだ)
-----------------------------------------------------------D:書き手本人を知っていないと理解できないよう
な感情が記述されている
ex.今日は凍った歩道ですべってしまった。
(書き手が受験生だった場合、悲しみが
こもっているかもしれない)
感情の色表現
この感情は・・・
感情などを示す語から連想される色を用いることによって、
感情を言葉に変換して扱うよりも直感的な処理ができるの
ではないか。
「怒り」 かなぁ
「後悔」 かなぁ
「失望」 かなぁ
それとも??
辞書に登録された語1171件に対し、あらかじめ定義した36
色の中から肯定表現・否定表現別に各1色を割り当てた。
語の例
肯定表現のとき
否定表現のとき
この感情は・・・
■この色で
楽しい
楽しい
楽しいわけではない
色の例
#FFFFCC
■(明るい黄)
#333300
■(薄暗い緑)
あらわせるかも
しれない!
ある感情
感情を言葉にする
のは難しい。
ある感情
感情を色で表現し
たほうが直感的で
はないか。
Fly UP