...

Webページ可視化のための 人間中心アプローチ

by user

on
Category: Documents
33

views

Report

Comments

Transcript

Webページ可視化のための 人間中心アプローチ
修士論文
Web ページ可視化のための
人間中心アプローチ
指導教員
石田 亨 教授
京都大学大学院情報学研究科
修士課程社会情報学専攻
中村 大介
平成 18 年 2 月 9 日
i
Web ページ可視化のための人間中心アプローチ
中村 大介
内容梗概
インターネットの普及により誰もが自由に情報を発信することが可能になっ
た.特に近年ではブログやソーシャルネットワークサービスの普及により,よ
り多くの人が Web 上で情報を発信するようになっている.その結果,Web 上
にはもはや存在していない情報はないと思えるくらいの膨大な情報が存在する
ことになった.そのためこれらの Web 上の情報を効率的に収集し,わかりやす
い形で提示することができればお金と時間をかけずに色々なトピックに関して
サーベイを行うことができ,有用であると考えられる.
このような背景から本研究では,あるトピックに関する Web ページ集合を可
視化することで,多様な情報を含んだ全体像を提供することを考える.これは
具体的にいうと「イラク戦争に賛成している人と反対している人はどれくらい
なの?」や「セマンティック Web に関して日本ではどういう研究が行われてい
るの?」というようなあるトピックに関する全体像を知りたいというモチベー
ションを持っているユーザに対して,Web 上からそのトピックに関する情報を
網羅的に収集し,可視化することで全体像を提供するということである.
このような要求に答えるシステムを実現するために,二つの課題に取り組む.
ユーザの個別の要求に応じた提示方法
例えば「イラク戦争」というトピックに対して,賛成はどれくらいで,反対は
どれくらいなのかを知りたいユーザもいれば,
「イラク戦争」について日本人は
関心があるのか,関心がないのかを知りたいユーザもいる.同じトピックに対
してもユーザにより調べたいことは異なり,それらは多種多様である.システ
ムはユーザのこのような多種多様な要求に答える必要がある.
目的の全体像を得るための分析手法
上記のシステムが実現できたとしても,システムが必ず正しい結果を返すとは
考えにくい.ユーザが求めている全体像を正しく提供できる仕組み,およびそ
れを用いて目的のものを得るための分析手法の確立が必要である.
従来の Web 構造の可視化に関する研究は情報検索支援を目的としていた.情
報検索とはユーザのクエリーに最も関連する文書を提供するタスクである.そ
のため最も関連する文書を見つけやすいように,書かれている内容によりクラ
ii
スタリングを行い,可視化するような手法が取られている.情報検索の場合,こ
のような一通りの可視化の方法で目的を達成することができるが,多種多様な
要求が考えられる本研究の場合,全体像を提供するという目的を一通りの可視
化の方法で達成することはできないと考える.
そこで本研究では上記の課題に対して以下のような人間を中心に考えたアプ
ローチを提案した.まず一つ目の課題に対して,本研究ではユーザに軸と呼ば
れる基準を指定させる.例えば「イラク戦争」について賛成と反対の割合がど
れくらいなのかということを知りたいユーザは「賛成 ←→ 反対」という軸を指
定する.システムは指定された軸に従い,
「イラク戦争」に関する Web ページ
を整列し,ユーザに提示する.これによりユーザが指定した軸上に Web ページ
が並び,ユーザの多種多様な要求に答えられる.ユーザに提示するときはユー
ザが指定した二つの軸で二次元平面を構成し,地図のような形(ビューと呼ぶ)
で提供する.各 Web ページはビュー上の 1 点として表され,これにより大量の
情報をユーザ独自の軸を用いて一目で把握できる.
二つ目の課題に対して,本研究ではユーザとシステムとの間で対話を行い,
ビューを編集することで目的の全体像を作成していく.ユーザはシステムから
返ってくるフィードバックの結果を利用しビューを精錬していく.さらにユー
ザとシステムの間の対話に関するフローチャートを提案する.ユーザはこのフ
ローチャートに従うことで,誰が用いても簡単に正しい全体像を作成すること
ができる.
上記のアプローチを実現するシステム Plain View を開発し,実際の例に適用
した.その結果それらのトピックの全体像が得られることが確かめられた.本
研究の貢献をまとめると次の 2 点である.
ユーザの個別の要求に応じた可視化手法の提案
従来の可視化の方法はシステムが提供する一通りしかなかったの対し,本研究
では軸と呼ばれるユーザ独自の基準を指定させ,システムとユーザの間で対話
させることで,ユーザが求める多種多様な全体像の作成を可能にした.
サーベイのための人間中心アプローチ
システムとユーザの間で作成する全体像を用いて,サーベイを行うときの方法
論を提案した.またその方法論でサーベイを行うと,検索エンジンを用いてサー
ベイを行った場合では得られない情報を得ることができることを示した.
iii
User-Centered Approach to Visualizing Web Pages
Daisuke NAKAMURA
Abstract
Internet enables anyone to easily publish information. Recent popularization of
weblogs and social network services has fueled more and more people to publish
information on the web. As a result, large amount of information is now stored
on the web. Therefore, if we can collect information on the web effectively and
if that information can be presented in an easily understandable form, we can
survey various topics without spending too much time and effort.
Against such a background, the objective of this research is to visualize web
pages about some topic so that overall picture of that topic is presented using
a variety of information. For example, users may want to know, ”How many
people agree on Iraq War? And how many people do not?” or ”What kind of
research on Semantic Web is done in Japan? ”This research seeks to provide
an overall view of various topics by comprehensively collecting and presenting
related information on the Web.
This study addresses the following problems to develop a system that meets
the above requirement.
Providing overall view of the topic according to different user needs
Some users may want to know how many people agree on Iraq War and how
many people do not, while others may want to know whether or not Japanese
people are interested in Iraq War. Even if the users are interested in the same
topic, each one of them may have different interest, and such interests may vary
greatly. The system must answer such broad range of requests of users.
Establishing a method for acquiring the overall view of a given topic
Even if the above system is implemented, it may be difficult for the system to
provide correct results all the time. The system needs a mechanism to correctly
provide overall picture of a given topic the user is seeking, and it needs to
establish a methodology for obtaining the intended overall picture.
Existing works on web visualization focus on supporting users in information retrieval tasks. Information retrieval is defined as a task of finding documents relevant to user’s query. Many researches on visualization in information
iv
retrieval propose some mix of content-based document clustering and visualization of the clustered result. Although past works have been fairly successful
in achieving information retrieval tasks using these clustering and visualization
techniques, the system proposed here cannot be realized using existing techniques because various requests of users must be met.
Thus this research proposed the following user-centered approach to above
problems. For the first problem, axis-specified visualization, which sorts web
pages according to some criterion (called ”axis”) specified by users, was proposed. For example, a user who wants to know how many people agree on Iraq
War and how many people do not can specify the axis ”agree ←→ not agree”.
Then the system then sorts web pages about ”Iraq War” according to these axes
and presents the sorted result. That is, the web pages are sorted and plotted
onto a two-dimensional map (called ”view”) containing two axes specified by
the user. Each point in the view represents a web page. Axis-specified visualization enables us to sort web pages according to user’s purpose, and allows us
to understand the overall picture at a glance. For the second problem, interaction mechanism between the user and the system to support view creation was
proposed. User can edit and refine the view by referring to the results returned
by the system. A flowchart of interaction was also proposed. Any user can
create a correct overall picture easily by following this flowchart.
In this study, the system (called ”Plain View”) was developed to implement
these approaches. Analyzing practical example by using Plain View showed
that the proposed approach enables us to obtain an overall view of the topic.
Contributions of this study are as follows.
Visualization for different user needs
Existing web information visualization approaches mainly focused on providing
single view of some information. In contrast, Plain View enables the creation
of the overall view of some topic by using the axis user specified.
User-centered approach for surveying information
This study proposed a method of surveying information using the interaction
between a user and the system. Moreover, this research demonstrated the possibility of obtaining information which cannot be obtained through search engines.
Web ページ可視化のための人間中心アプローチ
目次
第1章
はじめに
1
第2章
情報可視化
5
2.1
情報可視化とは . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
情報検索における情報可視化 . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3
WWW 上の情報可視化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
第3章
人間中心の可視化手法
14
3.1
基本的なアイデア . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2
Web ページのモデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3
視覚データへのマッピング . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4
軸を用いた可視化モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.5
可視化データに対する操作 . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.6
ビュー生成の流れ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
第4章
28
実装
4.1
システム概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2
システム構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3
ユーザインターフェース . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.4
システムの各処理の実装 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
第5章
4.4.1
Web ページ収集モジュール . . . . . . . . . . . . . . . . . . . . 32
4.4.2
前処理モジュール . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4.3
軸上へのマッピングモジュール . . . . . . . . . . . . . . . . . 34
4.4.4
ビュー提示モジュール . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4.5
ビュー操作モジュール . . . . . . . . . . . . . . . . . . . . . . . . 36
システムの利用例
41
5.1
セマンティック Web に関するサーベイへの適用 . . . . . . . . . . . . 41
5.2
イラク戦争に関するサーベイへの適用 . . . . . . . . . . . . . . . . . . 43
第6章
議論
46
第7章
おわりに
49
謝辞
51
参考文献
52
付録:ビューの例
A-1
A.1
タバコ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A-1
A.2
ポータブルゲーム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A-2
A.3
週刊雑誌 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A-3
第1章
はじめに
World Wide Web はハイパーリンクによって情報を連鎖的に繋げることので
きる情報伝達媒体として世界中に普及した 20 世紀最大の発明のひとつである.
Web が普及することで,誰もが自由に情報を発信することが可能になった.特
に近年ではブログやソーシャルネットワークサービスの普及により,より多く
の人が Web 上で情報を発信するようになっている.その結果,Web 上にはも
はや存在していない情報はないと思えるくらいの膨大な情報が存在することに
なった.
Web を誰もが無料でアクセスできる巨大な知識源とみなすと,そこには次の
ような潜在的な可能性があると言える.
トピックに関する全体像の把握
Web 上では個人が社会問題や TV 番組,製品といった様々なトピックに関して自
由に意見を述べている.これらの意見を効率的に収集することができれば,そ
のトピックに対して世の中の人はどういう考えを持っているのだろうというこ
とを知ることができる.実際,Web 上に存在する個人の主観的な意見を効率的
に収集し,商品購入の際の情報収集,市場調査などのマーケティング,企業のリ
スク管理といったことに利用する研究が今までに行われている [2][6][9][26] .こ
れは評判検索という名前で知られており,商品に関する意見を Web ページから
抽出し,肯定的な意見,否定的な意見に分類,集計する.その結果を用いるこ
とで,ある商品に関する評判を分析したり,他社の競合商品と比較するといっ
たことが可能になる.評判検索は Web 上に存在する評判情報に注目した研究で
あるが,評判情報に限らず,社会問題について意見を収集することができれば
世論を知ることができる,人物,製品,場所といったことに関する意見を収集
することができれば,それらの世の中でのイメージを知ることができる.つま
り従来はこのようなことを知りたいと考えた場合,大規模なアンケート調査を
する必要があった.しかし Web 上の情報を用いることでお金と時間をかけずに
簡単にトピックに関する全体像を把握することができ有用であると考えられる.
大量のサンプルによる多様な見方の提供
Web が普及する以前,情報の発信は新聞,テレビ,ラジオといったメディアに
限られており,情報の発信はごく限られた人たちによって行われてきた.それ
らは中立の立場に立って,現実を伝えるものであるとされるが,実際は違う.メ
1
ディアが伝える情報は,取捨選択の連続によって現実を再構成した恣意的なも
のであり,特別な意図がなくても,製作者の思惑や価値判断が入り込まざるを得
ない.つまりメディアにより伝えられる情報は,メディア企業のイデオロギー,
地域性,読者(視聴者)層,商業的判断,記者(製作者)の興味,国情など様々
な要素によって形作られているもので,決してひとつの真実が存在するわけで
「メ
はないのである.[28] では上記の特徴を持ったメディア社会に生きる我々は,
ディアがもたらす利点と限界を冷静に把握し,世の中にはメディアが伝える以
外のことや,異なるものの見方が存在することを理解し,社会に多様な世界観
が反映されるよう,メディアと主体的に関わっていく責任がある」と述べられ,
情報を批判的に捉えるメディアリテラシーの重要性が主張されている.Web は
メディアリテラシーという観点から見ると重要な役割を果たすと考える.Web
日記,掲示板,ブログ,ソーシャルネットワークサービスといったような多様
な情報発信手法によって,世界中の人々が情報を提供した結果,Web は巨大な
知識ベースとして成長した.そこには世界中の人たちによって発信された,メ
ジャーな情報,マイナーな情報,多数な意見,少数な意見といったような多様
な情報が存在する.Web 上の多様な情報に触れることで,異なるものの見方が
存在するということを理解できると考えられる.
しかし,このように Web 上の情報を網羅的かつ効率的に収集することができ
ると有用であるにもかかわらず,情報の受信方法は検索エンジンに限られてい
るため,網羅的な収集が困難であるというのが現実である.SEO(検索エンジ
ン最適化)によって特定のページが意図的にユーザに提示され,偏った情報だ
けしか接していない可能性もある.また約 63.7%の Web の利用者が高々上位 20
件の検索結果しか見ないという報告 [23] に示されるように,たとえ情報を網羅
的に収集できたとしても,そもそもユーザに見てもらえないかもしれないとい
う問題もある.以上のことを踏まえると,Web にある大量のサンプルからある
トピックに関する多様な情報を単に URL のリストを返すだけでなく,一目でわ
かるような形でユーザに提供することができれば有用であると考えられる.
このような背景から本研究ではあるトピックに関する Web ページ集合を可視
化することで,多様な情報を含んだ全体像を提供することを考える.可視化を
用いることで,大量の情報の構造を直感的に把握できると考えるためである.そ
こでまず第 2 章において,情報可視化とはどういう技術で,それを用いること
にどういう意義があるのかについて説明する.次に Web 情報の可視化の分野に
2
図 1.1: ユースケース
注目する.従来,Web 情報の可視化は情報検索支援に用いられてきた.そこで
情報可視化を用いてどのように情報検索支援が行われてきたか,そして本研究
が目的とする,
「あるトピックに関する Web ページ集合の可視化および多様な
情報を含んだ全体像の提供」に既存技術が適用困難であることについて述べる.
上で述べた問題に対して,本研究では人間中心のアプローチを提案する.第 3
章ではその詳細について説明する.第 4 章では第 3 章で述べたアイディアを実
装したシステムについて紹介する.
本研究の想定されるユースケースはあるトピックについてサーベイをしたい
と考えている場合である.サーベイの対象は特に制約はない.例えば図 1.1 が示
すように「イラク戦争に賛成している人と反対している人はどれくらいなの?」
という社会問題に対することでも,
「セマンティック Web に関して日本ではどう
いう研究が行われているの?」というような研究に関することでも,
「今テレビ
でやっているドラマのの中で一番人気のあるドラマは何?笑えるドラマは何?泣
けるドラマは何?」というような娯楽に関することでも何でも構わない.重要な
のは,そのトピックに関する情報を網羅的に収集し,そのトピックに関する全
体像を知りたいというモチベーションを持っていることである.そのようなモ
チベーションを持ったユーザが第 4 章で述べたシステムを用いることで,トピッ
3
クに関する多様な情報を含んだ全体像を得ることができる.第 5 章では,上記
のモチベーションを持ったユーザが第 4 章で述べるシステムを用いて,どのよう
に目的を達成するかについて実際の例を用いて説明する.第 6 章では,本研究
で提案したアプローチが有効であったか,上記のモチベーションを持ったユー
ザは本研究のアプローチを取ることで目的を達成することができるかといった
ことを議論する.そして最後に第 7 章でまとめとする.
4
第2章
情報可視化
この章では,まず情報の可視化とはどういうものか,可視化を行うことの意
義,可視化を行ううえでの課題といったことについて説明する.次に WWW 情
報の可視化に関する研究について説明する.まずそれらは情報検索支援に用い
られてきており,情報検索の分野で情報可視化が用いられる場合,どういった
アプローチが取られるかについて説明する.さらに WWW の構造を可視化し情
報検索を支援するシステムについていくつか紹介し,これらの技術が本研究の
目的である「あるトピックに関する Web ページ集合の可視化および多様な情報
を含んだ全体像の提供」に適用困難であることを示す.
2.1
情報可視化とは
可視化とは本来直接目で見ることができない情報を何らかの形で見えるように
することである.従来は科学技術計算の分野で,シミュレーション結果あるいは
属性地の範囲や分布を理解しやすい形で表現する技術(scientific visualization)
を中心に研究されてきた.このような可視化の特性は,同じ情報でもその提示
やデータ表現の選択によって我々の認知容易度が異なるという点であると早く
から指摘されてきた.したがって様々な種類の情報やタスクに応じて,最適な
情報の可視化手法を選択できるように豊富な知見を蓄えることが重視されるよ
うになった.例えばユーザが記憶あるいは処理可能な資源の拡大,検索作業の
負担の軽減,特定の情報パターンの検出支援,情報の視覚的な直接操作による
使いやすいインターフェースの提供,といった目的で可視化手法が考えられて
きた.
1989 年になって Xerox PARC の Robertson らは,プログラム,文書ファイル
やディレクトリといったオフィスのリソースを対象とした情報空間を管理するプ
ロトタイプとして Information Visualizer[1] を開発した.Information Visualizer
は,プログラムやファイルのタイプ別の更新履歴の時系列を壁のように表現した
パースペクティブ・ウォール [10] や,ディレクトリの階層構造を回転する 3 次元
の木のように表現した円錐木 [20] といった多様な可視化表現を採用し,1990 年
代の情報の可視化技術の先駆的な研究となった.その後,時系列 [15],階層構造
[17],リンク構造 [8][14] といった基本的なデータ構造や,大量のデータ集合を概
観したり [4][5][7][16][21] ,対話的に探索するための様々なシステム [5][11][15][21]
5
が開発された.近年では Web 上に存在する大量の Web ページの中から目的の
Web ページを探すユーザを支援するために,Grokker1) ,Aduna AutoFocus2) ,
KartOO3) ,MetaCrystal[24],WebTheme[27] といったシステムが開発された.
情報の可視化の特徴は,抽象的な実態の集合を対象としていることであり,必
ずしも数値的属性や地理的属性を持たない情報を効果的に可視化することで,広
範な分野への適用が可能となった.例えば電子図書館における文書検索や著作
の支援機能や,プログラム開発のためのユーザインターフェースとして情報の
可視化が利用されている.また可視化とは静的なスナップショットではなく,イ
ンタラクションによって様々な側面や抽象度から表現される情報が動的に変化す
ることを前提としている.特に情報検索のように必ずしもユーザが事前に検索
対象についての明確な知識や定義を持たない場合には,システムからのフィー
ドバックにより段階的に検索要求を改良することが重要である.
以上のように,情報可視化は直接プログラム,文書ファイル,ディレクトリ,
Web 空間といったような直接は目に見ることができない情報をわかりやすい形
で提示する技術である.可視化の特性は,同じ情報でもその提示やデータ表現
の選択によって我々の認知容易度が異なるという点であり,最適な表現方法を
取ると,ユーザの情報の理解に役立てることができる.特に情報検索の分野で
は,ユーザは情報可視化を用いることで,文書の詳細を読まずに特徴を捉える
ことができたり,理想的なフィードバック情報を提供してくれたり,大量文書
の中から目的の文書まで対話的にナビゲーションできる.インターネットが普
及して以来,Web 上に存在する情報は日に日に増してきており,その中から目
的の情報を効率的に得ることは不可能になってきている.情報可視化はその問
題に対して重要な役割を担っており,価値のある技術であると言える.
技術的には,
• 可視化の対象となる情報のモデル化
• 可視化に用いる視覚的なデータ表現の設計
• モデル化された情報から視覚的データへのマッピング
• 視覚的データに対する操作
といったような手法・アルゴリズムおよびそのアプリケーションが主要なテー
1)
2)
3)
http://www.grokker.com
http://aduna.biz/products/autofocus/personal/index.html
http://www.kartoo.com
6
マである.次節では情報検索における上記のテーマに対するアプローチについ
て簡単にまとめる.
2.2
情報検索における情報可視化
情報検索においては,大量の情報から目的の情報を得るために,情報可視化
は非常に有効である.全体を概観し,詳細を読むことなく特徴をつかむことで,
ユーザに負担をかけず情報の検索を行うことができる.以下では上記で述べた
技術的なテーマについて,情報検索ではどういうアプローチがとられるかにつ
いて説明する.
視覚的なデータ表現
視覚的なデータ表現には以下の 7 つがある.
• 線形(1-D Linear)
テキストやソースコードといった 1 次元の要素の並びがこれにあたる.
• 2 次元(2-D Map)
地図のような領域を持つ要素の集まりである.全体像をマップとして提示
する場合に用いられる.
• 3 次元(3-D World)
実世界の実態のように 3 次元の広がりを持つようその集まり.
• 時間的(Temporal)
線形の要素の中で特に時系列に関するもの.2 次元,3 次元と組み合わせる
ことで,情報の時間的な変化を表現できる.
• 多次元(Multi-dimensional )
n 個の属性を持つ関係データベースの組のような要素の集合.
• 木(Tree)
根となる要素以外は,各要素がただひとつの親要素を持つような集合.組
織の構造,Web サイトの構造,カテゴリごとにまとめられた文書の集合,
コンピュータのファイルシステムといったものの可視化にむいている.
• ネットワーク(Network)
木よりも一般的な,要素間の任意の接続関係を持つ集合.文書の参照関係,
Web サイトのリンク構造,ユーザの Web ページ間遷移の履歴といったもの
の可視化に向いている.
7
視覚データへのマッピング
情報検索の場合,主に以下の 2 つのことに注目し,視覚データへのマッピング
が行われる.
• 複数の情報の間の関連の有無
文書間の参照関係,Web ページ間のリンク構造,Web ページ間の遷移履歴
といったような複数の情報の間の関連を抽出し,情報をノード,情報間の
関連をエッジとするネットワークにマッピングする.コミュニティの発見
やネットワークのトラフィックの可視化といった個々の関連を重視するよ
うな場合に用いられる.
• 情報の内容
文書に書かれている内容から視覚データを作成する.代表的なものに内容
ベースのクラスタリングの技法がある.クラスタリングでは,まず各文書
の内容からその文書を特徴付ける特徴ベクトルを作成し,特徴ベクトルの
距離を計算することで,文書間の類似度を計算する.そして類似度が大き
い文書同士は可視化の際に近くに配置される.このような書かれている内
容に注目する技術は,情報空間を探索したり,ナビゲートしたりする場合
に用いられる.その他には文書中から目的のものを抽出し,抽出したデー
タをもとに可視化する方法もある.例えば新聞や Web 文書などから,商品
の価格や売上高,会社の業績,内閣の支持率の推移といった統計量を抽出
し,グラフにマッピングするといったことで,近年国内では注目を浴びて
ワークショップも立ち上げられている.[13]
視覚的データに対する操作
視覚的データに対する操作には以下の 7 つがある.
• 概観(Overview)
データ集合の全体像を把握する
• ズーム(Zoom)
注目すべき要素や部分を拡大する
• フィルタ(Filter)
興味のない要素や部分を除去する
• オンデマンド詳細化(Details-on-demand)
個別の要素や特定のグループから詳細な情報を得る
• 関連付け(Relate)
8
要素間の関係を表示する
• 履歴(History)
ユーザの操作履歴を管理する
• 抽出(Extract)
セッション管理や検索結果の保存を行う
Shneiderman は [22] において情報検索において可視化が成功するパターンとし
て,
「まず概観し,ズームやフィルタの後,オンデマンド・詳細化を行う」と提
唱しており,事実多くの可視化を用いた情報検索システムがその機能を持って
いる.
概観,ズーム,フィルタ,オンデマンド詳細といった技術は大量の情報を検索
する上で重要な操作である.例えば,注目した情報(focus)は画面の中央に配
置し,詳細がわかるようにズームされ,また魚眼レンズのように中央の情報の
周辺は歪められ,注目しているページを邪魔しない程度の文脈(context)を提
供する focus+context 手法が多くの研究者によって採用されている [5][8][10][20].
focus+context 手法はブラウジングやナビゲーションのための大域的な情報を保
持しつつ,興味のある情報を必要な詳細度で参照するために有効であることが
知られている.
Hearst は [3] において,Human Computer Interaction システムを設計する
上で重要なこととして,履歴や抽出をひとつに挙げている.ユーザは検索途中
で得られるフィードバックにより,興味の対象や検索目的が変わっていくこと
(berry-picking と呼ばれる)がわかっている.次々と検索を繰り返していくと,
途中で得られた有用な情報を失ってしまったり,検索が行き詰ったときに逆戻
りできないといったことが起きる.そのため,検索プロセスにおいてユーザが
行った選択をいつでもトレースできる仕組みは,ユーザの負担を減らすという
意味で重要である.関連付けは文書間の関連を表したり,複数のビューでのデー
タの同一性を示すために用いられる.関連や同一性はリンクで表現される.リ
ンクには文書間の類似度のように動的に計算されるものや,URL のような直接
的参照によるものが含まれる.このような技術は blushing and linking という名
前で知られており,[19] では複数の可視化手法をワークスペースと呼ぶ 3 次元
の仮想空間上に展開し,それぞれの可視化表現にまたがる要素間の関連をリン
クとして表現している.関連付けはある文書に関して関連検索を行ううえで重
要となる.
9
2.3
WWW 上の情報可視化
WEBSOM[7] はインターネット上の情報を自己組織化マップによって可視化
するシステムである.図 2.1 は WEBSOM によってあるニュースグループの約
3 万記事を可視化した例である.文書の特徴をキーワード集合によって表現し,
学習アルゴリズムによって類似文書を近傍に配置する.類似文書の集まりであ
るクラスタを特徴付ける単語を自動的に選択・表示し,文書の密度をクラス他
の色の濃淡に対応させている.
Aduna AutoFocus1) は Web ページやローカルのファイルを検索した結果をク
ラスタリングし提供する.図 2.2 はユーザが”personal”,”knowledge”,”man-
agement”といった検索語を用いて検索を行った結果である.それぞれの検索語
に関連のある文書がクラスターにまとめられ表示されている.
Grokker2) は Yahoo!,ACM Digital Library,Amazon Books などから,キー
ワードをもとに Web ページやローカルファイルを検索し,検索結果を図 2.3 の
ような形でマップ化する.検索結果はトピックごとにまとめられ,ビュー上の円
が各トピック,四角が Web ページを表している.その円の中にはさらにサブト
ピックを表す複数の円が含まれており,拡大縮小することで全体を見たり,詳
細を見たりすることができる.
KartOO3) は Google を除く AltaVista,Teoma など,ほぼ全てのメジャーな
サーチエンジンに対して検索を行なうメタサーチエンジンである.KartOO の
特徴は,検索結果を Flash を使った図 2.4 のような地図で表示することである.
地図には検索結果に対応したページがたくさん表示され,ページの大きさによっ
て評価が高い結果を見分けることができる.検索結果の各ページについて左側
にキーワードが表示される.キーワードを選択することで自分の興味のあるペー
ジに絞り込んで探索を行うことができる.キーワード中で代表的なものは地図
上にも表示され,そのキーワードに関連のあるページはキーワードの近くに配置
される.それにより検索結果の意味の「近さ」を地図上から知ることができる.
WebTheme[27] は ThemeView と Galaxy Visualization という 2 つのビューを
用いて Web 上の大量の情報を把握し,興味のあることについて詳細に調べてい
くことのできるシステムである.ThemeView は図 2.5 のような 3 次元のマップ
1)
2)
3)
http://aduna.biz/products/autofocus/personal/index.html
http://www.grokker.com
http://www.kartoo.com
10
図 2.1: WEBSOM[7]
図 2.2: Aduna AutoFocus
図 2.3: Grokker
図 2.4: KartOO
図 2.5: Theme View[27]
図 2.6: Galaxy Visualization[27]
であり,ビュー上のピークはページ集合の主要なトピックを表している.The-
meView は Web の全体像を提示するビューであるといえる.それに対し Galaxy
Visualization は図 2.6 のように黒いマップ上に個々の Web ページを白い点でプ
ロットし,宇宙のようなビューを提示する.このビュー上では Web ページの間の
距離はそれらのページの関連度を表している.白い点の周りに青白く光る領域は,
11
ThemeView においてピークを表していたトピックを表している.ThemeView
を用いて主要なトピックについてあらかじめ調べておき,Galaxy Visualization
において大量にプロットされる点の中から興味のあるトピックに含まれるペー
ジを探索していく.
ここで本研究の目的である「あるトピックに関する Web ページ集合の可視化
および多様な情報を含んだ全体像の提供」ということを考えた場合,どれらも
トピックの全体像を提供できると考える.しかしこれらのシステムはどれもト
ピックに対して一通りの見せ方しか提供することができず,ユーザが本当に求
めている情報を提供できているとはいいがたい.例えば「イラク戦争」という
トピックに対して,賛成はどれくらいで,反対はどれくらいなのかということ
を知りたいユーザがいたとする.システムが「賛成」,
「反対」というクラスタや
カテゴリを生成しない場合,ユーザは提示された全体像から Web ページを一つ
ずつ閲覧し,調べていく必要がある.また「イラク戦争」についてユーザが知り
たいことはそれだけではない.例えば「イラク戦争」について日本人は関心が
あるのか,関心がないのかということを知りたいユーザもいるであろう.ユー
ザにより調べたいことは異なり,それらは多種多様である.システムが一通り
の見せ方しか提供できない場合,この多種多様な要求に答えることは難しいと
考える.このように既存の可視化の技術は,ユーザに固有の目的に対応するに
は不完全であることがわかる.
これは従来の Web 情報の可視化は情報検索支援を目的としていることに起
因する.Web における情報検索とは,ユーザのクエリーに最も関連のある文書
を探すタスクである.つまり Web ページに書かれている内容がわかってしまえ
ば,目的の文書を探すことができる.そのため前で紹介したシステムのように,
内容によるクラスタリングや共通する特徴語によるグルーピングといったこと
が行われてきた.情報検索支援は内容が似ているページがまとめられていると
目的の文書を簡単に探すことができる.つまり内容でクラスタリングすればそ
れで十分に情報検索支援となるため,一つの可視化手法しかなかったと言える.
しかし本研究が目的とすることは関連のある情報を探すことではなく,全体か
ら情報を網羅的に収集することである.さらにすでに述べたようにそこには収
集したい情報はユーザによって異なるという性質が存在する.そのため可視化
の手法は一通りではなく,ユーザの要求に応じて見せ方を変えることができる
ような多様な可視化の手法が必要になる.
12
このように従来の技術とは目的としていることが全く違うため,本研究に敵
した新しい可視化の手法が必要となる.
最後にこの章のまとめを簡単にしておく.情報検索の分野における情報可視
化の課題は,
• 可視化の対象となる情報のモデル化
• 可視化に用いる視覚的なデータ表現の設計
• モデル化された情報から視覚的データへのマッピング
• 視覚的データに対する操作
の 4 点である.また視覚的データに対する操作に関してはさらに
• 概観し,ズーム・フィルタの後,詳細化を行うことができる
• ユーザの操作をトレースできる
• 要素間の関連を知ることができる
という 3 点が重要であると言える.そして既存の可視化の技術にはユーザの固
有の要求に対応できないという問題があることが確かめられた.次章ではこれ
らの課題に対して本研究のとるアプローチについて説明する.
13
第3章
人間中心の可視化手法
本研究の目的はあるトピックに関する Web ページ集合をユーザの独自の基準
で可視化し,そのトピックに関してユーザが求める全体像を提示することであ
る.第 2 章で述べたように,ユーザがトピックを与えるだけで可視化を行うよ
うな既存の技術ではユーザの固有の要求にこたえることは難しい.そこでこの
ような課題に対して本研究では以下に述べる人間中心のアプローチを提案する.
3.1
基本的なアイデア
ユーザが指定する軸を用いた Web ページの整列
ユーザの固有の要求に答えた全体像を提示するために,本研究ではユーザに軸
と呼ばれる基準を指定させる.Web ページはユーザが指定した軸により整列さ
れ,その結果ユーザが求める全体像を提供することができる.図 3.1 は軸の一例
を表している.
「イラク戦争」というトピックについて「賛成の割合はどれくら
いで,反対の割合はどれくらいか」ということを知りたいユーザは「賛成 ←→
反対」という軸を指定する.その軸によって「イラク戦争」に関する Web ペー
ジが整列される.つまり「賛成」に関連のある Web ページは「賛成」により近
い方へ,
「反対」に関連のある Web ページは「反対」により近い方へ配置され
る.その結果,
「イラク戦争」に関する Web ページには,どのくらい賛成のペー
ジがあって,どのくらい反対のページがあるかという全体像を提供できる.こ
こで軸 a を次のように定義する.
a ≡ {W+ , W− }
ただし W+ はユーザが軸の一方に指定する単語の集合であり,W− は軸のもう一
方に指定する単語の集合を表す.例えば上の例の場合,W+ = { 賛成 },W− = {
反対 },a = {{ 賛成 }, { 反対 }} となる.
ユーザとシステムの対話による結果の編集
ユーザが自由に指定する軸について,システムが完全に自動で Web ページを整
列することができるとは考えにくい.そこで本研究ではシステムが返す結果を
ユーザが自由に編集することにする.システムにより整列された結果が間違っ
ていれば,ユーザがそれを修正したり,ユーザにとって重要なページは強調表
示させるといったような編集作業を行う.システムはユーザが容易に編集を行
14
図 3.1: 軸の例
うための様々な機能を提供し,ユーザはシステムとインタラクションすること
で自分の求める全体像を完成させていく.
既存の技術では可視化の方法は一通りしかなく,必ずしもユーザが求めてい
る全体像を提供できるとは限らない.そのような技術は肝心の利用するユーザ
(人間側)への配慮に欠けていると言っても過言でない.本研究は上で述べたよ
うなアプローチを採用し,真にユーザが求めるものを提供する.このようなシ
ステムを利用するユーザを常に中心に考えたアプローチが人間中心アプローチ
と呼ぶ由来である.
次節以降,上記の軸を用いた Web ページの全体像の提示を達成するための手
法について説明する.具体的には第 2 章で可視化の主要なテーマとして述べた
• 可視化の対象となる情報のモデル化
• モデル化された情報から視覚的データへのマッピング
• 可視化に用いる視覚的なデータ表現
• 視覚的データに対する操作
の 4 点について順番に説明する.
3.2
Web ページのモデル
本研究における可視化の対象は,ユーザが指定するトピックに関する Web
ページである.ユーザは自由に軸を指定し,その軸に従って Web ページが整列
される.ユーザは自由に基準を指定することができるため,多種多様な基準が
指定されることが予想される.そのため本研究では Web ページに含まれる統計
15
w1
freq(w1,d)
w2
freq(w2,d)
wn
freq(wn,d)
numVal1
freq(numVal1,d)
numVal2
freq(numVal2,d)
numValn
freq(numValn,d)
geoExp1
freq(geoExp1,d)
geoExp2
freq(geoExp2,d)
geoExpn
freq(geoExpn,d)
d
図 3.2: Web ページのモデル
量や,特徴語といったある特定の要素に限定せず,Web ページ中に含まれる単
語の大部分を用いることにする.具体的には本研究では Web ページに含まれる
名詞,複合名詞,動詞,形容詞のすべての単語を可視化の対象とする.さらに
Web ページを整列する際には,料金,長さ,重さといったような数値表現や地
名も有効であると考えられる.そこでこれらの数値表現も可視化の対象とする.
またユーザが整列の基準として指定した単語が多く含まれるほど,Web ページ
はその基準に関連が高いといえる.そのため Web ページの情報を可視化データ
にマッピングする際に,単語の出現頻度は重要であると考える.以上より本研
究で可視化の対象とする Web ページを図 3.2 のようにモデル化する.
つまり Web ページ d を以下のように定義する.
d ≡ [(w1, freq(w1, d)), · · · , (wm , freq(wm, d)),
(numV al1, freq(numV al1, d)), · · · , (numV aln , freq(numV aln , d)),
(geoExp1 , freq(geoExp1 , d)), · · · , (geoExpn , freq(geoExpn , d))] (3.1)
wi ∈ Nd ∪ CNd ∪ Vd ∪ Adjd
ただし freq(w, d) は Web ページ d における単語 w の出現頻度,numV ali は Web
ページ d 中の数値表現,geoExpi は Web ページ d 中の地名,Nd は Web ページ
d 中の名詞の集合,CNd は Web ページ d 中の複合名詞の集合,Vd は Web ペー
ジ d 中の動詞の集合,Adjd は Web ページ d 中の形容詞の集合とする.
16
3.3
視覚データへのマッピング
視覚データへのマッピングとは,Web ページをユーザの指定する軸に配置す
ることに他ならない.Web ページを軸に配置するためには,ページを軸に関し
て定量化する必要がある.つまり軸を表す単語と Web ページの間の関連の強さ
を求める必要がある.そこで本研究ではマッピング方法として
• 単語の出現頻度を用いたマッピング
• 数値表現を用いたマッピング
• 地名を用いたマッピング
• 検索結果数を用いたマッピング
の 4 種類の方法を考える.以下ではこれらについて説明する.
単語の出現頻度を用いたマッピング
ユーザの指定する単語が Web ページ中にある単語が多く含まれているほど,そ
の単語と Web ページは関連が高いと考える.例えば「イラク戦争」というト
「賛成 ←→ 反対」という軸で整列する場合,
「賛
ピックに関する Web ページを,
成」という単語が「反対」という単語より多く含まれたときは,その Web ペー
ジは「賛成」と関連が高く,逆に「賛成」よりも「反対」が多ければ「反対」と
関連が高いとする.そして Web ページをより関連の高い方に配置することで,
視覚データへのマッピングを行う.
ある Web ページ d の軸 a 上の値 v(a, d) は以下の式で表される.
v(a, d) =
freq(w+ , d) −
w+ ∈W+
freq(w− , d)
(3.2)
w− ∈W−
ただし W+ は軸の正方向に対応付けされた単語の集合,W− は軸の負方向に対
応付けされた単語の集合,freq(w, d) は Web ページ d における単語 w の出現頻
度を表す.これにより例えば上の「イラク戦争」の場合,
「賛成」という単語が多
く含まれるページは軸の「賛成」側に,
「反対」という単語が多く含まれるペー
ジは軸の「反対」側に配置される.上の式を用いた場合,Web ページのサイズ
が異なっていても単語の出現回数が同じであれば,軸上では同じ位置に配置さ
れる.しかし明らかにサイズの大きな Web ページで現れる場合とサイズの小さ
い Web ページで現れる場合では関連の強さが違う.そこで軸上の値 v(a, d) を
ページのサイズで正規化した vnorm(a, d) を考える.vnorm (a, d) は以下の式で表
17
される.
vnorm(a, d) =
1
× v(a, d)
dLenave + k(dLen(d) − dLenave )
(3.3)
ただし dLen(d) は Web ページ d の異なり単語数であり,dLenave はトピックに
属する Web ページの異なり単語数の平均である.
数値表現を用いたマッピング
Web ページ中に含まれる金額,支持率といったような数値表現を用いたマッピ
ングを考える.ある Web ページ d の軸 a 上の値 v(a, d) は以下の式のいずれかで
表される.
v(a, d) =
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎩
max freq(numV ali , d)
i
max numV ali
i
min freq(numV ali, d)
(3.4)
i
min numV ali
i
ただし freq(numV ali, d) は Web ページ d における数値表現 numV ali の出現頻
度である.上記の 4 つの式からユーザもしくはシステムが最適だと思われるも
のを選択する.例えば「レストラン」というトピックについての Web ページを,
「高い ←→ 安い」という軸で整列したい場合は,Web ページに含まれる「100
円」,
「1 万円」といった数値表現と上の式を用いて,軸上の値を求める.
また数値表現には日付表現も含まれ,Web ページの発信時間による軸で整列
したい場合や,人物の Web ページをその人物の生年月日に関する軸で整列した
い場合,ある出来事に関する Web ページをその出来事の発生年月日に関する軸
で整列したい場合などに用いる.Web ページ中に含まれる日付表現は 1 つとは
限らず,複数含まれる場合もある.その場合,抽出された日付表現の中のどれ
が目的の日付かを特定する必要がある.ページの発信時間の場合,抽出された
日付表現の中で最新のものである可能性が高いため,2 番目の計算式を用いて
軸上の値を求める.人物の生年月日や出来事の発生年月日の場合,その人や出
来事に関するページ群から日付を抽出し,一番古い日付で 1 回しか出現しない
ものである可能性が高いため,3 番目もしくは 4 番目の式を用いて軸上の値を
求めるのが適している.このように最適だと思われる計算式をユーザもしくは
システムが選択して,軸上の値を求める.
18
地名を用いたマッピング
Web ページ中に含まれる地名を用いて,視覚データにマッピングする方法を考
える.地名は文字列であるので,あらかじめ用意されている辞書などを用いて,
数値に変換する必要がある.
(例えば北に位置する地名は,軸上の値がより値が
大きくなる.
)地名を用いた,ある Web ページ d の軸 a 上の値 v(a, d) は以下の
式で表される.
⎧
⎪
⎨
trans(max freq(geoExpi , d))
⎩
trans(min freq(geoExpi , d))
v(a, d) = ⎪
i
(3.5)
i
ただし freq(geoExpi , d) は Web ページ d における地名 geoExpi の出現頻度,
trans(∗) は地名を数値に変換する関数である.例えば人物に関する Web ペー
ジを出身地で整列したいといった場合や,組織を所在地で整列したいといった
場合にこの方法で Web ページを軸上にマッピングする.
検索結果数を用いたマッピング
検索結果数を用いて視覚データにマッピングする方法を考える.例えば「レス
トラン」というトピックや「政治家」というトピックについて,それぞれのレ
ストランや政治家がどれくらい有名であるか,つまり「有名 ←→ 無名」といっ
た軸上にマッピングしたいという場合がある.この場合,
「有名」,
「無名」といっ
た単語は Web ページ中に多く出現しているとは考えにくい.そこである人物や
組織が有名であるかそうでないかということを,その人物,組織を検索エンジ
ンで検索したときに返って来る結果の数で調べる.有名である人物や組織であ
るほど Web 上でも多く取り上げられていると考えるためである.検索結果数を
用いた,ある Web ページ d の軸 a 上の値 v(a, d) は以下の式で表される.
v(a, d) = SearchResult(topic(d))
(3.6)
ただし SearchResult(∗) は引数を検索エンジンで検索したときの検索結果数,
topic(d) は Web ページ d のトピックを表す単語である.
本研究では上記の方法を用いて Web ページをユーザが指定した軸上にマッピ
ングする.
3.4
軸を用いた可視化モデル
ここでは上で述べたように Web ページを軸上にマッピングしたものをどのよ
うに可視化するかについて説明する.本研究では図 3.3 のように,ユーザが指
19
図 3.3: 軸を用いた可視化モデル
定した軸により 2 次元平面を構成する.異なる 2 つの軸上にマッピングされた
Web ページが,それらの軸で 2 次元平面を構成することで点が散らばり,地図
のような形で全体像を提供する.本研究ではこれをビューと呼ぶことにする.
ビュー上の点は Web ページを表している.ユーザが指定した軸は縦軸および
横軸を構成する.3.1 節で述べたように,軸は正方向と負方向に単語の集合が割
り当てられる.正方向により近い位置にある Web ページは,正方向に割り当て
られた単語の集合に関連が強く,負方向により近い位置にある Web ページは,
負方向に割り当てられた単語の集合に関連が強いことになる.例えば図 3.4 は
トピック「レストラン」に関する Web ページを「おいしい ←→ おいしくない」,
「高い ←→ 安い」の 2 つの軸で作られたビューの例である.右上に位置する Web
ページは他のページよりも「安い」,
「おいしい」に関連が強く,左下に位置す
「おいしくない」に関連が強いことを表している.
る Web ページは「高い」,
3.5
可視化データに対する操作
3.1 節で述べたように,上のようなビューをシステムが自動で生成することは
考えにくい.そこで本研究ではシステムとユーザが対話を繰り返すことでビュー
を作成する.システムはそれを支援するだけであるという立場を取る.システ
20
図 3.4: ビューの例
ムはユーザが指定した軸により,最初にビューを生成する.ユーザはそのビュー
を起点にして,システムとインタラクションを繰り返し,フィードバックを得
ることでビューを完成させていく.これにより,より正確なビューを作成する
ことができ,さらにユーザが求める独自のビューを作成することができると考
える.
図 3.5 はビューを完成するために,システムがユーザに提供する機能をまと
めたものである.これらの機能は次の 2 つに分類することができる.
• ビュー編集支援機能
• ビュー編集機能
以降,これらの機能について説明していく.
ビュー編集支援機能
• Web ページへの遷移
ビュー上にプロットされた点が求めている Web ページであるかどうかは,
個々のユーザの判断に任せられる.そのためビューから実際の Web ページ
へ飛ぶことができる機能が必要である.ユーザは実際の Web ページを閲覧
し,それが自分の求める Web ページであるかどうかを判断する.
• Web ページに含まれる単語の検索
ビューにプロットされたたくさんの Web ページの中からさらに条件を絞り,
21
図 3.5: システムとユーザの間のインタラクション
自分の調べたいページに注目することができることが望ましい.そこで単
語を指定すると,その単語を含む(含まない)Web ページを検索する機能
を持たせる.ユーザは自分の興味のあることを単語として指定し,それが
含まれる Web ページを検索することで,対象を絞ることができる.例えば
「イラク戦争」というトピックに対して「誤爆」ということについて述べて
「誤爆」という単語を
いる Web ページに関するビューを作成したい場合は,
含む Web ページをビューから検索すればいい.
• ドメインフィルタリング
ビューにプロットされた Web ページの中からあるドメインに含まれる(含
まれない)Web ページに注目したいということがある.そこでドメインを
指定すると,そのドメインに含まれるかどうかを検査する機能を持たせる.
例えば「イラク戦争」というトピックについて,政府に関係する組織のペー
ジと大学に関係するページ別々にビューを作成し,比較したいと考えた場
22
合は「.or.jp」ドメインに含まれるページと「.ac.jp」ドメインに含まれる
ページにフィルタリングした後でビューを作成すればよい.
• 強調表示
単語の検索を行ったときは,単語を含まれているページが強調して表示さ
れるとわかりやすい.同様にドメインフィルタリングを行った場合は,指
定したドメイン内にあるページが強調して表示されるとわかりやすい.そ
こで条件を満たすビュー上の点の色を変えたり,大きさを変えたりする機
能を持たせる.点のサイズは単語の検索の場合は,指定した単語が多く含
まれるほど大きくする.ドメインフィルタリングの場合も同様に指定した
ドメインに多く含まれるほど大きくする.つまり Web ページ d を表す点の
大きさ size(d) は以下の式によって求める.
size(d) =
⎧
⎪
⎨
⎪
⎩
sizeprev (d) + α
sizeprev (d) + α
w∈W
freq(w, d) (単語の検索)
dom∈Dom
within(dom, d) (ドメインフィルタリング)
(3.7)
ただし W はユーザが指定した単語の集合,freq(w, d) は Web ページ d に
おける単語 w の出現頻度,α は定数を表す.また Dom はユーザが指定した
ドメインの集合,within(dom, d) は Web ページ d がドメイン dom 内に含ま
れるかどうかを表し,含まれる場合は 1,含まれない場合は 0 の値をとる.
• 特徴語のリストの表示
ビュー上の各点が表す Web ページを特徴付ける特徴語のリストを提供する
ことができれば,ユーザは実際の Web ページを見ることなくその Web ペー
ジの特徴をつかむ事ができる.つまりユーザの作業量を軽減することがで
きる.特徴語の抽出には TF・IDF 法を用いる.TF・IDF 法を用いて重要
度を計算し,重要度の大きい上位 n 個の単語をその Web ページの特徴語と
する.ここで TF・IDF 法とは情報検索の分野において索引語の重み付けに
一般に用いられている手法で,索引語を頻度をもとに重み付けする方法 TF
(Term Frequency )法と,索引語の Web ページの特定性をもとに重み付け
する IDF(Inverse Document Frequency )法を合わせた手法である.具体
的には文書 i 中の単語 tj の重要度 wij は以下の式により計算される.
wij = tfij × idfj
23
tfij = freq(i, j),
idfj = log
N
dfj
ただし freq(i, j) は Web ページ i における単語 tj の出現頻度,N は文書総
数,dfj は単語 tj が現れる文書数を表す.
• 軸の切り替え
ビュー上のある領域内に含まれる点が表す Web ページについて,別の軸に
よって整列しビューを再構成したいという場合がある.例えば「レストラ
「おいしい ←→ おしくない」
ン」というトピックに対して,
「高い ←→ 安い」,
という 2 軸でビューを作成していたとする.そのあとで「北 ←→ 南」とい
う地名に関する軸で Web ページを整列したいと考えた場合に,軸を切り替
えビューを再構成する.またユーザはただ単に軸を切り替えるだけでなく,
「おいしいレストランの中で関西周辺のレストランについて調べたい」と
いうようにある条件を満たす Web ページだけについて軸を切り替えたいと
いう場合もある.
「おいしい ←→ おいしくない」の軸上で「おいしい」の側
にマッピングされた Web ページを表している点を選択し,そこに含まれる
ページを地名に関する軸上にマッピングするという機能も必要である.こ
の機能により別の観点から見たビューを作成することができる.
• ビューの保存および読み込み
作成したビューはシステムに保存することができる.保存されたビューは
いつでも誰でも読み込むことができ,閲覧をしたり,さらに編集をして保
存するといったことも可能である.自分以外の人が作成したビューを閲覧
することで,あるトピックに対する多様な見方に触れることができる.ま
た人が作成したビューをさらに編集することで,作業負担の軽減をし,よ
り良質なビューの作成につながる.
• blushing and linking
軸を切り替えたり,人が作ったビューを読み込むことで,あるトピックに関
して複数のビューが作成されることになる.あるビューにプロットされて
いる Web ページが,別のビューにおいてどの位置にプロットされているか
を示し比較することができれば,2 つの軸だけでなく複数の軸により Web
ページを整列できる.また一方のビューを編集すると,異なるビューにお
いてもその編集内容が反映される必要もある.このように同じデータに関
する異なるビューを結びつける技術は blushing and linking という名前で知
24
られている.
ビュー編集機能
• Web ページのプロパティの編集
正確なビューを作成するためにユーザがビューを直接編集する必要がある.
つまり Web ページを閲覧していて,その Web ページを表す点のビュー上の
位置が違うと感じた場合は移動させたり,そもそもその Web ページが自分
が求めるものとは異なる全く関係のない Web ページであった場合は削除し
たりといったような編集機能を提供する.また Web ページを特徴付ける特
徴語もシステムが自動で提示するものであるため,誤りや不備が含まれる.
そこでユーザがある特徴語を,それが含まれる Web ページを特徴付けるも
のではないと判断した場合は,削除できたり,実際の Web ページを閲覧し
ていてふさわしい特徴語を見つけた場合には登録できる機能を提供する.
• 新しい Web ページの追加
ビュー上の点から Web ページへ遷移し,そのページから様々な Web ページ
を探索する途中で目的の Web ページを発見することがある.このようなと
きは新しく発見した Web ページをビューに新しく追加することができる.
• ビューのプロパティの編集
点が密集している領域を見やすくするために,ビューを拡大・縮小したり,
条件を指定し,それを満たす Web ページを一時的に見えなくしたりするこ
とができる.またビューの名前や軸の名前などの編集も行うことができる.
3.6
ビュー生成の流れ
ここでは前節で説明した機能を用いて,ユーザとシステムがインタラクショ
ンしながらビューを作成していく手順について述べる.その流れを表している
のが図 3.6 である.
まず最初にユーザは調べたいトピックを入力する.そのトピックに関して調
べることがはっきりしていなければ,検索結果の上位何件かもしくは各ページ
の特徴語を閲覧し,調べたいことを明確にする.目的が明確になったら,まず
その目的を満足するビューがすでに誰かに作成されていないか調べる.もし存
在すれば,そのビューを読み込む.既存のビューが存在しなければ,その目的
に応じて軸の指定,単語の検索,ドメインフィルタリングを行う.例えば「イ
ラク戦争」について「賛成のページと反対のページがどれくらいあるのかを調
25
図 3.6: ビュー作成の流れ
べる」という目的を持っているなら,
「賛成 ←→ 反対」という軸を指定する.一
般に調べたいことを単語で表現したときに,その単語に程度があるものは軸で
表現でき,程度が存在しないものは単語の検索を用いる.ドメインフィルタリ
ングはあるドメイン内のページの集合に関するビューと別のドメイン内のペー
ジの集合に関するビューを比較したい場合に用いる.指定した軸もしくは単語
の検索を行い,ビューを生成する.生成されたビューはユーザが指定した軸に
よって整列もしくは指定した単語を含む場合に強調表示されるため,ユーザは
その中から特に目立つ点が表す Web ページを閲覧する.ここではそれを特異点
と呼ぶ.特異点とは指定した軸に関連が高い点,指定した単語を多く含む点の
ことをいい,ビュー上でまず目に入る点である.特異点が表す Web ページを閲
覧し,ビュー上の位置が間違っていると感じた場合は位置を修正するかもしく
はビュー上から削除する.次に別の特異点が表す Web ページを閲覧し,ビュー
26
上の位置が間違っていれば同様に修正する.これを繰り返すことで,網羅的に
情報を収集することが可能である.さらに Web ページを閲覧することで,新し
い目的が生じた場合,その目的を満たすビューを生成する.そして特異点を閲
覧し,修正するというサイクルを繰り返す.特異点をすべて閲覧し,新しく知り
たいことがなくなればビューを用いたサーベイは完了となる.作成したビュー
を保存し,終了する.
このようなユーザの目的に応じて軸を設定することができる,ユーザがビュー
を修正することで求めるビューを作成していくというユーザを中心に考えた
ビュー作成の仕組みが本研究の大きな特徴と言える.
27
第4章
実装
この章では,第 3 章で述べたアイディアを実装したシステム Plain View1)に
ついて説明する.
4.1
システム概要
Plain View はユーザが調べたいトピックと軸を入力すると,図 4.1 で示され
るように,あるトピックに関する Web ページを 2 次元平面上の 1 点にマッピン
グすることで,そのトピックに関する Web ページの全体像を提供する.図 4.1
にはレストランに関する Web ページを「高い ←→ 安い」,
「おいしい ←→ おい
しくない」という 2 つの軸で特徴付けているビューの例が提示されている.
Web ページを 2 次元平面上の 1 点として表現することで,Web 上に存在する
ページの全体像を一目で概観することができる.Plain View の特徴は以下の 3
つである.
• ユーザの独自の軸によりビューを作成
Plain View は軸をユーザが指定し,それをもとに可視化することで,ユー
ザが求める固有のビューを生成することができる.
• 軸の切り替えにより異なる見方を提供
軸は必要に応じて切り替えることができる.図 4.1 では「おいしい」レス
トランに関する Web ページを「カップル ←→ 団体」という別の軸で整列
させている.これにより同じトピックに対して異なる見方をすることがで
き,本当の意味で Web の構造を把握することができる.
• システム-ユーザ間のインタラクションによりビューを作成
Plain View が作成するビューは画一的なものではなく,ユーザによって異
なるビューを生成する.そのためビューをシステムが完全に自動で作成す
ることは難しいと考える.そこで Plain View ではユーザとシステムとで対
話を行いながらビューを作成していく.ユーザはシステムが返す結果を見
て,ビューの修正を行うことができ,システムはユーザがビューの修正や
Web の探索を行いやすいような機能を提供し,ビューの作成を支援する.
1)
http://phoenix.kuis.kyoto-u.ac.jp/plainview/
28
パーティー
パーティー
安い
パーティー
安い
安い
図 4.1: Plain View の概念図
4.2
システム構成
図 4.2 はシステムアーキテクチャを表している.
システムはサーバ側とクライアント側の 2 つにわけることができる.クライ
アントではユーザが Web ブラウザを介してサーバに様々なリクエストを送信す
る.サーバはクライアントから発行されたリクエストに応じた処理を行い,ク
ライアントに結果を返し,ユーザはそれを Web ブラウザを通して見ることがで
きる.ユーザがビューを得るまでの流れは以下のようになる.
1. Web ページの収集
ユーザが調べたいトピックを入力すると,システムに Web ページ収集リク
エストが送信される.リクエストを受信したシステムは指定されたトピッ
クに関する Web ページを WWW から収集し,データベースに格納する.
2. Web ページマッピングの前処理
収集した Web ページを軸上にマッピングするための前処理として,HTML
タグの削除,形態素解析,日付や重さや長さのような数値表現の抽出,特徴
29
図 4.2: システムアーキテクチャ
語の抽出といったことを行う.形態素解析の結果や抽出した数値表現,特
徴語はデータベースに格納される.
3. Web ページの軸上へのマッピング
前処理が終了後,ユーザが軸を 2 つ指定すると,システムに軸上へのマッ
ピングリクエストが送信される.リクエストを受信したシステムは指定さ
れた軸上に収集した各 Web ページをマッピングする.
4. ビューの提示
特徴空間へのマッピングが終了すると,ユーザが指定した 2 つの軸で 2 次
元平面を構成し,それをビューとしてユーザに提示する.
5. ユーザとシステム間の対話的なビューの編集
システムによって提示されたビューに対して,ユーザは自由に編集作業を
行い,求めるビューを作成することができる.作成されたビューを保存し
たい場合は,システムに保存リクエストを送信する.リクエストを受信し
たシステムはビューの情報をデータベースに格納する.データベースに格
納されたビューは閲覧リクエストを送信することによって,いつでも閲覧
することができる.
30
図 4.3: Plain View のユーザインターフェース
4.3
ユーザインターフェース
図 4.3 は Plain View のユーザインターフェースである.ビューを表示するウィ
ンドウ(ビューパネル)と,ビューを操作するウィンドウ(ビューコントロール
パネル)の 2 つのウィンドウがある.ユーザがビューコントロールパネルで軸
を指定すると,ビューパネルにシステムによって作成されたビューが表示され
る.ユーザはビューコントロールパネルかまたはビュー上で直接マウス操作す
ることで,ビューを編集したりといったインタラクションをすることができる.
次の節では上で述べた各処理の実装法について表示画面とともに説明する.
4.4
システムの各処理の実装
4.2 節でも説明したとおり,ユーザが求めるビューを得るまでの処理の流れは
以下のようになる.
31
1. Web ページの収集
2. Web ページマッピングの前処理
3. Web ページの軸上へのマッピング
4. ビューの提示
5. ユーザとシステムの間の対話的なビューの編集
ここでは上記の各処理ついての実装法を表示画面とともに説明する.
4.4.1
Web ページ収集モジュール
Plain View はまず,ユーザが指定したトピックに関する Web ページを収集す
ることから始める.収集の方法は以下の 2 通りである.
• Google を用いた Web ページの収集
ユーザが調べたいトピックを入力すると,そのトピックに関する Web ペー
ジが Google の検索結果を用いて収集される.トピックをクエリーとして
Google の検索を行い,返ってきた URL リストの各々にアクセスすること
で Web ページを収集する.トピックに関する Web ページを大量に収集し,
Web の全体像に関するビューを作成したい場合は,この方法で Web ページ
を収集する.収集する際に,収集する Web ページ数の上限,収集する Web
ページの言語,収集する Web ページのあるドメインといったような条件を
指定することができる.さらにクエリーにトピック以外の単語を追加した
い場合には,追加することもできる.例えば「イラク戦争」というトピック
に対して,個人の意見が述べられているような Web ページを収集したい場
合は,
「イラク戦争」というクエリーで検索するよりも,
「イラク戦争 AND
思う」というように,意見を述べるときに用いられる単語を追加した方が,
求める Web ページをより多く収集できると考えられる.実装には Google
API1) を用いている.
• ユーザが指定した Web ページの収集
上記の方法とは違い,収集したい Web ページの URL をユーザが直接指定
し,収集する.トピックに関係のない Web ページは処理対象に含めたくな
い場合や,自分のブックマークなどのように,すでにあるトピックについ
て色々な Web ページの URL がわかっている場合に,こちらの方法で Web
ページを収集する.
1)
http://www.google.com/apis/index.html
32
収集のときにユーザが指定した条件,および収集した Web ページの情報は
データベースに格納される.今までに収集した Web ページはいつでも処理対象
として呼び出し,ビューを作成することができる.
4.4.2
前処理モジュール
Web ページを軸にマッピングするための前処理を行うモジュールである.前
処理では
• HTML タグの除去
• 形態素解析
• 数値表現の抽出
• 特徴語の抽出
を行う.
HTML タグの除去
収集した各々の Web ページに対して,形態素解析を行えるように HTML タグ
の除去を行う.タグの除去には正規表現を用いて行う.
形態素解析
HTML タグを取り除いた後で各 Web ページに対して形態素解析を行い,形態
素に分解する.各形態素について,その品詞に関する情報と Web ページ中に出
現する回数をデータベースに格納する.3.2 節の Web ページのモデルより,形
態素解析の結果は名詞,複合名詞,形容詞,動詞だけをデータベースに格納す
る.形態素解析器には ChaSen[12] を用いて実装している.
数値表現の抽出
数値表現の抽出では,Web ページに含まれる日付,重さ,長さといったものを
正規表現を用いて抽出し,データベースに登録する.ここで抽出した数値表現
は軸へのマッピングの際に用いる.抽出する数値表現は以下のとおりである.
• 日付(例.2005/10/01,平成 18 年 2 月 15 日)
• 金額(例.1,000 円,千円)
• 人数(例.1,000 人, 1 万人)
• 長さ(例.100m,100 メートル,1km)
• 重さ(例.100g,100 グラム,100kg)
特徴語の抽出
特徴語の抽出では,その Web ページの特徴を表す特徴語を抽出し,データベー
33
スに登録する.まず専門用語自動抽出用 Perl モジュールである TermExtract1) を
用いて,Web ページ中の専門用語を抽出する.そして抽出された各々の単語に
対して,TF・IDF 法を用いて重要度を計算し,重要度の上位 30 個の単語をそ
の Web ページの特徴語として採用している.
ここで抽出した特徴語はユーザがビューを用いて Web 空間を探索するときや,
システムとインタラクションするときに用いられる.
4.4.3
軸上へのマッピングモジュール
Web ページの収集および前処理が終了すると,それらの結果を用いて Web
ページを軸上へマッピングすることができる.ユーザはビューコントロールパ
ネルの図 4.4 のようなフォームを用いて調べたい軸を入力する.そのときに同
時にマッピングの方法も指定する.
「トピック」と書かれたコンボボックスから
調べたいトピックを指定し,軸 1(+),軸 1(-),軸 2(+),軸 2(-) に軸を表す単語
「定量化の方法」
の集合を入力する.+,-は軸の正方向,負方向を表している.
と書かれたコンボボックスからマッピングの方法を選択する.
図 4.4: 軸の入力のユーザインターフェース
Plain View には Web ページを軸上にマッピングする方法として 3.3 節で述べ
たように
• 単語の出現回数を用いたマッピング
• Web ページ中の数値表現を用いたマッピング
• Web ページ中の地名を用いたマッピング
• 検索結果数を用いたマッピング
の 4 種類がある.以下これらの実装法について説明する.
単語の出現回数を用いたマッピング
1)
http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html
34
前処理ですでに形態素解析を行い,各単語の出現頻度も計算されているので,軸
へのマッピングは比較的高速に行うことができる.ユーザが指定した軸につい
て式 (3.1) を用いて,軸上へマッピングする.
Web ページ中の数値表現を用いたマッピング
Web ページ中に含まれる数値表現をもとに軸上にマッピングする方法である.
4.4.2 節で述べたように,抽出する数値表現には
• 日付(例.2005/10/01,平成 18 年 2 月 15 日)
• 金額(例.1,000 円,千円)
• 人数(例.1,000 人, 1 万人)
• 長さ(例.100m,100 メートル,1km)
• 重さ(例.100g,100 グラム,100kg)
の 5 種類があり,前処理においてすでに抽出が完了している.ユーザはどの数値
表現でもって Web ページをマッピングするかを選択する.システムはユーザに
指定された数値表現に関して,式 (3.4) を用いて Web ページをマッピングする.
数値表現が用いられる一例として以下のような場合が考えられる.金額表現
は例えばある商品に関する Web ページを価格の軸で整列したい場合に,人数表
現は国に関するページを人口で整列したい場合,長さ表現は川に関するページ
や人物に関するページをその長さや身長で整列したい場合,重さは PC に関す
るページをその PC の重さで整列したい場合に用いられる.
Web ページ中の地名を用いたマッピング
人物に関する Web ページを出身地で整列したいといった場合や,組織を所在地
で整列したいといった場合にこの方法で Web ページを軸上にマッピングする.
Web ページを地名によって整列するには,地名の辞書とそれらの順序に関する
情報が必要になる.そこで Plain View では都道府県名とそれらの順序関係を表
した辞書を事前に用意しておき,この辞書を用いて各 Web ページを軸上にマッ
ピングする.地名の抽出には ChaSen を用いて行う.ChaSen で形態素解析を行
うと,地名を表す単語には「地域」という分類がなされる.そこで「地域」に
分類された単語の数を集計し,式 (3.5) を用いて Web ページをマッピングする.
検索結果数を用いたマッピング
Plain View では Google にクエリーを投げて,返ってきた検索結果数の値を元に
軸上にマッピングする.Google API を用いてクエリーを投げ,検索結果数を取
得する.
35
ユーザが軸を指定すると同時に,上記のようなマッピングの方法を選ぶことが
できる.指定した軸に最適と思われるマッピング方法を選択し,収集した Web
ページを軸上にマッピングする.
4.4.4
ビュー提示モジュール
ユーザが指定した 2 つの軸上に Web ページのマッピングが終了すると,シ
ステムはその 2 つの軸で 2 次元平面を構成し,ビューを作成し,ビューパネル
に表示する.ビューの生成には,グラフ生成用 Java クラスライブラリである
JFreeChart1) を用いて行っている.
4.4.5
ビュー操作モジュール
ユーザはシステムが提示したビューを元に,Web 空間を探索し,必要な場合
はビューを編集していく.ビューの編集操作,および編集作業を支援する機能
には 3.5 節より
• Web ページへの遷移
• Web ページに含まれる単語の検索
• ドメインフィルタリング
• 強調表示
• 特徴語のリストの表示
• 軸の切り替え
• ビューの保存および読み込み
• blushing and linking
• Web ページのプロパティの編集
• 新しい Web ページの追加
• ビューのプロパティの編集
がある.
Web ページへの遷移
ビュー上で気になる点があった場合は,その点をクリックすることで,その点
が表している Web ページに飛び,閲覧することができる.
Web ページに含まれる単語の検索
図 4.5 のようなフォームを用いて,ユーザが指定した単語を含む(含まない)
Web ページを検索することができる.
「単語」と書かれたテキストフィールドに
1)
http://www.jfree.org/jfreechart/index.php
36
調べたい単語を入力し,検索ボタンを押すと検索が開始される.
「単語を含む?」
と書かれたチェックボックスにチェックを入れると指定した単語を含む Web ペー
ジが,チェックを入れないと指定した単語を含まない Web ページが検索される.
「色を変える?」や
指定した単語を含む(含まない)Web ページは必要ならば,
「大きさを変える?」と書かれたチェックボックスにチェックを入れることで色
や大きさを変えることができる.点の大きさは式 (3.7) によって計算され,指定
した単語が多く含まれるほど大きくなる.つまり大きい点は,それが表す Web
ページと指定した単語の関連が強いことを表しており,ユーザが Web ページを
閲覧するきっかけを与えることができる.また削除ボタンを押すと,指定した
単語を含む(含まない)Web ページをビュー上から取り除くことができる.
図 4.5: 単語の検索のインターフェース
ドメインフィルタリング
図 4.6 のようなフォームを用いて,ユーザが指定したドメイン内にある(ドメ
イン内にない)Web ページを検索することができる.
「ドメイン」と書かれたテ
キストフィールドに調べたいドメインを入力し,検索ボタンを押すと検索が開
始される.
「ドメイン内?」と書かれたチェックボックスにチェックを入れると指
定したドメイン内の Web ページが,チェックを入れないと指定したドメイン内
にない Web ページが検索される.単語の検索同様,色を変えたり,式 (3.7) を
用いて,大きさを変えたりできる.また削除ボタンを押すと,指定したドメイ
ン内にある(ドメイン内にない)Web ページをビュー上から取り除くことがで
きる.
強調表示
単語の検索を行ったときに,指定した単語を含む Web ページの色を変えたり,
サイズを大きくしたりする.ドメインフィルタリングの場合も,指定したドメ
イン内の Web ページの色を変えたり,サイズを大きくすることができる.単語
37
図 4.6: ドメインフィルタリングのインターフェース
の検索やドメインフィルタリングを行うときに強調表示するかどうかをチェッ
クボックスで指定することで強調表示することができる.
特徴語のリストの表示
ビュー上の各点が表す Web ページを特徴付ける特徴語のリストを Plain View
は提供する.点をクリックすると,図 4.7 のようなウィンドウが現れ,その点
が表す Web ページの特徴語のリストが表示される.
図 4.7: Web ページのプロパティ
軸の切り替え
ビュー上のある領域内に含まれる点が表す Web ページについて,別の軸上にそ
れらをマッピングしビューを再構成することができる.図 4.4 のフォームから
新しい軸を入力すると,その軸を用いてビューが作成され,ビューパネルに表
示される.またビュー上でドラッグで領域を指定してから,新しい軸を入力す
ると,領域内に含まれる Web ページについてだけのビューを作成することがで
きる.
38
ビューの保存および読み込み
ビューコントロールパネルの保存ボタンを押すと,ビューがシステムに保存さ
れる.保存されたビューは図 4.8 のライブラリページから見ることができる.ラ
イブラリページには今まで保存されたすべてのビューが表示されており,ビュー
をクリックするとそのビューがロードされ,編集可能となる.
図 4.8: ライブラリページ
blushing and linking
ビュー上にプロットされる点が表す Web ページのすべてが一意に決まる ID を
持っている.Plain View ではフォームを使い ID を指定すると,指定された ID
の点をハイライトする.これにより複数のビューに存在する同一の Web ページ
を認識することができる.
Web ページのプロパティの編集
Web ページのビュー上の値や特徴語の編集は図 4.7 のウィンドウから行うこと
ができる.
39
新しい Web ページの追加
ビューに新しい Web ページを追加したい場合は,右クリックのポップアップメ
ニューから行うことができる.
ビューのプロパティの編集
ビュー全体の拡大・縮小といった操作を右クリックのポップアップメニューか
ら行うことができる.
上記の機能を用いて,ユーザは自由にビューを編集することができる.
40
第5章
システムの利用例
ここでは第 4 章で開発した Plain View を用いて,実際に「セマンティック
Web」と「イラク戦争」についてサーベイを行ってみる.サーベイを行う際に
は 3.6 節で示したフローチャートに従って行う.
5.1
セマンティック Web に関するサーベイへの適用
まずセマンティック Web に関するサーベイへの適用を考えてみる.想定する
ユーザと状況は以下のようにする.
A 君は現在大学 4 年生で大学院進学を考えている.彼はセマンティック Web
に興味を持っており,大学院ではそれに関する研究を行いたいと考えている.
そこでインターネットでセマンティック Web に研究について研究している全国
の大学を調べることにした.彼の目的は「日本におけるセマンティック Web に
関する研究はどこでどのような研究が行われているのか」ということがわかる
ビューを生成することである.ただし A 君はセマンティック Web に関する専門
用語についてはある程度わかっているものとする.
まずトピックを「セマンティック Web」とし,Web 上から Web ページを収
集する.次に理論寄りの研究か応用寄りの研究かで分類することを考え,軸を
「理論 ←→ 応用」と指定する.マッピングのアルゴリズムには単語の出現頻度を
「エー
用いることにする.理論寄りの研究についての Web ページには「論理」,
図 5.1: セマンティック Web のビュー
41
ジェント」といった単語が出現すると予想できるため,軸に割り当てる単語集合
にそれらを追加する.同様に応用寄りの研究についての Web ページには「ツー
ル」,
「アプリケーション」,
「システム」といった単語が出現すると予想できる
ため,軸に割り当てる単語集合にそれらを追加する.
つまり 3.1 節で定義した形で軸を表現すると,{{ 理論, 論理, エージェント }, {
応用, ツール, アプリケーション, システム }} となる.もうひとつの軸として,日
本のどこで行われている研究かを知るために「北 ←→ 南」を指定する.マッピ
ングのアルゴリズムには Web ページ中に含まれる地名を用いる.上記の 2 つの
軸を用いて作成されたビューが図 5.1 である.東京,大阪,京都周辺で主に研
究が行われていることがわかる1) .
さらに興味のある分野がはっきりしている場合は,Web ページを絞り込むこ
とができる.例えば「オントロジー」を用いた研究に興味がある場合は,単語
の検索機能を用いて「オントロジー」が含まれる Web ページを検索し,色をつ
けて強調表示する.その結果が図 5.1 である.点の大きさが大きいほど「オン
トロジー」という単語が多く含まれ,その Web ページが指定した単語に関連し
ていることを表している.このようにして興味がある分野を絞り込んでいくこ
とで,より具体的なビューを作成することができる.
図 5.2: 「オントロジー」を強調したビュー
1)
ビューでは地名を数値に変換している.沖縄を 1,北海道を 47 とし,南にある県から順に
整数値を割り当てている.ビュー上では東京,大阪,京都はそれぞれ 35,21,22 の値を示
している.
42
このビューからオントロジーに関する研究は全国の色々なところで行われてい
ることがわかる.その中でも大阪の大きな青い点に目が行く.実際の Web ペー
ジを閲覧してみると,オントロジーの研究で有名な大阪大学の溝口研究室であ
ることがわかる.青い点で表される Web ページをすべて閲覧することで A 君は
セマンティック Web,特にその中でもオントロジーに関する研究を行っている
大学について情報を収集できる.オントロジー以外にも興味のある分野があれ
ば,それに関するビューを別に作成し,サーベイを行う.
5.2
イラク戦争に関するサーベイへの適用
ここではイラク戦争に関するサーベイに本研究のアプローチを適用すること
を考える.想定するユーザと状況は以下のようになる.
B さんは戦争には絶対反対という考えを持っている.イラク戦争に関しても
例外ではない.しかし周りの友人の話を聞くと,実に色々な意見があり,中に
は戦争に対して肯定的な人もいて,驚かされた.そこで B さんは盲目的に反対
と叫ばずに,どういった意見があるかを理解した上で反対と主張しようと考え
るようになった.B さんの目的は「イラク戦争に関してみんなはどういう意見
を持っているのだろう」ということを知ることである.
トピックとして「イラク戦争」を指定し,ページを収集する.まず最初に Web
ページを時系列に沿って戦争に賛成のページと反対のページに分類することを
「賛成 ←→ 反対」を選び,ビューを
考える.そこで軸として「過去 ←→ 現在」,
図 5.3: イラク戦争のビュー
43
図 5.4: 「国際法, 国連決議」を強調した
ビュー
図 5.6: 「自衛隊」を強調したビュー
図 5.5: 「民間人, 子供」を強調したビュー
図 5.7: 「ボランティア, 救援活動」を強
調したビュー
生成する.ただし前者の軸上には日付表現を用いてマッピングされ,後者の軸
上には単語の出現頻度を用いてマッピングされる.上記の軸を用いて生成され
たビューから日本語のページだけを残したものが図 5.3 である.これより日本
人に関しては戦争に反対している Web ページが圧倒的に多いことがわかる.し
かしごく少数ではあるが戦争に賛成している Web ページもあることがわかる.
それらの特異な点を閲覧することで賛成している人たちがどういう考えを持っ
ているかを知ることができる.
次に戦争に反対する理由を調べる.特異点が表す Web ページを閲覧している
と,
「国際法・国連決議に違反している」,
「イラクで罪のない人たちが殺される」
といった様々な理由があることを知る.さらに日本人の場合,
「自衛隊の派遣」に
反対している人が多いようである.そこで次は上記の意見がどれくらいの割合
をしめているかを調べてみる.単語の検索機能を用いて,
「国際法,国連決議」,
「民間人,子供」,
「自衛隊」,
「ボランティア,救援活動」といった単語が含まれる
Web ページを検索し,色をつけて強調表示する.その結果が図 5.4∼図 5.7 であ
44
る.図 5.6,5.7 が示すように「自衛隊」という国内のことには関心があるよう
だが,
「ボランティア,救援活動」といった実際に行動を起こす人は少ないよう
である.特異点が表す Web ページを閲覧し,何か新しい発見があった場合はそ
れを起点にしてまた新しいビューを生成するということを繰り返すことで,多
様な情報に触れることができる.
45
第6章
議論
ここでは本研究で提案した人間中心のアプローチが有効であるかを以下のこ
とに着目し議論する.まず最初に軸を用いた提示方法が有効であるかどうかに
ついて議論する.その次に,第 1 章で述べた Web 上の情報をビューとして提示
することのメリットである
• 大量のサンプルによる全体の把握
• 大量のサンプルによる多様な見方の提供
の 2 点が実現されているかどうかについて議論する.最後に正しいビューを生
成するための課題についてまとめる.
軸を用いた提示方法
本研究ではユーザの固有の要求にこたえるために,軸と呼ばれる基準をユーザ
に指定させる.これによりユーザが求めているビューを作成することができる.
トピックが同じであっても軸が異なるとビューの様子が大きく変化する.一方の
ビューでは特徴的な位置を示していたとしても,別のビューでは他の点に埋も
れてしまうということもある.これは同じページであってもユーザが異なった
り目的が異なれば,ページの重要度が異なるということを意味しており,ユー
ザの要求に応じて提示するページを変えることができていることを表している.
また以下のような拡張を行えば,システムの提示するビューはよりよいものと
なると考えられる.
• 係り受け解析
例えば「イラク戦争」に関する Web ページを「賛成 ←→ 反対」という軸で
整列させたいと考えたとする.このとき,現段階の実装では「イラク戦争
に反対します」と書かれた Web ページと「日本の対応には反対です」と書
かれた Web ページは同じように評価される.しかし明らかに「反対」して
いる対象は前者は「イラク戦争」なのに対し,後者は「日本の対応」であ
り「イラク戦争」ではない.このような Web ページを区別するためには,
係り受け解析によりユーザが指定した軸の単語に係っている単語や,軸の
単語が係っている単語を調べる必要がある.
• シソーラスによる表現の揺らぎの解消
Web 上の表現は多様である.例えば「イラク戦争に反対です」と表現する
人もいれば,
「イラク戦争には断固拒否しましょう」という表現をする人も
46
いる.現在の実装ではこの表現の揺らぎを考慮しようと思うと,考えられる
単語をすべて指定する必要があるためユーザに負担になる.そこでシソー
ラスを用い,軸として指定された単語の類義語や対義語を用いて単語拡張
を行えば,ユーザの負担を軽減できると考える.
Plain View を用いた分析手法
次に 3.6 で示したビューを作成する流れについて議論する.システムが自動で
完全に正しいビューを生成することは不可能であることはすでに述べた.その
ため本研究ではシステムとユーザの間で対話を行い,ビューを編集し精錬して
いくアプローチを取っている.ただ第 1 章で述べたように大半のユーザが検索
結果の上位 20 件しか見ないことがわかっている.これは本研究の場合でも同じ
である.そのため Web ページを 20 ページ見るだけで情報を網羅的に収集でき
るかということが重要になる.本研究で提案したフローチャートでは,特異点
を見ていくことで情報を網羅的に収集する.特異点はユーザが指定した軸や単
語に最も関連のある Web ページを表しているため,この方法により網羅的に情
報が収集できると考える.また Web ページを閲覧したときに同時にビューの修
正を行う.そのため修正は特異点のみに限られる.ユーザはすべての Web ペー
ジが正しいかどうかを検査することはできないので,完全なビューを作成でき
ているとは言えない.しかしユーザは 20 件の Web ページしか見ないため,特
異点以外の点の位置が少し違っていようが,また少数の Web ページが間違った
位置に配置されていたとしても,それはあまり気にすることではない.またそ
れは全体像を大まかに把握する程度には十分な正確さを持っていると考えるた
めでもある.またたとえユーザが 20 ページしか見なかったとしても,ビューは
ユーザ達の間で共有され,それぞれのユーザがビューに対して編集作業を行う
ため,だんだんと正しいビューに収束していくと考えられる.
大量のサンプルによる全体の把握
ビューを用いる全体像の把握ができているかどうかということに関して考える.
図 5.1∼図 5.2 が示すように,横軸によって日本の大学が北にある大学から南に
ある大学の順に整列され,さらに縦軸によって理論寄りの研究か応用寄りの研
究かによって整列されることで,日本のどこの大学でオントロジーの研究が行
われているかということが一目でわかる.また図 5.3∼図 5.7 が示すように,横
軸によって Web ページが時系列で整列され,縦軸によって賛成か反対かで整列
されることで賛成がどれくらいで反対がどれくらいかということと,それらの
47
時間的推移を知ることができる.したがってこれらからビューを用いた提示方
法は全体の理解に有効であるといえる.
.
大量のサンプルによる多様な見方の提供
ビューを用いることでトピックに対する多様な見方が提供できるかということ
に関して考える.図 5.3 が示すように,イラク戦争に賛成しているページは非常
に少ないことがわかる.これは Web ページを大量に収集し,それらをユーザが
指定する軸で構成されたビュー上にプロットすることにより,見ることが可能
になったと言える.ここでこれらの Web ページがイラク戦争を検索したときに
ランクが何位なのかを調べてみる.その結果が図 6.1 である.この図が示すよ
427
158
131
109
66
198
13
124
図 6.1: ランク付きのイラク戦争のビュー
うにイラク戦争に賛成している各ページは,イラク戦争を検索した場合に返っ
てくる検索結果のそれぞれ 109 位,128 位,131 位,427 位に位置する.第 1 章
で述べたように,半数以上のユーザが検索結果の上位 20 件しか見ないことが統
計的にわかっていることを考えると,これらの Web ページはユーザの目にほと
んど触れられない.また仮にユーザの目にとまったとしても,この Web ページ
がごく少数の集団に属する Web ページであるということはわからない.以上よ
り本システムは検索エンジンでは得ることのできない多様な見方を提供するこ
とができると言える.
48
第7章
おわりに
本研究では,あるトピックに関して多様な情報を含んだ全体像を提供するこ
とを目的とし,それに対して以下のような人間を中心に考えたアプローチを提
案した.
軸を用いたユーザ個別のビューの作成
それぞれのユーザが求める全体像を提供するために,ユーザに軸と呼ばれ
る基準を指定させる.これによりユーザが指定した軸上に Web ページが並
び,ユーザの多種多様な要求に答えられる.ユーザに提示するときはユー
ザが指定した 2 つの軸で 2 次元平面を構成しビューとしてで提供する.各
Web ページはビュー上の 1 点として表され,これにより大量の情報をユー
ザ独自の軸を用いて一目で把握できる.
ユーザとシステムのインタラクションによるビューの編集
ユーザが求めるビューを正しく生成するために,本研究ではシステムが返
す結果をユーザが自由に編集することにした.システムにより整列された
結果が間違っていれば,ユーザがそれを修正することで求める全体像を作
成していく.システムはユーザが容易に修正を行うための様々な機能を提
供し,ユーザをシステムとインタラクションすることで全体像を完成させ
ていく.またこのインタラクション機能を用いて,ビューを作成するフロー
チャートを作成した.
「イラク戦
そして上記のアプローチを実現するシステム Plain View を開発し,
争」,
「セマンティック Web」という実際の例に適用した.その結果それらのト
ピックの全体像が得られることが確かめられた.さらに多様な情報を収集する
ことができること,検索エンジンでは得ることができない情報を収集できるこ
とを確かめた.
今後の課題としてまずシステムによって生成されるビューの精度の向上が挙
げられる.本研究では軸のマッピングの際に単語の出現頻度を用い,簡単に実
現した.そのため軸に指定した単語との関連度を正確に求めることができてい
るとは言いがたい.ユーザとシステムがインタラクションをしながらビューを
作成していく半自動のアプローチを取ってはいるものの,システムが返す結果
の精度を上げることはユーザの負担を減らすことができるという意味で,また
信頼性のある全体像を提示するという意味で重要であると考える.具体的には
49
以下のようなことを実現し,精度の向上を図る必要があると考える.
• 係り受け解析
例えば「イラク戦争」に関する Web ページを「賛成 ←→ 反対」という軸で
整列させたいと考えたとする.このとき,現段階の実装では「イラク戦争
に反対します」と書かれた Web ページと「日本の対応には反対です」と書
かれた Web ページは同じように評価される.しかし明らかに「反対」して
いる対象は前者は「イラク戦争」なのに対し,後者は「日本の対応」であ
り「イラク戦争」ではない.このような Web ページを区別するためには,
係り受け解析によりユーザが指定した軸の単語に係っている単語や,軸の
単語が係っている単語を調べる必要がある.
• シソーラスによる表現の揺らぎの解消
Web 上の表現は多様である.例えば「イラク戦争に反対です」と表現する
人もいれば,
「イラク戦争には断固拒否しましょう」という表現をする人も
いる.現在の実装ではこの表現の揺らぎを考慮しようと思うと,考えられる
単語をすべて指定する必要があるためユーザに負担になる.そこでシソー
ラスを用い,軸として指定された単語の類義語や対義語を用いて単語拡張
を行えば,ユーザの負担を軽減できると考える.
• ドメインに特化した既存技術との融合
自然言語処理の分野では Web ページから意見を抽出するという研究が多く
行われている.中でも評判検索と呼ばれる商品の評判情報を Web 上の情報
から抽出し,ユーザに提示する研究が成功を収めている [2][6][9][26] .( 商
品, 属性, 評価 ) の三つ組として定義される評判情報を抽出する [26] は抽出
精度が約 8 割であり,かなり精度が高い.このようにドメインに特化した
自然言語処理技術の技術を用い,目的に応じて切り替えることで精度の高
いビューを生成することができると考えられる.
今後 Web 上の情報はますます増大していき,Web という知識ベースはますま
す巨大なものになる.つまり Web を調べれば何でもわかるという時代がやって
くる.一方でその大量の情報が災いし,目的の情報を得られないという状況も
必ず発生する.そのような場合,本研究で提案したアプローチが必ず役に立つ
と考える.
50
謝辞
本研究を行う機会と環境を与えて下さり,研究を進めるにあたり研究会など
でのアドバイスをはじめとして,様々な形で指導,支援していただきました石
田亨教授に深く感謝いたします.そして日頃より技術面などにおきまして多大
なる支援をしてくださりました石田研究室の皆様に心より感謝いたします.
51
参考文献
[1] Card, S. K., Robertson, G. G. and Mackinlay, J. D.: The information
visualizer, an information workspace, CHI ’91: Proceedings of the SIGCHI
conference on Human factors in computing systems, New York, NY, USA,
ACM Press, pp. 181–186 (1991).
[2] Dave, K., Lawrence, S. and Pennock, D. M.: Mining the peanut gallery:
opinion extraction and semantic classification of product reviews, WWW
’03: Proceedings of the 12th international conference on World Wide Web,
New York, NY, USA, ACM Press, pp. 519–528 (2003).
[3] Hearst, M.: User Interfaces and Visualization, Addison-Wesley Longman
Publishing Co., Inc., chapter 10, pp. 257–322 (1999).
[4] Hearst, M. A.: TileBars: Visualization of Term Distribution Information
in Full Text Information Access, CHI ’95: Proceedings of the SIGCHI
conference on Human factors in computing systems (1995).
[5] Hearst, M. A. and Karadi, C.: Cat-a-Cone: an interactive interface for
specifying searches and viewing retrieval results using a large category hierarchy, Proceedings of SIGIR-97, 20th ACM International Conference on
Research and Development in Information Retrieval, pp. 246–255 (1997).
[6] Hu, M. and Liu, B.: Mining and summarizing customer reviews, KDD
’04: Proceedings of the tenth ACM SIGKDD international conference on
Knowledge discovery and data mining, ACM Press, pp. 168–177 (2004).
[7] Lagus, K., Kaski, S. and Kohonen, T.: Mining massive document collections by the WEBSOM method, Inf. Sci., Vol. 163, No. 1-3, pp. 135–156
(2004).
[8] Lamping, J., Rao, R. and Pirolli, P.: A focus+context technique based on
hyperbolic geometry for visualizing large hierarchies, CHI ’95: Proceedings
of the SIGCHI conference on Human factors in computing systems, New
York, NY, USA, ACM Press/Addison-Wesley Publishing Co., pp. 401–408
(1995).
[9] Liu, B., Hu, M. and Cheng, J.: Opinion observer: analyzing and comparing
opinions on the Web, WWW ’05: Proceedings of the 14th international
52
conference on World Wide Web, New York, NY, USA, ACM Press, pp.
342–351 (2005).
[10] Mackinlay, J. D., Robertson, G. G. and Card, S. K.: The Perspective
Wall: Detail and Context Smoothly Integrated, CHI ’91: Proceedings of
the SIGCHI conference on Human factors in computing systems, AddisonWesley, pp. 173–179 (1991).
[11] Masui, T.: LensBar - Visualization for Browsing and Filtering Large Lists
of Data, Proceedings IEEE Symposium on Information Visualization 1998 ,
pp. 113–120 (1998).
[12] Matsumoto, Y., Kitauchi, A., Yamashita, T., Hirano, Y., Matsuda, H.,
Takaoka, K. and Asahara, M.: Japanese Morphological Analysis System
ChaSen version 2.2.1 (2000).
[13] Matsushita, M. and Kato, T.: Primary Study of Information Visualization for Trend Information, The 19th Annual Conference of the Japanese
Society Artificial Intelligence (2005).
[14] Munzner, T.: H3: Laying out large directed graphs in 3D hyperbolic space,
Proceedings of the 1997 IEEE Symposium on Information Visualization,
pp. 2–10 (1997).
[15] Plaisant, C., Mushlin, R., Snyder, A., Li, J., Heller, D. and Shneiderman,
B.: LifeLines: Using Visualization to Enhance Navigation and Analysis of
Patient Records, Technical Report CS-TR-3943 (1998).
[16] Rao, R. and Card, S. K.: The table lens: merging graphical and symbolic
representations in an interactive focus + context visualization for tabular
information, CHI ’94: Proceedings of the SIGCHI conference on Human
factors in computing systems, New York, NY, USA, ACM Press, pp. 318–
322 (1994).
[17] Rekimoto, J. and Green, M.: The Information Cube: Using Transparency
in 3D Information Visualization, WITS ’93: Proceedings of the Third Annual Workshop on Information Technologies & Systems (1993).
[18] Ribert R, K.: To See, or Not to See - Is That the Query?, SIGIR ’91:
Proceedings of the 14th annual international ACM SIGIR conference on
Research and development in information retrieval, New York, NY, USA,
53
ACM Press, pp. 131–141 (1991).
[19] Risch, J. S., Rex, D. B., Dowson, S. T., Walters, T. B., May, R. A. and
Moon, B. D.: The STARLIGHT information visualization system, IV ’97:
Proceedings of the IEEE Conference on Information Visualisation, Washington, DC, USA, IEEE Computer Society (1997).
[20] Robertson, G. G., Mackinlay, J. D. and Card, S. K.: Cone Trees: animated
3D visualizations of hierarchical information, CHI ’91: Proceedings of the
SIGCHI conference on Human factors in computing systems, ACM Press,
pp. 189–194 (1991).
[21] Shiozawa, H., Nishiyama, H. and Matsushita, Y.: The Natto View: An Architecture for Interactive Information Visualization, Transactions of IPSJ ,
Vol. 38, No. 11, pp. 2231–2342 (1997).
[22] Shneiderman, B.: Designing the User Interface, Addison-Wesley (1992).
[23] Silverstein, C., Marais, H., Henzinger, M. and Moricz, M.: Analysis of a
very large web search engine query log, SIGIR Forum, Vol. 33, No. 1, pp.
6–12 (1999).
[24] Spoerri, A.: How Visual Query Tools Can Support Users Searching the Internet, IV ’04: Proceedings of the Information Visualisation, Eighth International Conference on (IV’04), Washington, DC, USA, IEEE Computer
Society, pp. 329–334 (2004).
[25] Sunaoka, N., Yokoyama, S., Sato, Y. and Miyadera, Y.: Development of
a Visualizing Web Search System, IV ’04: Proceedings of the Information
Visualisation, Eighth International Conference on (IV’04), Washington,
DC, USA, IEEE Computer Society, pp. 911–919 (2004).
[26] Tateishi, K., Ishiguro, Y. and Fukushima, T.: A Reputation Search Engine
That Collects People’s Opinions Using Information Extraction Technology,
IPSJ Transaction on Databases, Vol. 22, pp. 115–123 (2004).
[27] Whiting, M. A. and Cramer, N.: WebTheme: Understanding Web Information through Visual Analytics., International Semantic Web Conference,
pp. 460–468 (2002).
[28] 菅谷明子: メディア・リテラシー−世界の現場から, 岩波書店 (2000).
54
付録:ビューの例
A.1
タバコ
図 A.1: タバコのビュー
図 A.1 はトピックを「タバコ」,軸を「好き ←→ 嫌い」,
「環境 ←→ 健康」に
して生成したビューである.さらに男の人が書いていると思われる Web ページ
を青色の点で,女の人が書いていると思われる Web ページをピンク色の点で表
現している.
「妻,僕,俺」といった単語を含む Web ページを男が書いていると
みなし,逆に「私,ウチ,夫,旦那」といった単語を含む Web ページを女が書
いているとみなしている.これから大半の人がタバコは嫌いと言っていること
がわかる.実際に特異点を見てみると,タバコが嫌いと書かれている Web ペー
ジにはタバコの煙を吸うだけで吐いてしまうというような極端な事例が書いて
ある.一方タバコが好きだと書かれている Web ページからは喫煙所が少なすぎ
る,喫煙者に厳しすぎるといった悲痛な叫びを見ることができる.それぞれの
立場の主張することが簡単に知ることができる興味深いビューであると言える.
Web ページを閲覧しているとタバコは環境にも悪いという記述を発見する.試
しに軸として「環境 ←→ 健康」を指定すると,やはりあまり多くの人はしらな
いということがわかった.
A-1
A.2
ポータブルゲーム
図 A.2: ポータブルゲームのビュー
図 A.2 はトピックを「Nintendo DS」,軸を「おもしろい ←→ つまらない」,
「(値段が)高い ←→ 安い」にして生成したビューと,トピックを「PSP」に変
えて生成したビューを合わせたものである.特異点を見ていくことで実際に使っ
たユーザの視点から書かれた生の声を見て取れる.
「おもしろい」に突出してい
る点にはどうしておもしろいと感じるかが,
「つまらない」に突出している点に
はどうしてつまらないかが細かく書かれており,このビューから情報を網羅的
に収集できるといえる.Web ページを閲覧していて,PSP は故障しやすいとい
う記述を見つけた.たまたまこの人の PSP が壊れただけではないかと考え,故
障という単語を含むページを検索すると図のような結果が得られた.実際にど
ういう故障が出ているかという詳細については,特異点である一番大きな点が
表す Web ページを閲覧することで知ることができる.
A-2
A.3
週刊雑誌
図 A.3: 週刊雑誌のビュー
図 A.3 はトピックを「少年ジャンプ」,軸を「おもしろい ←→ つまらない」,
「立ち読み ←→ 買う」にして生成したビューである.同様に「少年マガジン」,
「少年サンデー」,
「少年チャンピオン」についても同様のビューを生成し合わせ
たものである.前のビューと同じように特異点からは情報を網羅的に収集する
「おもしろ
ことができる.またそれらの特異点の Web ページを閲覧していると,
い」と感じているが「立ち読み」で済ませている人たちは読む漫画が少ないか
らという人が多いことがわかる.
A-3
Fly UP