...

Web コミュニティにおける構造モデル A Structure Model for Web

by user

on
Category: Documents
26

views

Report

Comments

Transcript

Web コミュニティにおける構造モデル A Structure Model for Web
知 能 と 複 雑 系 124−6
(2001. 5.17)
Web コミュニティにおける構造モデル
村田剛志
国立情報学研究所
〒101-8430
東京都千代田区一ツ橋 2-1-2
[email protected]
あらまし:特定トピックに関する代表的な Web ページを見出して推薦するシステムを実現す
ることは、ユーザの Web からの情報獲得を支援する上で重要である。本稿ではハイパーリン
クによって構成されるグラフ構造に基づいてそのようなページを発見する手法について述べ
る。トピックに関する情報を持つ centers と、それらに対するリンクを持つ fans によって構
成される完全 2 部グラフは、興味を共有するコミュニティとみなすことができる。fans の多
くはそのトピックに関する代表的なページへのリンクを持っているという仮定に基づき、本
稿の手法ではコミュニティのメンバの多数決によって fans と centers の両方を反復的に更新
する。この手法に基づいて実験を行なった結果、いくつかのトピックについて、数個の入力
URL から代表的なページを見出すことに成功している。
キーワード: WWW、ハイパーリンク、グラフ構造、コミュニティ
A Structure Model for Web Communities
Tsuyoshi Murata
National Institute of Informatics
2-1-2, Hitotsubashi, Chiyoda-ku, Tokyo, 101-8430, Japan
[email protected]
Abstract: Recommendation of representative Web pages of specific topic is important for
assisting users’ information retrieval from the Web. This paper describes a method for
discovering such pages using connectivity information of hyperlinks. A complete
bipartite of Web graph, which is composed of centers (containing useful information
regarding a topic) and fans (containin g hyperlinks to centers), can be regarded as a
community sharing a common interest. The method is based on the assumption that most
of the fans contain hyperlinks pointing to representative pages regarding the topic. In
the method, both fans and centers are renewed iteratively by the result of the majority
vote of the members of previous community. Experimental results show that our method
has abilities of finding representative pages for some topics only from a few input URLs.
Keywords: WWW, hyperlink, graph structure, community
−41−
1
1. はじめに
のあるトピックについて、既に知っているページ
Webの情報から有用な知識を見出すWeb Mining
のアプローチの中で、ハイパーリンクの構造に基
づいた Web structure mining[Kosala 00]が新た
なアプローチとして注目されてきている。Web に
よりも質が高く人気のあるページを新たに見つけ
たいという要求は多くのユーザがもっており、ユ
ーザにページを推薦するシステムを実現する上で
重要であると考えられる。
おけるハイパーリンクによって構成されるグラフ
構造を解明することの利点として、Broder らは以
下の 5 つをあげている[Broder 00]。
• ロボットが Web ページを収集する際の戦略
決定
• Web コンテンツ生成における社会学の理解
• リンク情報を用いる Web アルゴリズムの振
舞いの分析
• Web 構造の発展の予測とそれを発見するア
ルゴリズムの開発
• Web グラフでの重要な新現象の出現の予測
膨大な Web ページの中からの情報獲得を支援す
るための試みとして、著者はハイパーリンクによ
るグラフ構造に基づいて Web ページの関連性を
見出す研究を行なっている。ハイパーリンクによ
本稿で述べる手法は、トピックについての代表的
なページを見出すにあたり、ハイパーリンクのグ
ラフ構造を利用する。具体的な手法として、先に
る co-citation を基に Web ページ間の関連性を見
出し、関連するページが近接するようなグラフを
生成する視覚化システム[Murata 99]や、Web の
グラフ構造中の完全 2 部グラフをコミュニティと
みなし、サーチエンジンから得られる backlink
情報を基に Web コミュニティを発見するシステ
ム[村田 01]を構築している。
ハイパーリンクによるグラフ構造を利用した
query dependent ranking の代表的な研究として
HITS アルゴリズム[Kleinberg 98]がある。これは
入力したトピックに関する Web ページ集合をサ
ーチエンジンの検索結果とその近傍から求めた後
に、トピックに関して関連性の高いページを見出
すためのアルゴリズムである。このアルゴリズム
において、入力トピックを一般化した内容のペー
ジや、全く関連性のないページが出力結果として
得られる場合があることが報告されている。この
ような現象のメカニズムを考察することは、リン
クベースのアルゴリズムの振舞いを解明する上で
重要である。
本稿では、HITS におけるこのようなトピックの
変化について検討するとともに、Web コミュニテ
ィを洗練し、興味を共有するトピックにおける代
表的なページを見出す手法について述べる。興味
提案した Web コミュニティ発見手法[村田 01]を
発展させた手法を提案する。完全 2 部グラフを構
成する頂点集合である fans と centers に属する
Web ページを、互いの参照度の高いものへ更新す
る作業を反復的に行なうことによってコミュニテ
ィの洗練を行なう。特定のトピックに関するリン
ク集においては、そのトピックについての代表的
なページへのリンクが含まれている可能性が高い。
リンク集の参照先の多数決を行なうことによって
そのトピックにおける代表的なページ集合が得ら
れ、さらにそのようなページを参照するリンク集
をサーチエンジンでの backlink 検索によって得
ることによって、リンク集の質を高めることが期
待できる。この手法に基づいてシステムを実装し
実験を行なった結果、いくつかのトピックについ
て代表的な Web ページ集合を発見することに成
功している。また、時として意外性のある URL
がトピックの代表として出力されることが確認で
き、
そのような実験結果についても考察を行なう。
2. 関連研究
ハイパーリンクのグラフ構造に基づいて Web ペ
ージ間の関連性を見出したりランキングを行なっ
たりする Web structure mining の研究としては、
HITS[Kleinberg 98]、PageRank[Page 98]、Web
Trawling[Kumar 99]などがあげられる。HITS は、
特定トピックに関する有用なページ集合を出力す
る代表的なアルゴリズムである。このアルゴリズ
ムにおいては、Web ページの有用性の評価基準と
して、特定トピックに関する情報の豊富さを表す
authority と、authority へのリンクの豊富さを表
す hub を導入している。authority として価値の
高いページへリンクを張っているページは hub
としての価値が高く、また hub として価値の高い
ページからリンクを張られているページは
2
−42−
authority と し て の 価 値 が 高 い と 言 え る 。
う topic drift[Henzinger 01]と呼ばれる現象があ
authority と hub の具体的な計算方法は以下の通
りである。
1. 特定トピックに関する有用なページを含
んでいる Web ページ集合を取得する。ま
ず通常のサーチエンジンでのキーワード
検索によって 200 ページ程度を取得し(こ
れを root set とする)、その root set のペー
ジからのリンク先のページや、root set の
ページへリンクを張っているページを追
加する(これを base set とする)。このよう
にして得られるおよそ 1000 ページから
3000 ページの base set の中に、特定トピ
ックに関する authority や hub が含まれて
いると考えられる。
2. 次に、このbase set に含まれている各ペー
ジ p の authority weight(x p) と hub
weight(y p)を計算する。相互再帰的な関係
から、両者は以下のように定義できる。
x p = Σ{q such that q→p} yq
y p = Σ{q such that p→q} xq
3. 個々のページの x p と y p を計算する方法と
して、base set に含まれている n 個のペー
ジの隣接行列を用いる。隣接行列 A はペー
ジ i からページ j へのハイパーリンクが存
在する場合に(i,j)の成分が 1 で、それ以外
は0 であるようなn×n の正方行列である。
base set の n 個のページの authority と
hub をベクトル x、y で表現するとそれぞ
れ x=ATy, y=Ax となる。x と y を正規化す
ることにすると、両者はそれぞれ ATA、
AAT の主固有ベクトルとして求めること
ができる。
HITS は、最初の root set の取得以外はハイパー
リンク情報のみに基づくシンプルなアルゴリズム
る。また、同一サイト内の同じフォーマットのペ
ージが base setのかなりの部分を占めている場合
に、その影響で全く異なるトピックのページの
authority の値が大きくなる inadvertent topic
であり、その振舞いの特徴についての研究も数多
くなされている。HITS において入力として特殊
なトピックが与えられた場合、それを一般化した
内容の authority と hub が得られる傾向(topic
generalization)があり[Gibson 98]、それを利用し
た topic distillation の 研 究 [Bharat
98][Chakrabarti 98]が行なわれている。
また HITS アルゴリズムを適用した結果、最終的
に得られる hub や authority が入力トピックと関
係のないページとなってしまう現象が指摘されて
いる。具体的な例として、hub の値が大きいペー
ジが複数のトピックについてのリンク集である場
合に、その影響で異なるトピックのページである
にも関わらず authority の値が大きくなってしま
hijacking[Chakrabarti 99]と呼ばれる現象があ
る。
HITS におけるこれらの問題を解決するための工
夫として、
リンク周辺のテキスト情報を用いたり、
リンクに対する重みを導入するなどして HITS の
性能を改善するための研究[Chakrabarti 98] や、
base set の中から関連性のないページをpruning
する研究もなされている[Bharat 98]。しかし
HITS におけるこれらの問題は、hub や authority
の計算の基になるbase setの作り方に起因するも
のであると考えられる。HITS においては、入力
されたトピックをサーチエンジンで検索し、得ら
れた Web ページ集合の近傍をとることによって
base set を作っている。これは入力トピックに内
容的に関連性のあるページが、検索結果とその近
傍にあるページに数多く含まれているという前提
に基づいているが、これは必ずしも正しいとは言
えない。また、base set となる Web ページ集合を
固定してその中でランキングを行なうため、base
set の質が出力結果に大きな影響を与えてしまう。
著者が提案した Web コミュニティ発見手法[村田
01]においては、ハイパーリンクによるグラフ構造
から完全 2 部グラフを見出すにあたり、fans(リ
ンク集のページ)が最も参照しているページを
centers(情報のあるページ)に追加し、それに対応
した fans をサーチエンジンから求める処理を繰
り返すことによって発見を行なっている。これは
発見のためのデータを必要に応じて獲得するため
に上述の問題点を回避できる可能性がある。その
一方で、この手法では centers が増加するにつれ
て fansが単調に減少していき、トピックについて
の有用なリンク集がどの段階で得られるかを判断
するのが困難であった。また、fans の個数がごく
少数になると、入力ページのトピックと関係のな
いページが centers に追加されてしまう場合があ
る。
本稿ではこの手法に改良を加えることで、fansと
−43−
3
centers の両方を洗練していく手法を提案する。
このような処理をすることによって、以下のよう
この手法においては 2 部グラフを探索する際の条
件を緩和し、完全でない2 部グラフを許容するこ
とによって fans の偏りを防ぐとともに、fans の
参照先のページを centers のページと部分的に交
な効果が期待できる。
• トピックが異なっている URL が centers
に混入している場合においても、ほぼ全ての
centersを参照しているfansを獲得すること
によって適切なリンク集を得ることができ、
fansの質の劣化を回避できる。
換することによって centers の質を高めている。
•
fansの多数が参照している URL はそのト
3. コミュニティ洗練による代表ページの
ピックに関する代表的な URL である可能性
発見
が高く、centers の URL をその URL と交換
することによって centers の質を高めること
提案手法のベースとなる Web コミュニティ発見
が期待できる。また、交換する URL の個数
手法について説明した後に、本稿での手法につい
を高々半分に制限することによって、
て述べる。Web コミュニティ発見手法においては、
centers が全く異なるトピックのページ集合
と完全に入れ代わってしまうことを回避し
ハイパーリンクによる Web のネットワークから
ている。
完全 2 部グラフを見出すにあたり、入力 URL を
4. 実験
centers とし、その全ての URL に対してハイパー
上述の手法に基づき、Web コミュニティを洗練す
リンクを張っているような Web ページ集合をサ
るシステムを実装した。システムに対する入力と
ーチエンジンの backlink 探索によって獲得して
しては、100hot.com においてランキングがなさ
fansとする。次に、そのページからのリンク先を
れている各トピックの最下位 5 個の URL とし、
すべて抽出し、最も多くの fans が参照している
その入力 URL を centers の初期集合として実験
URL を centers に追加し、その centers を用いて
を行なった。各トピックにおけるランキングの平
上述の処理を繰り返すというものである。
均順位の変化を表 1 に示す。
topic
Museum
Book
Event
Music
Election
Finance
Job
Loan
College
Kid
Adult
Gambling
Movie
Game
PS2
Family
Food
Gardening
図 1:Web コミュニティ発見手法
本稿で提案するコミュニティ洗練においては、以
下のようにして fansと centers を更新する。
• centers を参照している fansを獲得する際
に、全ての centers を参照しているページが
少数の場合は、centers 中の一つを除去して
再度 backlink の検索を行ない、予め定めた
個数以上の fans を獲得するようにする。
• fansを基に centers を更新する際、fansの
参照している URL を出現頻度順にソートし、
上位の URL を centers の URL と交換する
ことで新たな centers を作る。ただし、一度
に交換する URL 数は、centers の総数の半
分以下とする。
前 後 topic
前 後 topic
66 98 Holiday
25 23 Flowers
76 49 Pet
59 59 Luxury
39 39 Beauty
42 42 Shop
98 42 Car
98 98 Toy
40 18 Chat
80 73 Developer
98 67 Dating
80 80 Hardware
98 55 Spirit
34 30 Internet
31 31 Travel
98 54 Mac
98 101 Magazine
98 101 Unix
98 98 Newspaper
98 98 Wireless
98 98 Health
98 101 Windows
87 87 Sport
98 91
98 98 Winter
68 55 平均
98 98 Athletic
45 45
36 36 Auction
38 37
74 74 Clothing
48 48
98 98 Electronics
48 48
98 98 Entertainment 48 23
前 後
41 26
33 33
98 101
41 41
98 101
98 98
98 42
37
7
43 43
80 80
98 98
72.3 65.1
表 1: 実験結果
この表を見ると、いくつかのトピックにおいて順
位が上がっており、centers の質が向上している
ことがわかる。また、順位としては上がっていな
いが興味深い出力結果が得られるトピックもあっ
た。例えば、Magazine における入力 URL と出
力 URL は以下の通りである。
• 入力: chemweek.com, mysterynet.com,
cosmomag.com, playbill.com, si.edu
4
−44−
•
出力: washingtonpost.com, nytimes.com,
usatoday.com, latimes.com, wsj.com
この結果は、コミュニティのトピックが
Magazine から Newspaper へと変化しているこ
とを示しており、両トピック間の内容的な近さを
表しているものであると考えられる。またトピッ
ク Travel においては、以下のような結果になった。
• 入力: smarterliving.com, sheraton.com,
ebookers.com, qixo.com, hotel.com
• 出 力 :
hilton.com, hyatt.com,
sheraton.com,
marriott.com,
holiday-inn.com
一般に多くのサブトピックを含んでいるような広い
内容のトピックにおいては、代表的なページが数多
く存在し得る。このトピックでは、ホテルに関する
URL が入力に多く含まれていることから、洗練の過
程でホテルに関するコミュニティに変化しているこ
とがわかる。
“Experiments in Topic Distillation”, Proc. of
ACM SIGIR workshop on Hypertext
Information Retrieval on the Web, 1998.
[Chakrabarti 99] S. Chakrabarti, et.
al.:
“Mining the Web’s Link Structure”, IEEE
Computer, Vol.32, No.8, pp.60-67, 1999.
[Gibson 98] D. Gibson, J. Kleinberg, P.
Raghavan: “Inferring Web Communities from
Link Topology”, Proc. of the 9th Conf. on
Hypertext and Hypermedia, 1998.
[Henzinger 01] M. Henzinger: “Hyperlink
Analysis for the Web”, IEEE Internet
Computing, Vol.5, No.1, pp.45-50, 2001.
[Kleinberg 98] J. Kleinberg et. al.: “The Web
as a Graph: Measurements, Models, and
Methods”, Proc. of COCOON ’99, LNCS 1627,
pp.1-17, Springer, 1999.
[Kosala 00] R. Kosala, H. Blockeel, “Web
ラフ構造を基に処理を行なっている。本稿の手法
Mining Research: A Survey”, ACM SIGKDD
では Web 上のデータを随時獲得してコミュニテ
ィのメンバを反復的に更新していくことによって、 Explorations, Vol.2, No.1, pp.1-15, 2000.
[Kumar 99] R. Kumar et. al.: "Trawling the
初期のコミュニティにおける少数のノイズによる
Web for Emerging Cyber-Communities", Proc.
影響を回避することができると考えられる。この
of the 8th WWW conference, 1999.
ような効果を十分に示すための実験の方法論も含
HITS も本稿の手法も、Web における局所的なグ
めて、
今後もさらに検討を進めていく予定である。
5. おわりに
本稿においては、トピックにおける代表的なWeb
ページ集合を発見する手法の提案を行ない、その
手法に基づいて実装したシステムの実験結果を示
した。このシステムはリンク情報だけに基づくも
のであるが、代表的なページ集合を見出すことに
ある程度成功している。今後この手法を発展させ
る方向性として、複数のコミュニティ間の関連性
を見出すことなどが考えられる。
参考文献
[Bharat 98] K. Bharat, M. Henzinger:
“Improved Algorithms for Topic Distillation in a
[Murata 99] T. Murata: “Machine Discovery
Based on the Co-occurrence of References in a
Search Engine”, Proc. of DS99, LNAI 1721,
pp.220-229, Springer, 1999.
[Page 98] L. Page et. al.: "The PageRank
Citation Ranking: Bringing Order to the Web",
Online manuscript, http://www-db.stanford.edu
/~backrub/pageranksub.ps, 1998.
[村田 01] 村田剛志: “参照の共起性に基づく
Web コミュニティの発見”,人工知能学会誌,
Vol.16, No.3, pp.316-323, 2001.
Hyperlinked Environment”, Proc. of the 21st
Int’l ACM SIGIR Conf. pp.104-111, 1998.
[Broder 00] A. Broder et. al.: “Graph structure
in the Web”, Proc. of WWW9 conference, 2000.
[Chakrabarti 98] S. Chakrabarti et. al.:
−45−
5
Fly UP