Comments
Description
Transcript
ウェブのリ ンク構造を用いて話題の 時系列変化を分析及び可視化する
修 士論文 ウ ェ ブ の リン ク構 造 を用 い て 話 題 の 時 系 列 変 化 を 分 析 及 び 可 視 化 す る手 法 に 関 す る研 究 平 成18年2月3日 指導教官 提出 喜連川 東京大 学大学 院 優 情 報 理 工 学 系研 究 科 電子 情報学 専攻 46420丹 教授 波 秀紀 目次 第1章 1.1. 1.2. 序論 は じめ に 1 1 本 論文 の構 成 1 関連研 究 3 第2章 2.1. 2.2. リン ク構 造 解 析 Webの 3 発 展過 程 マイ ニ ン グ 4 2.2.1. 様 々な変 化 量の測 定 4 2.2.2. トピ ック の 発 展 過 程 5 2.3. 情 報構 造 の発展 過 程 の可 視化 5 2.4. グ ラ フ レ イ ア ウ ト手 法 6 時系 列デ ー タの 分析 8 第3章 3.1. キ ー ワ ー ドか ら の 時 系 列 グ ラ フ の 抽 出 8 3.2. 時 系 列デ ー タの例 9 第4章WebRelievoの 4.1. WebRelievOの 概要 グ ラ フ レイ ア ウ ト 20 20 4.2. グラ フ間の位 置合 わせ 20 4.3. ノ ー ド ・エ ッ ジ の 発 生 と 消 滅 の 表 現 21 第5章 時系 列 グラフ の可視 化 22 5.1. グ ラ フ の ノ ー ドとエ ッジ の 取 得 22 5.2. 時 系 列 グ ラ フ の描 画 22 第6章 6.1. 部分 時 系列 グラ フの抽 出 全 体 の構 造 を考 慮 した 部 分 時 系 列 グ ラ フ 6.1.1. あ る時 間 に お け るペ ー ジ の 重 要 度 6.1.2. 時 系列 にわた って のペ ー ジ の重要 度 32 32 32 32 6.2. あるペ ー ジの周辺 の グ ラフの抽 出 33 6.3. WebRelievoの 33 第7章 改良 部分 時 系列 グラ フの可視 化 34 7.1. 全 体 的 な 時 系 列 変 化 の例 と分 析 34 7.2. 一 つ の ペ ー ジ に 注 目 し た 例 と分 析 38 7.3. ペ ー ジ の ス コア を 変 え た 場 合 の 例 と分 析 40 第8章 結論 47 8.1. ま とめ 47 8.2. 今後 の課 題 47 謝辞 48 参 考文 献 49 図 目次 図1:キ ー ワ ー ドに ヒ ッ トす る ペ ー ジ とinlink数 10 図2:キ ー ワ ー ドに ヒ ッ トす る ペ ー ジ 間 で のinlink数 11 図3:キ ー ワ ー ドか ら 得 ら れ るConnected 図4:時 系 列 間 で 見 た ペ ー ジ 数 とConnected 図5:時 系 列 変 化(キ ー ワ ー ド:winny) 13 14 図6:時 系 列 変 化(キ ー ワ ー ド:ト リ ビ ア の 泉) 15 図7:時 系 列 変 化(キ ー ワ ー ド:千 と 千 尋 の 神 隠 し) 16 図8:時 系 列 変 化(キ ー ワ ー ド:ダ ン デ ィ 坂 野) 図9:inlink数 ・CC・ Componentの 数 とサ イ ズ Componentの 数 12 ・最 大 サ イ ズ 17 時 系 列 変 化 一 括 表 示(キ-ワ ー ド:鳥 イ ン フ ル エ ン ザ) 18 図10:inlink数 ・CC・ 時 系 列 変 化 一 括 表 示(キ ー ワ ー ド:livedoor) 19 図11:時 系 列 グ ラ フ(1998/8-2003/7,キ-ワ 図12:時 系 列 グ ラ フ(1998/8キ-ワ 図13:時 系 列 グ ラ フ(2008/8キ 図14:時 系 列 グ ラ フ(2001/10キ 図15:時 系 列 グ ラ フ(2002/2キ ー ワ ー ド:Woodpecker) 27 図16:時 系 列 グ ラ フ(2003/2キ ー ワ ー ド:Woodpecker) 28 図17:時 系 列 グ ラ フ(2003/7キ ー ワ ー ド:Woodpecker) 29 図18:page,CCの ー ド:Woodpecker) ー ド:Woodpecker) 24 ー ワ ー ド:Woodpecker) 25 ー ワ ー ド:Woodpecker) 時 系 列 変 化(キ-ワ 26 ー ド:woodpecker) 図19:部 分 時 系 列 グ ラ フ(全 図20:部 分 時 系 列 グ ラ フ(2002/02∼2003/02,キ 図21:部 分 時 系 列 グ ラ フ(2003/02∼2003/07,キ-ワ 図22:部 23 時 間,キ-ワ ー ド:ベ 30 ッ カ ム) 35 ー ワ ー ド:ベ ッ カ ム) 36 ー ド:ベ ッ カ ム) 37 分 時 系 列 グ ラ フ(2003/02∼2003/07,キ ー ワ ー ド:ベ ッ カ ム,url 指 定:"http://www.albatros-film.com/movie/beckham/") 図23:部 分 時 系 列 グ ラ フ(全 図24:部 分 時 系 列 グ ラ フ(2000/08∼2001/10,キ 図25:部 時 間,キ 38 ー ワ ー ド:BSE) 分 時 系 列 グ ラ フ(2003/07∼2004/01,キ 40 ー ワ ー ド:BSE) ー ワー ド:BSE,ス 41 コ アS) 43 図26:部 分 時 系 列 グ ラ フ(2003/07∼2004/01,キ-ワ 図27:部 分 時 系 列 グ ラ フ(2003/07∼2004/05,キ ー ド:BSE,ス コ アa) 44 http://news.kyodo.co.jp/kyodonews/2003/bse/) ー ワ ー ド:BSE,url指 定: 46 表 目次 表1:Eadesの 表2:ウ レ イ ア ウ トア ル ゴ リ ズ ム ェブ アー カイ ブ の詳細 表3:id→URLの ア ル ゴ リズ ム 7 8 22 第1章 序論 1.1.は じめ に Web上 に 蓄 積 され る情 報 は 現 在 も急 増 して お り,膨 大 な 量 の 情 報 が 溢 れ て い る.こ の 中か ら必 要 な 情 報 を探 し 出 す の は 非 常 に 困難 で あ り,テ キ ス ト解 析 に よ る 検 索 の み で は な く,リ ン ク構 造 の 解 析 な ど,ペ ー ジ 間 の 関 係 性 を 考 え たWeb全 が 重 要 と な っ て く る.リ 1998年 にStanford大 体 の構 造解析 ン ク構 造 を ラ ン キ ン グ に 応 用 して い る 検 索 シ ス テ ム と して, 学 のPageとBrinがWebペ ー ジ の 重 要 度 を 表 す 指 標 と して 提 案 したPageRank[1]が 効 果 を 挙 げ て お り,さ ら にPageRankを 改 良 し よ う とす る研 究 も盛 ん に 行 わ れ て い る[2,3]. しか し,現 状 の 主 要 な 検 索 エ ン ジ ン で は,最 新 の ペ ー ジ を い か に 検 索 す るか に焦 点 が 当て られ て お り,過 去 を 紐 解 く よ うな 調 査 方 法 は ほ とん ど提 供 され て い な い.膨 大 な アー カ イ ブ を 基 に,ペ ー ジ の 内 容 を過 去 に さ か の ぼ っ て 見 られ るサ ー ビ ス[4]も 始 ま って い る が,未 だそ の機 能 は限 定 的で ある。 現 在 は 多 くのWebペ ー ジ が,生 成,更 新,お よ び 消 滅 の 過 程 を 経 て 日々 変 化 して お り,そ れ に応 じてWebの ネ ッ トワ ー ク 構 造 も動 的 に変 化 を続 け て い る.こ う した 背 景 の 下,Webの 発 展 過 程 を 把 握 す る こ とは,実 社 会 で 起 き る事 象 の 背 景 や 予 兆 を探 る 上 で 重 要 な課 題 と な っ て お り,以 下 の よ うな 状 況 で 有 用 で あ る. 1.Webに お け る トピ ッ ク の履 歴 に 関 す る質 問 に 答 え る. 2.新 た な 情 報 の発 生 を 監 視 ま た は観 察 し,ト レ ン ドを分 析 す る こ とで,市 場 調 査 な どに 応 用 す る. 3.Webに お け る社 会 学 的 な 現 象 とそ の推 移 を調 査 す る. 以 上 の 状 況 を踏 ま え,本 論 文 で は,本 研 究 室 で 定 期 的 に 収 集 した ウ ェ ブ ア ー カ イ ブ か ら,あ る キ ー ワー ドに 対 す る リン ク構 造 グ ラ フ を抽 出 し,そ の 時 系 列 変 化 を分 析 す る.ま た,Webの WebRelievo[5]を ペ ー ジ 問 の 関 連 が 発 展 す る 過 程 を 可 視 化 す る シ ス テ ム, 利 用 し,改 良 を 行 っ て,キ ー ワ ー ドに 対 す る リ ン ク グ ラ フ を 可 視 化 す る.話 題 に 対 す る ウ ェ ブ 上 の リン ク構 造 の 発 展 過 程 を 可 視 化 す る こ とで,過 去 の 事 象 に 関 す る 事 実 を確 認 し,ウ ェブ 上 の 話 題 に 関 す る変 化 を 検 出す る. 1.2.本 論 文 の構 成 以 下,第2章 に て リ ン ク構 造 解 析,ウ ェ ブ の 発 展 過 程 マ イ ニ ン グ,構 造 の発 展 過 程 の 可 視 化 お よ び そ の 際 の グ ラ フ レイ ア ウ トアル ゴ リズ ム に つ い て,関 連 研 究 を 紹 介 す る.第3章 で は,キ ー ワー ドに 対 す る 時 系 列 グ ラ フデ ー タ の 抽 出 の 手 法 とそ の デ ー タ ―1― の 分 析 を行 う.第4章 し,第5章 で グ ラ フ の 発 展 過 程 可 視 化 シ ス テ ムWebRelievoの 概 要 を紹 介 で そ れ ら を用 い て キ ー ワー ドに 対 す る 時 系 列 グ ラ フ を 可視 化 す る. 第6章 で は,時 系 列 グ ラ フ か ら部 分 グ ラ フ を 得 る手 法 と そ の た め のペ ー ジ の 順 位 付 け の手 法 を 述 べ,第7章 で さ ま ざま な 条 件 で の 部 分 時 系 列 グ ラ フ の 可 視 化 と,そ の 例 の 分 析 を行 い,最 後 に ま と め と今 後 の 課 題 を述 べ る. ―2― 第2章 2.1.リ Web上 関連 研 究 ン ク構 造 解 析 の ハ イ パ ー リ ン ク で つ な が れ た ペ ー ジ 群 は,そ の ペ ー ジ を ノー ドと し、 リン ク を エ ッ ジ と し た 有 向 グ ラ フ と考 え ら れ る 。 そ し て そ の 構 造 を 解 析 す る こ と で 関 連 し た ペ ー ジ 群 を 見 つ け る 研 究 が あ る[8,9].Web上 で は,互 い に 関連 す るペ ー ジ は グ ラ フ に お い て 近 く に 存 在 し て い る 傾 向 が あ る.こ の 理 由 と し て は,同 種 類 の ペ ー ジ へ の リ ン ク を 集 め た リ ン ク 集 が 数 多 く 作 成 さ れ て い る こ と,ウ ェ ブ ペ ー ジ の 作 者 は 自 分 の べ ー ジ に 関 連 す る 情 報 を 持 つ ペ ー ジ に リ ン ク を 張 る 傾 向 が あ る こ と ,が 挙 げ ら れ る.こ の 特 徴 を 利 用 し て,密 に 結 合 さ れ た ペ ー ジ を 抽 出 す る こ と で 互 い に 関 連 す る ペ ー ジ の 集 合 を 得 る こ と が で き る. Kleinberg[6]は,オ ー ソ リテ ィ お よ び ハ ブ の 概 念 に 基 づ い て 関 連 ペ ー ジ を 計 算 す る 手 法 を 提 案 し て い る.オ ー ソ リ テ ィ ー と は,あ つ ペ ー ジ の こ と を 指 し,多 くの 良 い ハ ブ か ら リ ン ク を 張 られ て い る ペ ー ジ と定 義 され る.ハ ブ は,あ る トピ ッ ク に つ い て 良 質 な 内 容 を 持 る ト ピ ッ ク に 関 す る リ ン ク 集 や ブ ッ ク マ ー ク ペ ー ジ の こ と を 指 し,多 く の 良 い オ ー ソ リ テ ィ ー に リ ン ク を 張 っ て い る ペ ー ジ と 定 義 さ れ る.HITS[6]は, こ の 定 義 に 基 づ い で,ウ ェ ブ の 部 分 グ ラ フ か ら オ ー ソ リテ ィ お よ び ハ ブ を 効 率 良 く 抽 出 す る ア ル ゴ リ ズ ム で あ る. ま たDeanら は,シ Companion[7]と ー ドペ ー ジ に 対 し 関 連 す る ペ ー ジ の リ ス トを 結 果 と し て 返 す, い う 関 連 ペ ー ジ ア ル ゴ リ ズ ム(RPA)にHITSを Companionは,シ 応 用 し て い る. ー ドペ ー ジ 周 辺 の グ ラ フ か ら オ ー ソ リ テ ィ を 抽 出 す る. 豊 田 ら は,Companionの ―[10]を 提 案 し て い る .こ さ れ たURLに 再 現 率 を 下 げ る 代 わ り に 精 度 を 上 げ る 手 法,Companion れ はHITSを 基 に 改 良 を 行 っ た ア ル ゴ リ ズ ム で あ り,入 対 し て そ の 関 連 ペ ー ジ を 求 め る も の で あ る 。Companion― 力 の アル ゴ リ ズ ム は 次 の 通 りで あ る. ま ず 入 力URLに 対 応 す る シ ー ドペ ー ジ か ら リ ン ク で 結 ば れ た 近 隣 の ペ ー ジ を 集 め, 近 傍 グ ラ フ を 作 る.近 傍 グ ラ フ に はHITSと 異 な り,シ ー ドペ ー ジ ヘ リ ン ク を 持 つ ペ ー ジ と そ れ ら が リ ン ク す る ペ ー ジ の み を 含 め る .後 者 の リ ン ク で は そ の 出 現 順 序 を 考 慮 し,シ ー ドペ ー ジ へ の リ ン ク の 前 後R個 持 つ ミ ラ ー ペ ー ジ は 代 表 と し て1つ の リ ン ク の み を 含 め る 。ま た 同 一 の 内容 を の ペ ー ジ を 定 め,そ の ペ ー ジ に ま と め る. 次 に ペ ー ジ の サ ー バ 名 に よ っ て リ ン ク に 対 す る 重 みhub 計 算 す る.こ 重 み を 表 す.同 れ は そ れ ぞ れ ペ ー ジpか ジpが らqへ _wt(p,q),auth_wt(p,q)を の リ ン ク の ハ ブ の 重 み ・オ ー ソ リ テ ィ の 一 サ ー バ 内 の リ ン ク に 対 し て は こ の 両 方 の 重 み を0に 外 部 の 同 一 サ ー バ にn個 の リ ン ク を 持 っ て い れ ば,そ す る.あ るペ ー の リン ク に 当 た る hub _wt(p,q)を す べ て1/nと す る.ま た 同 じ外 部 サ ー バ か らn個 の リ ン ク が あ る ペ ー ジpが あ れ ば,そ のauth_wt(q,p)を1/nと す る. ハ ブ ・オ ー ソ リテ ィ ス コ アhub(p)・auth(p)を1に 初 期 化 し,以 下 の 式 を 各 ス コ ア が 収 束 す る ま で 繰 り 返 す. ―3― hub(p).auth(p)そ れ ぞ れ に つ い て 、 そ の 二 乗 和 が1と こ の よ う に し て 得 ら れ たauth(p)の な る よ うに 正 規 化. 高 い も の か ら シ ー ドペ ー ジ へ の 関 連 ペ ー ジ と し て 出 力 す る. 2.2.Webの 発 展 過 程 マ イ ニ ン グ ウェ ブ ア ー カ イ ブ を用 い た 発 展 過 程 の マ イ ニ ン グ は,ク ロ ー ラ を用 い て 定期 的 に ウ ェブ ペ ー ジ を収 集 し,ど の よ うな変 化 が ど の程 度 起 き た か を調 査 す る こ とが 基 本 とな る.ウ ェ ブ の様 々 な変 化 量 の 測 定 に 基 づ い て,ウ ェ ブ の将 来 の 変 化 を予 測 可 能 か ど うか の調 査,ウ ェ ブ にお け る トピ ック の 出 現 を検 出 し,そ の 発 展 過 程 を 追跡 す る試 み 等 が行 わ れ て い る. 2.2.1.様 々 な 変 化 量 の 測 定 Fetterlyら は,大 規 模 な ク ロー リン グ を行 っ て 一 週 間 ご と に15億 ペ ー ジ を 収 集 し, こ れ を11週 間 に わ た っ て 繰 り返 す こ とで,各 ペ ー ジ の 変 化 の 度 合 を解 析 し た[17].こ の 解 析 か ら,以 下 の よ うにペ ー ジ の 未 来 度 が あ る 程 度 予 測 で き る こ とが 明 ら か に な っ た. ・ ク ロ ー ル ご と に 取 得 で き な く な るペ ー ジ が 増 加 す る .11週 間 後 に は10数%の べ ー ジ が 取 得 で き な く な って い た .こ の うち,サ ー バ 管 理 者 の 設 定 す る ロ ボ ッ トル ー ル に よ っ て 排 除 され た ケ ー ス も3%ほ ど存 在 し ,こ れ は ウ ェ ブ の 観 測 行 為 に よ っ て 観 測 され る側 の 行 動 を変 化 させ 得 る こ とを 示 して い る. ・ ペ ー ジ 内 容 は1週 間 で は ほ とん ど更 新 され な い .2週 間続 け て取 得で きた すべ て の ペ ー ジ 対 に つ い て 変 化 を 調 べ た と こ ろ,65%の 対 で 更 新 が な か っ た. ・ サ イ ズ の 小 さ い ペ ー ジ よ り大 き な ペ ー ジ の ほ うが 変 化 の 度 合 が 大 き い .こ の こ と は,ペ ー ジ のサ イ ズ が未 来 の 変 過 度 を 予 測 す る 手 が か り とな る こ とを示 して い る. ・ 前 の 週 に 変 化 の 小 さい ペ ー ジ は 次 の 週 も変 化 は 小 さ く ,大 き い ペ ー ジ は 次 の 週 も 変 化 が 大 き い.よ と な る. っ て,過 去 に お け る 変 化 度 も未 来 の 変 化 度 を 予 測 す る 手 が か り Fetterlyら の 手 法 は,URLの 集 合 を 固 定 して 繰 り返 し収 集 す る た め,新 し い ペ ー ジ の 出 現 は 検 出 で き な い.Ntoulasら は,Google Directryか ら著 名 な150サ イ トを 選 択 して 固 定 し,1週 間 ご と に そ れ らの サ イ トの 中 身 を 取 りつ くす こ とで 新 規 ペ ー ジ や 新 規 ハ イ パ ー リン ク の発 生 す る度 合 を調 査 した[18].Ntoulasら が1年 分(52週 間) の ア ー カ イ ブ か ら得 た 結 果 を 以 下 に 示 す. ・ 選 択 した サ イ ト内 の ペ ー ジ は 速 い ペ ー ス で 新 しい ペ ー ジ と入 れ 替 わ っ て い る .1 週 間 ご との ア ー カ イ ブ 中,平 均8%が 新 し く作 られ た ペ ー ジ で あ る.ま た 初 回 に 取 得 で き た ペ ー ジ の う ち,半 年 後 に は50%,1年 て い る. ―4― 後 に は60%が 取 得 で き な くな っ ・ ペ ー ジ の コ ン テ ン ツ の 入 れ 替 わ りは ,ペ ー ジ 自 体 の 入 れ 替 わ り よ り も 緩 や か で あ る. ・ ハ イ パ ー リン ク数 の 入 れ 替 わ りは ペ ー ジ の 入 れ 替 わ り よ り さ らに 急 で ,1週 間ご と に25%の 新 規 リ ン ク が 作 成 さ れ,1年 後 に は80%の リ ン ク が 消 滅 し て い る. ・ ペ ー ジ 内容 の 変 化 に つ い て は ,Fetterlyら の 結 果 と 概 ね 同 じ よ う な 結 果 で あ る. つ ま り,ペ ー ジ 内 容 は ほ と ん ど 変 化 し て お ら ず,過 去 の 変 化 の 度 合 と未 来 の 変 化 の 度 合 に 相 関 が あ る こ と を 確 認 し て い る. 2.2.2.ト Internet ピ ッ ク の発 展 過 程 Archive(www.archive.org)は,1996年 収 集 し続 け て お り,2001年 に は,URLを か ら統 計 的 に ウ ェ ブ ペ ー ジ を 大 規 模 に 入 力 す る と そ のURLの 変更履歴 を閲覧で きる Wayback Machine[4]イ ン タ ー フ ェー ス を 公 開 し て い る. Recall(reca11.archive.org)はInternet Archive上 に 構 築 さ れ た 全 文 検 索 エ ン ジ ン で, 1996年 か ら2003年5月 2003年9月 Recallは ま で に 収 集 さ れ た 約110億 ∼2004年9月 ペ ー ジ(0.5ペ タ バ イ ト)を 索 引 化 し, ま で 公 開 さ れ た. 単 な る全 文 検 索 エ ン ジ ン で は な く,ア ー カ イ ブ か ら 自動 的 に カ テ ゴ リー お よ び ト ピ ッ ク を 抽 出 し て トピ ッ ク の 発 展 過 程 を 調 査 で き る 機 能 を 持 っ て い た.キ ー ワ ー ド を 指 定 して 検 索 す る と,そ の 出 現 頻 度 の 時 系 列 的 な 変 化 を グ ラ フ 化 し,同 時 に 関 連 す る キ ー ワ ー ドの 出 現 頻 度 も グ ラ フ 化 して 提 示 す る .こ れ らの キ ー ワ ー ドの 動 き か ら ト ピ ッ ク の 変 遷 を 調 査 す る こ と が で き,ネ ッ トワ ー ク 上 の 流 行 調 査 な ど に 有 益 な も の だ っ た が,現 在 は 停 止 し て い る. 2.3.情 報 構 造 の発 展 過 程 の 可 視 化 情 報 構 造 の 発 展 過 程 を 可 視 化 す る手 法 に つ い て は,学 術 文 献 の 関 連 可 視 化,グ フ描 画 な どの 分 野 で 様 々 な 研 究 が な され て い る. Chenら ラ は科 学 論 文 にお け る著 者 間 の 共参 照 関係 の発 展 過 程 を可視 化 す る手 法 を 提 案 して い る[11].さ ら に,発 展 過 程 の 可 視 化 に 適 した 辺 の フ ィル タ リン グ手 法 に 関 す る 考 察 を 行 っ て い る[12]. Chiら は タイ ム チ ュ ー ブ と呼 ば れ る手 法 を 提 案 し,1つ の ウ ェ ブ サ イ トに お け るペ ー ジの階 層構 造 ,お よび 訪 問 者 の ア ク セ ス パ ター ン の 発 展 過 程 を 可 視 化 した[131.こ の 手 法 で は ま ず サ イ トの 階 層 構造 を,ル ー トペ ー ジ を 中 心 と して,子 ペ ー ジ を 同心 円 上 に 配 置 した デ ィス ク ツ リー 手 法 で 可 視 化 す る.さ らに 各 時 間 に つ い て デ ィ ス ク ツ リ ー を作成 し ,並 べ て 表 示 す る こ とで 時 間 に よ る 変 化 を 閲 覧 可 能 に す る. Diehlら は,変 化 す る グ ラ フ の列 か らア ニ メ ー シ ョ ン を 作 成 す る た め の,グ ラ フ 描 画 手 法 を 提 案 し て い る[9].Diehlら の 手 法 は,グ ラ フ列 に含 まれ る 全 グ ラ フ の 和 を 取 っ た ス ー パ ー グ ラ フ に 対 して 事 前 に力 学 的 レイ ア ウ トを 施 し,そ の 結 果 を基 に 各 グ ラ フ の レイ ア ウ トを 決 定 す る こ とで,グ ラ フ 変 化 に よ る レイ ア ウ トの 急 激 な 変 化 を抑 え て い る. ま た,Ertenら 列 配 置 した り,2次 は,力 学 的 グ ラ フ レイ ア ウ トを 拡 張 して,変 化 す る グ ラ フ の列 を 並 元 レイ ア ウ トを3次 元 的 に 重 ね て 表 示 す る 等,様 々 な 形 で 描 画 す ―5― る 枠 組 を提 案 し て お り[14],最 近 で は 学 術 文 献 の 関係 の進 化 を 可 視 化 す る 事 例 に 応 用 して い る. 2.4.グ ラ フ レ イ ア ウ ト手 法 グ ラ フ を レイ ア ウ トす る に は,ど の よ うな ノ ー ド配 置 が 審 美 的 基 準 を 最 適 化 す るか を 探 索 す る.し か し,総 当 り的 に 探 索 す る こ とは 組 み 合 わ せ 的 に 膨 大 な 数 とな り多 く の 場 合NP困 難 で あ る た め,ユ ー ザ に よ る イ ン タ ラ クテ ィ ブ な 情 報 獲 得 を 支 援 す るた め に は,近 似 的 な 最 適 解 を 短 時 間 で 求 め る た め の 手 法 が 求 め られ る.そ の た め の 手 法 は 大 ま か に グ ラ フ理 論 を べ ー ス に した ア ル ゴ リズ ム 的 ア プ ロー チ,物 理 モ デ ル をベ ー ス と し た モ デ ル 的 ア プ ロー チ の2種 類 に 分 類 され る. アル ゴ リズ ム 的 ア プ ロー チ は,主 に グ ラ フ ア ル ゴ リズ ム や,計 算 幾 何,離 散 数 学 な ど の理 論 的 手 法 を利 用 し,あ らか じ め用 意 され た 拘 束 条 件 を 準 最 適 化 す る よ うに設 計 され た 高 速 な ア ル ゴ リズ ム に よ る レイ ア ウ ト手 法 で,多 く の 場 合,格 子 点 上 に ノー ド を配 置 し,そ の組 み 合 わ せ を 探 索 す る.比 較 的 小 さな 計 算 時 間 で 行 う こ とが で き るが, ア ル ゴ リズ ム の 設 計 に 用 い られ た 拘 束 条 件 以 外 の 制 約 を あ とか ら組 み 込 む こ とが 難 し く,ユ ー ザ に よ る拘 束 条 件 の 指 定 が で き な い た め,汎 用 性 に 乏 し い とい う欠 点 が あ る. モ デ ル 的 ア プ ロ ー チ は グ ラ フ を何 らか の モ デ ル に よ っ て 表 現 し,そ の モ デ ル を解 く 事 に よ っ て 近 似 的 な 最 適 解 を 求 め る 手 法 で あ る.多 少 計 算 量 が 大 き い もの の 様 々 な 拘 束 条 件 を 組 み 込 み や す く拡 張 性 が 高 い とい う特 徴 を持 つ.グ ラ フ レイ ア ウ トに 用 い ら れ る モ デ ル は,遺 伝 子 モ デ ル,生 物 モ デ ル,力 学 モ デ ル 等 で あ る が そ の な か で も特 に 力 学 的 な モ デ ル が よ く用 い られ る.こ れ は,日 常 的 に 目に す る 自然 界 の 力 学 的 な 現 象 を用 い る こ とで 視 覚 的 に 自然 な レイ ア ウ トが で き る と考 え られ て い る か らで あ る. 力 学 的 モ デ ル に よ る レイ ア ウ ト手 法 で 最 も簡 潔 で よ く知 られ た モ デ ル が,Eadesに よ る"Spring Embedder"で あ る[15].こ の モ デ ル で は,エ ッ ジ を 自然 長 を 持 っ た ば ね と仮 定 し,エ ッジ で 接 続 した ノー ド間 に は ば ね 力 を模 した 力Fs,隣 接 し な い ノ ー ド同 士 に は 逆2乗 則 の 斥 力 に よ っ て 互 い に 反 発 しあ う力Frを 仮 定 す る. た だ し 、 こ こ でc1,c2,c3は 表1に 示 す よ う に,各 定 数,dは ノ ー ド間 の 距 離 で あ る. ノ ー ドに 働 く 力 の 合 計 を 計 算 し 、 そ れ に 従 っ て ノ ー ド を 移 動 さ せ る 処 理 の 繰 り返 し 計 算 で レイ ア ウ トを 変 形 さ せ る こ と に よ り,ノ ー ドが 近 づ き す ぎ ず,隣 称 的 な レイ ア ウ 接 ノ ー ドが 近 く に 配 置 され,エ ッ ジ の 長 さ が 均 一 に 近 く,対 トを 得 る. ―6― 表1:Eadesの レイ ア ウ トア ル ゴ リズ ム こ の モ デ ル は こ の 後 に 提 案 され た 多 くの 力 学 的 モ デ ル の ベ ー ス と な っ て い る が,計 算 量 が 大 き い,力 の 定 義 が 単 純 す ぎ て グ ラ フ に よ っ て は うま く レイ ア ウ トで き な い (局所 最 適 解 に 陥 る ・収 束 し な い)な どの 問 題 が あ り,様 々 な 改 良 手 法 が 開 発 され て い る. ―7― 第3章 時 系 列 デ ー タの分 析 本 研 究 室 で は,1999年8月 か ら2004年5月 ま で に 渡 っ て 定 期 的 に 収 集 され たWeb アー カ イ ブ が 存 在 す る(表2).こ れ を も と に あ る キ ー ワー ドに対 して 得 られ るペ ー ジ の リン ク構 造 を グ ラ フ化 す る. 表2:ウ 3.1.キ ェブ ア ー カ イ ブ の 詳 細 ー ワ ー ドか ら の 時 系 列 グ ラ フ の 抽 出 時 系 列 グ ラ フ とは,あ る 時 間 間 隔 を お い て 作 成 され た 有 向 グ ラ フ の 列 で あ り,最 初 の 時 間 を1,最 後 の 時 間 をTと した とき 以 下 の よ うに 表 さ れ る. 添 字tは 各 ウ ェ ブ ア ー カ イ ブ が 収 集 さ れ た 時 期 を 表 す.Vt中 ジ を 表 し,Et中 の 有 向 辺(u,v)は,uを 関 連 ペ ー ジ と し て 出 力 さ れ る こ と を 示 し て い る.時 び 辺 は,各 の ノ ー ドは ウ ェ ブ ペ ー 関 連 ペ ー ジ ア ル ゴ リ ズ ム に 入 力 す る とvが 系 列 グ ラ フ に お い て,ノ 時 間 に お い て 発 生 お よ び 消 滅 す る 可 能 性 が あ り,Vtお よ びEtの ー ドお よ 要 素数 は 一 定 と は 限 ら な い. 本 研 究 で は,uと ペ ー ジ と し て ,グ し て,あ る キ ー ワ ー ド に マ ッ チ す る ペ ー ジ を と る.vを ラ フGtを 2003/2,2004/1,2004/5)と ま ず,あ 得 る.ま そ のinLink たtは(1999/8,2000/8,2001/10,2002/2, して い る. る キ ー ワ ー ド に 対 し,ア ン カ ー ・タ イ トル ・本 文 に そ の キ ー ワ ー ドが 含 ま ―8― れ る 文 書 を 検 索 し,各 ペ ー ジ ご と のIDを 得 る.こ の ペ ー ジ の 集 合Uが グ ラ フ の ノー ド と な る. 次 に 各 ペ ー ジ ご と に リ ン ク デ ー タ ベ ー ス か らinLinkを ー ジuと そ こ に リ ン ク を 張 っ て い る ペ ー ジv'のIDを 得 る.キ ー ワ ー ドを 含 む ペ そ れ ぞ れuid ,vid'と す る と, (uid,vid') の 形 でinLinkが 得 られ る. こ の と き ペ ー ジv'は 全 ペ ー ジ が 対 象 に な っ て い る の で,集 け を 対 象 に フ ィ ル タ リ ン グ を 行 う.つ ま り,キ 合Uに 属 す るペ ー ジだ ー ワ ー ドを 含 む ペ ー ジ 同 士 の リ ン ク と し て, (uid,vid') を 得 る.こ れ が が リ ン ク 構 造 グ ラ フ の エ ッ ジ と な る. こ の よ う に し て 得 ら れ た ノ ー ド と エ ッ ジ に よ り,リ れ ら の 処 理 を 各 時 系 列 に お い て 行 い,文 ン ク 構 造 グ ラ フ が 得 ら れ る.こ 書 デ ー タ ベ ー ス と リ ン ク デ ー タ ベ ー ス か ら, キ ー ワ ー ドに 対 す る 時 系 列 グ ラ フ が 得 られ る. 3.2.時 系 列 デ ー タ の 例 得 られ た 各 デ ー タ の 例 を 以 下 に 示 す.時 過 程 で 得 ら れ たinLink等 図1は,ペ ー ジuの 表 示 し た も の で あ る.縦 系 列 グ ラ フ の デ ー タ だ け で な く,前 項 の各 の デ ー タ も 共 に 示 す. そ れ ぞ れ に 対 す るinLinkペ 軸 がinLink数,横 こ れ に 対 し て 図2は,フ ー ジvの 数 を ヒ ス トグ ラ ム 化 し て 軸 が ペ ー ジ 数 で あ る. ィ ル タ リ ン グ 後 のinLinkペ ー ジv'に つ い て,同 様 に ヒス トグ ラ ム 化 し た も の で あ る. 図3は,得 ら れ た グ ラ フ のConnected Componentに つ い て,1成 分 の ノ ー ド数 つ ま りサ イ ズ を 横 軸 に と っ て 同 様 に ヒ ス トグ ラ ム 化 し た も の で あ る. 図4は,時 間 を 横 軸 に と り,ペ 最 大 のConnected 図1∼4の Componentの ー ジuの 数,Connected Componentの 数,お サ イ ズ を 時 系 列 ご と に 表 示 し た も の で あ る. 例 で は キ ー ワ ー ドは"東 京 大 学"で あ る. ―9― よび 図1:キー ワー ドに ヒ ッ トす るペ ー ジ とinlink数 ―10― 図2:キ ー ワー ドに ヒ ッ トす るペ ー ジ間 で のinlink数 ―11― 図3:キ ー ワ ー ドか ら得 られ るConnend ―12― Componentの 数 とサ イ ズ 図4:時 系 列 間 で 見 た ペ ー ジ 数 とConnnected Componentの ―13― 数・最 大サ イ ズ 図4を 見 る と,2003/7か え て,サ ら2004/1に か け て は,Cennected イ ズ が 小 さ く な っ て い る の で,連 結 せ ず に,つ ラ バ ラ に 存 在 す る ペ ー ジ が 増 え た と 言 う こ と で あ る.全 Connectec る."東 Componentの Componentの 数 が増 ま り リ ン グ で つ な が らず に バ 体 と して は ペ ー ジ 数 と 数 ・大 き さ 共 に 概 ね 同 じ よ う な 傾 向 で 推 移 し て い る と 言 え 京 大 学"と い う キ ー ワ ー ドは 時 間 ご と の 変 動 が そ れ ほ ど 顕 著 で な い,一 般的な キ ー ワ ー ド と し て 選 ん だ. 図5,6に お い て は,max は 比 較 的 最 近 の ト ピ ッ ク の 例 を 示 す.特 sire of CCが に 図5(キ 大 き く 伸 び て い る こ と か ら,winny関 ン ク で 連 結 さ れ て い る も の が 多 い と い う 傾 向 が わ か る. 図5:時 ー ワ ー ド"winny")に 系 列 変 化(キ ー ワ ー ド:winny) ―14― 連 の ペ ー ジは リ 図6:時 一方 ,一 系 列 変 化(キ ー ワー ド:ト リ ビア の 泉 ) 時 期 に 変 化 が 集 中 し て い る よ う な 例 を 図7,8に 時 期 に 注 目 が 集 ま っ て い る 様 子 が わ か る.ま と ん ど 増 減 な く ペ ー ジ 数 とConnected か ら,無 て は,max Component数が 関 係 に 多 く の ペ ー ジ が 発 生 し,消 size of CCと た 図7に 示 す.ト お い て は,max ピ ッ ク と し て一 size of CCが え て い っ た 様 子 が わ か る.逆 に 図8に ペ ー ジ 数 が 似 た よ う な 推 移 を し て い る こ と か ら,リ な が っ た 大 き な ペ ー ジ 群 が 現 れ て,そ ほ 同 じ よ うに 増 減 して い る こ と おい ン クで つ の 集 合 ご と 消 え て い っ た 様 子 が 見 て 取 れ る. ―15― 図7:時 系列変化(キ ーワ ー ド:千 と千尋の神隠し) ―16― 図8:時 図1で 系 列 変化(キ ー ワー ド:ダ ン デ ィ坂 野) 示 し た ペ ー ジ のinlink数,図2で 内 で のinlink数,図3のConnected Connected も の を 図9に Componentの 示 す.た 示 し た キ ー ワ ー ド に ヒ ッ トす る ペ ー ジ 集 合 Componentの 数 ・max だ し,キ sizeの グ ラ フ を 見 る と,わ 時 系 列 変 化 の4種 ー ワ ー ドは 異 な る(キ 右 下 の 時 系 列 変 化 の グ ラ フ だ け 見 る と,ご やinlinkの 数 と サ イ ズ,図4の ペ ー ジ数 ・ の グ ラ フ を 一 括 表 示 した ー ワ ー ド"鳥 イ ンフ ル エ ン ザ"). く 最 近 の 話 題 で あ る こ と が わ か る が,CC す か な が ら1999年 い た と い う こ と が わ か る. ―17― か ら ペ ー ジ 自 体 やCCは 存在 して 図9:inlink数 図10も 図9と ペ ー ジ 数 とCCの な り,CCの ・CC・ 時 系 列 変 化 一 括 表 示(キ ー ワ ー ド;鳥 イ ンフ ル エ ンザ) 同 じ よ うに 一括 表 示 した もの で あ る が,あ る 時 期(2003/2)ま で は, 数 が と も に 増 え て いた の に,そ れ 以 降 急 速 にCCの サ イ ズ が 大 きく 数 は あ ま り増 え な くな っ て い る こ と が 見 て 取 れ る.こ れ は つ ま り,あ る 時 期 ま で はCCが 凝 縮 せ ず に バ ラ バ ラ に ペ ー ジ が 増 え て い た の が,あ る時 期 を 境 に グ ラ フ と して つ な が り始 め,そ の 後 増 え るペ ー ジ も ほ と ん ど最 大 のCCに 取 り込 ま れ て い る とい う こ と を 意 味 し て い る. ―18― 図10:inlink数 ・CC,時 系 列 吏 化 一括 表 示(キ ー ワー ド:livedoor) こ の よ うに,デ ー タ を 見 た だ け で も様 々 な キー ワ ー ドに 対 し て,ウ 造 が 多 様 な 変 化 を 見 せ て い る こ と が わ か る. ―19― ェ ブ の リン ク 構 第4章WebRelievoの 概 要 本 章 で は,Webの ペ ー ジ 問 の 関 連 の発 展 過 程 を 可 視 化 す る シ ス テ ム,WebRelievo[5] の 概 要 を示 す.WebRelievoは,ユ ー ザ の 指 定 した ペ ー ジ に 対 して,各 収 集 時 期 の ア ー カ イ ブ か らペ ー ジ の相 関 図 を表 す グ ラ フ を抽 出 して ,時 系 列 グ ラ フ と呼 ば れ る グ ラ フ の 列 を作 成 し,時 間 に 沿 っ て 漫 画 の コ マ 割 の よ うに 表 示 す る こ とで,発 展 過 程 の 閲 覧 を可 能 に す る.各 グ ラ フ は,同 じペ ー ジ が 概 ね 同 じ位 置 に 表 示 され る よ う同 期 して 自動 的 に レイ ア ウ トされ る た め,各 時 間 で どの よ うな 変 化 が 起 き た か を グ ラ フ を比 較 しな が ら容 易 に 把 握 す る こ とが で き る. 4.1.WebRelievoの WebRelievoに グ ラ フ レイ ア ウ ト お け る グ ラ フ レ イ ア ウ トに は,力 学 的 ア プ ロ ー チ[15,16]を 時系 列 グ ラ フ 間 の 位 置 調 整 を 行 う よ う に 修 正 し た ア ル ゴ リ ズ ム が 用 い られ て い る. す な わ ち,各 時 系 列 グ ラ フGt(p)を 列 方 向 に ノ ー ドの 位 置 調 整 を 行 う.ユ き,そ 力 学 的 ア プ ロ ー チ で レ イ ア ウ トし な が ら,時 系 ー ザ は 対 話 的 に ノ ー ドを ドラ ッ グ す る こ と が で の 場 合 に も ノ ー ドの 位 置 が 自 動 的 に 同 期 さ れ る. 2.3.で 述 べ た よ う に,力 学 的 ア プ ロ ー チ は,グ ラ フ に お け る ノ ー ドを 質 点,辺 を ば ね と す る 力 学 モ デ ル の シ ミ ュ レ ー シ ョ ン を 用 い て グ ラ フ を レ イ ア ウ トす る 手 法 で あ り,辺 で つ な が れ た2点 の 間 に は 引 力Fsが 働 き,全 て の2点 の 間 に は 斥 力Frが 働 く.WebRelievoで は 点u,v間 に 働 く 引 力 お よ び 斥 力 と して 以 下 の 定 義 を 用 い て い る.そ れ ぞ れ の 力 はu,v間 の ユ ー ク リ ッ ド距 離dを 引 数 と す る 関 数 で 表 さ れ る. た だ し,c1は2点 間 の 望 ま し い 距 離 を 表 す 定 数 で あ る.辺 で 結 ば れ た2点 がc1と な っ た とき に 引 力 と斥 力 が つ りあ う よ うに な っ て い る. 4.2.グ ラ フ 間 の位 置 合 わせ 時 系 列 グ ラ フ の 差 分 を 理 解 しや す く す る た め,隣 が で き る だ け 同 じ 位 置 に あ る こ と が 望 ま し い.こ は 引 力,斥 り合 う グ ラ フ の 間 で は 同 じ ノ ー ド れ を 実 現 す る た め,WebRelievoで 力 に加 え て 隣 り合 うグ ラ フ 間 で位 置 合 わ せ を 行 う力 を 各 点 に 与 え て い る 。 ノ ー ドut∈Gtに Ft.1お 間 の距離 よ びFt+1が は,ut-1∈Gt-1お 加 え られ る.utが よ びut+1∈Gt+1に 近 付 く 方 向 の 力, 隣 の グ ラ フ に存 在 しな い 場 合 に は こ れ らの 力 ―20― は0と な る.定 義 は,以 下 の 通 りで あ る.Ft-1は,utとut-1問 の 距 離dt.1を 数 とす る 関数 で 定 義 され,Ft+1も 同様 に 定 義 され る. Ft-1(dt.1)=dt-1/c2,Ft+1(dt+1)=dt+1/c2 こ こ で,c2は 位 置 合 わ せ の 力 の 強 さ を 調 整 す る定 数 で あ る.c2=1の 引 と き,位 置 合 わ せ の力 は最 大 に な り,uは 各 グ ラ フ で ほ ぼ 同 位 置 に 表 示 され る.c2を 大 き くす る と,各 グ ラ フ で の 引 力,斥 力 の 方 が 相 対 的 に 強 く な り,位 置 合 わ せ の 力 は 弱 ま る. 直 感 的 に は,位 置 合 わ せ の 力 を 最 大 に す る と最 も理 解 しや す い レイ ア ウ トに な る と予 想 され る.し か し,位 置 合 わ せ を厳 密 に 行 う と,最 初 の 時 間 に お け る 位 置 関 係 が,最 後 の 時 間 に お け る位 置 関 係 に も影 響 す る た め(逆 も 同様),構 造 の変 化 が 大 き い とき に は か え っ て グ ラ フ の 形 を い び つ に し て しま う.こ の た め,時 間 の 経 過 と共 に緩 や か に 位 置 の変 更 を許 す ほ うが レイ ア ウ トは 見 や す く な る. WebRelievoは,漫 画 に お け る コマ 割 の よ うに 画 面 を 分 割 して,左 か ら右,上 から 下 の 順 番 で 各 時 間 毎 に 時 系 列 グ ラ フ を 表 示 す る.グ ラ フ を 並 べ て 表 示 す る こ と で,隣 り合 うグ ラ フ の 比 較 を 容 易 に して い る.画 面 分 割 に お け る 行 数,列 数 は ユ ー ザ が 自 由 に 調 整 で き る.特 に,行 数 お よび 列 数 を 共 に1に して 開 始 時 間 を 変 化 させ る と,紙 芝 居 の様 に グ ラ フ の 変 化 を 見 る こ と に な る.ま た,ユ ー ザ は 表 示 を 開 始 す る 時 間 を 変 化 させ る こ とで,表 示 され る グ ラ フ の 列 を 時 間 軸 に 沿 っ て ス ラ イ ドさせ る こ とが で き る. 4.3.ノ ー ド ・エ ッ ジ の 発 生 と 消 滅 の 表 現 WebRelievoは,ユ き る よ う,各 各Gt(p)に よ っ て,以 ー ザ が 各 時 間 の グ ラ フか ら前 後 に お け る変 化 を あ る 程 度 把 握 で ノ ー ドお よ び 各 辺 の 発 生 お よ び 消 滅 を 色 で 表 現 し て い る 。 お け る ノ ー ドお よ び 辺 は,Gt-1(p),Gt+1(p)に 存 在 す る か しな い か に 下 の よ う に 色 分 け さ れ て い る. .黒 色:Gt-1(p)お よ びGt+1(p)に 存 在 す る.黒 .赤 色:Gt-1(p)に 存 在 せ ず,Gt+1(p)に .灰 色:Gt-1(p)に は 存 在 す る が,Gt+1(p)に で 安 定 性 を 示 す. は 存 在 す る.tに お け る発 生 を 赤 で 示 す . は 存 在 し な い.t+1に お け る 消 滅 を灰 色 で 表 現 す る. .薄 赤 色:Gt-1(p)に 存 在 せ ず,Gt+1(P)に も 存 在 し な い.tに お い て 発 生 し,す ぐ消 滅 す る こ と を 薄 赤 色 で 示 す. こ の よ う な 色 の 表 現 に よ っ て,時 系 列 間 で の ノ ー ド ・エ ッ ジ の 発 生 ・消 滅 の 把 握 を 容 易 に 行 う こ と が で き る. ―21―