Comments
Description
Transcript
Fact of the Web
DEWS2006 3B-i6 Fact of the Web -30 億ページのウェブの解析- 加藤真† 山名早人††,††† †早稲田大学大学院理工学研究科 〒169-85555 東京都新宿区大久保 3-4-1 ††早稲田大学院理工学術院 〒169-85555 東京都新宿区大久保 3-4-1 †††国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2 E-mail: †[email protected], ††[email protected] あらまし 現在ウェブサーバから発信されている情報量は,2006 年 2 月の時点で静的なページだけでも 150 億ペ ージ以上あると推測される.これは,全世界の Web ページ数を推定した過去の 3 つの研究から1ウェブサーバ当た りの平均ウェブページ数を 200 ページと仮定し,ウェブサーバ総数 7618 万台との積をとったものである.しかし, 我々が 2006 年 2 月までに収集をした 120 億ページを元に推定すると 2006 年 2 月時点で 350 億ページが存在すると いう結果を得た.これは,近年動的に生成されるウェブページが急増していることに起因するものと考えられる. また,本稿では,これまでに収集した 120 億ページの内,30 億ページについてウェブ構造を中心に様々な解析を行 った.その結果,最近のウェブ構造は、いわゆる「蝶ネクタイ」構造の真ん中(CORE)の部分が巨大化している ことが判明した.特に,中国語や日本語でこの傾向が強いことがわかった. キーワード Web とインターネット,知識発見,データマイニング Fact of the Web -Analysis of 3 Billion Web Pages- Shin KATO† and Hayato YAMANA††,††† †Graduate School of Science and Enginnering, Waseda University 3-4-1 Okubo, Shinjuku-ku, Tokyo 169-8555 Japan ††Science and Engineering, Waseda University 3-4-1 Okubo, Shinjuku-ku, Tokyo 169-8555 Japan †††National Institute of Infomatices 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo 101-8430 Japan E-mail: †[email protected], ††[email protected] Abstract The number of static web pages is estimated over 15 billion in Feb 2006. This is multiplying 200 pages by 76.18 million web servers, where 200 pages means the average number of web pages and are assumed from past three researches. However, based on the analysis of 12 billion web pages that we have crawled by Feb. 2006, we estimate the total number of web pages as 35 billion. This is because dynamic web pages are rapidly increased in recent years. And we also analyzed web structure using 3 billion web pages. As a result, we figure out that the size of "CORE", the center component of bow-tie structure, is increasing in recent years, especially in Chinese and Japanese web. Key words Web and Internet, Knowledge Discovery, Data Mining 1. は じ め に 現在ウェブサーバから発信されている情報量は静 的 な ペ ー ジ だ け で も ,2006 年 2 月 時 点 で ,約 150 億 ペ ージと推測される. ウ ェ ブ の 規 模 に つ い て は ,NEC 北 米 研 究 所 の 主 任 研 究 員 で あ っ た Lawrence ら に よ る 推 計 が 有 名 で あ る . 1998 年 に Science 誌 に 掲 載 さ れ た 論 文 [1]で は ,同 一 の 検索語を用いて複数の検索エンジンで検索し,複数の 検索エンジンの検索結果の重なりの度合いからウェブ ページ数を推計している.推計にあたっては,各検索 エンジンがインデックスしているページ数と検索結果 の 重 な り の 度 合 い を 用 い る .本 手 法 に よ れ ば ,1997 年 末 時 点 の ウ ェ ブ ペ ー ジ 数 は 3.2 億 ペ ー ジ で あ る . さ ら に , 1999 年 に Nature 誌 に 掲 載 さ れ た Lawrence ら の 論 文 [2]で は , 360 万 個 の IP ア ド レ ス に 対 し て 80 番 ポ ー トでウェブサーバが立ち上がっているかを調査すると 共 に ,2500 台 の ウ ェ ブ サ ー バ に 対 し て 実 際 に ウ ェ ブ ペ ー ジ 収 集 を 行 っ て い る .こ れ に よ り ,IP ア ド レ ス 空 間 上の推定ウェブサーバ数とウェブサーバ当たりの平均 ウ ェ ブ ペ ー ジ 数 と の 積 を 求 め , 1999 年 2 月 時 点 で 約 8 億 の Web ペ ー ジ が 存 在 す る と 推 計 し て い る . 文 献 [1]で の 1 ウ ェ ブ サ ー バ 当 た り の 平 均 ウ ェ ブ ペ ー ジ 数 は 190 ペ ー ジ ,文 献 [2]で の 1 サ ー バ 当 た り の 平 均 ウ ェ ブ ペ ー ジ 数 は 186 ペ ー ジ で あ り , 推 計 時 期 に よ ら ずほぼ一定となっている.また,総務省情報通信研究 所 が 2004 年 2 月 に 実 施 し た WWW コ ン テ ン ツ 統 計 調 査 [3]に お い て も 1 ホ ス ト 当 た り の 平 均 ウ ェ ブ ペ ー ジ 数 は 202 ペ ー ジ と な っ て い る こ と か ら , 現 時 点 に お い て も 1 サ ー バ 当 た り の 平 均 Web ペ ー ジ 数 は , 200 ペ ー ジ 前後であると推測できる . 以上の結果から,1サーバ当たりのウェブページ数 を 200 と 仮 定 し ,2006 年 2 月 時 点 の ウ ェ ブ サ ー バ 数 76,184,000[4]と の 積 を と る こ と に よ り 約 150 億 ペ ー ジ と推定できる. し か し , 我 々 が 2006 年 2 月 ま で に 収 集 し た 120 億 ページを元に全世界のウェブページ数を推定すると 2006 年 2 月 時 点 で 静 的・動 的 ペ ー ジ を 含 め て 350 億 と 予 想 さ れ る .こ れ は ,近 年 CGI 等 に よ っ て 生 成 さ れ る 動 的 な Web ペ ー ジ が 急 増 し て い る こ と に 起 因 す る と 予想される. さらに,ウェブの構造に着目するとこれまでに様々 な 研 究 が 成 さ れ て い る . 1999 年 に 行 わ れ た Broder ら に よ る 研 究 [5]で は ,ウ ェ ブ の ペ ー ジ と リ ン ク を グ ラ フ の頂点と辺とみなすと,全体の約 3 割のページが一つ の強連結成分を成すと共に,約 9 割のページが一つの 連結成分を成すことが報告されている.この連結成分 の構造が,模式的に「蝶ネクタイ」の形を成していた た め ,「 蝶 ネ ク タ イ 構 造 」 と 呼 ば れ て い る . 一 方 , 2002 年 に 行 わ れ た Boldi ら に よ る ア フ リ カ の ウ ェ ブ の 解 析 [6]に お い て は ,蝶 ネ ク タ イ 構 造 を 確 認 す ることができず,最大の強連結成分を中心とし,そこ から他の複数の強連結成分へ連結するような構造とな っ て い る こ と が 報 告 さ れ て い る .ま た ,2003 年 に 行 わ れ た Lie ら に よ る 中 国 の ウ ェ ブ の 解 析 [7]に お い て は , 蝶 ネ ク タ イ 構 造 の 構 成 成 分 が 1999 年 の 解 析 結 果 と 異 なり,約 8 割のページが一つの強連結成分を成してい ることが報告されている. これらの調査に対し,本研究では,最新のウェブペ ージを用いた各種統計的な解析を行い最新の調査結果 を 示 す ,具 体 的 に は ,e-Society プ ロ ジ ェ ク ト [8]に よ っ て ,全 世 界 の ウ ェ ブ を 対 象 に 2006 年 2 月 末 ま で に 収 集 完 了 し た 120 億 ペ ー ジ の 内 、30 億 ペ ー ジ を 対 象 に 解 析 を行った. 以下 2 節では全世界のウェブページ総数について述 べ,以降はウェブページの解析について述べる.具体 的 に は ,3 節 で ウ ェ ブ 構 造 関 連 研 究 ,4 節 で は 解 析 対 象 となるデータセットについて述べる.5 節では解析プ ラットフォームについて,6 節で統計情報について述 べ る .7 節 で 強 連 結 成 分 の 解 析 に つ い て 述 べ ,8 節 で ま とめる. 2. 全 世 界 の ウ ェ ブ ペ ー ジ 総 数 我 々 は , 2006 年 2 月 の 時 点 で 既 知 の ホ ス ト 数 が 60,968,174 ホ ス ト で ,約 42% の ホ ス ト の 収 集 が 完 了 し , 12,003,683,320 ペ ー ジ を 集 め た . こ の こ と か ら ,1 サ ー バ あ た り の ウ ェ ブ ペ ー ジ 数 は , 12,003,683,320 ÷ (60,968,174 × 0.42) か ら 約 465 ページとなる. [4]に よ る と , 2006 年 2 月 時 点 の ウ ェ ブ サ ー バ 数 は 76,184,000 推 定 さ れ て お り , こ の 積 を と る こ と で , 全 世界のウェブページ総数は,静的・動的ページを含め て , 約 350 億 ペ ー ジ と 予 想 さ れ る . こ れ は , 近 年 増 加 す る .近 年 ブ ロ グ ,ポ ー タ ル サ イ ト ま た は ,EC サ イ ト の 増 加 に よ っ て ,動 的 に 生 成 さ れ る Web ペ ー ジ が 急 増 していることに起因すると予想される. 3. ウ ェ ブ 構 造 関 連 研 究 3.1. Graph Structure in the web[5] Broder ら は , 1999 年 に 収 集 し た 約 2 億 ペ ー ジ , 約 15 億 リ ン ク に つ い て 解 析 を 行 っ て い る .こ の 解 析 よ る と,ウェブ全体をグラフとして捉えると,図 1 のよう な蝶ネクタイ構造を成しており,ウェブページの約 9 割がひとつの連結成分を成している. ま た ,こ の 連 結 成 分 は CORE,IN,OUT,TENDRILS, 4 つ に 分 類 で き る . CORE は ひ と つ の 巨 大 な 強 連 結 な ペ ー ジ 群 , IN は CORE へ は 辿 れ る が , CORE か ら は 辿 れ な い ペ ー ジ 群 , 逆 に , OUT は CORE か ら は 辿 れ る が , CORE へ は 辿 れ な い ペ ー ジ 群 , TENDRILS は CORE か ら 辿 る こ と も ,CORE へ 辿 る こ と も で き な い ページ群である. 1999 年 に 収 集 し た デ ー タ で は 表 1 に 示 す と お り , CORE が 全 体 の 3 割 を 占 め , IN, OUT, TENDRILS は それぞれ 2 割であった. TENDRILS 44M CORE OUT IN 56M 44M 44M 図 1蝶 ネ ク タ イ 構 造 3.2. Structural Properties of the African Web[6] Boldi ら は , 2002 年 2 月 に 収 集 し た 200 万 ペ ー ジ , 2500 ホ ス ト の ア フ リ カ の ウ ェ ブ ペ ー ジ に 関 し て 解 析 を行っている. こ の 解 析 で は ,Border ら の 解 析 結 果 と 異 な り ,CORE は 存 在 し た が ,CORE か ら 辿 れ る が ,CORE へ は 辿 れ な い ,CORE よ り 小 さ い 強 連 結 成 分 が い く つ か 存 在 し た. 3.3. China Web Graph Measurements and Evolution [7] Lie ら は , 2003 年 の 5 月 に 収 集 し た , 約 1.4 億 ペ ー ジ , 約 43 億 リ ン ク に つ い て 解 析 を 行 っ て い る . この解析の結果,中国のウェブ構造は蝶ネクタイ構 造 を 成 し て い た が , CORE が 特 に 巨 大 化 し , 約 8 割 の ページが強連結成分を成しており,中国特有の構造で あると述べられている. 表 1 1999 年 と 2003 年 の ウ ェ ブ 構 造 の 成 分 Web Graph 1999 年 の Web[5] 2003 年 の China Web [7] CORE IN 0.56 億 約 28% 0.43 億 約 21% DISCO TEND RILS NNECT 0.43 億 0.44 億 0.17 億 約 21% 約 22% 約 8% 1.1 億 約 81% 0.17 億 約 12% 0.09 億 約 6% OUT 5.2. ソフトウェア 合 計 0.01 億 約 1% 4. 対 象 と す る ウ ェ ブ ペ ー ジ 我 々 が 収 集 し た 総 ウ ェ ブ ペ ー ジ は ,2004 年 1 月 か ら 2006 年 2 月 末 ま で で 120 億 ペ ー ジ で あ る . 本 稿 で は 、 解 析 に あ た り 2005 年 7 月 末 ま で に 収 集 し た 7,050,571,172 ペ ー ジ 中 の 3,935,592,289 ペ ー ジ , 3,652,232 ホ ス ト に つ い て 解 析 を 行 っ た .な お 、言 語 判 定 を 用 い た 解 析 で は , 言 語 判 定 を 適 用 し た 3,193,373,141 ペ ー ジ を 対 象 と し た . 収 集 に あ た っ て は ,2005 年 7 月 ま で は ,収 集 ロ ボ ッ ト ( ク ロ ー ラ ) を 国 内 5 拠 点 に 設 置 し た (内 2 拠 点 は 2004 年 末 に 追 加 ).現 時 点 で の 収 集 ロ ボ ッ ト の PC 数 は 合 計 70 台( 2CPU マ シ ン ×10 台 ,1CPU マ シ ン ×60 台 ) で あ る .こ れ ら の PC に ,起 点 と な る URL を 割 り 振 り , 収集するドメインを割り当てて収集を行った.起点と な る URL は 我 々 が 過 去 に 収 集 し た ペ ー ジ か ら 判 明 し て い る 起 点 を ベ ー ス に ,2003 年 9 月 時 点 で ア ク セ ス 可 能 な 600 万 の URL と し た . 起 点 と な っ た URL の ド メ イ ン の 内 訳 は 表 2の 通 り で あ る . 表 2 起 点 URL の ド メ イ ン の 内 訳 ドメイン 起点 数 com 3,895,782 org 575,550 edu 146,460 net 576,945 uk 212,799 jp 464,423 us,ca,at 131,788 合計 6,003,747 収 集 し た ペ ー ジ は , ベ イ シ ス の 言 語 判 定 [9]に よ り , 言語判定が行われる. 5. 解 析 プ ラ ッ ト フ ォ ー ム 解析を行うプラットフォームについて述べる. 5.1. ハードウェア 使 用 し た マ シ ン は , 128 台 ク ラ ス タ と Opteron の ワ ークステーションである.各スペックは以下の通りで ある. 128-ノ ー ド COE-ク ラ ス タ CPU: Pentium4 2.4GHz Memory: 1GB HDD: 400GB x 2 = 800GB ワークステーション CPU: Opteron 2.4GHz x 2 Memory 16GB HDD: 300GB x 12(RAID5+spare) x 2 = 4.7TB Gfarm( Grid File System) Version 1.2-2 グリッド環境を対象とした共有ファイル システム ペ タ ス ケ ー ル の ス ト レ ー ジ ,ス ケ ー ラ ビ リ テ ィ の あ る IO 解析データの保管場所 開発は産総研 GXP( Grid Explorer) Version 2.01 グリッド環境を対象とした分散シェル 多数のノードに一斉にコマンドを投入可 能 スケジューラーとして利用 開発は東大 5.3. 解 析 方 法 集 計 処 理 に つ い て は , 128 台 の ク ラ ス タ を 用 い , Gfarm 上 に デ ー タ を 保 存 し , GXP で 処 理 を 行 っ た . ま た ,リ ン ク 解 析 は ワ ー ク ス テ ー シ ョ ン で 処 理 を 行 っ た . 5.3.1. 集 計 処 理 集計処理の形式としては,1つのデータを変換する 1 対 1 処理,N 個のデータを1つに集約する N 対1処 理 ,ま た ,N 個 の デ ー タ を M 個 の キ ー ご と に 集 約 す る N 対 M 処理に分類できる. (a) 1 対 1 処 理 処 理 対 象 の デ ー タ サ イ ズ が 大 き く ,計 算 に 時 間 が か か る 場 合:こ の 場 合 ,計 算 を で き る だ け 均 等 に 行 う た め に ,デ ー タ を 分 割 し ,マ ス タ ー ワ ー カ ー 形 式 で 処 理 を 行 っ た ,分 割 し た デ ー タ は Gfarm 上 に 配 置 し ,す べ て の ノ ー ド 上 か ら 同 一 パ ス で ア ク セ ス で き る よ う に し , GXP を 用 い て 処 理 を 行 っ た . ま た 計 算 結 果 に つ い て は Gfarm の レ プ リ ケ ー シ ョ ン を 用 い て 複 製 を 作 成 し ,デ ィ ス ク の 障 害に備えた. 処 理 対 象 の デ ー タ サ イ ズ が 小 さ い 場 合 や ,計 算 に 時 間 が か か ら な い 場 合:こ の 場 合 ,ロ ー カ ル デ ィ ス ク 上 に 中 間 フ ァ イ ル を 保 存 し , GXP を 用 い て 並 列 処 理 を 行 っ た .計 算 結 果 に つ い て は ,重 要 な も の は バ ッ ク ア ッ プ を 別 途 に 保 存 し た が ,そ れ 以外は欠損した部分の再計算を行った. (b) N 対 1 処 理 集計するデータが大きい場合:まず各ホスト 上 で 集 約 を 行 い ,そ の 結 果 を Gfarm 上 に 保 存 し , あるホストにおいて全データの集約を行った. 集 計 す る デ ー タ が 小 さ い 場 合 : GXP の 集 約 機 能を利用する.特に数え上げる場合が相当する. (c) N 対 M 処 理 M 個 の キ ー を 数 千 個 以 下 に ま と め た M’個 の バ ケ ッ ト と し ,処 理 の フ ェ ー ズ を 3 つ に 分 け て 処理をした. 1. Gfarm 上 の N 個 フ ァ イ ル に 対 し て , 1 対 M’ の処理をマスターワーカー形式で処理を 行 い ,中 間 フ ァ イ ル を ロ ー カ ル に 保 存 す る . 2. ロ ー カ ル の M’個 の バ ケ ッ ト に 対 し て ,{N/ ホ ス ト 数 H}対 1 の 集 約 処 理 を 各 ホ ス ト 上 で 行 い , Gfarm 上 に 保 存 す る . 3. Gfarm 上 の M’個 の バ ケ ッ ト に 対 し て , {ホ ス ト 数 H}対 1 の 集 約 処 理 を マ ス タ ー ワ ー カー形式で処理する. Gfarm Version 1.2-2 で は , 多 数 の フ ァ イ ル を 作 成 すると,メタサーバがボトルネックとなり,性能が 劣化するため,ファイル数を減らすため,バケット として処理している. ま た , Google の MapReduce[10]と 比 較 す る と , 1 の フ ェ ー ズ が map,2 の フ ェ ー ズ が Combiner Function に , 3 の フ ェ ー ズ が reduce に 対 応 づ け る こ と が で き る. uk United Kingdom us United States 図 3は com ド メ イ ン を 除 い た TLD の 分 布 で あ る .JP ド メ イ ン が ほ か の ccTLD に 比 べ ,多 く 収 集 さ れ て い る . ま た ,it や fr な ど は ホ ス ト 数 に 比 べ ペ ー ジ 数 が 少 な い . 逆 に edu や net,org な ど は ホ ス ト 数 に 比 べ ペ ー ジ 数 が 多 く,ドメインによってページの偏りがあることがわか る. 450,000 リ ン ク 解 析 は ,ワ ー ク ス テ ー シ ョ ン 上 に て boost[11] の graph library を 用 い て 行 っ た . ウ ェ ブ の リ ン ク に 関 し て は , The Connectivity Server[12]や The WebGraph framework[13] な ど が 存 在 す る が , 本 研 究 で は ホ ス ト レベルでのリンク構造に着目したため,これらを考慮 し な か っ た .ま た ,boost の graph library に は ,並 列 化 バ ー ジ ョ ン の ,The Parallel Boost Graph Library[14]も 存 在するが,ページ単位の解析を行うにはよりスケーラ ビリティな方法を用いなければならない. 400,000 450,000,000 ホスト数 400,000,000 ホスト数 ページ数 350,000 350,000,000 300,000 300,000,000 250,000 250,000,000 200,000 200,000,000 150,000 150,000,000 100,000 100,000,000 50,000 50,000,000 0 at be biz ca cn cz de edu fr it jp kr name net nl org ro uk us 0 6. 統 計 情 報 Top Level Domain こ の 節 で は , 4節 で 述 べ た デ ー タ セ ッ ト の 統 計 情 報 図 3 TLD の 分 布 (com を 除 く ) を示す. ま た , 図 2と 図 3の グ ラ フ は , ホ ス ト 数 の 軸 と ペ ー 6.1. TLD(Top Level Domain)の の分 布 ジ 数 の 軸 の 目 盛 り を 1 ホ ス ト 1000 ペ ー ジ で 合 わ せ て あ 解 析 対 象 ペ ー ジ の Top Level Domain( TLD) の 分 布 を 示 す .図 2は ペ ー ジ 数 が 多 い 順 に 20 ド メ イ ン を 選 択 し ,TLD の ア ル フ ァ ベ ッ ト 順 に グ ラ フ に し た も の で あ る .com ド メ イ ン の 起 点 URL が 多 い た め ,com ド メ イ ン が 特 に 多 く ,ま た ペ ー ジ も か な り 多 く 存 在 し て い る . 図 2中 の 各 ccTLD(country code Top Level Domain)の 国 名 は , 表 3の 通 り で あ る . り,折れ線グラフが棒グラフより高い場合は,そのド 2,500,000 ホスト数 ページ数 2,500,000,000 2,000,000,000 1,500,000 1,500,000,000 1,000,000 1,000,000,000 ページ数 2,000,000 500,000 500,000,000 0 0 at be biz ca cn com cz de edu fr it jp kr name net nl org ro uk us ホスト数 ページ数 5.3.2. リ ン ク 解 析 Top Level Domain 図 2 TLD の 分 布 表 3 ccTLD の 対 応 表 ([15]よ より抜粋) ccTLD 名 at be ca cn cz de fr it jp kr nl ro 国名 Austria Belgium Canada China Czech Republic Germany France Italy Japan Korea, Republic of Netherlands Romania メ イ ン の 1 サ ー バ あ た り の ウ ェ ブ ペ ー ジ 数 が 1000 ペ ー ジを超えていることを示す. 6.2. 言 語 の 分 布 解析対象となるデータセットの言語の分布を示す (図 2). 判 定 す る 言 語 は , English, Japanese, Chinese, French, Korean, Spanish, German, Italian, Russian, Portuguese, Arabic で , そ れ 以 外 を Other と 判 定 し て い る . English が 3 分 の 2 の ペ ー ジ を 占 め て い た . JP ドメインの起点リストが多いため,日本語が 2 番目に 多い. Italian, 37,613,865 Spanish, 53,709,377 German, 65,360,246 Korean, 99,690,605 French, 109,316,075 Chinese, 113,570,607 Russian, 12,866,795 Portuguese, 10,449,922 Arabic, 8,033,523 Other, 140,620,139 Japanese, 420,263,035 English Japanese Chinese French Korean German Spanish Italian Russian Portuguese Arabic Other English, 2,121,878,952 図 4 言語の分布 次 に 表 4と 図 5は 言 語 と TLD の 関 係 を 示 す 表 と 図 で あ る .表 4は 各 言 語 の TLD の 内 訳 で あ る .Japanese 以 外 の 言 語 は ど れ も com ド メ イ ン が 最 も 多 く , 4 割 か ら 7 割 近 く が co m ド メ イ ン に よ っ て 占 め ら れ て い る . Arabic German English Spanish French Italian Japanes e Korean Portugu ese Russian Chinese com net 69.73% 16.20% com at 40.50% 15.58% com org 68.17% 11.77% com org 67.79% 13.04% com fr 58.60% 11.37% com it 41.61% 36.74% jp com 52.79% 36.97% com net 62.19% 18.63% com org 51.36% 16.99% com net 49.69% 14.70% com net 68.83% 13.96% org 10.41% de 11.17% net 5.83% net 6.69% org 9.09% org 7.64% net 7.56% org 13.16% br 11.90% org 14.68% cn 9.32% us 0.87% org 9.68% uk 3.61% mx 4.64% ca 7.75% net 7.36% org 1.55% kr 5.57% net 8.34% ua 4.71% org 5.39% ps 0.55% net 8.34% edu 3.43% es 1.38% net 6.18% us 1.28% tv 0.23% jp 0.17% pt 2.85% ru 2.97% jp 0.72% sa 0.42% name 6.29% us 2.13% us 1.16% be 3.59% edu 0.64% to 0.22% us 0.13% us 2.63% su 2.81% tw 0.62% ws 0.35% biz 1.13% ca 1.59% edu 0.76% edu 0.95% uk 0.60% st 0.14% edu 0.07% edu 1.02% kz 2.04% us 0.25% bh 0.25% ch 1.01% jp 0.71% cl 0.65% jp 0.48% biz 0.55% cc 0.14% uk 0.01% mx 0.77% lt 1.58% ca 0.22% it 0.17% uk 0.92% biz 0.66% ca 0.45% us 0.42% jp 0.48% bz 0.04% biz 0.01% jp 0.61% by 1.16% cc 0.22% 図 5は , ペ ー ジ 数 の 多 い 20 個 の TLD の 言 語 の 分 布 を示したグラフである. 100% Other Chinese Russian Portuguese Korean Japanese Italian French Spanish English German Arabic 90% 80% 言語の割合 70% 60% 50% 40% 30% 20% 10% at be biz ca c co n m cz de ed u fr it jp na k r m e ne t n or l g ro uk us 0% ドメイン 図 5 TLD ご と に お け る 言 語 の 分 布 be ド メ イ ン (Belgium)の Other は Belgium の 公 用 語 か ら 推 測 す る と Dutch だ と 考 え ら れ る .今 ,be ド メ イ ン の Other を Dutch と 仮 定 す る と , Dutch, France, Germany の 割 合 が 公 用 語 の 割 合 と 等 し い と 考 え ら れ る ([16]). ま た , cz ド メ イ ン (Czech Republic)の Other は Czech だ と 推 測 さ れ る ([16]).fr ド メ イ ン (France)で は , 公 用 語 は French で あ る が , 移 民 な ど が 多 い た め Other が 1 割 ほ ど 占 め て い る の と 推 測 さ れ る .name ド メ イ ン は ,Germany が 8 割 を 占 め て い た .さ ら に 詳 し く 調 べ た と こ ろ ,Germany の 一 つ ド メ イ ン 仲 介 取 引 業 者 の ペ ー ジ が 主 で あ っ た .確 認 で き た ホ ス ト 数 だ け で , 244 ホ ス ト , 3,988,721 ペ ー ジ を 持 っ て い た .( 表 5は 一部抜粋)この業者が持っていると推測されるドメイ ン を 除 い た と こ ろ Germany の 割 合 は 約 14% ま で 減 り , English の 割 合 が 約 68% と な っ た . nl ド メ イ ン (Netherlands)の Other は , Dutch だ と 推 測 さ れ る . ro ド メ イ ン (Romania)の Other は Romanian で あ る と 推 測 される. 表 5 仲 介 取 引 業 者 の ド メ イ ン (抜 抜粋) ホスト名 al gori t h m .na m e ページ 数 G e rm a n En gli sh Sp a ni sh F re n c h Ot h e r 2 8 ,7 3 2 2 7 ,9 2 0 810 1 0 1 www.a b m .n a m e 2 2 ,8 5 0 2 2 ,1 9 2 654 0 1 3 www.a d ol f- h i tl e r.n a m e 1 5 ,6 7 3 1 5 ,3 0 8 365 0 0 0 www.a d ol f.n a m e 1 5 ,6 6 8 1 4 ,9 4 4 723 1 0 0 www.a ffe .n a m e 1 6 ,8 8 6 1 6 ,7 0 0 186 0 0 0 www.a fri ka .n a m e 2 4 ,6 5 8 2 4 ,3 5 0 274 0 0 34 www.a l b e rt ei n st ei n .n a m e 1 5 ,3 6 9 1 4 ,9 2 8 441 0 0 0 www.a l gori t h m .na m e 2 0 ,4 3 8 1 9 ,6 6 4 773 0 0 1 www.a l m a n ac h .n a m e 1 7 ,1 0 8 1 7 ,0 1 4 88 0 0 6 www.a l t e rn at i vm e d iz i n .n am e 1 1 ,4 6 9 1 1 ,4 3 3 36 0 0 0 6.3. 静 的 ・ 動 的 ページ 収集対象のページは,リンクが存在する場合,ホス ト 上 に あ る フ ァ イ ル で あ る 静 的 ペ ー ジ で は な く , CGI などによって生成される動的ページも収集される.具 体的には, http://www.infoseek.co.jp/Keyword?pg=ranking_news_ if.html&svx=120&sv=KW#sports の ‘ ?’ を 含 む URL の ペ ー ジ も 収 集 さ れ て い る . 解 析 対 象 の デ ー タ セ ッ ト は ,ペ ー ジ 数 は 3,935,592,289 ペ ー ジ で ホ ス ト 数 は 3,652,232 ホ ス ト な の で ,1 ホ ス ト あ た り 約 1077.6 ペ ー ジ あ る こ と に な る . し か し , こ れ ま で の 調 査 に お い て , [1]の 1998 年 で は 1 ホ ス ト あ た り 190 ペ ー ジ , [2]の 1999 年 の 調 査 で は 186 ペ ー ジ , ま た [3]の 2004 年 の 調 査 で は 202 ペ ー ジ と な っ て お り , 1 ホ ス ト あ た り 200 ペ ー ジ 前 後 と 推 定され,解析対象の平均ページ数と大きく異なる. こ の 要 因 と し て は , CGI 等 に よ っ て 生 成 さ れ る 動 的 ページの増加が考えられる.以下では,動的ページの 割 合 を 調 査 す る た め に URL 中 に ’?’が 含 ま れ て い る URL を 動 的 ペ ー ジ , ’?’を 含 ま な い URL を 静 的 ペ ー ジ と仮定して調査を行った. 調 査 の 結 果 ,’?’を 含 む ペ ー ジ は 2,294,025,470 ペ ー ジ で ,逆 に 含 ま な い ペ ー ジ は 1,641,566,819 ペ ー ジ で ,動 的ページと静的ページの割合は約 6 対 4 となった.よ っ て , ’?’を 含 ま な い URL を 静 的 ペ ー ジ と 仮 定 し た 場 合 , 一 ホ ス ト あ た り 約 450 ペ ー ジ と な る . さらに,動的ページと静的ページの特徴を調べるた め,ディレクトリの階層の深さごとにページの数が異 な る か 調 査 を 行 っ た .( 図 6) 350 全ページ 静的ページ 動的ページ 300 ディレクトリ中の平均ページ数 表 4 言 語 ご と の TLD の 内 訳 250 200 150 100 50 0 階層1 階層2 階層3 階層4 階層5 ディレクトリの深さ 階層6 階層7以上 図 6 ディレクトリの深さとページ数 図 6の 階 層 1 と は , http://www.hoge.com/index.html http://www.hoge.com/index2.html http://www.hoge.com/index.php?abc=hoge http://www.hoge.com/index.php?abc=fuga な ど の Web サ ー バ の ル ー ト の デ ィ レ ク ト リ に あ る 平均のページ数で,階層 2 とは, http://www.hoge.com/fuga/index.html http://www.hoge.com/fuga/a.html の 平 均 ペ ー ジ 数 で , 階 層 3, 階 層 4 と そ れ ぞ れ の デ ィレクトリの深さの平均ページ数である. この結果動的ページは,階層 2 まで増加し,階層 3 から減少しており,動的ページは深い階層には比較的 少ないことがわかる.また,静的ページでは階層 3 が 突出して多い.これについて調査したところ,あるポ ルノサイトやドメイン仲介業者が多数のホスト,多数 のページを持っていることがわかった. これを調べるに当たり,次の手順で調査を行った. 1. ホストを,1ホストあたりのページ数ごとに適 当な区間で分割した 2. 分割したホストごとに,階層ごとのページ数の 類似度でクラスタリングを行った. 3. 各クラスタでホスト数や総ページ数が多いクラ スタからサンプリングを行いどのようなホスト が集まったか調査した. この調査の結果,同様なホストが集まっていたクラ ス タ の メ デ ィ ア ン を 表 6に 示 す . 比 較 の た め に 静 的 ペ ージも示す. ページ数 階層 1 階層 2 階層 3 階層 4 階層 5 4 42 . 8 2 4 9, 84 7 . 7 4 1 04 , 5 7 7. 4 6 1 71 , 2 0 5. 1 6 9 3, 32 4 . 7 6 1 81 , 3 4 5. 3 2 3 42 , 2 4 0. 3 4 6 3. 96 9 4. 57 2 0. 40 3 1. 98 9 2, 25 9 . 8 1 1 80 , 7 5 8. 7 1 3 40 , 8 9 6. 3 8 6 2. 81 5 22 . 8 4 3 13 . 0 7 1 82 . 1 1 7 03 . 8 8 2 57 . 9 3 1, 1 82 . 98 1 94 . 8 5 4 8, 53 9 . 6 2 1 03 , 9 8 7. 7 0 1 70 , 3 3 3. 7 6 1 87 . 1 2 2 26 . 1 5 1 46 . 0 6 4 3. 93 3 95 . 7 2 2 06 . 7 9 5 00 . 9 0 5 2. 80 1 01 . 7 5 1 0. 82 2 8. 42 1 41 . 2 9 1 2. 28 1 32 . 6 0 4 2. 84 0. 7 1 3. 9 7 ま た , 表 6の ク ラ ス タ に 含 ま れ る ホ ス ト と ’ ?’ を 含 む URL を 除 い た 場 合 の デ ィ レ ク ト リ の 深 さ ご と の 平 均 ペ ー ジ 数 を 図 7に 示 す . こ の と き の ペ ー ジ 数 は , 993,141,984 ペ ー ジ で , ホ ス ト 数 は 3,616,797 ホ ス ト と な り ,ホ ス ト あ た り の 平 均 ペ ー ジ 数 は 274.59 と な っ た. 250 ディレクトリ中の平均ページ数 7.1. TLD ごとのホストグラフ ごとの ホストグラフ 表 7に 各 TLD に 分 割 し た ホ ス ト グ ラ フ の 統 計 を 示 す. 表 7 TLD ご と の ホ ス ト グ ラ フ TLD co m de ed u fr it jp kr n et o rg ru ホスト数 1 .3 1 M 3 .0 2 K 80 586 593 380K 209 5 .8 2 K 3 .7 4 K 141 ページ 数 2 .7 6 G 8 .4 3 M 600K 563K 1 .5 7 M 369M 2 .4 0 M 15M 12M 450K 内部 リンク 66G 322M 11M 18M 46M 9 .6 7 G 62M 422M 317M 26M 外部 リンク 14G 2 .0 7 M 242K 359K 218K 1 .0 3 G 25K 25M 7 .8 3 M 265K 同 一 ドメ インへ の リンク 14G 77K 161 894 19K 950M 590 5 .4 0 M 1 .5 2 M 301 ま た ,TLD ご と の リ ン ク 先 TLD の 分 布 を 示 す (表 9). JP ド メ イ ン 以 外 の ド メ イ ン で は , COM ド メ イ ン へ の 表 6 階層の類似度によるクラスタ 静 的 ページ 主 に ポ ルノ 主 に ポ ルノ 主 に ポ ルノ 主 に業 者 主 に業 者 主 に業 者 ージを一つの頂点とみなし,他のホストへのリンクす べてをその頂点からの辺としたホストグラフを解析対 象とした また,解析に使用したデータセットは,総ページ数 3,208,139,905 ペ ー ジ , ペ ー ジ 間 の 総 リ ン ク 数 は 93,397,065,743 リ ン ク で あ る . ペ ー ジ 間 の 総 リ ン ク 数 の内,ホスト内に閉じている内部リンク数は, 77,971,241,488 で , ホ ス ト 外 へ リ ン ク し て い る 外 部 リ ン ク は , 15,425,824,255 で あ る . ホ ス ト 数 は 1,719,134 ホ ス ト , ホ ス ト 間 の リ ン ク 数 は 91,084,879 で あ る . リ ン ク が 多 い .こ れ は ,JP ド メ イ ン を 初 期 に 集 中 し て 収集した影響だと考えられる. 表 8 TLD ご と の リ ン ク 先 TLD の 分 布 外部 co m d e ed u fr it jp kr n et o rg ru o th リンク co m 1 4 G 9 8 .8 0 % 0 .0 1 % 0 .0 0 % 0 .0 1 % 0 .0 0 % 0 .8 9 % 0 .0 0 % 0 .1 5 % 0 .0 8 % 0 .0 0 % 0 .0 5 % d e 2 .0 7 M 8 4 .4 1 % 3 .7 3 % 0 .0 3 % 0 .1 0 % 0 .1 4 % 3 .6 5 % 0 .0 3 % 0 .0 6 % 1 .8 3 % 0 .0 2 % 6 .0 0 % ed u 2 4 2 K 9 9 .0 1 % 0 .0 0 % 0 .0 7 % 0 .0 0 % 0 .0 0 % 0 .3 1 % 0 .0 0 % 0 .0 8 % 0 .4 0 % 0 .0 0 % 0 .1 3 % fr 3 5 9 K 9 9 .0 9 % 0 .0 0 % 0 .0 0 % 0 .2 5 % 0 .0 0 % 0 .1 6 % 0 .0 0 % 0 .2 1 % 0 .0 9 % 0 .0 0 % 0 .2 0 % it 2 1 8 K 8 8 .3 6 % 0 .1 2 % 0 .0 4 % 0 .0 2 % 8 .7 4 % 1 .0 0 % 0 .0 0 % 0 .0 4 % 0 .8 2 % 0 .0 8 % 0 .7 9 % jp 1 .0 3 G 7 .3 4 % 0 .0 1 % 0 .0 0 % 0 .0 0 % 0 .0 0 % 9 1 .8 8 % 0 .0 0 % 0 .4 2 % 0 .0 8 % 0 .0 0 % 0 .2 6 % kr 2 5 K 9 3 .4 1 % 0 .0 0 % 0 .0 0 % 0 .0 0 % 0 .0 0 % 1 .6 6 % 2 .3 5 % 0 .0 6 % 2 .4 8 % 0 .0 0 % 0 .0 4 % n et 2 5 M 3 3 .7 4 % 0 .0 3 % 0 .0 0 % 0 .0 1 % 0 .0 1 % 4 1 .0 0 % 0 .0 0 % 2 1 .7 1 % 1 .1 8 % 0 .0 0 % 2 .3 2 % o rg 7 .8 3 M 4 7 .4 6 % 0 .3 3 % 0 .0 0 % 0 .0 0 % 0 .0 1 % 2 9 .5 3 % 0 .0 2 % 1 .9 5 % 1 9 .4 7 % 0 .0 0 % 1 .2 3 % ru 2 6 5 K 9 9 .6 6 % 0 .0 0 % 0 .0 2 % 0 .0 0 % 0 .0 0 % 0 .0 5 % 0 .0 0 % 0 .0 0 % 0 .1 4 % 0 .1 1 % 0 .0 2 % o th 1 4 M 4 5 .1 5 % 0 .6 2 % 0 .0 1 % 0 .0 3 % 0 .0 1 % 2 3 .5 0 % 0 .0 0 % 0 .5 9 % 0 .8 9 % 0 .0 1 % 2 9 .2 0 % TLD 7.2. 言 語 によるホスト による ホストの ホスト の 分 類 200 静的ページ 特定ページを除外したページ数 150 100 50 0 階層1 階層2 階層3 階層4 階層5 ディレクトリの深さ 階層6 階層7 図 7 特定のページを除外した場合 7. 強 連 結 成 分 の 解 析 強連結成分の解析は,グラフ理論の強連結成分抽出 を TLD ご と ,言 語 ご と に 行 う .ま た 全 体 の 概 要 を 把 握 す る た め に ,解 析 対 象 の グ ラ フ は ペ ー ジ 単 位 で は な く , ホスト単位とした.つまり,ホストが持つすべてのペ 言語別の解析をホスト単位で行うため,ホストを言 語ごとに分類する必要がある.分類するにあたりホス ト で 最 も 使 用 さ れ て い る 言 語 を 元 に 分 類 し た .た だ し , 複数の言語を使用しているホストは解析対象外とした. そのため,まずホストを分類するにあたり,複数の 言 語 を 使 用 す る ホ ス ト を 除 外 し た . 図 8は 最 も 使 用 さ れている言語で何割のページが占有しているかを横軸 に,そのホストの割合を縦軸とした図である. 95.00% 95.00% 90.00% 90.00% 85.00% 85.00% 80.00% 80.00% 75.00% 75.00% ホスト数の累積(%) 70.00% ページ数の累積(%) 100.00% ホスト数の累積(%) 100.00% 70.00% ホストの持つ総ページ数の累積(%) 65.00% ホスト内での最も多い言語のページの累積(%) 60.00% 65.00% 60.00% 99% 94% 89% 84% 79% 74% 69% 64% 59% 54% 最も使用されている言語がホスト内で占めるページの割合 (ar de en es fr it ja ko pt ru zhが対象) 図 8 単一言語の占有率 図 8に よ る と , ホ ス ト が 保 有 す る 7 割 以 上 の ペ ー ジ が単一の言語のみを使用しているホスト数は 9 割を占 めている.よって,ホストの分類はホストの保有する ページの 7 割が単一の言語であるホストを抽出し分類 し た . (図 9) 10,000,000 外部 A r Ch En Fr Ge It Ja K o P o Ru Sp リンク Ara b i c 8 .6 1 M 6 9 % 0% 11% 0% 0% 0% 0% 0% 0% 0% 0% Ch in ese 2 5 3 M 0% 78% 8% 0% 0% 0% 0% 0% 0% 0% 0% En g li sh 4 .0 3 G 0% 0% 95% 0% 0% 0% 1% 0% 0% 0% 0% F ren ch 79M 0% 0% 19% 69% 0% 0% 0% 0% 0% 0% 0% G erma n 17M 0% 0% 65% 2% 14% 2% 2% 1% 0% 0% 2% It a li a n 14M 0% 0% 39% 1% 1% 33% 3% 0% 0% 0% 1% J a p an ese 2 .5 0 G 0% 0% 2% 0% 0% 0% 54% 0% 0% 0% 0% K o rea 47M 0% 0% 6% 0% 0% 0% 0% 85% 0% 0% 0% Po rt u g u ese 1 .8 5 M 0% 1% 42% 1% 0% 0% 1% 1% 35% 0% 4% Ru ssi a n 3 .1 4 M 0% 0% 36% 0% 0% 0% 0% 0% 0% 49% 0% Sp a n i sh 36M 0% 0% 15% 0% 0% 0% 1% 0% 1% 0% 65% Ot h er 8 .4 4 G 0% 0% 11% 0% 0% 0% 60% 0% 0% 0% 0% 言語 Ot 21% 14% 4% 11% 13% 22% 44% 9% 16% 15% 18% 29% 表 12 は , ホ ス ト レ ベ ル で の 強 連 結 成 分 の 解 析 結 果 を示す. 100,000,000 10,000 10,000,000 ページ数 ホスト数 表 11 言 語 ご と の リ ン ク 先 言 語 の 割 合 表 12 ホ ス ト レ ベ ル で の 蝶 ネ ク タ イ 構 造 CO RE IN O UT Ot h er 6 2 4 ,1 7 3 1 4 7 ,7 9 4 6 2 1 ,7 8 8 3 2 5 ,3 7 9 3 6 .3 0 % 8 .6 0 % 3 6 .2 0 % 1 8 .9 0 % To t a l 1 ,7 1 9 ,1 3 4 1,000,000 ホストの 割 合 ic Ar ab n tu gu es e n lia ss ia Ot he r ホストあたり の ページ 数 図 9 言語別ホストのホスト数とページ数 また,分類したホストが適切に分類されているか調 べるため,分類したホストが保有するページの言語の 割 合 を 調 査 し た . 表 9は 縦 に 分 類 , 横 に 言 語 割 合 を 示 した表で,ホストごとの言語の割合を求め,分類内で 平均した値を示したものである.どの分類も 9 割以上 分類した言語によって,占められていた. 表 9 各分類における言語の分布 A r a b ic G e r m a n En g l i s h Sp a n i s h F r e n c h I t a l ia n J ap a n e s e K or e an P o r t u Ru s s i a n C h in e s e O t h e r guese A r a b ic 9 5. 50 % 0. 0 1% 2. 8 2% 0. 0 8% 0. 1 0% 0. 0 8% 0% 0 % 0. 0 2% 0% 0 % 1. 3 4% German 0 % 9 5. 26 % 2. 4 5% 0. 0 5% 0. 1 7% 0. 4 1% 0. 0 2% 0 % 0. 0 2% 0% 0 % 1. 5 6% En g l i s h 0 % 0. 2 2% 9 7. 35 % 0. 1 1% 0. 3 0% 0. 5 1% 0. 0 7% 0 % 0. 0 3% 0 % 0. 0 2% 1. 3 3% Sp a n i s h 0 % 0. 0 8% 2. 3 9% 9 4. 87 % 0. 1 8% 0. 4 7% 0. 0 1% 0 % 0. 4 3% 0% 0 % 1. 5 2% French 0 % 0. 1 3% 2. 4 7% 0. 1 7% 9 5. 07 % 0. 4 6% 0. 0 2% 0 % 0. 0 3% 0 % 0. 0 1% 1. 5 9% I t a l ia n 0 % 0. 2 2% 3. 1 6% 0. 1 2% 0. 2 0% 9 3. 52 % 1. 3 8% 0 % 0. 0 4% 0% 0 % 1. 3 0% J ap a n e s e 0 % 0. 0 4% 1. 9 5% 0. 0 2% 0. 0 8% 0. 1 4% 9 5. 16 % 0% 0% 0 % 0. 0 3% 2. 5 3% K or e an 0 % 0. 0 7% 1. 7 0% 0. 0 1% 0. 1 9% 0. 1 5% 0. 0 6% 9 5. 44 % 0. 0 1% 0 % 0. 0 9% 2. 2 2% Portu 0 % 0. 0 4% 1. 5 6% 0. 2 3% 0. 0 8% 0. 1 9% 0% 0 % 9 7. 22 % 0% 0 % 0. 6 3% guese 0. 0 1% 0. 0 7% 3. 1 0% 0. 0 2% 0. 0 9% 0. 5 2% 0 % 0. 0 3% 1. 8 0% 0 % 0. 1 5% 0. 3 5% 0. 0 3% 0% 0. 0 4% 0. 0 1% 0 % 9 4. 55 % 0 % 1. 5 5% 0% 0 % 9 6. 52 % 1. 0 5% 7.3. 言 語 ごとのホストグラフ ごとの ホストグラフ 表 10に 7.2で 行 っ た ホ ス ト 分 類 ご と に 分 割 し た 各 言 語のホストグラフの統計を示す. 表 10 言 語 ご と の ホ ス ト グ ラ フ ホスト数 422 35K 756K 20K 11K 5 .4 1 K 336K ページ 数 4 .9 6 M 86M 1 .5 7 G 59M 27M 11M 519M ホストが 保 有 2 ,1 0 2 ,9 7 1 ,3 2 1 6 3 3 ,5 3 0 ,0 3 5 3 4 6 ,2 5 1 ,6 1 6 1 2 5 ,3 8 6 ,9 3 3 3 ,2 0 8 ,1 3 9 ,9 0 5 するページ 数 ページ の 割 合 Po r Ita Ru ish Ge rm an Ko re an Sp an ine se Fr en ch an es e Ch Ja p En gli sh 100,000 言語 Ara b i c Ch in ese En g li sh F ren ch G erma n It a li a n J a p an ese 40M 651K 1. 5 4 M 23M 2. 4 8 G 1,000,000,000 100,000 100 言語 47M 1 .8 5 M 3 .1 4 M 36M 8 .4 4 G ま た ,言 語 ご と の リ ン ク 先 言 語 の 割 合 を 示 す (表 11). ホスト数 Ru s s i a n C h in e s e 1 .5 5 G 66M 276M 1 .2 0 G 8 .1 9 G 7.4. 強 連 結 成 分 の 解 析 結 果 ホストが持つ総ページ数 1,000 66M 3 .1 4 M 4 .7 5 M 31M 825M 10,000,000,000 ホスト数 1,000,000 5 .9 7 K 3 .7 5 K 1 .0 2 K 11K 534K K o rea Po rt u g u ese Ru ssi a n Sp a n i sh Ot h er 内 部 リンク 外 部 リンク 99M 2 .6 0 G 48G 2 .2 6 G 860M 440M 13G 8 .6 1 M 253M 4 .0 3 G 79M 17M 14M 2 .5 0 G 同言語へ の リンク 5. 9 0 M 196M 3. 8 1 G 55M 2. 4 2 M 4. 4 1 M 1. 3 6 G 6 5 .6 0 % 1 9 .7 0 % 1 0 .8 0 % 3 .9 0 % 3 ,3 6 9 .2 0 4 ,2 8 6 .6 0 5 5 6 .9 3 8 5 .4 1 ,8 6 6 .1 0 表 12か ら 推 測 す る と ,Broder ら の 調 査 し た 1999 年 の ウ ェ ブ よ り も CORE が 大 き い と 予 想 さ れ ,ま た ,Lie ら は , China Web の CORE の 巨 大 化 は , 中 国 特 有 の 現 象 と 主 張 し て い た が ,全 世 界 的 に も CORE は 巨 大 化 し ていると予想される. 7.5. TLD ごとの強 ごとの 強 連 結 成 分 TLD ご と に ウ ェ ブ を 分 割 し て ,ホ ス ト レ ベ ル で 強 連 結 成 分 の 解 析 を 行 い , 各 成 分 の ペ ー ジ の 割 合 を 表 13 に示す. 表 13 TLD ご と の 強 連 結 成 分 TLD co m de ed u fr it jp kr n et o rg ru ページ 数 2 .7 6 G 8 .4 3 M 600K 563K 1 .5 7 M 369M 2 .4 0 M 15M 12M 450K 同 一 ドメ イン へ の リンク 14G 77K 161 894 19K 950M 590 5 .4 0 M 1 .5 2 M 301 S CC 5 3 .6 5 % 0 .2 5 % 0 .0 5 % 0 .0 1 % 0 .1 1 % 2 6 .4 6 % 0 .0 0 % 0 .5 2 % 0 .6 1 % 0 .7 7 % IN 1 9 .7 3 % 0 .0 5 % 0 .0 0 % 0 .0 2 % 0 .0 4 % 1 .7 7 % 0 .0 0 % 0 .1 7 % 0 .3 8 % 0 .0 5 % O UT 2 2 .2 5 % 7 8 .3 6 % 1 4 .4 4 % 2 5 .3 3 % 0 .0 4 % 7 1 .3 2 % 1 .0 9 % 3 5 .4 2 % 6 4 .2 5 % 0 .4 9 % Ot h er 4 .3 7 % 2 1 .3 4 % 8 5 .5 1 % 7 4 .6 3 % 9 9 .8 1 % 0 .4 6 % 9 8 .9 1 % 6 3 .8 9 % 3 4 .7 6 % 9 8 .7 0 % そ の 結 果 ,com ド メ イ ン と jp ド メ イ ン 以 外 は ,巨 大 な 強 連 結 が 存 在 せ ず , jp ド メ イ ン で も 26%と Broder らの調査の調査よりも小さくなった.ここから推測さ れることは,ウェブはドメインごとには分かれていな いことが予想される. 7.6. 言 語 ごとの強 ごとの 強 連 結 成 分 7.2 で 行 っ た ホ ス ト 分 類 ご と に 強 連 結 成 分 を 解 析 し た 結 果 が , 表 14で , 各 成 分 の ペ ー ジ の 割 合 を 示 し た . 表 14 言 語 ご と の 強 連 結 成 分 言語 ページ 数 4 .9 6 M 86M 1 .5 7 G 59M 27M 11M 519M 66M 3 .1 4 M 4 .7 5 M 31M 825M Ara b i c Ch in ese En g li sh F ren ch G erma n It a li a n J a p an ese K o rea Po rt u g u ese Ru ssi a n Sp a n i sh Ot h er 同言語へ の リンク 5. 9 0 M 196M 3. 8 1 G 55M 2. 4 2 M 4. 4 1 M 1. 3 6 G 40M 651K 1. 5 4 M 23M 2. 4 8 G CO RE 6 1 .4 3 % 7 6 .8 8 % 6 6 .9 0 % 6 1 .8 5 % 2 6 .6 1 % 2 3 .6 7 % 7 1 .0 5 % 5 4 .3 2 % 2 6 .6 0 % 3 5 .7 6 % 6 4 .9 3 % 7 .2 4 % IN 1 0 .2 0 % 9 .9 8 % 9 .0 4 % 9 .2 3 % 8 .1 6 % 1 7 .1 0 % 2 5 .8 5 % 1 7 .0 7 % 4 .9 4 % 1 8 .2 0 % 5 .3 0 % 1 .9 8 % O UT 1 8 .5 9 % 1 0 .5 7 % 1 6 .4 4 % 2 0 .6 5 % 4 2 .1 8 % 2 9 .5 4 % 2 .5 4 % 1 9 .3 6 % 4 2 .1 8 % 1 8 .3 5 % 2 3 .6 0 % 9 .3 2 % Ot h er 9 .7 8 % 2 .5 7 % 7 .6 2 % 8 .2 7 % 2 3 .0 5 % 2 9 .6 9 % 0 .5 6 % 9 .2 5 % 2 6 .2 8 % 2 7 .6 9 % 6 .1 6 % 8 1 .4 7 % Chinese の 構 成 比 を 見 る と , Lie ら の 調 査 し た China Web と 似 た よ う な 比 に な っ て お り , Chinese は 他 の 言 語 と 比 べ て も CORE の 比 が 最 も 大 き く な っ て い る .た だし,日本語のページも同じような構成比となってい る. 8. お わ り に 本 稿 で は ,2006 年 2 月 ま で に 収 集 を し た 120 億 ペ ー ジ を 元 に 推 定 す る と 2006 年 2 月 時 点 で 350 億 ペ ー ジ が 存在するという結果を得た. ま た , 約 30 億 の ウ ェ ブ を 対 象 に , ホ ス ト レ ベ ル で の 強 連 結 成 分 を 行 っ た . ま た , ホ ス ト を Top Level Domain や 主 要 言 語 別 に 分 類 し , そ れ ぞ れ の 強 連 結 成 分を比較した. そ の 結 果 , 1999 年 の ウ ェ ブ に 比 べ る と CORE が 巨 大 化 し て い る こ と が 判 明 し た .Top Level Domain ご と 解 析 よ る と ,ウ ェ ブ は Top Level Domain ご と に は 分 か れ ていないことが判明した.また,主要言語別の解析に よ れ ば ,中 国 語 や 日 本 語 で は よ り CORE が 巨 大 化 す る 傾向にあることが判明した. 今後の課題としては,解析の対象が収集したページ の一部であったが,収集した全ページを対象に調査を 行う.また,強連結成分の解析は,ホストレベルの解 析であったが,ページレベルでの解析を行い,より詳 細調査を行う. 謝 辞 本 研 究 の 一 部 は ,文 科 省 21 世 紀 COE「 プ ロ ダ ク テ ィ ブ ICT ア カ デ ミ ア 」 及 び 科 学 技 術 振 興 費 「 e-Society」 プロジェクトによるものである. 富 士 通 株 式 会 社 及 び FFC シ ス テ ム の 皆 様 に 深 く 感 謝 いたします. 文 献 [1] S.Lawrence, C.L.Giles:"Searching the World Wide Web", Science, Vol.280, No.5360, pp.98-100 1998) [2] S.Lawrence, C.L.Giles:"Accessibility of Information on the Web", Nature, Vol.400, pp.107-109 1999) [3] 総 務 省 情 報 通 信 政 策 研 究 所 :WWW コ ン テ ン ツ 統 計調査報告書, http://www.soumu.go.jp/iicp/chousakenkyu/seika/ho ukoku.html 2004.7) [4] Netcraft Home Page, http://www.netcraft.co.uk/ [5] A. Broder, R. Kumar, F. Maghoul, P. Raghavan R. State, A. Tomkins, and J. Wiener. Graph structure in the web, Proc. 9th World Wide Web Conf. 2000.5) [6] P. Boldi, B. Codenotti, M. Santini, and S. Vigna. Structural properties of the African web. 2002. [7] G. Lie, Y. Yu, J. Han, G. Xue: China web graph measurements and evolution, Proc. Asia Pacific Web Conf., LNCS, Vol.3399,pp668-679 2005.3) [8] e-Society プ ロ ジ ェ ク ト http://www.yama.info.waseda.ac.jp/~yamana/es/ [9] Basis Technology Rosette 言 語 判 別 シ ス テ ム http://www.basistech.co.jp/language-identification/ [10] Dean, J. and Ghemawat, S. MapReduce: Simplified Data Processing on Large Clusters in OSDI'04: 6th Symp, 2004. [11] BOOST. http://www.boost.org [12] K. Bharat, A. Broder, M. Henzinger, P. Kumar, and S. Venkatasubramanian. The connectivity server: fast access to linkage information on the web, Proc. 7th WWW, 1998. [13] Paolo Boldi and Sebastiano Vigna. The WebGraph framework I: Compression techniques. In Proc. of the Thirteenth International World Wide Web Conference, pages 595-601, Manhattan, USA, 2004. ACM Press. [14] D. Gregor, N. Edmonds, B. Barrett, and A. Lumsdaine. The Parallel Boost Graph Library. http://www.osl.iu.edu/research/pbgl, 2005. [15] IANA : Root-Zone Whois Index by TLD Code, http://www.iana.org/cctld/cctld-whois.htm [16] Wikipedia: フ リ ー 百 科 事 典 『 ウ ィ キ ペ デ ィ ア ( Wikipedia)』 , http://ja.wikipedia.org/