...

Fact of the Web

by user

on
Category: Documents
81

views

Report

Comments

Transcript

Fact of the Web
DEWS2006 3B-i6
Fact of the Web
-30 億ページのウェブの解析-
加藤真†
山名早人††,†††
†早稲田大学大学院理工学研究科 〒169-85555 東京都新宿区大久保 3-4-1
††早稲田大学院理工学術院 〒169-85555 東京都新宿区大久保 3-4-1
†††国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: †[email protected], ††[email protected]
あらまし 現在ウェブサーバから発信されている情報量は,2006 年 2 月の時点で静的なページだけでも 150 億ペ
ージ以上あると推測される.これは,全世界の Web ページ数を推定した過去の 3 つの研究から1ウェブサーバ当た
りの平均ウェブページ数を 200 ページと仮定し,ウェブサーバ総数 7618 万台との積をとったものである.しかし,
我々が 2006 年 2 月までに収集をした 120 億ページを元に推定すると 2006 年 2 月時点で 350 億ページが存在すると
いう結果を得た.これは,近年動的に生成されるウェブページが急増していることに起因するものと考えられる.
また,本稿では,これまでに収集した 120 億ページの内,30 億ページについてウェブ構造を中心に様々な解析を行
った.その結果,最近のウェブ構造は、いわゆる「蝶ネクタイ」構造の真ん中(CORE)の部分が巨大化している
ことが判明した.特に,中国語や日本語でこの傾向が強いことがわかった.
キーワード Web とインターネット,知識発見,データマイニング
Fact of the Web
-Analysis of 3 Billion Web Pages-
Shin KATO†
and Hayato YAMANA††,†††
†Graduate School of Science and Enginnering, Waseda University 3-4-1 Okubo, Shinjuku-ku, Tokyo 169-8555 Japan
††Science and Engineering, Waseda University 3-4-1 Okubo, Shinjuku-ku, Tokyo 169-8555 Japan
†††National Institute of Infomatices 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo 101-8430 Japan
E-mail: †[email protected], ††[email protected]
Abstract The number of static web pages is estimated over 15 billion in Feb 2006. This is multiplying 200 pages by 76.18
million web servers, where 200 pages means the average number of web pages and are assumed from past three researches.
However, based on the analysis of 12 billion web pages that we have crawled by Feb. 2006, we estimate the total number of
web pages as 35 billion. This is because dynamic web pages are rapidly increased in recent years. And we also analyzed web
structure using 3 billion web pages. As a result, we figure out that the size of "CORE", the center component of bow-tie
structure, is increasing in recent years, especially in Chinese and Japanese web.
Key words Web and Internet, Knowledge Discovery, Data Mining
1. は じ め に
現在ウェブサーバから発信されている情報量は静
的 な ペ ー ジ だ け で も ,2006 年 2 月 時 点 で ,約 150 億 ペ
ージと推測される.
ウ ェ ブ の 規 模 に つ い て は ,NEC 北 米 研 究 所 の 主 任 研
究 員 で あ っ た Lawrence ら に よ る 推 計 が 有 名 で あ る .
1998 年 に Science 誌 に 掲 載 さ れ た 論 文 [1]で は ,同 一 の
検索語を用いて複数の検索エンジンで検索し,複数の
検索エンジンの検索結果の重なりの度合いからウェブ
ページ数を推計している.推計にあたっては,各検索
エンジンがインデックスしているページ数と検索結果
の 重 な り の 度 合 い を 用 い る .本 手 法 に よ れ ば ,1997 年
末 時 点 の ウ ェ ブ ペ ー ジ 数 は 3.2 億 ペ ー ジ で あ る . さ ら
に , 1999 年 に Nature 誌 に 掲 載 さ れ た Lawrence ら の 論
文 [2]で は , 360 万 個 の IP ア ド レ ス に 対 し て 80 番 ポ ー
トでウェブサーバが立ち上がっているかを調査すると
共 に ,2500 台 の ウ ェ ブ サ ー バ に 対 し て 実 際 に ウ ェ ブ ペ
ー ジ 収 集 を 行 っ て い る .こ れ に よ り ,IP ア ド レ ス 空 間
上の推定ウェブサーバ数とウェブサーバ当たりの平均
ウ ェ ブ ペ ー ジ 数 と の 積 を 求 め , 1999 年 2 月 時 点 で 約 8
億 の Web ペ ー ジ が 存 在 す る と 推 計 し て い る .
文 献 [1]で の 1 ウ ェ ブ サ ー バ 当 た り の 平 均 ウ ェ ブ ペ ー
ジ 数 は 190 ペ ー ジ ,文 献 [2]で の 1 サ ー バ 当 た り の 平 均
ウ ェ ブ ペ ー ジ 数 は 186 ペ ー ジ で あ り , 推 計 時 期 に よ ら
ずほぼ一定となっている.また,総務省情報通信研究
所 が 2004 年 2 月 に 実 施 し た WWW コ ン テ ン ツ 統 計 調
査 [3]に お い て も 1 ホ ス ト 当 た り の 平 均 ウ ェ ブ ペ ー ジ 数
は 202 ペ ー ジ と な っ て い る こ と か ら , 現 時 点 に お い て
も 1 サ ー バ 当 た り の 平 均 Web ペ ー ジ 数 は , 200 ペ ー ジ
前後であると推測できる .
以上の結果から,1サーバ当たりのウェブページ数
を 200 と 仮 定 し ,2006 年 2 月 時 点 の ウ ェ ブ サ ー バ 数
76,184,000[4]と の 積 を と る こ と に よ り 約 150 億 ペ ー ジ
と推定できる.
し か し , 我 々 が 2006 年 2 月 ま で に 収 集 し た 120 億
ページを元に全世界のウェブページ数を推定すると
2006 年 2 月 時 点 で 静 的・動 的 ペ ー ジ を 含 め て 350 億 と
予 想 さ れ る .こ れ は ,近 年 CGI 等 に よ っ て 生 成 さ れ る
動 的 な Web ペ ー ジ が 急 増 し て い る こ と に 起 因 す る と
予想される.
さらに,ウェブの構造に着目するとこれまでに様々
な 研 究 が 成 さ れ て い る . 1999 年 に 行 わ れ た Broder ら
に よ る 研 究 [5]で は ,ウ ェ ブ の ペ ー ジ と リ ン ク を グ ラ フ
の頂点と辺とみなすと,全体の約 3 割のページが一つ
の強連結成分を成すと共に,約 9 割のページが一つの
連結成分を成すことが報告されている.この連結成分
の構造が,模式的に「蝶ネクタイ」の形を成していた
た め ,「 蝶 ネ ク タ イ 構 造 」 と 呼 ば れ て い る .
一 方 , 2002 年 に 行 わ れ た Boldi ら に よ る ア フ リ カ の
ウ ェ ブ の 解 析 [6]に お い て は ,蝶 ネ ク タ イ 構 造 を 確 認 す
ることができず,最大の強連結成分を中心とし,そこ
から他の複数の強連結成分へ連結するような構造とな
っ て い る こ と が 報 告 さ れ て い る .ま た ,2003 年 に 行 わ
れ た Lie ら に よ る 中 国 の ウ ェ ブ の 解 析 [7]に お い て は ,
蝶 ネ ク タ イ 構 造 の 構 成 成 分 が 1999 年 の 解 析 結 果 と 異
なり,約 8 割のページが一つの強連結成分を成してい
ることが報告されている.
これらの調査に対し,本研究では,最新のウェブペ
ージを用いた各種統計的な解析を行い最新の調査結果
を 示 す ,具 体 的 に は ,e-Society プ ロ ジ ェ ク ト [8]に よ っ
て ,全 世 界 の ウ ェ ブ を 対 象 に 2006 年 2 月 末 ま で に 収 集
完 了 し た 120 億 ペ ー ジ の 内 、30 億 ペ ー ジ を 対 象 に 解 析
を行った.
以下 2 節では全世界のウェブページ総数について述
べ,以降はウェブページの解析について述べる.具体
的 に は ,3 節 で ウ ェ ブ 構 造 関 連 研 究 ,4 節 で は 解 析 対 象
となるデータセットについて述べる.5 節では解析プ
ラットフォームについて,6 節で統計情報について述
べ る .7 節 で 強 連 結 成 分 の 解 析 に つ い て 述 べ ,8 節 で ま
とめる.
2. 全 世 界 の ウ ェ ブ ペ ー ジ 総 数
我 々 は , 2006 年 2 月 の 時 点 で 既 知 の ホ ス ト 数 が
60,968,174 ホ ス ト で ,約 42% の ホ ス ト の 収 集 が 完 了 し ,
12,003,683,320 ペ ー ジ を 集 め た .
こ の こ と か ら ,1 サ ー バ あ た り の ウ ェ ブ ペ ー ジ 数 は ,
12,003,683,320 ÷ (60,968,174 × 0.42) か ら 約 465
ページとなる.
[4]に よ る と , 2006 年 2 月 時 点 の ウ ェ ブ サ ー バ 数 は
76,184,000 推 定 さ れ て お り , こ の 積 を と る こ と で , 全
世界のウェブページ総数は,静的・動的ページを含め
て , 約 350 億 ペ ー ジ と 予 想 さ れ る . こ れ は , 近 年 増 加
す る .近 年 ブ ロ グ ,ポ ー タ ル サ イ ト ま た は ,EC サ イ ト
の 増 加 に よ っ て ,動 的 に 生 成 さ れ る Web ペ ー ジ が 急 増
していることに起因すると予想される.
3. ウ ェ ブ 構 造 関 連 研 究
3.1. Graph Structure in the web[5]
Broder ら は , 1999 年 に 収 集 し た 約 2 億 ペ ー ジ , 約
15 億 リ ン ク に つ い て 解 析 を 行 っ て い る .こ の 解 析 よ る
と,ウェブ全体をグラフとして捉えると,図 1 のよう
な蝶ネクタイ構造を成しており,ウェブページの約 9
割がひとつの連結成分を成している.
ま た ,こ の 連 結 成 分 は CORE,IN,OUT,TENDRILS,
4 つ に 分 類 で き る . CORE は ひ と つ の 巨 大 な 強 連 結 な
ペ ー ジ 群 , IN は CORE へ は 辿 れ る が , CORE か ら は
辿 れ な い ペ ー ジ 群 , 逆 に , OUT は CORE か ら は 辿 れ
る が , CORE へ は 辿 れ な い ペ ー ジ 群 , TENDRILS は
CORE か ら 辿 る こ と も ,CORE へ 辿 る こ と も で き な い
ページ群である.
1999 年 に 収 集 し た デ ー タ で は 表 1 に 示 す と お り ,
CORE が 全 体 の 3 割 を 占 め , IN, OUT, TENDRILS は
それぞれ 2 割であった.
TENDRILS
44M
CORE
OUT
IN
56M
44M
44M
図 1蝶 ネ ク タ イ 構 造
3.2. Structural Properties of the African Web[6]
Boldi ら は , 2002 年 2 月 に 収 集 し た 200 万 ペ ー ジ ,
2500 ホ ス ト の ア フ リ カ の ウ ェ ブ ペ ー ジ に 関 し て 解 析
を行っている.
こ の 解 析 で は ,Border ら の 解 析 結 果 と 異 な り ,CORE
は 存 在 し た が ,CORE か ら 辿 れ る が ,CORE へ は 辿 れ
な い ,CORE よ り 小 さ い 強 連 結 成 分 が い く つ か 存 在 し
た.
3.3. China Web Graph Measurements and Evolution [7]
Lie ら は , 2003 年 の 5 月 に 収 集 し た , 約 1.4 億 ペ ー
ジ , 約 43 億 リ ン ク に つ い て 解 析 を 行 っ て い る .
この解析の結果,中国のウェブ構造は蝶ネクタイ構
造 を 成 し て い た が , CORE が 特 に 巨 大 化 し , 約 8 割 の
ページが強連結成分を成しており,中国特有の構造で
あると述べられている.
表 1 1999 年 と 2003 年 の ウ ェ ブ 構 造 の 成 分
Web
Graph
1999 年 の
Web[5]
2003 年 の
China Web
[7]
CORE
IN
0.56 億
約 28%
0.43 億
約 21%
DISCO
TEND
RILS
NNECT
0.43 億 0.44 億
0.17 億
約 21% 約 22%
約 8%
1.1 億
約 81%
0.17 億
約 12%
0.09 億
約 6%
OUT
5.2. ソフトウェア
合 計 0.01 億
約 1%
4. 対 象 と す る ウ ェ ブ ペ ー ジ
我 々 が 収 集 し た 総 ウ ェ ブ ペ ー ジ は ,2004 年 1 月 か ら
2006 年 2 月 末 ま で で 120 億 ペ ー ジ で あ る . 本 稿 で は 、
解 析 に あ た り 2005 年 7 月 末 ま で に 収 集 し た
7,050,571,172 ペ ー ジ 中 の 3,935,592,289 ペ ー ジ ,
3,652,232 ホ ス ト に つ い て 解 析 を 行 っ た .な お 、言 語 判
定 を 用 い た 解 析 で は , 言 語 判 定 を 適 用 し た
3,193,373,141 ペ ー ジ を 対 象 と し た .
収 集 に あ た っ て は ,2005 年 7 月 ま で は ,収 集 ロ ボ ッ
ト ( ク ロ ー ラ ) を 国 内 5 拠 点 に 設 置 し た (内 2 拠 点 は
2004 年 末 に 追 加 ).現 時 点 で の 収 集 ロ ボ ッ ト の PC 数 は
合 計 70 台( 2CPU マ シ ン ×10 台 ,1CPU マ シ ン ×60 台 )
で あ る .こ れ ら の PC に ,起 点 と な る URL を 割 り 振 り ,
収集するドメインを割り当てて収集を行った.起点と
な る URL は 我 々 が 過 去 に 収 集 し た ペ ー ジ か ら 判 明 し
て い る 起 点 を ベ ー ス に ,2003 年 9 月 時 点 で ア ク セ ス 可
能 な 600 万 の URL と し た . 起 点 と な っ た URL の ド メ
イ ン の 内 訳 は 表 2の 通 り で あ る .
表 2 起 点 URL の ド メ イ ン の 内 訳
ドメイン
起点 数
com
3,895,782
org
575,550
edu
146,460
net
576,945
uk
212,799
jp
464,423
us,ca,at
131,788
合計
6,003,747
収 集 し た ペ ー ジ は , ベ イ シ ス の 言 語 判 定 [9]に よ り ,
言語判定が行われる.
5. 解 析 プ ラ ッ ト フ ォ ー ム
解析を行うプラットフォームについて述べる.
5.1. ハードウェア
使 用 し た マ シ ン は , 128 台 ク ラ ス タ と Opteron の ワ
ークステーションである.各スペックは以下の通りで
ある.
128-ノ ー ド COE-ク ラ ス タ
CPU: Pentium4 2.4GHz
Memory: 1GB
HDD: 400GB x 2 = 800GB
ワークステーション
CPU: Opteron 2.4GHz x 2
Memory 16GB
HDD: 300GB x 12(RAID5+spare) x 2 =
4.7TB
Gfarm( Grid File System) Version 1.2-2
グリッド環境を対象とした共有ファイル
システム
ペ タ ス ケ ー ル の ス ト レ ー ジ ,ス ケ ー ラ ビ リ
テ ィ の あ る IO
解析データの保管場所
開発は産総研
GXP( Grid Explorer) Version 2.01
グリッド環境を対象とした分散シェル
多数のノードに一斉にコマンドを投入可
能
スケジューラーとして利用
開発は東大
5.3. 解 析 方 法
集 計 処 理 に つ い て は , 128 台 の ク ラ ス タ を 用 い ,
Gfarm 上 に デ ー タ を 保 存 し , GXP で 処 理 を 行 っ た . ま
た ,リ ン ク 解 析 は ワ ー ク ス テ ー シ ョ ン で 処 理 を 行 っ た .
5.3.1. 集 計 処 理
集計処理の形式としては,1つのデータを変換する
1 対 1 処理,N 個のデータを1つに集約する N 対1処
理 ,ま た ,N 個 の デ ー タ を M 個 の キ ー ご と に 集 約 す る
N 対 M 処理に分類できる.
(a) 1 対 1 処 理
処 理 対 象 の デ ー タ サ イ ズ が 大 き く ,計 算 に 時 間
が か か る 場 合:こ の 場 合 ,計 算 を で き る だ け 均 等
に 行 う た め に ,デ ー タ を 分 割 し ,マ ス タ ー ワ ー カ
ー 形 式 で 処 理 を 行 っ た ,分 割 し た デ ー タ は Gfarm
上 に 配 置 し ,す べ て の ノ ー ド 上 か ら 同 一 パ ス で ア
ク セ ス で き る よ う に し , GXP を 用 い て 処 理 を 行
っ た . ま た 計 算 結 果 に つ い て は Gfarm の レ プ リ
ケ ー シ ョ ン を 用 い て 複 製 を 作 成 し ,デ ィ ス ク の 障
害に備えた.
処 理 対 象 の デ ー タ サ イ ズ が 小 さ い 場 合 や ,計 算
に 時 間 が か か ら な い 場 合:こ の 場 合 ,ロ ー カ ル デ
ィ ス ク 上 に 中 間 フ ァ イ ル を 保 存 し , GXP を 用 い
て 並 列 処 理 を 行 っ た .計 算 結 果 に つ い て は ,重 要
な も の は バ ッ ク ア ッ プ を 別 途 に 保 存 し た が ,そ れ
以外は欠損した部分の再計算を行った.
(b) N 対 1 処 理
集計するデータが大きい場合:まず各ホスト
上 で 集 約 を 行 い ,そ の 結 果 を Gfarm 上 に 保 存 し ,
あるホストにおいて全データの集約を行った.
集 計 す る デ ー タ が 小 さ い 場 合 : GXP の 集 約 機
能を利用する.特に数え上げる場合が相当する.
(c) N 対 M 処 理
M 個 の キ ー を 数 千 個 以 下 に ま と め た M’個 の
バ ケ ッ ト と し ,処 理 の フ ェ ー ズ を 3 つ に 分 け て
処理をした.
1.
Gfarm 上 の N 個 フ ァ イ ル に 対 し て , 1 対 M’
の処理をマスターワーカー形式で処理を
行 い ,中 間 フ ァ イ ル を ロ ー カ ル に 保 存 す る .
2.
ロ ー カ ル の M’個 の バ ケ ッ ト に 対 し て ,{N/
ホ ス ト 数 H}対 1 の 集 約 処 理 を 各 ホ ス ト 上
で 行 い , Gfarm 上 に 保 存 す る .
3.
Gfarm 上 の M’個 の バ ケ ッ ト に 対 し て , {ホ
ス ト 数 H}対 1 の 集 約 処 理 を マ ス タ ー ワ ー
カー形式で処理する.
Gfarm Version 1.2-2 で は , 多 数 の フ ァ イ ル を 作 成
すると,メタサーバがボトルネックとなり,性能が
劣化するため,ファイル数を減らすため,バケット
として処理している.
ま た , Google の MapReduce[10]と 比 較 す る と , 1
の フ ェ ー ズ が map,2 の フ ェ ー ズ が Combiner Function
に , 3 の フ ェ ー ズ が reduce に 対 応 づ け る こ と が で き
る.
uk
United Kingdom
us
United States
図 3は com ド メ イ ン を 除 い た TLD の 分 布 で あ る .JP
ド メ イ ン が ほ か の ccTLD に 比 べ ,多 く 収 集 さ れ て い る .
ま た ,it や fr な ど は ホ ス ト 数 に 比 べ ペ ー ジ 数 が 少 な い .
逆 に edu や net,org な ど は ホ ス ト 数 に 比 べ ペ ー ジ 数 が 多
く,ドメインによってページの偏りがあることがわか
る.
450,000
リ ン ク 解 析 は ,ワ ー ク ス テ ー シ ョ ン 上 に て boost[11]
の graph library を 用 い て 行 っ た . ウ ェ ブ の リ ン ク に 関
し て は , The Connectivity Server[12]や The WebGraph
framework[13] な ど が 存 在 す る が , 本 研 究 で は ホ ス ト
レベルでのリンク構造に着目したため,これらを考慮
し な か っ た .ま た ,boost の graph library に は ,並 列 化
バ ー ジ ョ ン の ,The Parallel Boost Graph Library[14]も 存
在するが,ページ単位の解析を行うにはよりスケーラ
ビリティな方法を用いなければならない.
400,000
450,000,000
ホスト数
400,000,000
ホスト数
ページ数
350,000
350,000,000
300,000
300,000,000
250,000
250,000,000
200,000
200,000,000
150,000
150,000,000
100,000
100,000,000
50,000
50,000,000
0
at
be
biz
ca
cn
cz
de
edu
fr
it
jp
kr
name
net
nl
org
ro
uk
us
0
6. 統 計 情 報
Top Level Domain
こ の 節 で は , 4節 で 述 べ た デ ー タ セ ッ ト の 統 計 情 報
図 3 TLD の 分 布 (com を 除 く )
を示す.
ま た , 図 2と 図 3の グ ラ フ は , ホ ス ト 数 の 軸 と ペ ー
6.1. TLD(Top Level Domain)の
の分 布
ジ 数 の 軸 の 目 盛 り を 1 ホ ス ト 1000 ペ ー ジ で 合 わ せ て あ
解 析 対 象 ペ ー ジ の Top Level Domain( TLD) の 分 布
を 示 す .図 2は ペ ー ジ 数 が 多 い 順 に 20 ド メ イ ン を 選 択
し ,TLD の ア ル フ ァ ベ ッ ト 順 に グ ラ フ に し た も の で あ
る .com ド メ イ ン の 起 点 URL が 多 い た め ,com ド メ イ
ン が 特 に 多 く ,ま た ペ ー ジ も か な り 多 く 存 在 し て い る .
図 2中 の 各 ccTLD(country code Top Level Domain)の 国
名 は , 表 3の 通 り で あ る .
り,折れ線グラフが棒グラフより高い場合は,そのド
2,500,000
ホスト数
ページ数
2,500,000,000
2,000,000,000
1,500,000
1,500,000,000
1,000,000
1,000,000,000
ページ数
2,000,000
500,000
500,000,000
0
0
at
be
biz
ca
cn
com
cz
de
edu
fr
it
jp
kr
name
net
nl
org
ro
uk
us
ホスト数
ページ数
5.3.2. リ ン ク 解 析
Top Level Domain
図 2 TLD の 分 布
表 3 ccTLD の 対 応 表 ([15]よ
より抜粋)
ccTLD 名
at
be
ca
cn
cz
de
fr
it
jp
kr
nl
ro
国名
Austria
Belgium
Canada
China
Czech Republic
Germany
France
Italy
Japan
Korea, Republic of
Netherlands
Romania
メ イ ン の 1 サ ー バ あ た り の ウ ェ ブ ペ ー ジ 数 が 1000 ペ ー
ジを超えていることを示す.
6.2. 言 語 の 分 布
解析対象となるデータセットの言語の分布を示す
(図 2). 判 定 す る 言 語 は , English, Japanese, Chinese,
French, Korean, Spanish, German, Italian, Russian,
Portuguese, Arabic で , そ れ 以 外 を Other と 判 定 し て
い る . English が 3 分 の 2 の ペ ー ジ を 占 め て い た . JP
ドメインの起点リストが多いため,日本語が 2 番目に
多い.
Italian,
37,613,865
Spanish,
53,709,377
German,
65,360,246
Korean,
99,690,605
French,
109,316,075
Chinese,
113,570,607
Russian,
12,866,795
Portuguese,
10,449,922 Arabic,
8,033,523
Other,
140,620,139
Japanese,
420,263,035
English
Japanese
Chinese
French
Korean
German
Spanish
Italian
Russian
Portuguese
Arabic
Other
English,
2,121,878,952
図 4 言語の分布
次 に 表 4と 図 5は 言 語 と TLD の 関 係 を 示 す 表 と 図
で あ る .表 4は 各 言 語 の TLD の 内 訳 で あ る .Japanese
以 外 の 言 語 は ど れ も com ド メ イ ン が 最 も 多 く , 4 割 か
ら 7 割 近 く が co m ド メ イ ン に よ っ て 占 め ら れ て い る .
Arabic
German
English
Spanish
French
Italian
Japanes
e
Korean
Portugu
ese
Russian
Chinese
com
net
69.73% 16.20%
com
at
40.50% 15.58%
com
org
68.17% 11.77%
com
org
67.79% 13.04%
com
fr
58.60% 11.37%
com
it
41.61% 36.74%
jp
com
52.79% 36.97%
com
net
62.19% 18.63%
com
org
51.36% 16.99%
com
net
49.69% 14.70%
com
net
68.83% 13.96%
org
10.41%
de
11.17%
net
5.83%
net
6.69%
org
9.09%
org
7.64%
net
7.56%
org
13.16%
br
11.90%
org
14.68%
cn
9.32%
us
0.87%
org
9.68%
uk
3.61%
mx
4.64%
ca
7.75%
net
7.36%
org
1.55%
kr
5.57%
net
8.34%
ua
4.71%
org
5.39%
ps
0.55%
net
8.34%
edu
3.43%
es
1.38%
net
6.18%
us
1.28%
tv
0.23%
jp
0.17%
pt
2.85%
ru
2.97%
jp
0.72%
sa
0.42%
name
6.29%
us
2.13%
us
1.16%
be
3.59%
edu
0.64%
to
0.22%
us
0.13%
us
2.63%
su
2.81%
tw
0.62%
ws
0.35%
biz
1.13%
ca
1.59%
edu
0.76%
edu
0.95%
uk
0.60%
st
0.14%
edu
0.07%
edu
1.02%
kz
2.04%
us
0.25%
bh
0.25%
ch
1.01%
jp
0.71%
cl
0.65%
jp
0.48%
biz
0.55%
cc
0.14%
uk
0.01%
mx
0.77%
lt
1.58%
ca
0.22%
it
0.17%
uk
0.92%
biz
0.66%
ca
0.45%
us
0.42%
jp
0.48%
bz
0.04%
biz
0.01%
jp
0.61%
by
1.16%
cc
0.22%
図 5は , ペ ー ジ 数 の 多 い 20 個 の TLD の 言 語 の 分 布
を示したグラフである.
100%
Other
Chinese
Russian
Portuguese
Korean
Japanese
Italian
French
Spanish
English
German
Arabic
90%
80%
言語の割合
70%
60%
50%
40%
30%
20%
10%
at
be
biz
ca
c
co n
m
cz
de
ed
u
fr
it
jp
na k r
m
e
ne
t
n
or l
g
ro
uk
us
0%
ドメイン
図 5 TLD ご と に お け る 言 語 の 分 布
be ド メ イ ン (Belgium)の Other は Belgium の 公 用 語
か ら 推 測 す る と Dutch だ と 考 え ら れ る .今 ,be ド メ イ
ン の Other を Dutch と 仮 定 す る と , Dutch, France,
Germany の 割 合 が 公 用 語 の 割 合 と 等 し い と 考 え ら れ
る ([16]). ま た , cz ド メ イ ン (Czech Republic)の Other
は Czech だ と 推 測 さ れ る ([16]).fr ド メ イ ン (France)で
は , 公 用 語 は French で あ る が , 移 民 な ど が 多 い た め
Other が 1 割 ほ ど 占 め て い る の と 推 測 さ れ る .name ド
メ イ ン は ,Germany が 8 割 を 占 め て い た .さ ら に 詳 し
く 調 べ た と こ ろ ,Germany の 一 つ ド メ イ ン 仲 介 取 引 業
者 の ペ ー ジ が 主 で あ っ た .確 認 で き た ホ ス ト 数 だ け で ,
244 ホ ス ト , 3,988,721 ペ ー ジ を 持 っ て い た .( 表 5は
一部抜粋)この業者が持っていると推測されるドメイ
ン を 除 い た と こ ろ Germany の 割 合 は 約 14% ま で 減 り ,
English の 割 合 が 約 68% と な っ た . nl ド メ イ ン
(Netherlands)の Other は , Dutch だ と 推 測 さ れ る . ro
ド メ イ ン (Romania)の Other は Romanian で あ る と 推 測
される.
表 5 仲 介 取 引 業 者 の ド メ イ ン (抜
抜粋)
ホスト名
al gori t h m .na m e
ページ 数 G e rm a n En gli sh Sp a ni sh F re n c h Ot h e r
2 8 ,7 3 2
2 7 ,9 2 0
810
1
0
1
www.a b m .n a m e
2 2 ,8 5 0
2 2 ,1 9 2
654
0
1
3
www.a d ol f- h i tl e r.n a m e
1 5 ,6 7 3
1 5 ,3 0 8
365
0
0
0
www.a d ol f.n a m e
1 5 ,6 6 8
1 4 ,9 4 4
723
1
0
0
www.a ffe .n a m e
1 6 ,8 8 6
1 6 ,7 0 0
186
0
0
0
www.a fri ka .n a m e
2 4 ,6 5 8
2 4 ,3 5 0
274
0
0
34
www.a l b e rt ei n st ei n .n a m e
1 5 ,3 6 9
1 4 ,9 2 8
441
0
0
0
www.a l gori t h m .na m e
2 0 ,4 3 8
1 9 ,6 6 4
773
0
0
1
www.a l m a n ac h .n a m e
1 7 ,1 0 8
1 7 ,0 1 4
88
0
0
6
www.a l t e rn at i vm e d iz i n .n am e
1 1 ,4 6 9
1 1 ,4 3 3
36
0
0
0
6.3. 静 的 ・ 動 的 ページ
収集対象のページは,リンクが存在する場合,ホス
ト 上 に あ る フ ァ イ ル で あ る 静 的 ペ ー ジ で は な く , CGI
などによって生成される動的ページも収集される.具
体的には,
http://www.infoseek.co.jp/Keyword?pg=ranking_news_
if.html&svx=120&sv=KW#sports
の ‘ ?’ を 含 む URL の ペ ー ジ も 収 集 さ れ て い る .
解 析 対 象 の デ ー タ セ ッ ト は ,ペ ー ジ 数 は 3,935,592,289
ペ ー ジ で ホ ス ト 数 は 3,652,232 ホ ス ト な の で ,1 ホ ス ト
あ た り 約 1077.6 ペ ー ジ あ る こ と に な る .
し か し , こ れ ま で の 調 査 に お い て , [1]の 1998 年 で
は 1 ホ ス ト あ た り 190 ペ ー ジ , [2]の 1999 年 の 調 査 で
は 186 ペ ー ジ , ま た [3]の 2004 年 の 調 査 で は 202 ペ ー
ジ と な っ て お り , 1 ホ ス ト あ た り 200 ペ ー ジ 前 後 と 推
定され,解析対象の平均ページ数と大きく異なる.
こ の 要 因 と し て は , CGI 等 に よ っ て 生 成 さ れ る 動 的
ページの増加が考えられる.以下では,動的ページの
割 合 を 調 査 す る た め に URL 中 に ’?’が 含 ま れ て い る
URL を 動 的 ペ ー ジ , ’?’を 含 ま な い URL を 静 的 ペ ー ジ
と仮定して調査を行った.
調 査 の 結 果 ,’?’を 含 む ペ ー ジ は 2,294,025,470 ペ ー ジ
で ,逆 に 含 ま な い ペ ー ジ は 1,641,566,819 ペ ー ジ で ,動
的ページと静的ページの割合は約 6 対 4 となった.よ
っ て , ’?’を 含 ま な い URL を 静 的 ペ ー ジ と 仮 定 し た 場
合 , 一 ホ ス ト あ た り 約 450 ペ ー ジ と な る .
さらに,動的ページと静的ページの特徴を調べるた
め,ディレクトリの階層の深さごとにページの数が異
な る か 調 査 を 行 っ た .( 図 6)
350
全ページ
静的ページ
動的ページ
300
ディレクトリ中の平均ページ数
表 4 言 語 ご と の TLD の 内 訳
250
200
150
100
50
0
階層1
階層2
階層3
階層4
階層5
ディレクトリの深さ
階層6
階層7以上
図 6 ディレクトリの深さとページ数
図 6の 階 層 1 と は ,
http://www.hoge.com/index.html
http://www.hoge.com/index2.html
http://www.hoge.com/index.php?abc=hoge
http://www.hoge.com/index.php?abc=fuga
な ど の Web サ ー バ の ル ー ト の デ ィ レ ク ト リ に あ る
平均のページ数で,階層 2 とは,
http://www.hoge.com/fuga/index.html
http://www.hoge.com/fuga/a.html
の 平 均 ペ ー ジ 数 で , 階 層 3, 階 層 4 と そ れ ぞ れ の デ
ィレクトリの深さの平均ページ数である.
この結果動的ページは,階層 2 まで増加し,階層 3
から減少しており,動的ページは深い階層には比較的
少ないことがわかる.また,静的ページでは階層 3 が
突出して多い.これについて調査したところ,あるポ
ルノサイトやドメイン仲介業者が多数のホスト,多数
のページを持っていることがわかった.
これを調べるに当たり,次の手順で調査を行った.
1.
ホストを,1ホストあたりのページ数ごとに適
当な区間で分割した
2.
分割したホストごとに,階層ごとのページ数の
類似度でクラスタリングを行った.
3.
各クラスタでホスト数や総ページ数が多いクラ
スタからサンプリングを行いどのようなホスト
が集まったか調査した.
この調査の結果,同様なホストが集まっていたクラ
ス タ の メ デ ィ ア ン を 表 6に 示 す . 比 較 の た め に 静 的 ペ
ージも示す.
ページ数
階層 1
階層 2
階層 3
階層 4
階層 5
4 42 . 8 2
4 9, 84 7 . 7 4
1 04 , 5 7 7. 4 6
1 71 , 2 0 5. 1 6
9 3, 32 4 . 7 6
1 81 , 3 4 5. 3 2
3 42 , 2 4 0. 3 4
6 3. 96
9 4. 57
2 0. 40
3 1. 98
9 2, 25 9 . 8 1
1 80 , 7 5 8. 7 1
3 40 , 8 9 6. 3 8
6 2. 81
5 22 . 8 4
3 13 . 0 7
1 82 . 1 1
7 03 . 8 8
2 57 . 9 3
1, 1 82 . 98
1 94 . 8 5
4 8, 53 9 . 6 2
1 03 , 9 8 7. 7 0
1 70 , 3 3 3. 7 6
1 87 . 1 2
2 26 . 1 5
1 46 . 0 6
4 3. 93
3 95 . 7 2
2 06 . 7 9
5 00 . 9 0
5 2. 80
1 01 . 7 5
1 0. 82
2 8. 42
1 41 . 2 9
1 2. 28
1 32 . 6 0
4 2. 84
0. 7 1
3. 9 7
ま た , 表 6の ク ラ ス タ に 含 ま れ る ホ ス ト と ’ ?’ を
含 む URL を 除 い た 場 合 の デ ィ レ ク ト リ の 深 さ ご と の 平
均 ペ ー ジ 数 を 図 7に 示 す . こ の と き の ペ ー ジ 数 は ,
993,141,984 ペ ー ジ で , ホ ス ト 数 は 3,616,797 ホ ス ト
と な り ,ホ ス ト あ た り の 平 均 ペ ー ジ 数 は 274.59 と な っ
た.
250
ディレクトリ中の平均ページ数
7.1. TLD ごとのホストグラフ
ごとの ホストグラフ
表 7に 各 TLD に 分 割 し た ホ ス ト グ ラ フ の 統 計 を 示
す.
表 7 TLD ご と の ホ ス ト グ ラ フ
TLD
co m
de
ed u
fr
it
jp
kr
n et
o rg
ru
ホスト数
1 .3 1 M
3 .0 2 K
80
586
593
380K
209
5 .8 2 K
3 .7 4 K
141
ページ 数
2 .7 6 G
8 .4 3 M
600K
563K
1 .5 7 M
369M
2 .4 0 M
15M
12M
450K
内部
リンク
66G
322M
11M
18M
46M
9 .6 7 G
62M
422M
317M
26M
外部
リンク
14G
2 .0 7 M
242K
359K
218K
1 .0 3 G
25K
25M
7 .8 3 M
265K
同 一 ドメ インへ
の リンク
14G
77K
161
894
19K
950M
590
5 .4 0 M
1 .5 2 M
301
ま た ,TLD ご と の リ ン ク 先 TLD の 分 布 を 示 す (表 9).
JP ド メ イ ン 以 外 の ド メ イ ン で は , COM ド メ イ ン へ の
表 6 階層の類似度によるクラスタ
静 的 ページ
主 に ポ ルノ
主 に ポ ルノ
主 に ポ ルノ
主 に業 者
主 に業 者
主 に業 者
ージを一つの頂点とみなし,他のホストへのリンクす
べてをその頂点からの辺としたホストグラフを解析対
象とした
また,解析に使用したデータセットは,総ページ数
3,208,139,905 ペ ー ジ , ペ ー ジ 間 の 総 リ ン ク 数 は
93,397,065,743 リ ン ク で あ る . ペ ー ジ 間 の 総 リ ン ク 数
の内,ホスト内に閉じている内部リンク数は,
77,971,241,488 で , ホ ス ト 外 へ リ ン ク し て い る 外 部 リ
ン ク は , 15,425,824,255 で あ る . ホ ス ト 数 は 1,719,134
ホ ス ト , ホ ス ト 間 の リ ン ク 数 は 91,084,879 で あ る .
リ ン ク が 多 い .こ れ は ,JP ド メ イ ン を 初 期 に 集 中 し て
収集した影響だと考えられる.
表 8 TLD ご と の リ ン ク 先 TLD の 分 布
外部
co m
d e ed u
fr
it
jp
kr
n et
o rg
ru
o th
リンク
co m
1 4 G 9 8 .8 0 % 0 .0 1 % 0 .0 0 % 0 .0 1 % 0 .0 0 % 0 .8 9 % 0 .0 0 % 0 .1 5 % 0 .0 8 % 0 .0 0 % 0 .0 5 %
d e 2 .0 7 M 8 4 .4 1 % 3 .7 3 % 0 .0 3 % 0 .1 0 % 0 .1 4 % 3 .6 5 % 0 .0 3 % 0 .0 6 % 1 .8 3 % 0 .0 2 % 6 .0 0 %
ed u
2 4 2 K 9 9 .0 1 % 0 .0 0 % 0 .0 7 % 0 .0 0 % 0 .0 0 % 0 .3 1 % 0 .0 0 % 0 .0 8 % 0 .4 0 % 0 .0 0 % 0 .1 3 %
fr
3 5 9 K 9 9 .0 9 % 0 .0 0 % 0 .0 0 % 0 .2 5 % 0 .0 0 % 0 .1 6 % 0 .0 0 % 0 .2 1 % 0 .0 9 % 0 .0 0 % 0 .2 0 %
it
2 1 8 K 8 8 .3 6 % 0 .1 2 % 0 .0 4 % 0 .0 2 % 8 .7 4 % 1 .0 0 % 0 .0 0 % 0 .0 4 % 0 .8 2 % 0 .0 8 % 0 .7 9 %
jp
1 .0 3 G 7 .3 4 % 0 .0 1 % 0 .0 0 % 0 .0 0 % 0 .0 0 % 9 1 .8 8 % 0 .0 0 % 0 .4 2 % 0 .0 8 % 0 .0 0 % 0 .2 6 %
kr
2 5 K 9 3 .4 1 % 0 .0 0 % 0 .0 0 % 0 .0 0 % 0 .0 0 % 1 .6 6 % 2 .3 5 % 0 .0 6 % 2 .4 8 % 0 .0 0 % 0 .0 4 %
n et
2 5 M 3 3 .7 4 % 0 .0 3 % 0 .0 0 % 0 .0 1 % 0 .0 1 % 4 1 .0 0 % 0 .0 0 % 2 1 .7 1 % 1 .1 8 % 0 .0 0 % 2 .3 2 %
o rg 7 .8 3 M 4 7 .4 6 % 0 .3 3 % 0 .0 0 % 0 .0 0 % 0 .0 1 % 2 9 .5 3 % 0 .0 2 % 1 .9 5 % 1 9 .4 7 % 0 .0 0 % 1 .2 3 %
ru
2 6 5 K 9 9 .6 6 % 0 .0 0 % 0 .0 2 % 0 .0 0 % 0 .0 0 % 0 .0 5 % 0 .0 0 % 0 .0 0 % 0 .1 4 % 0 .1 1 % 0 .0 2 %
o th
1 4 M 4 5 .1 5 % 0 .6 2 % 0 .0 1 % 0 .0 3 % 0 .0 1 % 2 3 .5 0 % 0 .0 0 % 0 .5 9 % 0 .8 9 % 0 .0 1 % 2 9 .2 0 %
TLD
7.2. 言 語 によるホスト
による ホストの
ホスト の 分 類
200
静的ページ
特定ページを除外したページ数
150
100
50
0
階層1
階層2
階層3
階層4
階層5
ディレクトリの深さ
階層6
階層7
図 7 特定のページを除外した場合
7. 強 連 結 成 分 の 解 析
強連結成分の解析は,グラフ理論の強連結成分抽出
を TLD ご と ,言 語 ご と に 行 う .ま た 全 体 の 概 要 を 把 握
す る た め に ,解 析 対 象 の グ ラ フ は ペ ー ジ 単 位 で は な く ,
ホスト単位とした.つまり,ホストが持つすべてのペ
言語別の解析をホスト単位で行うため,ホストを言
語ごとに分類する必要がある.分類するにあたりホス
ト で 最 も 使 用 さ れ て い る 言 語 を 元 に 分 類 し た .た だ し ,
複数の言語を使用しているホストは解析対象外とした.
そのため,まずホストを分類するにあたり,複数の
言 語 を 使 用 す る ホ ス ト を 除 外 し た . 図 8は 最 も 使 用 さ
れている言語で何割のページが占有しているかを横軸
に,そのホストの割合を縦軸とした図である.
95.00%
95.00%
90.00%
90.00%
85.00%
85.00%
80.00%
80.00%
75.00%
75.00%
ホスト数の累積(%)
70.00%
ページ数の累積(%)
100.00%
ホスト数の累積(%)
100.00%
70.00%
ホストの持つ総ページ数の累積(%)
65.00%
ホスト内での最も多い言語のページの累積(%)
60.00%
65.00%
60.00%
99%
94%
89%
84%
79%
74%
69%
64%
59%
54%
最も使用されている言語がホスト内で占めるページの割合
(ar de en es fr it ja ko pt ru zhが対象)
図 8 単一言語の占有率
図 8に よ る と , ホ ス ト が 保 有 す る 7 割 以 上 の ペ ー ジ
が単一の言語のみを使用しているホスト数は 9 割を占
めている.よって,ホストの分類はホストの保有する
ページの 7 割が単一の言語であるホストを抽出し分類
し た . (図 9)
10,000,000
外部
A r Ch En
Fr
Ge
It
Ja K o P o Ru Sp
リンク
Ara b i c 8 .6 1 M 6 9 %
0% 11%
0%
0%
0%
0%
0%
0%
0%
0%
Ch in ese 2 5 3 M
0% 78%
8%
0%
0%
0%
0%
0%
0%
0%
0%
En g li sh 4 .0 3 G
0%
0% 95%
0%
0%
0%
1%
0%
0%
0%
0%
F ren ch
79M
0%
0% 19% 69%
0%
0%
0%
0%
0%
0%
0%
G erma n
17M
0%
0% 65%
2% 14%
2%
2%
1%
0%
0%
2%
It a li a n
14M
0%
0% 39%
1%
1% 33%
3%
0%
0%
0%
1%
J a p an ese 2 .5 0 G
0%
0%
2%
0%
0%
0% 54%
0%
0%
0%
0%
K o rea
47M
0%
0%
6%
0%
0%
0%
0% 85%
0%
0%
0%
Po rt u g u ese 1 .8 5 M
0%
1% 42%
1%
0%
0%
1%
1% 35%
0%
4%
Ru ssi a n 3 .1 4 M
0%
0% 36%
0%
0%
0%
0%
0%
0% 49%
0%
Sp a n i sh
36M
0%
0% 15%
0%
0%
0%
1%
0%
1%
0% 65%
Ot h er
8 .4 4 G
0%
0% 11%
0%
0%
0% 60%
0%
0%
0%
0%
言語
Ot
21%
14%
4%
11%
13%
22%
44%
9%
16%
15%
18%
29%
表 12 は , ホ ス ト レ ベ ル で の 強 連 結 成 分 の 解 析 結 果
を示す.
100,000,000
10,000
10,000,000
ページ数
ホスト数
表 11 言 語 ご と の リ ン ク 先 言 語 の 割 合
表 12 ホ ス ト レ ベ ル で の 蝶 ネ ク タ イ 構 造
CO RE
IN
O UT
Ot h er
6 2 4 ,1 7 3
1 4 7 ,7 9 4
6 2 1 ,7 8 8
3 2 5 ,3 7 9
3 6 .3 0 %
8 .6 0 %
3 6 .2 0 %
1 8 .9 0 %
To t a l
1 ,7 1 9 ,1 3 4
1,000,000
ホストの 割 合
ic
Ar
ab
n
tu
gu
es
e
n
lia
ss
ia
Ot
he
r
ホストあたり
の ページ 数
図 9 言語別ホストのホスト数とページ数
また,分類したホストが適切に分類されているか調
べるため,分類したホストが保有するページの言語の
割 合 を 調 査 し た . 表 9は 縦 に 分 類 , 横 に 言 語 割 合 を 示
した表で,ホストごとの言語の割合を求め,分類内で
平均した値を示したものである.どの分類も 9 割以上
分類した言語によって,占められていた.
表 9 各分類における言語の分布
A r a b ic G e r m a n En g l i s h Sp a n i s h F r e n c h I t a l ia n J ap a n e s e K or e an P o r t u Ru s s i a n C h in e s e O t h e r
guese
A r a b ic
9 5. 50 % 0. 0 1% 2. 8 2% 0. 0 8% 0. 1 0% 0. 0 8%
0%
0 % 0. 0 2%
0%
0 % 1. 3 4%
German
0 % 9 5. 26 % 2. 4 5% 0. 0 5% 0. 1 7% 0. 4 1%
0. 0 2%
0 % 0. 0 2%
0%
0 % 1. 5 6%
En g l i s h
0 % 0. 2 2% 9 7. 35 % 0. 1 1% 0. 3 0% 0. 5 1%
0. 0 7%
0 % 0. 0 3%
0 % 0. 0 2% 1. 3 3%
Sp a n i s h
0 % 0. 0 8% 2. 3 9% 9 4. 87 % 0. 1 8% 0. 4 7%
0. 0 1%
0 % 0. 4 3%
0%
0 % 1. 5 2%
French
0 % 0. 1 3% 2. 4 7% 0. 1 7% 9 5. 07 % 0. 4 6%
0. 0 2%
0 % 0. 0 3%
0 % 0. 0 1% 1. 5 9%
I t a l ia n
0 % 0. 2 2% 3. 1 6% 0. 1 2% 0. 2 0% 9 3. 52 %
1. 3 8%
0 % 0. 0 4%
0%
0 % 1. 3 0%
J ap a n e s e
0 % 0. 0 4% 1. 9 5% 0. 0 2% 0. 0 8% 0. 1 4% 9 5. 16 %
0%
0%
0 % 0. 0 3% 2. 5 3%
K or e an
0 % 0. 0 7% 1. 7 0% 0. 0 1% 0. 1 9% 0. 1 5%
0. 0 6% 9 5. 44 % 0. 0 1%
0 % 0. 0 9% 2. 2 2%
Portu
0 % 0. 0 4% 1. 5 6% 0. 2 3% 0. 0 8% 0. 1 9%
0%
0 % 9 7. 22 %
0%
0 % 0. 6 3%
guese
0. 0 1% 0. 0 7% 3. 1 0% 0. 0 2% 0. 0 9% 0. 5 2%
0 % 0. 0 3% 1. 8 0%
0 % 0. 1 5% 0. 3 5%
0. 0 3%
0%
0. 0 4% 0. 0 1%
0 % 9 4. 55 %
0 % 1. 5 5%
0%
0 % 9 6. 52 % 1. 0 5%
7.3. 言 語 ごとのホストグラフ
ごとの ホストグラフ
表 10に 7.2で 行 っ た ホ ス ト 分 類 ご と に 分 割 し た 各 言
語のホストグラフの統計を示す.
表 10 言 語 ご と の ホ ス ト グ ラ フ
ホスト数
422
35K
756K
20K
11K
5 .4 1 K
336K
ページ 数
4 .9 6 M
86M
1 .5 7 G
59M
27M
11M
519M
ホストが 保 有
2 ,1 0 2 ,9 7 1 ,3 2 1 6 3 3 ,5 3 0 ,0 3 5 3 4 6 ,2 5 1 ,6 1 6 1 2 5 ,3 8 6 ,9 3 3 3 ,2 0 8 ,1 3 9 ,9 0 5
するページ 数
ページ の 割 合
Po
r
Ita
Ru
ish
Ge
rm
an
Ko
re
an
Sp
an
ine
se
Fr
en
ch
an
es
e
Ch
Ja
p
En
gli
sh
100,000
言語
Ara b i c
Ch in ese
En g li sh
F ren ch
G erma n
It a li a n
J a p an ese
40M
651K
1. 5 4 M
23M
2. 4 8 G
1,000,000,000
100,000
100
言語
47M
1 .8 5 M
3 .1 4 M
36M
8 .4 4 G
ま た ,言 語 ご と の リ ン ク 先 言 語 の 割 合 を 示 す (表 11).
ホスト数
Ru s s i a n
C h in e s e
1 .5 5 G
66M
276M
1 .2 0 G
8 .1 9 G
7.4. 強 連 結 成 分 の 解 析 結 果
ホストが持つ総ページ数
1,000
66M
3 .1 4 M
4 .7 5 M
31M
825M
10,000,000,000
ホスト数
1,000,000
5 .9 7 K
3 .7 5 K
1 .0 2 K
11K
534K
K o rea
Po rt u g u ese
Ru ssi a n
Sp a n i sh
Ot h er
内 部 リンク
外 部 リンク
99M
2 .6 0 G
48G
2 .2 6 G
860M
440M
13G
8 .6 1 M
253M
4 .0 3 G
79M
17M
14M
2 .5 0 G
同言語へ
の リンク
5. 9 0 M
196M
3. 8 1 G
55M
2. 4 2 M
4. 4 1 M
1. 3 6 G
6 5 .6 0 %
1 9 .7 0 %
1 0 .8 0 %
3 .9 0 %
3 ,3 6 9 .2 0
4 ,2 8 6 .6 0
5 5 6 .9
3 8 5 .4
1 ,8 6 6 .1 0
表 12か ら 推 測 す る と ,Broder ら の 調 査 し た 1999 年
の ウ ェ ブ よ り も CORE が 大 き い と 予 想 さ れ ,ま た ,Lie
ら は , China Web の CORE の 巨 大 化 は , 中 国 特 有 の 現
象 と 主 張 し て い た が ,全 世 界 的 に も CORE は 巨 大 化 し
ていると予想される.
7.5. TLD ごとの強
ごとの 強 連 結 成 分
TLD ご と に ウ ェ ブ を 分 割 し て ,ホ ス ト レ ベ ル で 強 連
結 成 分 の 解 析 を 行 い , 各 成 分 の ペ ー ジ の 割 合 を 表 13
に示す.
表 13 TLD ご と の 強 連 結 成 分
TLD
co m
de
ed u
fr
it
jp
kr
n et
o rg
ru
ページ 数
2 .7 6 G
8 .4 3 M
600K
563K
1 .5 7 M
369M
2 .4 0 M
15M
12M
450K
同 一 ドメ イン
へ の リンク
14G
77K
161
894
19K
950M
590
5 .4 0 M
1 .5 2 M
301
S CC
5 3 .6 5 %
0 .2 5 %
0 .0 5 %
0 .0 1 %
0 .1 1 %
2 6 .4 6 %
0 .0 0 %
0 .5 2 %
0 .6 1 %
0 .7 7 %
IN
1 9 .7 3 %
0 .0 5 %
0 .0 0 %
0 .0 2 %
0 .0 4 %
1 .7 7 %
0 .0 0 %
0 .1 7 %
0 .3 8 %
0 .0 5 %
O UT
2 2 .2 5 %
7 8 .3 6 %
1 4 .4 4 %
2 5 .3 3 %
0 .0 4 %
7 1 .3 2 %
1 .0 9 %
3 5 .4 2 %
6 4 .2 5 %
0 .4 9 %
Ot h er
4 .3 7 %
2 1 .3 4 %
8 5 .5 1 %
7 4 .6 3 %
9 9 .8 1 %
0 .4 6 %
9 8 .9 1 %
6 3 .8 9 %
3 4 .7 6 %
9 8 .7 0 %
そ の 結 果 ,com ド メ イ ン と jp ド メ イ ン 以 外 は ,巨 大
な 強 連 結 が 存 在 せ ず , jp ド メ イ ン で も 26%と Broder
らの調査の調査よりも小さくなった.ここから推測さ
れることは,ウェブはドメインごとには分かれていな
いことが予想される.
7.6. 言 語 ごとの強
ごとの 強 連 結 成 分
7.2 で 行 っ た ホ ス ト 分 類 ご と に 強 連 結 成 分 を 解 析 し
た 結 果 が , 表 14で , 各 成 分 の ペ ー ジ の 割 合 を 示 し た .
表 14 言 語 ご と の 強 連 結 成 分
言語
ページ 数
4 .9 6 M
86M
1 .5 7 G
59M
27M
11M
519M
66M
3 .1 4 M
4 .7 5 M
31M
825M
Ara b i c
Ch in ese
En g li sh
F ren ch
G erma n
It a li a n
J a p an ese
K o rea
Po rt u g u ese
Ru ssi a n
Sp a n i sh
Ot h er
同言語へ
の リンク
5. 9 0 M
196M
3. 8 1 G
55M
2. 4 2 M
4. 4 1 M
1. 3 6 G
40M
651K
1. 5 4 M
23M
2. 4 8 G
CO RE
6 1 .4 3 %
7 6 .8 8 %
6 6 .9 0 %
6 1 .8 5 %
2 6 .6 1 %
2 3 .6 7 %
7 1 .0 5 %
5 4 .3 2 %
2 6 .6 0 %
3 5 .7 6 %
6 4 .9 3 %
7 .2 4 %
IN
1 0 .2 0 %
9 .9 8 %
9 .0 4 %
9 .2 3 %
8 .1 6 %
1 7 .1 0 %
2 5 .8 5 %
1 7 .0 7 %
4 .9 4 %
1 8 .2 0 %
5 .3 0 %
1 .9 8 %
O UT
1 8 .5 9 %
1 0 .5 7 %
1 6 .4 4 %
2 0 .6 5 %
4 2 .1 8 %
2 9 .5 4 %
2 .5 4 %
1 9 .3 6 %
4 2 .1 8 %
1 8 .3 5 %
2 3 .6 0 %
9 .3 2 %
Ot h er
9 .7 8 %
2 .5 7 %
7 .6 2 %
8 .2 7 %
2 3 .0 5 %
2 9 .6 9 %
0 .5 6 %
9 .2 5 %
2 6 .2 8 %
2 7 .6 9 %
6 .1 6 %
8 1 .4 7 %
Chinese の 構 成 比 を 見 る と , Lie ら の 調 査 し た China
Web と 似 た よ う な 比 に な っ て お り , Chinese は 他 の 言
語 と 比 べ て も CORE の 比 が 最 も 大 き く な っ て い る .た
だし,日本語のページも同じような構成比となってい
る.
8. お わ り に
本 稿 で は ,2006 年 2 月 ま で に 収 集 を し た 120 億 ペ ー
ジ を 元 に 推 定 す る と 2006 年 2 月 時 点 で 350 億 ペ ー ジ が
存在するという結果を得た.
ま た , 約 30 億 の ウ ェ ブ を 対 象 に , ホ ス ト レ ベ ル で
の 強 連 結 成 分 を 行 っ た . ま た , ホ ス ト を Top Level
Domain や 主 要 言 語 別 に 分 類 し , そ れ ぞ れ の 強 連 結 成
分を比較した.
そ の 結 果 , 1999 年 の ウ ェ ブ に 比 べ る と CORE が 巨 大
化 し て い る こ と が 判 明 し た .Top Level Domain ご と 解
析 よ る と ,ウ ェ ブ は Top Level Domain ご と に は 分 か れ
ていないことが判明した.また,主要言語別の解析に
よ れ ば ,中 国 語 や 日 本 語 で は よ り CORE が 巨 大 化 す る
傾向にあることが判明した.
今後の課題としては,解析の対象が収集したページ
の一部であったが,収集した全ページを対象に調査を
行う.また,強連結成分の解析は,ホストレベルの解
析であったが,ページレベルでの解析を行い,より詳
細調査を行う.
謝
辞
本 研 究 の 一 部 は ,文 科 省 21 世 紀 COE「 プ ロ ダ ク テ ィ
ブ ICT ア カ デ ミ ア 」 及 び 科 学 技 術 振 興 費 「 e-Society」
プロジェクトによるものである.
富 士 通 株 式 会 社 及 び FFC シ ス テ ム の 皆 様 に 深 く 感 謝
いたします.
文
献
[1] S.Lawrence, C.L.Giles:"Searching the World Wide
Web", Science, Vol.280, No.5360, pp.98-100 1998)
[2] S.Lawrence, C.L.Giles:"Accessibility of Information
on the Web", Nature, Vol.400, pp.107-109 1999)
[3] 総 務 省 情 報 通 信 政 策 研 究 所 :WWW コ ン テ ン ツ 統
計調査報告書,
http://www.soumu.go.jp/iicp/chousakenkyu/seika/ho
ukoku.html 2004.7)
[4] Netcraft Home Page, http://www.netcraft.co.uk/
[5] A. Broder, R. Kumar, F. Maghoul, P. Raghavan R.
State, A. Tomkins, and J. Wiener. Graph structure in
the web, Proc. 9th World Wide Web Conf. 2000.5)
[6] P. Boldi, B. Codenotti, M. Santini, and S. Vigna.
Structural properties of the African web. 2002.
[7] G. Lie, Y. Yu, J. Han, G. Xue: China web graph
measurements and evolution, Proc. Asia Pacific Web
Conf., LNCS, Vol.3399,pp668-679 2005.3)
[8] e-Society プ ロ ジ ェ ク ト
http://www.yama.info.waseda.ac.jp/~yamana/es/
[9] Basis Technology Rosette 言 語 判 別 シ ス テ ム
http://www.basistech.co.jp/language-identification/
[10] Dean, J. and Ghemawat, S. MapReduce: Simplified
Data Processing on Large Clusters in OSDI'04: 6th
Symp, 2004.
[11] BOOST. http://www.boost.org
[12] K. Bharat, A. Broder, M. Henzinger, P. Kumar, and S.
Venkatasubramanian. The connectivity server: fast
access to linkage information on the web, Proc. 7th
WWW, 1998.
[13] Paolo Boldi and Sebastiano Vigna. The WebGraph
framework I: Compression techniques. In Proc. of
the Thirteenth International World Wide Web
Conference, pages 595-601, Manhattan, USA, 2004.
ACM Press.
[14] D. Gregor, N. Edmonds, B. Barrett, and A.
Lumsdaine. The Parallel Boost Graph Library.
http://www.osl.iu.edu/research/pbgl, 2005.
[15] IANA : Root-Zone Whois Index by TLD Code,
http://www.iana.org/cctld/cctld-whois.htm
[16] Wikipedia: フ リ ー 百 科 事 典 『 ウ ィ キ ペ デ ィ ア
( Wikipedia)』 , http://ja.wikipedia.org/
Fly UP