Comments
Description
Transcript
1.1 ページランクとは
[演習3-6AA]ウェブページの検索結果の表示順序(重要) 10D7103014H◎坂田侑亮 10D7103015F 岩附彰人 10D7103016D 財津宏明 1.1 ページランクとは ページランクとは、グーグルが開発した検索エンジンのウェブページの重要度を判定す る技術である。サーチエンジンは質の高いウェブページをどれだけ上位に並べられるかと いうことが重要です。従来の検索エンジンでは検索された単語とそのページの関連性を元 に評価をしていましたが、ここに”どれだけ注目されているか”という指標を盛り込んだこ とが特筆すべきポイントです。具体的には、「質の良い(ページランクの高い)ウェブページ からリンクされているウェブページは質の良い(ページランク)ウェブページである」という 再帰的な考え方に基づいて動いています。ウェブ上における他ページからのリンクを学術 論文における引用と同等視することがその根本発想です。すなわち、より多く引用されて いる論文は、有意義であるはずだとの発想です。 例えば数百万ページのインデックスの中から「りんご」という言葉を含むページを探 そうとすると、合致するページは膨大になるでしょう。しかし私たちはその一致する ページを全て欲しいわけではありません。その中でも「りんご」に本当に合致する価 値あるページを欲しいのですし、同時に重要な順番に並び替えてほしいわけです(検 索結果の 1 ページ目、2 ページ目程度までしか見ないというユーザーの検索行動にそ れが表れています)。したがって、リンク分析によってページをスコアリングして重 要なページとそうでないページを判断するわけです。[引用*1] ここで注意していただきたいのは、ページランクはグーグルの検索結果の順位というこ とではないということです。ページランクは複雑なアルゴリズムにしたがったリンク構造 の分析にもとづく、各 Web ページそのものの特性です。ページランクは、グーグルが、検 1 [演習3-6AA]ウェブページの検索結果の表示順序(重要) 10D7103014H◎坂田侑亮 10D7103015F 岩附彰人 10D7103016D 財津宏明 索順位を決定する場合における、いわばウェブページの属性であり、直接的にページラン ク順に検索順位が決定されるという性格のものではありません。(ただし、ページランク が高いほうが、検索結果のはじめのほうに表示される可能性が高くなります。) 1.2 ページランクの利点と欠点 Yahoo! のようなページランクがとても高いサイトからリンクされれば、それだけで ペ ージランク はグンと上がることになりますが、逆に、いくら被リンク数ばかりが多くて も、無意味なつまらないページからのリンクばかりではページランクはいつまで経っても 上がりません。 Yahoo! でなくともその分野での権威(あるいは定番)とも言えるページか らリンクされていれば良いわけですが、自分達だけで相互リンクしまくっているだけの低 価値なページ同士のリンクは、いわば「単なる内輪びいき」として価値のあるものとは見 なされにくい仕組みになっているということでもあるのです。 従来は、ページの重要度としてそのページの被リンク数だけを単純に用いることがあり ましたが、ページランク方式だと機械的に生成されたリンクの影響を受けにくいという利 点があります。つまり、ページランクを上げるためには良質なページからリンクされる必 要があるのです。 ページランクが出現したことによって、グーグルの検索結果ではサイトの内容とは関係 のない単語をずらずらと並べて検索結果の順位を上げようとするサイトが上位にくること は困難になり、ネット上で相対的かつ普遍的に重要なサイトを閲覧者に提示します。 しかし、相対的かつ普遍的に重要というのは閲覧者にとって必ずしもメリットであると は限りません。このことについて[引用*2]より引用します。 例えば次の例を考えてみましょう。「料理レシピ」の話題を扱っている Web ペー ジ(A)と(B)があったとします。(A)(B)はそれぞれ次の表の通り、他のページからそれ 2 [演習3-6AA]ウェブページの検索結果の表示順序(重要) 10D7103014H◎坂田侑亮 10D7103015F 岩附彰人 10D7103016D 財津宏明 ぞれ 10 本、5 本のリンクを受けていました。 ページ(A)にリンクを張った 10 のページ 1. 中古バイクのページ 2. お花見のページ 3. キャッシングのページ 4. 自動車保険のページ 5. 携帯電話のページ 6. 観光案内のページ 7. 料理の専門学校のページ 8. ノート PC 専門店のページ 9. 旅行かばんのページ 10.プラズマ TV のページ ページ(B)にリンクを張った 5 のページ 1. お弁当のためのレシピページ 2. インドカレーの作り方のページ 3. 5 分で学べる料理のページ 4. 料理レシピ紹介ページへのリンク集 5. おいしいご飯の食べ方のページ この場合、他の全ての条件が同一であると仮定すれば、PageRank の仕組み上ペ ージ(A)がページ(B)よりも重要であると判定し、したがって「料理レシピ」と検索すれ ば (A)を上位に出すでしょう。なぜなら (A) は (B) よりも多くのページからリンク を受けているからです。しかし PageRank が出したこの回答は、適切でしょうか? 「料理レシピ」と検索したユーザーはきっと、料理レシピについて記述されてい るページを探しているに違いありません。そして、料理レシピを扱ったページ群の中 3 [演習3-6AA]ウェブページの検索結果の表示順序(重要) 10D7103014H◎坂田侑亮 10D7103015F 岩附彰人 10D7103016D 財津宏明 でも価値あるページを見つけ出したいでしょう。つまり「料理レシピ」と検索したユ ーザーに提示すべきは「料理レシピにおける相対的に重要度の高いページ」のはずで す。しかし PageRank が実際に算出しているのはネット上の Web 全体における相対価 値なのです。ここにギャップがあります。 つまり「格安航空券」であれば航空券の話題を扱ったページの中でも価値あるペ ージを、「建築基準法」であれば建築基準法の話題を扱ったページの中でも価値ある ページをといったように、実際の検索サービスでユーザーに提示すべき「価値あるペ ージ」とは検索クエリによってその比較対象が変化するはずです。ページの価値はユ ーザーが求める情報、検索クエリによって変化すべきです。しかし PageRank は検索 クエリとは独立した、普遍的な価値しか算出していない点が問題となるのです。[引用 *2] ほかの問題点も考えられます。1.1 章の冒頭で述べたように、 「多くの良質なページから リンクされているページは、やはり良質なページである」 という再帰的な関係からは、ペ ージランクの高いサイトほど上位にくる可能性が高いから、したがって、下位のサイトは、 SEO 対策をしないと人目につくことがなく、いつまでたっても下位のままであるというこ とが考えられます。 これは、サイト管理者にとって負担であり、有用な情報ならば本来ならばこのようなこ とをするまでもなく、上位に表示されるべきです。 2.1 結び ページランクとはグーグルの開発したウェブページの重要度を判定する技術であ る。 ページランクが開発されたことによって、閲覧者の利便性が大幅にこうじょうし た。 4 [演習3-6AA]ウェブページの検索結果の表示順序(重要) 10D7103014H◎坂田侑亮 10D7103015F 岩附彰人 10D7103016D 財津宏明 ページランクは検索サイトの持つ根本的な問題点を解決するに至っていない。 ページランクは利用者にとって必ずしも便利なものではない。 2.2 反省 引用があまりにも長くなってしまった。また、グループワークであるということが内容 に生かされていない。 [引用元*1]http://japan.cnet.com/blog/takawata/2006/05/01/entry__1_pagerank/ 渡辺隆広のサーチエンジン情報館 リンク分析に関する検索アルゴリズムの変遷 [引用元*2]http://japan.cnet.com/blog/takawata/2006/05/01/entry__1_pagerank/ 渡辺隆広のサーチエンジン情報館 リンク分析に関する検索アルゴリズムの変遷 [参考] http://www.hyperposition.com/google/pagerank.html [参考]ページランク-ウィキペディア http://ja.wikipedia.org/wiki/%E3%83%9A%E3%83%BC%E3%82%B8%E3%83%A9%E3%83%B3%E3%82 %AF レポートの書き方の参考としてこちらを参考にさせていただきました。 執筆 10D7103014H◎坂田侑亮 10D7103015F 岩附彰人 10D7103016D 財津宏明 5