Comments
Description
Transcript
Web ページにおけるキーワードの出現頻度と検索結果件数に着目した
平成 23 年度電子情報通信学会東京支部学生会研究発表会 講演番号: 27 Web ページにおけるキーワードの出現頻度と検索結果件数に着目した信頼度評価 Reliability Evaluation of a Web Page Based on its Keyword Frequency and the Number of Search Results for its Keyword A-○ 清水 麻衣子† 横井 健† Maiko SHIMIZU† Takeru YOKOI† † 東京都立産業技術高等専門学校 ものづくり工学科電子情報工学コース † Electronics and Information Engineering Course, Monozukuri Department, Tokyo Metropolitan College of Industrial Technology 1. はじめに ジンの検索結果上位 10 件のページについて、N を 3 から 検索エンジンの普及に伴い、様々な情報を取得するこ 10 に変更しながらキーワードを抽出し、出現頻度上位 20 とが容易となってきた。しかし、それらの情報の中には信 件のキーワードに基づいて、各ページの信頼度を判定し 頼度の低い情報も混ざっており、信頼度を自動的に評価 た。なお、表 1 における出現率の基準は 95%以上を高、 する事は有効であると考えられる。 6%から 94%を中、5%以下を低とした。 [1] 従来、多数決法を用いた信頼度判定 や PageRank に 3.2 実験結果と考察 よって Web ページの重要度を評価する手法が提案され 表 2 に各 Web ページの再検索結果件数の平均と出現 ているが、それらは情報の中身については言及していな 頻度順位の平均、および信頼度を示す。実験の結果、ウ い。そこで本研究では、情報の中身として検索結果で得 ィキペディアの「地球温暖化」のページが 1 位にランキン られた Web ページの内容からキーワードを抽出し、それ グされた。ウィキペディアは誰でも編集できる百科事典な らのキーワードの出現頻度と検索結果件数に着目した信 ので、様々な視点からの情報が多く記載されている。次 頼度評価手法を提案する。 に、地球温暖化についてまとめたページが 2 位から 5 位 2. 提案手法 にランキングされた。下位には、インターネット上の事典 本研究では、ある検索ワードに対して検索エンジンを や地球温暖化に関する資料をリンクしているだけのペー 用いて得た Web ページの内容を解析することでキーワー ジなどがランキングされた。また、最下位のページについ ドを抽出し、それらのキーワードが一般的に広く認知され ては、ページがフラッシュで構築されていたため内容をほ ており、尚且つ元のキーワードに対して重要度が高いと とんど取得できず、信頼度が低くなってしまった。 判断される場合、そのキーワードを含む Web ページの信 これらの結果より、ランキング上位のページは背景のし 頼度は高いと考える。 っかりした情報が記載されているページだったが、下位 まず、Web ページのテキストに対して N-gram で N を変 のページは内容の薄い情報やリンクなどが記載されてい 更しながら文字列を切り出し、キーワード候補 w𝑁𝑖 を抽 るページだということがわかった。これらは、一般に考えら ′ 出する。次に、w𝑁𝑖 の文字列をすべて含む w𝑁′𝑗 𝑁 > 𝑁 れる信頼度の観点とも合致すると考えられる。 の出現頻度とw𝑁𝑖 の出現頻度の比率(出現率)によってキ 表 2.各ページの信頼度 ページタイトル R(1000件) F(位) Rel ーワードを決定する。なお、キーワード決定に関わる基準 地球温暖化 - Wikipedia 4,004 14 291,168 を表1に示す。また、平仮名のみの文字列と元の検索ワ 第1部「地球温暖化とは?」|国立環境研究所 6,472 149 43,350 プラス地球温暖化 4,389 104 42,017 ードを含む文字列もキーワード候補から除外する。 『地球温暖化白書』 4,142 104 39,945 信頼度が高いと考えられるのは、抽出キーワードにお ぼくらの地球【地球温暖化教室】 5,335 142 37,691 地球温暖化とは - はてなキーワード 4,494 165 27,180 ける再検索結果件数が多く、抽出キーワードの検索結果 JCCCA 全国地球温暖化防止活動推進センター 2,820 153 18,412 全体における出現頻度順位が高い場合なので、各 Web 環境用語集 ~環境について調べる~ - 環境goo 5,013 287 17,498 気象庁 | 地球温暖化 4,267 524 8,141 ページにおける出現頻度上位キーワードの再検索結果 マイロク先生の地球一よくわかる温暖化問題 3,249 900 3,609 件数と、そのキーワードの検索結果全体の出現頻度順位 4. まとめ を用いて Web ページの信頼度を判定する。各ページに Web ページにおけるキーワードの出現頻度と検索結 対する信頼度 Rel は式(1)で定義する。ここで、R を再検 果件数に着目した信頼度評価手法を提案した。その結 索結果件数の平均、F を出現頻度順位の平均とする。 果、Web ページの信頼度を評価することができた。 ・・・(1) Rel = R/F 今後は、情報の出典なども考慮したより有効な信頼度 表 1.キーワードの判定基準 の評価を目指す。 出現率 高 中 低 参考文献 Nの小さい文字列 削除 キーワード キーワード Nの大きい文字列 キーワード キーワード 削除 3. 実験 3.1 実験方法 「地球温暖化」という検索ワードによる Yahoo!検索エン [1] 山本祐輔ほか,「ページ特性を考慮した Web 検索結 果の集約とページ生成時間分析による知識の信頼性判断 支援」, 電子情報通信学会論文誌, Vol.J91-D, No.3, pp .576-584, 2008 年 3 月. -27- Copyright © 2012 IEICE