...

Web ページにおけるキーワードの出現頻度と検索結果件数に着目した

by user

on
Category: Documents
9

views

Report

Comments

Transcript

Web ページにおけるキーワードの出現頻度と検索結果件数に着目した
平成 23 年度電子情報通信学会東京支部学生会研究発表会
講演番号: 27
Web ページにおけるキーワードの出現頻度と検索結果件数に着目した信頼度評価
Reliability Evaluation of a Web Page Based on its Keyword Frequency and the Number of Search Results for its Keyword
A-○
清水 麻衣子† 横井 健†
Maiko SHIMIZU† Takeru YOKOI†
† 東京都立産業技術高等専門学校 ものづくり工学科電子情報工学コース
† Electronics and Information Engineering Course, Monozukuri Department,
Tokyo Metropolitan College of Industrial Technology
1. はじめに
ジンの検索結果上位 10 件のページについて、N を 3 から
検索エンジンの普及に伴い、様々な情報を取得するこ
10 に変更しながらキーワードを抽出し、出現頻度上位 20
とが容易となってきた。しかし、それらの情報の中には信
件のキーワードに基づいて、各ページの信頼度を判定し
頼度の低い情報も混ざっており、信頼度を自動的に評価
た。なお、表 1 における出現率の基準は 95%以上を高、
する事は有効であると考えられる。
6%から 94%を中、5%以下を低とした。
[1]
従来、多数決法を用いた信頼度判定 や PageRank に
3.2 実験結果と考察
よって Web ページの重要度を評価する手法が提案され
表 2 に各 Web ページの再検索結果件数の平均と出現
ているが、それらは情報の中身については言及していな
頻度順位の平均、および信頼度を示す。実験の結果、ウ
い。そこで本研究では、情報の中身として検索結果で得
ィキペディアの「地球温暖化」のページが 1 位にランキン
られた Web ページの内容からキーワードを抽出し、それ
グされた。ウィキペディアは誰でも編集できる百科事典な
らのキーワードの出現頻度と検索結果件数に着目した信
ので、様々な視点からの情報が多く記載されている。次
頼度評価手法を提案する。
に、地球温暖化についてまとめたページが 2 位から 5 位
2. 提案手法
にランキングされた。下位には、インターネット上の事典
本研究では、ある検索ワードに対して検索エンジンを
や地球温暖化に関する資料をリンクしているだけのペー
用いて得た Web ページの内容を解析することでキーワー
ジなどがランキングされた。また、最下位のページについ
ドを抽出し、それらのキーワードが一般的に広く認知され
ては、ページがフラッシュで構築されていたため内容をほ
ており、尚且つ元のキーワードに対して重要度が高いと
とんど取得できず、信頼度が低くなってしまった。
判断される場合、そのキーワードを含む Web ページの信
これらの結果より、ランキング上位のページは背景のし
頼度は高いと考える。
っかりした情報が記載されているページだったが、下位
まず、Web ページのテキストに対して N-gram で N を変
のページは内容の薄い情報やリンクなどが記載されてい
更しながら文字列を切り出し、キーワード候補 w𝑁𝑖 を抽
るページだということがわかった。これらは、一般に考えら
′
出する。次に、w𝑁𝑖 の文字列をすべて含む w𝑁′𝑗 𝑁 > 𝑁
れる信頼度の観点とも合致すると考えられる。
の出現頻度とw𝑁𝑖 の出現頻度の比率(出現率)によってキ
表 2.各ページの信頼度
ページタイトル
R(1000件) F(位)
Rel
ーワードを決定する。なお、キーワード決定に関わる基準
地球温暖化 - Wikipedia
4,004 14 291,168
を表1に示す。また、平仮名のみの文字列と元の検索ワ
第1部「地球温暖化とは?」|国立環境研究所
6,472 149
43,350
プラス地球温暖化
4,389 104
42,017
ードを含む文字列もキーワード候補から除外する。
『地球温暖化白書』
4,142 104
39,945
信頼度が高いと考えられるのは、抽出キーワードにお
ぼくらの地球【地球温暖化教室】
5,335 142
37,691
地球温暖化とは - はてなキーワード
4,494 165
27,180
ける再検索結果件数が多く、抽出キーワードの検索結果
JCCCA 全国地球温暖化防止活動推進センター
2,820 153
18,412
全体における出現頻度順位が高い場合なので、各 Web
環境用語集 ~環境について調べる~ - 環境goo
5,013 287
17,498
気象庁 | 地球温暖化
4,267 524
8,141
ページにおける出現頻度上位キーワードの再検索結果
マイロク先生の地球一よくわかる温暖化問題
3,249 900
3,609
件数と、そのキーワードの検索結果全体の出現頻度順位
4. まとめ
を用いて Web ページの信頼度を判定する。各ページに
Web ページにおけるキーワードの出現頻度と検索結
対する信頼度 Rel は式(1)で定義する。ここで、R を再検
果件数に着目した信頼度評価手法を提案した。その結
索結果件数の平均、F を出現頻度順位の平均とする。
果、Web ページの信頼度を評価することができた。
・・・(1)
Rel = R/F
今後は、情報の出典なども考慮したより有効な信頼度
表 1.キーワードの判定基準
の評価を目指す。
出現率
高
中
低
参考文献
Nの小さい文字列
削除
キーワード キーワード
Nの大きい文字列 キーワード キーワード
削除
3. 実験
3.1 実験方法
「地球温暖化」という検索ワードによる Yahoo!検索エン
[1] 山本祐輔ほか,「ページ特性を考慮した Web 検索結
果の集約とページ生成時間分析による知識の信頼性判断
支援」, 電子情報通信学会論文誌, Vol.J91-D, No.3, pp
.576-584, 2008 年 3 月.
-27-
Copyright © 2012 IEICE
Fly UP