...

問題解決のために使われる 特殊な仕組みのこと 多く

by user

on
Category: Documents
1

views

Report

Comments

Transcript

問題解決のために使われる 特殊な仕組みのこと 多く
ー検索エンジンとはー
2004年度
問題解決のために使われる
特殊な仕組みのこと
Œ 多くの場合は,何かを動かす
為に使われる動力を意味して
いる.
Œ
図書館活用論 II 第10講
図書館目録検索と検索エンジン
ーインターネットでの検索ー
(明治大学図書館庶務課システム担当 中林)
インターネット上の情報を探し出
す為に作られた,特殊な仕組み
ーインターネットとは?ー
ー図書館OPACと検索エンジンー
では,図書館の目録検索は.....
•
Œ
どちらも同じ情報検索ツール
• ただし,検索対象がちがう
Œ
Œ
• コンセプトは同じ!
• 一般的には,同一視されていない
Œ
同じプロトコル(TCP/IP)を利用した
ネットワークの集合体
→ネットワークのネットワーク
基本的に,参加・利用は自由で無料
インターネット全体を管理する組織・人
物はいない
自由だが,危険も隠れている
ー検索エンジンとOPACの違いー
コンテンツ
OPAC
検索エンジン
書誌規則による組織化
HTML による記述
(非組織化)
半自動登録・自動更新
データ登録 人間の判断による
更新
検索方式 インデックス方式
(正規化処理)
検索精度 高
検索特徴
適合率(近似値ヒット)
全文検索
(非正規化)
低
呼出率(広範囲ヒット)
同じ検索システムでも,検索対象が違うと,その特色も異なる
ー漢字キーワードの世界1ー
日本語は単語の切れ目ナシ
○
→
Œ
キーワードが作成できない.
N-gram による漢字キーワードの生成
→ 正しい単語の切れ目を推察する
→ 辞書の利用
http://www.bekkoame.ne.jp/~niyanag/researchTools/ngram.html
→ 参考資料①
1
ー漢字キーワードの世界2ー
☆ 検索語 : “日本経済”と“本経”
キーワードって?
○
→ 意味のある単語の塊
Œ
Œ
ー漢字キーワードの世界3−
○図書館OPAC
日本経済 ← キーワード
本経 ← キーワードではない?
・“日本経済” → 1000件以上
・“本経” → 3件
→参考資料②
“本経”では何がヒットするのだろう?
ー漢字キーワードの世界3ー
ー漢字キーワードの世界4−
☆ 検索語 : “日本経済”と“本経”
☆図書館OPACとGoogleの違い
○Google
図書館OPAC
は意味のないと
思われる単語で
はヒットさせない
○
・“日本経済” → 7,030,000件
・“本経” →
22,000件
○Googleはとり
あえず検索文字
列と同じであれ
ば,ヒットさせる
→参考資料②
検索エンジンの種類
ディレクトリ検索型
全文検索型
代表例
Yahoo!
Google,Goo,
データ収集
方式
更新頻度
登録制(審査あり)
ロボット登録+登録制
(審査なし→ロボット)
随時
検索方式
随時
ディレクトリ優先+
全文検索
セールスポイ 多彩なディレクトリと随
ント
時更新ニュース
全文検索+ディレクトリ検
索(切り替え方式)
ページランクシステムに
よる適合率表示
ベンダーは,情報検索の手段を提供しているだけ
ー検索結果の違いから考えるー
Yhaoo!とGoogleの検索結果表示の違い
ディレクトリ検索と全文検索の検索方法の違い
・比較的有名な事項を集中して検索
→ディレクトリ検索(カテゴリで集中表示)
・未知数の分野を網羅的に検索→全文検索
検索語表記による結果の違い
検索語の正規化は行われていない(例外あり)
・検索されるデータと同じ表記でいれることが重要!
2
ー正規化と検索結果ー
検索エンジンと情報取得
○Google→ “メイジダイガク” “めいじだいがく”
検索エンジンは膨大な数のページを拾ってくる.
→ 61件
→ 94件
○OPAC→ “メイジダイガク” “めいじだいがく”
→ 13件
でも必要なページはどこにあるのか?
検索エンジンの検索結果表示順には,秘密がある!
→ 13件
検索語の相関関係やページの重要度を独自のルールで
重み付けをして,優先度を基準に表示している.
○検索語の表記にも注意!
Google人気の秘密!→PageRankシステム
→ 参考資料③
ー検索エンジンの落とし穴ー
ーPageRankシステムの実例ー
○Google → “松井秀喜”
• 各検索エンジンのページランク付けシステムは
完璧か? → ページ作成者の胸のうち
→“MATSUI55.TV/松井秀喜オフィシャルサイト ”
• いつまで情報は行き続けいるのか
○goo → “松井秀喜”
→“松井秀喜野球の館”
○Yahoo → “松井秀喜”
→ ディレクトリ “松井秀喜”
→ ページ “MATSUI55.TV”
→ 著作権と情報の寿命
• すべての情報が検索できているか?
→ 検索語の妥当性
• 検索エンジンの限界
→ 新聞の全文は検索できるのか?
ーページの寿命と著作権ー
ー検索エンジンの限界ー
○ ページの寿命は,作成者の気持ち次第
○インターネット上の情報すべてが検索できるのか?
→ 誰も生存期間を保障しない.
z図書館OPACの書誌を検索エンジンで検索?
z新聞の全文データを検索エンジンで検索?
zページ管理者は,検索エンジンへの登録を拒
否できるか?
z検索できたページが本当に検索語とマッチして
いるのか?
○ インターネット情報の保存活動
• http://www.archive.org (履歴保存)
• NII−REO
http://reo.nii.ac.jp/journal/HtmlIndicate/html/index.
html → 学術雑誌リポジトリ
☆ インターネット上の情報は誰のものか?
3
検索エンジンと学術情報
•
ー学術情報検索の試みー
学術情報とは?→誰が学術情報と認定する?
○ Googleが提供する学術情報検索
• 学術情報としての使い方→参考文献リスト
検索サービス「Google Scholar」
• 学術情報だけを検索エンジンで探し出すには?
http://headlines.yahoo.co.jp/hl?a=2004112000000097-myc-sci → 参考資料④
• その情報が真実だと保証するのは誰?
• 情報の裏付けは必要なのか?
•
大学/研究機関の論文などのみを集中検索
☆何を学術情報とするか?
• 新たに著者での検索が可能
個人の判断と研究テーマ,情報の質に依存
• PageRankシステムの応用
ー情報の裏づけと図書館①ー
☆インターネットには不正確な情報も氾濫してい
る.より確かな根拠はどこにあるのか?
ー情報の裏づけと図書館②ー
○ 例題
現ブッシュ大統領が2002年度のノーベル平和賞
→ 出版物での確認
にノミネートされたらしい.これって本当?
→ 図書館に所蔵されているどうか?
○Googleで検索(日本語のページ 約 3,870 件ヒット)
☆出版物にはインターネットより多くのチェックが
入っている.すべてが正しいとは断言できないが,
インターネットの情報よりは信頼できるはずである
→ 裏付けの取れそうなページ →参考資料⑤
ーインターネット情報と図書館①−
ーインターネット情報と図書館②−
• 的確に必要な情報を探し出すには.
→ “ブッシュ大統領”,“ノーベル平和賞”
Œ
→ 検索エンジンの仕組みの理解
•
インターネット上の情報を保証するのは利用者
Œ
→ 真偽を見極められる経験と技術を
• 根拠のない情報に学術的価値はあるのか?
→ 根拠が不明瞭なら,図書館へ行く.
Œ
図書館に所蔵された資料が,インターネット情報
を裏付ける.
→ すべての根拠が図書館にあるか?
積み重なった情報から新たな価値を創造する.
→ あらたな根拠の創造(論文や発見)
作り出された情報の循環こそが図書館の役割.
→ 知の創造・循環
4
今日の授業の要点
Œ
Œ
Œ
Œ
検索エンジンは非常に便利,高速に大量の情報
を取得できる.
目録検索と検索エンジンとの違い.
検索エンジンでの情報収集にはコツがいる.上
手に使わないと必要な情報を見落とす可能性
あり.
インターネット上の情報を使う場合には,裏付
けが必要 → 図書館の重要性
5
Fly UP