Comments
Description
Transcript
問題解決のために使われる 特殊な仕組みのこと 多く
ー検索エンジンとはー 2004年度 問題解決のために使われる 特殊な仕組みのこと 多くの場合は,何かを動かす 為に使われる動力を意味して いる. 図書館活用論 II 第10講 図書館目録検索と検索エンジン ーインターネットでの検索ー (明治大学図書館庶務課システム担当 中林) インターネット上の情報を探し出 す為に作られた,特殊な仕組み ーインターネットとは?ー ー図書館OPACと検索エンジンー では,図書館の目録検索は..... • どちらも同じ情報検索ツール • ただし,検索対象がちがう • コンセプトは同じ! • 一般的には,同一視されていない 同じプロトコル(TCP/IP)を利用した ネットワークの集合体 →ネットワークのネットワーク 基本的に,参加・利用は自由で無料 インターネット全体を管理する組織・人 物はいない 自由だが,危険も隠れている ー検索エンジンとOPACの違いー コンテンツ OPAC 検索エンジン 書誌規則による組織化 HTML による記述 (非組織化) 半自動登録・自動更新 データ登録 人間の判断による 更新 検索方式 インデックス方式 (正規化処理) 検索精度 高 検索特徴 適合率(近似値ヒット) 全文検索 (非正規化) 低 呼出率(広範囲ヒット) 同じ検索システムでも,検索対象が違うと,その特色も異なる ー漢字キーワードの世界1ー 日本語は単語の切れ目ナシ ○ → キーワードが作成できない. N-gram による漢字キーワードの生成 → 正しい単語の切れ目を推察する → 辞書の利用 http://www.bekkoame.ne.jp/~niyanag/researchTools/ngram.html → 参考資料① 1 ー漢字キーワードの世界2ー ☆ 検索語 : “日本経済”と“本経” キーワードって? ○ → 意味のある単語の塊 ー漢字キーワードの世界3− ○図書館OPAC 日本経済 ← キーワード 本経 ← キーワードではない? ・“日本経済” → 1000件以上 ・“本経” → 3件 →参考資料② “本経”では何がヒットするのだろう? ー漢字キーワードの世界3ー ー漢字キーワードの世界4− ☆ 検索語 : “日本経済”と“本経” ☆図書館OPACとGoogleの違い ○Google 図書館OPAC は意味のないと 思われる単語で はヒットさせない ○ ・“日本経済” → 7,030,000件 ・“本経” → 22,000件 ○Googleはとり あえず検索文字 列と同じであれ ば,ヒットさせる →参考資料② 検索エンジンの種類 ディレクトリ検索型 全文検索型 代表例 Yahoo! Google,Goo, データ収集 方式 更新頻度 登録制(審査あり) ロボット登録+登録制 (審査なし→ロボット) 随時 検索方式 随時 ディレクトリ優先+ 全文検索 セールスポイ 多彩なディレクトリと随 ント 時更新ニュース 全文検索+ディレクトリ検 索(切り替え方式) ページランクシステムに よる適合率表示 ベンダーは,情報検索の手段を提供しているだけ ー検索結果の違いから考えるー Yhaoo!とGoogleの検索結果表示の違い ディレクトリ検索と全文検索の検索方法の違い ・比較的有名な事項を集中して検索 →ディレクトリ検索(カテゴリで集中表示) ・未知数の分野を網羅的に検索→全文検索 検索語表記による結果の違い 検索語の正規化は行われていない(例外あり) ・検索されるデータと同じ表記でいれることが重要! 2 ー正規化と検索結果ー 検索エンジンと情報取得 ○Google→ “メイジダイガク” “めいじだいがく” 検索エンジンは膨大な数のページを拾ってくる. → 61件 → 94件 ○OPAC→ “メイジダイガク” “めいじだいがく” → 13件 でも必要なページはどこにあるのか? 検索エンジンの検索結果表示順には,秘密がある! → 13件 検索語の相関関係やページの重要度を独自のルールで 重み付けをして,優先度を基準に表示している. ○検索語の表記にも注意! Google人気の秘密!→PageRankシステム → 参考資料③ ー検索エンジンの落とし穴ー ーPageRankシステムの実例ー ○Google → “松井秀喜” • 各検索エンジンのページランク付けシステムは 完璧か? → ページ作成者の胸のうち →“MATSUI55.TV/松井秀喜オフィシャルサイト ” • いつまで情報は行き続けいるのか ○goo → “松井秀喜” →“松井秀喜野球の館” ○Yahoo → “松井秀喜” → ディレクトリ “松井秀喜” → ページ “MATSUI55.TV” → 著作権と情報の寿命 • すべての情報が検索できているか? → 検索語の妥当性 • 検索エンジンの限界 → 新聞の全文は検索できるのか? ーページの寿命と著作権ー ー検索エンジンの限界ー ○ ページの寿命は,作成者の気持ち次第 ○インターネット上の情報すべてが検索できるのか? → 誰も生存期間を保障しない. z図書館OPACの書誌を検索エンジンで検索? z新聞の全文データを検索エンジンで検索? zページ管理者は,検索エンジンへの登録を拒 否できるか? z検索できたページが本当に検索語とマッチして いるのか? ○ インターネット情報の保存活動 • http://www.archive.org (履歴保存) • NII−REO http://reo.nii.ac.jp/journal/HtmlIndicate/html/index. html → 学術雑誌リポジトリ ☆ インターネット上の情報は誰のものか? 3 検索エンジンと学術情報 • ー学術情報検索の試みー 学術情報とは?→誰が学術情報と認定する? ○ Googleが提供する学術情報検索 • 学術情報としての使い方→参考文献リスト 検索サービス「Google Scholar」 • 学術情報だけを検索エンジンで探し出すには? http://headlines.yahoo.co.jp/hl?a=2004112000000097-myc-sci → 参考資料④ • その情報が真実だと保証するのは誰? • 情報の裏付けは必要なのか? • 大学/研究機関の論文などのみを集中検索 ☆何を学術情報とするか? • 新たに著者での検索が可能 個人の判断と研究テーマ,情報の質に依存 • PageRankシステムの応用 ー情報の裏づけと図書館①ー ☆インターネットには不正確な情報も氾濫してい る.より確かな根拠はどこにあるのか? ー情報の裏づけと図書館②ー ○ 例題 現ブッシュ大統領が2002年度のノーベル平和賞 → 出版物での確認 にノミネートされたらしい.これって本当? → 図書館に所蔵されているどうか? ○Googleで検索(日本語のページ 約 3,870 件ヒット) ☆出版物にはインターネットより多くのチェックが 入っている.すべてが正しいとは断言できないが, インターネットの情報よりは信頼できるはずである → 裏付けの取れそうなページ →参考資料⑤ ーインターネット情報と図書館①− ーインターネット情報と図書館②− • 的確に必要な情報を探し出すには. → “ブッシュ大統領”,“ノーベル平和賞” → 検索エンジンの仕組みの理解 • インターネット上の情報を保証するのは利用者 → 真偽を見極められる経験と技術を • 根拠のない情報に学術的価値はあるのか? → 根拠が不明瞭なら,図書館へ行く. 図書館に所蔵された資料が,インターネット情報 を裏付ける. → すべての根拠が図書館にあるか? 積み重なった情報から新たな価値を創造する. → あらたな根拠の創造(論文や発見) 作り出された情報の循環こそが図書館の役割. → 知の創造・循環 4 今日の授業の要点 検索エンジンは非常に便利,高速に大量の情報 を取得できる. 目録検索と検索エンジンとの違い. 検索エンジンでの情報収集にはコツがいる.上 手に使わないと必要な情報を見落とす可能性 あり. インターネット上の情報を使う場合には,裏付 けが必要 → 図書館の重要性 5