問題解決のために使われる特殊な仕組みのこと多く

by user

on 28 марта 2017

Category: Documents

>> Downloads: 0

views

Report

Comments

Description

Download 問題解決のために使われる特殊な仕組みのこと多く

Transcript

問題解決のために使われる特殊な仕組みのこと多く

ー検索エンジンとはー
2004年度
問題解決のために使われる
特殊な仕組みのこと
多くの場合は，何かを動かす
為に使われる動力を意味して
いる．

図書館活用論 II 第１０講
図書館目録検索と検索エンジン
ーインターネットでの検索ー
（明治大学図書館庶務課システム担当中林）
インターネット上の情報を探し出
す為に作られた，特殊な仕組み
ーインターネットとは？ー
ー図書館OPACと検索エンジンー
では，図書館の目録検索は．．．．．
•

どちらも同じ情報検索ツール
• ただし，検索対象がちがう

• コンセプトは同じ！
• 一般的には，同一視されていない

同じプロトコル（TCP/IP)を利用した
ネットワークの集合体
→ネットワークのネットワーク
基本的に，参加・利用は自由で無料
インターネット全体を管理する組織・人
物はいない
自由だが，危険も隠れている
ー検索エンジンとOPACの違いー
コンテンツ
OPAC
検索エンジン
書誌規則による組織化
HTML による記述
（非組織化）
半自動登録・自動更新
データ登録人間の判断による
更新
検索方式インデックス方式
（正規化処理）
検索精度高
検索特徴
適合率（近似値ヒット）
全文検索
（非正規化）
低
呼出率（広範囲ヒット）
同じ検索システムでも，検索対象が違うと，その特色も異なる
ー漢字キーワードの世界１ー
日本語は単語の切れ目ナシ
○
→

キーワードが作成できない．
N-gram による漢字キーワードの生成
→ 正しい単語の切れ目を推察する
→ 辞書の利用
http://www.bekkoame.ne.jp/~niyanag/researchTools/ngram.html
→ 参考資料①
1
ー漢字キーワードの世界２ー
☆ 検索語： “日本経済”と“本経”
キーワードって？
○
→ 意味のある単語の塊

ー漢字キーワードの世界３−
○図書館OPAC
日本経済 ← キーワード
本経 ← キーワードではない？
・“日本経済” → １０００件以上
・“本経” → 3件
→参考資料②
“本経”では何がヒットするのだろう？
ー漢字キーワードの世界３ー
ー漢字キーワードの世界４−
☆ 検索語： “日本経済”と“本経”
☆図書館OPACとGoogleの違い
○Google
図書館OPAC
は意味のないと
思われる単語で
はヒットさせない
○
・“日本経済” → 7,030,000件
・“本経” →
22,000件
○Googleはとり
あえず検索文字
列と同じであれ
ば，ヒットさせる
→参考資料②
検索エンジンの種類
ディレクトリ検索型
全文検索型
代表例
Yahoo!
Google，Goo，
データ収集
方式
更新頻度
登録制（審査あり）
ロボット登録＋登録制
（審査なし→ロボット）
随時
検索方式
随時
ディレクトリ優先＋
全文検索
セールスポイ多彩なディレクトリと随
ント
時更新ニュース
全文検索＋ディレクトリ検
索（切り替え方式）
ページランクシステムに
よる適合率表示
ベンダーは，情報検索の手段を提供しているだけ
ー検索結果の違いから考えるー
Yhaoo!とGoogleの検索結果表示の違い
ディレクトリ検索と全文検索の検索方法の違い
・比較的有名な事項を集中して検索
→ディレクトリ検索（カテゴリで集中表示）
・未知数の分野を網羅的に検索→全文検索
検索語表記による結果の違い
検索語の正規化は行われていない（例外あり）
・検索されるデータと同じ表記でいれることが重要！
2
ー正規化と検索結果ー
検索エンジンと情報取得
○Google→ “メイジダイガク” “めいじだいがく”
検索エンジンは膨大な数のページを拾ってくる．
→ ６１件
→ ９４件
○ＯＰＡＣ→ “メイジダイガク” “めいじだいがく”
→ １３件
でも必要なページはどこにあるのか？
検索エンジンの検索結果表示順には，秘密がある！
→ １３件
検索語の相関関係やページの重要度を独自のルールで
重み付けをして，優先度を基準に表示している．
○検索語の表記にも注意！
Google人気の秘密！→PageRankシステム
→ 参考資料③
ー検索エンジンの落とし穴ー
ーＰａｇｅＲａｎｋシステムの実例ー
○Ｇｏｏｇｌｅ → “松井秀喜”
• 各検索エンジンのページランク付けシステムは
完璧か？ → ページ作成者の胸のうち
→“MATSUI55.TV/松井秀喜オフィシャルサイト ”
• いつまで情報は行き続けいるのか
○goo → “松井秀喜”
→“松井秀喜野球の館”
○Yahoo → “松井秀喜”
→ ディレクトリ “松井秀喜”
→ ページ “MATSUI55.TV”
→ 著作権と情報の寿命
• すべての情報が検索できているか？
→ 検索語の妥当性
• 検索エンジンの限界
→ 新聞の全文は検索できるのか？
ーページの寿命と著作権ー
ー検索エンジンの限界ー
○ ページの寿命は，作成者の気持ち次第
○インターネット上の情報すべてが検索できるのか？
→ 誰も生存期間を保障しない．
z図書館ＯＰＡＣの書誌を検索エンジンで検索？
z新聞の全文データを検索エンジンで検索？
zページ管理者は，検索エンジンへの登録を拒
否できるか？
z検索できたページが本当に検索語とマッチして
いるのか？
○ インターネット情報の保存活動
• http://www.archive.org （履歴保存）
• ＮＩＩ−ＲＥＯ
http://reo.nii.ac.jp/journal/HtmlIndicate/html/index.
html → 学術雑誌リポジトリ
☆ インターネット上の情報は誰のものか？
3
検索エンジンと学術情報
•
ー学術情報検索の試みー
学術情報とは？→誰が学術情報と認定する？
○ Ｇｏｏｇｌｅが提供する学術情報検索
• 学術情報としての使い方→参考文献リスト
検索サービス「Google Scholar」
• 学術情報だけを検索エンジンで探し出すには？
http://headlines.yahoo.co.jp/hl?a=2004112000000097-myc-sci → 参考資料④
• その情報が真実だと保証するのは誰？
• 情報の裏付けは必要なのか？
•
大学／研究機関の論文などのみを集中検索
☆何を学術情報とするか？
• 新たに著者での検索が可能
個人の判断と研究テーマ，情報の質に依存
• ＰａｇｅＲａｎｋシステムの応用
ー情報の裏づけと図書館①ー
☆インターネットには不正確な情報も氾濫してい
る．より確かな根拠はどこにあるのか？
ー情報の裏づけと図書館②ー
○ 例題
現ブッシュ大統領が2002年度のノーベル平和賞
→ 出版物での確認
にノミネートされたらしい．これって本当？
→ 図書館に所蔵されているどうか？
○Ｇｏｏｇｌｅで検索（日本語のページ約 3,870 件ヒット）
☆出版物にはインターネットより多くのチェックが
入っている．すべてが正しいとは断言できないが，
インターネットの情報よりは信頼できるはずである
→ 裏付けの取れそうなページ →参考資料⑤
ーインターネット情報と図書館①−
ーインターネット情報と図書館②−
• 的確に必要な情報を探し出すには．
→ “ブッシュ大統領”，“ノーベル平和賞”

→ 検索エンジンの仕組みの理解
•
インターネット上の情報を保証するのは利用者

→ 真偽を見極められる経験と技術を
• 根拠のない情報に学術的価値はあるのか？
→ 根拠が不明瞭なら，図書館へ行く．

図書館に所蔵された資料が，インターネット情報
を裏付ける．
→ すべての根拠が図書館にあるか？
積み重なった情報から新たな価値を創造する．
→ あらたな根拠の創造（論文や発見）
作り出された情報の循環こそが図書館の役割．
→ 知の創造・循環
4
今日の授業の要点

検索エンジンは非常に便利,高速に大量の情報
を取得できる．
目録検索と検索エンジンとの違い．
検索エンジンでの情報収集にはコツがいる．上
手に使わないと必要な情報を見落とす可能性
あり．
インターネット上の情報を使う場合には，裏付
けが必要 → 図書館の重要性
5

問題解決のために使われる 特殊な仕組みのこと 多く

Comments

Description

Transcript

問題解決のために使われる特殊な仕組みのこと多く