Comments
Description
Transcript
授業スライド - 同志社大学 図書館情報学研究室
情報資源組織論 今日の概要 • BSH以外の件名: 情報資源組織論-1 第9回 – NDLSH、LCSH、学習件名 • 誰かがつける×自然語: – フォークソノミー、タクソノミー 2014年度 春秋学期 京田辺 担当 社会学部 佐藤翔 • 資料中の言葉×自然語: – サーチエンジンの仕組み 1 今後の授業について: 2 言葉による主題検索のパターン • 次々回から、コンピュータ室に教室を移し ます • 教室移動後…皆さんにPCを操作してもらい ながら授業を実施 • 資料中の言葉×自然語: – サーチエンジンなど • 資料中の言葉×統制語: – 無理(論理的に) • 誰かがつける×自然語: – キーワード、フォークソノミー • 誰かがつける×統制語: – シソーラス、件名標目表 3 言葉による主題検索のパターン 4 基本件名標目表(BSH) • 資料中の言葉×自然語: • Basic Subject Headings • 1956年初版.最新は1999年刊行の第4版 – サーチエンジンなど • 資料中の言葉×統制語: • 以下の内容を収録 – 無理(論理的に) – 件名標目 7,847 – 参照語 2,873 – 説明つき参照 93 – 細目 169 • 誰かがつける×自然語: – キーワード、フォークソノミー • 誰かがつける×統制語: – シソーラス、件名標目表 5 6 1 情報資源組織論 基本件名標目表(BSH) BSHの問題点 • 更新速度の遅さ(前の更新は1999年) • Basic Subject Headings • 1956年初版.最新は1999年刊行の第4版 • 収録標目数の限界(冊子にするため) 問題点も多い – 固有名詞件名標目群の省略 • 以下の内容を収録 – 例示的件名標目群の存在 – 件名標目 7,847 – 参照語 2,873 – 説明つき参照 93 – 細目 169 • 有料(誰でも自由に使えるわけではない) • 重い(笑…えない?) 7 BSHの問題点 • 検索の手間 8 Webで使える件名標目表 • 更新速度の遅さ(前の更新は1999年) • 国立国会図書館件名標目表(NDLSH) • 収録標目数の限界(冊子にするため) • アメリカ議会図書館件名標目表(LCSH) だいたいは冊子体で – 固有名詞件名標目群の省略 あるための制約 – 例示的件名標目群の存在 • 医学件名標目表(MeSH) – アメリカの国立医学図書館(NLM)が運用 • 有料(誰でも自由に使えるわけではない) – NLMが作るデータベース(PubMed)で使う • 重い(笑…えない?) • 検索の手間 – シソーラス 9 国立国会図書館件名標目表 (NDLSH) 10 NDLSHを使うには… • 国立国会図書館のサービスである「Web NDL Authorities 」などを通して利用可能 • National Diet Library Subject Headings • 国立国会図書館のための一館件名標目表 • 1964年初版. 1991年まで冊子体. 現在は Webのみで提供(PDF版/Web NDL Authorities) • 標目数:17,953件+α(BSHは7,847) 11 12 2 情報資源組織論 Web NDL Authorities 件名を使った 検索をするには? – NDLSHのほか、NDL の著者名典拠(詳細は 秋学期)も検索できる – キーワード検索/分類 検索が可能 – RDF(詳細は秋学期) 等の形式でデータ取得 可能 – 一括ダウンロード機能 13 ・複数の件名標目表が混在 ・細目の使用は不可能 -「日本-農業」と「日本 農業」を区別しない ・複数の件名標目表が混在 ・細目の使用が可能 -「日本-農業」と「日本 農業」で件数が変わる 言葉による主題検索のパターン • 資料中の言葉×自然語: – サーチエンジンなど • 資料中の言葉×統制語: – 無理(論理的に) • 誰かがつける×自然語: – キーワード、フォークソノミー ・複数の件名標目表が混在 ・細目の使用が可能 -「日本-農業」と「日本 農業」で件数が変わる • 誰かがつける×統制語: – シソーラス、件名標目表 18 3 情報資源組織論 言葉による主題検索のパターン • 資料中の言葉×自然語: フォークソノミーとは? • フォーク(Folk: 人々)+タクソノミー – サーチエンジンなど (Taxonomy: 分類)の造語 • 資料中の言葉×統制語: • コンテンツに参加者が自由にタグを付与 – 無理(論理的に) • タグによりコンテンツをカテゴリ分け • 誰かがつける×自然語: – キーワード、フォークソノミー • 誰かがつける×統制語: • 参考文献:緑川信之. フォークソノミーの新奇性はどこに – シソーラス、件名標目表 19 あるのか. 情報の科学と技術. 2007, 57(5), p.238-243. 20 4 情報資源組織論 フォークソノミーの特徴 • 専門家が押しつけた既存のタグではない • タグの共有によってネットワークを形成 • 既存の用語体系に基づかない • 参考文献:緑川信之. フォークソノミーの新奇性はどこに あるのか. 情報の科学と技術. 2007, 57(5), p.238-243. 26 フォークソノミーの問題点 フラクソノミー • 自然語検索の問題:同義語/多義語 • フラクス(Flux: 流転)+タクソノミー (Taxonomy:分類) • タグをつけた意図はわからない/混在 • 濱野智史(社会学者)による造語 – 例:「図書館」タグを… • 「図書館関連のwebページにつける」 • 代表例:ニコニコ動画のタグ • 「図書館で借りたい本につける」 • 主題をあらわさない(?)タグ – 「これはひどい」「ネタ」「あとで読む」 27 28 フラクソノミーの特徴 • (一定範囲で)参加者はタグを編集可能 • タグを付けられる個数は限定(ニコニコ動画の場 合は10個) • 既存のタグ以外のタグをつけるには他の参加者が つけたタグを削除する(タグ戦争) • タグの淘汰(面白いもの・有用なものが残る) • 常に変化する索引語 • 図書館情報学的に検討すると面白い…かも? 30 5 情報資源組織論 言葉による主題検索のパターン • 資料中の言葉×自然語: 全文検索の仕組み • grep型:頭から検索(逐次検索) – サーチエンジンなど…全文検索 – まさに全文を最初から見ていく • 資料中の言葉×統制語: – 凄く時間がかかる – 無理(論理的に) • 索引(インデックス)型 • 誰かがつける×自然語: – 事前に対象となる文書群に含まれる言葉を切り出 – キーワード、フォークソノミー して、どの文書にどの言葉が含まれるかの索引を • 誰かがつける×統制語: 作成しておく – シソーラス、件名標目表 31 例文 インデックスの作り方 • 単語ベース(形態素解析) 東京都と京都府とでは、京都出 身の人は京都の方が好きですが、 東京都出身だからといって東京 – 分かち書きがない言語では辞書がいる – N文字ごとに切り分けをしておく – 辞書はいらないが… 33 例文 34 インデックスの作り方 • 単語ベース(形態素解析) 東京都と京都府とでは、京都出 身の人は京都の方が好きですが、 東京都出身だからといって東京 – 単語で切り分けをしておく – 分かち書きがない言語では辞書がいる • N-gram を好きとは限らず、京都を好き な場合もあります – 単語で切り分けをしておく • N-gram を好きとは限らず、京都を好き な場合もあります 32 – N文字ごとに切り分けをしておく – 辞書はいらないが… 35 36 6 情報資源組織論 例文 検索結果表示順の決定方法 • 複数の文書を対象とする場合、適合する 東京都と京都府とでは、京都出 身の人は京都の方が好きですが、 文書をどういう順で表示するか? • 検索語の出現頻度 東京都出身だからといって東京 • TF・IDF法 を好きとは限らず、京都を好き • 文書構造の利用 な場合もあります • ページランク 37 TF・IDF法 38 ページランク • TF:Term frequency • Googleが採用した順位付けシステム – 検索語の文書内での出現頻度 – 現在ではあまり重みはおいていない…? • IDF:Inverse Document Frequency • ページ間のリンク関係に基づく順位づけ – 検索語がどれだけの文書で出現するか – よくリンクされているページは重要 – よく出てくる語ほど低く設定 • TF×IDFで単語の重みを決定 – 重要なページからのリンクは重要 – 例:ペトロパブロフスクカムチャツキー AND 居酒屋 39 – ただし乱発されるリンクは価値が低い 40 Take a Break! • 連絡先: [email protected] • 教材配布サイト: http://www.slis.doshisha.ac.jp/~min2fly/r on/index.html • 次回の予告: – 検索結果の評価:精度、再現率、それ以外 – いろいろな検索とそれに応じた組織化 41 7