...

授業スライド - 同志社大学 図書館情報学研究室

by user

on
Category: Documents
25

views

Report

Comments

Transcript

授業スライド - 同志社大学 図書館情報学研究室
情報資源組織論
今日の概要
• BSH以外の件名:
情報資源組織論-1
第9回
– NDLSH、LCSH、学習件名
• 誰かがつける×自然語:
– フォークソノミー、タクソノミー
2014年度 春秋学期 京田辺
担当 社会学部 佐藤翔
• 資料中の言葉×自然語:
– サーチエンジンの仕組み
1
今後の授業について:
2
言葉による主題検索のパターン
• 次々回から、コンピュータ室に教室を移し
ます
• 教室移動後…皆さんにPCを操作してもらい
ながら授業を実施
• 資料中の言葉×自然語:
– サーチエンジンなど
• 資料中の言葉×統制語:
– 無理(論理的に)
• 誰かがつける×自然語:
– キーワード、フォークソノミー
• 誰かがつける×統制語:
– シソーラス、件名標目表
3
言葉による主題検索のパターン
4
基本件名標目表(BSH)
• 資料中の言葉×自然語:
• Basic Subject Headings
• 1956年初版.最新は1999年刊行の第4版
– サーチエンジンなど
• 資料中の言葉×統制語:
• 以下の内容を収録
– 無理(論理的に)
– 件名標目
7,847
– 参照語
2,873
– 説明つき参照 93
– 細目
169
• 誰かがつける×自然語:
– キーワード、フォークソノミー
• 誰かがつける×統制語:
– シソーラス、件名標目表
5
6
1
情報資源組織論
基本件名標目表(BSH)
BSHの問題点
• 更新速度の遅さ(前の更新は1999年)
• Basic Subject Headings
• 1956年初版.最新は1999年刊行の第4版
• 収録標目数の限界(冊子にするため)
問題点も多い
– 固有名詞件名標目群の省略
• 以下の内容を収録
– 例示的件名標目群の存在
– 件名標目
7,847
– 参照語
2,873
– 説明つき参照 93
– 細目
169
• 有料(誰でも自由に使えるわけではない)
• 重い(笑…えない?)
7
BSHの問題点
• 検索の手間
8
Webで使える件名標目表
• 更新速度の遅さ(前の更新は1999年)
• 国立国会図書館件名標目表(NDLSH)
• 収録標目数の限界(冊子にするため)
• アメリカ議会図書館件名標目表(LCSH)
だいたいは冊子体で
– 固有名詞件名標目群の省略
あるための制約
– 例示的件名標目群の存在
• 医学件名標目表(MeSH)
– アメリカの国立医学図書館(NLM)が運用
• 有料(誰でも自由に使えるわけではない)
– NLMが作るデータベース(PubMed)で使う
• 重い(笑…えない?)
• 検索の手間
– シソーラス
9
国立国会図書館件名標目表
(NDLSH)
10
NDLSHを使うには…
• 国立国会図書館のサービスである「Web
NDL Authorities 」などを通して利用可能
• National Diet Library Subject Headings
• 国立国会図書館のための一館件名標目表
• 1964年初版. 1991年まで冊子体. 現在は
Webのみで提供(PDF版/Web NDL
Authorities)
• 標目数:17,953件+α(BSHは7,847)
11
12
2
情報資源組織論
Web NDL Authorities
件名を使った
検索をするには?
– NDLSHのほか、NDL
の著者名典拠(詳細は
秋学期)も検索できる
– キーワード検索/分類
検索が可能
– RDF(詳細は秋学期)
等の形式でデータ取得
可能
– 一括ダウンロード機能
13
・複数の件名標目表が混在
・細目の使用は不可能
-「日本-農業」と「日本 農業」を区別しない
・複数の件名標目表が混在
・細目の使用が可能
-「日本-農業」と「日本 農業」で件数が変わる
言葉による主題検索のパターン
• 資料中の言葉×自然語:
– サーチエンジンなど
• 資料中の言葉×統制語:
– 無理(論理的に)
• 誰かがつける×自然語:
– キーワード、フォークソノミー
・複数の件名標目表が混在
・細目の使用が可能
-「日本-農業」と「日本 農業」で件数が変わる
• 誰かがつける×統制語:
– シソーラス、件名標目表
18
3
情報資源組織論
言葉による主題検索のパターン
• 資料中の言葉×自然語:
フォークソノミーとは?
• フォーク(Folk: 人々)+タクソノミー
– サーチエンジンなど
(Taxonomy: 分類)の造語
• 資料中の言葉×統制語:
• コンテンツに参加者が自由にタグを付与
– 無理(論理的に)
• タグによりコンテンツをカテゴリ分け
• 誰かがつける×自然語:
– キーワード、フォークソノミー
• 誰かがつける×統制語:
• 参考文献:緑川信之. フォークソノミーの新奇性はどこに
– シソーラス、件名標目表
19
あるのか. 情報の科学と技術. 2007, 57(5), p.238-243.
20
4
情報資源組織論
フォークソノミーの特徴
• 専門家が押しつけた既存のタグではない
• タグの共有によってネットワークを形成
• 既存の用語体系に基づかない
• 参考文献:緑川信之. フォークソノミーの新奇性はどこに
あるのか. 情報の科学と技術. 2007, 57(5), p.238-243.
26
フォークソノミーの問題点
フラクソノミー
• 自然語検索の問題:同義語/多義語
• フラクス(Flux: 流転)+タクソノミー
(Taxonomy:分類)
• タグをつけた意図はわからない/混在
• 濱野智史(社会学者)による造語
– 例:「図書館」タグを…
• 「図書館関連のwebページにつける」
• 代表例:ニコニコ動画のタグ
• 「図書館で借りたい本につける」
• 主題をあらわさない(?)タグ
– 「これはひどい」「ネタ」「あとで読む」
27
28
フラクソノミーの特徴
• (一定範囲で)参加者はタグを編集可能
• タグを付けられる個数は限定(ニコニコ動画の場
合は10個)
• 既存のタグ以外のタグをつけるには他の参加者が
つけたタグを削除する(タグ戦争)
• タグの淘汰(面白いもの・有用なものが残る)
• 常に変化する索引語
• 図書館情報学的に検討すると面白い…かも?
30
5
情報資源組織論
言葉による主題検索のパターン
• 資料中の言葉×自然語:
全文検索の仕組み
• grep型:頭から検索(逐次検索)
– サーチエンジンなど…全文検索
– まさに全文を最初から見ていく
• 資料中の言葉×統制語:
– 凄く時間がかかる
– 無理(論理的に)
• 索引(インデックス)型
• 誰かがつける×自然語:
– 事前に対象となる文書群に含まれる言葉を切り出
– キーワード、フォークソノミー
して、どの文書にどの言葉が含まれるかの索引を
• 誰かがつける×統制語:
作成しておく
– シソーラス、件名標目表
31
例文
インデックスの作り方
• 単語ベース(形態素解析)
東京都と京都府とでは、京都出
身の人は京都の方が好きですが、
東京都出身だからといって東京
– 分かち書きがない言語では辞書がいる
– N文字ごとに切り分けをしておく
– 辞書はいらないが…
33
例文
34
インデックスの作り方
• 単語ベース(形態素解析)
東京都と京都府とでは、京都出
身の人は京都の方が好きですが、
東京都出身だからといって東京
– 単語で切り分けをしておく
– 分かち書きがない言語では辞書がいる
• N-gram
を好きとは限らず、京都を好き
な場合もあります
– 単語で切り分けをしておく
• N-gram
を好きとは限らず、京都を好き
な場合もあります
32
– N文字ごとに切り分けをしておく
– 辞書はいらないが…
35
36
6
情報資源組織論
例文
検索結果表示順の決定方法
• 複数の文書を対象とする場合、適合する
東京都と京都府とでは、京都出
身の人は京都の方が好きですが、
文書をどういう順で表示するか?
• 検索語の出現頻度
東京都出身だからといって東京
• TF・IDF法
を好きとは限らず、京都を好き
• 文書構造の利用
な場合もあります
• ページランク
37
TF・IDF法
38
ページランク
• TF:Term frequency
• Googleが採用した順位付けシステム
– 検索語の文書内での出現頻度
– 現在ではあまり重みはおいていない…?
• IDF:Inverse Document Frequency
• ページ間のリンク関係に基づく順位づけ
– 検索語がどれだけの文書で出現するか
– よくリンクされているページは重要
– よく出てくる語ほど低く設定
• TF×IDFで単語の重みを決定
– 重要なページからのリンクは重要
– 例:ペトロパブロフスクカムチャツキー AND 居酒屋
39
– ただし乱発されるリンクは価値が低い
40
Take a Break!
• 連絡先: [email protected]
• 教材配布サイト:
http://www.slis.doshisha.ac.jp/~min2fly/r
on/index.html
• 次回の予告:
– 検索結果の評価:精度、再現率、それ以外
– いろいろな検索とそれに応じた組織化
41
7
Fly UP