Comments
Description
Transcript
新聞記事のブラウジングを提供する アーカイブシステム
JST新技術説明会 2008.4.16 2014年7月29日 新聞記事のブラウジングを提供する アーカイブシステム 大分大学 工学部 知能情報システム工学科 教授 中島 誠 2014年7月29日 JST新技術説明会 背景 文化遺産としての新聞 新聞は発行された時代を映す重要な情報源 様々な分野の活動や社会活動の記録 長期保存が難しく主に図書館がマイクロフィルムで所蔵 マイクロフィルム アーカイブシステム開発への要求1) 保存された新聞記事へのアクセスは難しい 掲載年月日,掲載ページ,掲載位置がわからない場合も多い より効果的な利用環境の整備への要求 学術コミュニティによる記事利用の促進 世界の現状 世界各国が新聞アーカイブシステムの開発プロジェクトの推進 サーチエンジンのようなキーワードを使った検索 歴史的に重要な新聞記事を図書館内やWeb上で提供 検索中心のシステム開発には人員・予算面で大きなコストが必要 低コストで簡便に記事にアクセス可能なアーカイブシステムの構築 1)カレントアウェアネスNo.286 2005 http://current.ndl.go.jp/ca1577) JST新技術説明会 2014年7月29日 従来の技術とその問題点 既存の新聞アーカイブシステム開発プロジェクト(⼀部) 英国図書館新聞資料デジタル化プロジェクト http://www.britishnewspaperarchive.co.uk/ 1800-1900年までの新聞49タイトル,約200万ページをディジタル化(2004-2007, 約4億円) 今後約4000万ページのディジタル化予定(2010年から10年間,費⽤は協⼒企業負担) オランダ王⽴図書館⽇刊紙デジタルデータバンクプロジェクト http://kranten.delpher.nl/ 1628-1945年までのオランダと旧植⺠地の新聞1,736タイトル,約918万ページをデジタル化( 2007-2012,約15億円) 2010年から100万ページがWeb公開 システム開発の基本的流れ ⼈員・予算⾯で⼤きなコストが必要 OCRの精度は必ずしも⾼くない(⽇本語になるとなおさら難しい) 古い新聞になるほど⾼い精度は望めない(19世紀の英字新聞で約69%1)) 修正は⼈⼿に依らねばならず,そのコストは膨⼤ キーワード検索の限界 望む記事を⾒つけるためのキーワードの選定は難しい 本棚のブラウジングのように様々な主題を含んだ新聞紙⾯を⻑期間にわたって眺め まわすことができないため,新しい発⾒が難しい 1. マイクロフィルムあるいは原紙⾯をスキャンニング,データベース構築 2. OCR(光学⽂字認識)処理でのテキスト抽出 3. テキスト修正,索引作成 1)Tanner, S. “Measuring the OCR accuracy across the British library’s 2 million page newspaper Archive,” Proc. IMPACT, 2009. JST新技術説明会 2014年7月29日 新技術とその特徴 低コストな新聞アーカイブシステムの実現技術 開発コンセプトは, 本棚を眺め回すように新聞記事を探す ブラウジングの提供 検索ではないので索引の⽤意不要 眺め回すことで新しい発⾒が⽣まれる探し⽅が可能 ただし, 配置の仕⽅に⼯夫がないとうまく探せない 書籍と違って1⽇の新聞は多様な主題の記事を収録 時空間的知識を利⽤した ◆新聞紙⾯画像の配置 ◆ソーシャルタギング促進の仕組み 2014年7月29日 JST新技術説明会 時空間的知識を利⽤した記事のブラウジングの提供 および記事への容易なタギングを可能に 新聞紙⾯のブラウジング 年と⽉と⽇の 線形カレンダー 空間 •時系列に関する知識(年⽉⽇)を利⽤して ズーミングしながら探索 •記事内容に関する知識(タグ)を利⽤して ズーミングしながら探索 記事閲読とソーシャルタギング 複数記事から なる 新聞紙⾯空間 •新聞紙⾯に関する知識(レイアウト)を 利⽤して記事をズーミングして閲読 •新聞紙⾯に関する知識(レイアウト)を 利⽤してソーシャルタギング JST新技術説明会 2014年7月29日 実施例:⼤分県⽴図書館所蔵新聞マイクロフィルムから のスキャン画像を対象にしたアーカイブシステムKENBUN ズーミングフォーム 年と月と日の 線形カレンダー 空間 複数記事から なる 新聞紙⾯空間 JST新技術説明会 2014年7月29日 KENBUNについての統計 収録対象:⼤分県⽴図書館所蔵マイクロフィルムに保存された ⼤分県内で発⾏された新聞紙⾯ (朝刊,⼣刊,号外,附録) 収録期間:明治9年(1876年)〜昭和38年(1963年) 86年分 (⽉数で1,032か⽉,⽇数で31,411⽇分) 新聞社 :⼤分合同新聞をはじめ25社分 紙⾯(ページ)総数: 約15.5万⾴ ※KENBUNは⼤分県⽴図書館と中津市⽴⼩幡記念図書館で現在稼 働中 JST新技術説明会 時系列順の線形配置 新聞記事を⽉ごとにカレンダー でまとめる(時系列順) 新聞社ごとのカレンダーを積層 表⽰ 1⽇のトップページは全て表⽰ 2014年7月29日 記事配置に従った紙⾯分割 閲覧とタグ付けが可能 紙⾯の空間をレイアウトを基 に6つに分割 紙⾯は拡⼤・縮⼩が可能 2014年7月29日 JST新技術説明会 使い⽅(1) 年⽉⽇ごとに新聞紙⾯をズーミング ⽉を選んでズーミング 年代をクリックしてズーミング ⽇を選んでズーミングして紙⾯閲覧 紙⾯のズーミング 部分領域の記事内容を⽰すタグ 2014年7月29日 JST新技術説明会 使い⽅(2) ⼤隈 タグを⽤いて新聞紙⾯を間接的にズーミング タグを⼊⼒ ⼤隈 ⼤隈 カレンダーを拡⼤ 絞り込まれた記事を選択 ⼤隈 紙⾯を選択,閲覧画⾯へ 絞り込んだタグの付いた記事を閲覧 2014年7月29日 JST新技術説明会 使い⽅(3) 新聞記事へのソーシャルタギング 新しいタグを⼊⼒して登録 評価したいタグをクリックして投票 タグを付加したい部分領域をクリック 該当する部分領域がハイライト表⽰ 該当する部分領域に既に付加され ているタグが表⽰される JST新技術説明会 2014年7月29日 ソーシャルタギングに対する2種の不安の除去 I. ユーザは紙⾯画像の中からタグが指し⽰す情報を探さなけれ ばならない.⽂中に無いタグも付加される場合もある ⇒ 探索の負担⼤ II. 間違った語句や記事にマッチしない語句(ノイズ)がタグとし て付加される恐れがある 領域に付加されたタグ ⇒ 探索の失敗 タグ位置の推定とノイズの推定 揚子江 三汽船 両部隊 米国 上陸 砲撃 誤認 軍艦 敵前 12 JST新技術説明会 2014年7月29日 タグ位置の推定とノイズの推定 OCRで単純にタグを⾒つけようとすると失敗する可能性が⾼い 類義語を⽤いて発⾒率の向上を図る 類義語の使⽤による効果 Ⅰ Ⅱ ⽂中に無い語句への対応 類義語を使って関係性の⾼い位置を探す OCRの精度の低さへの対応 類義語を使って探す対象の絶対数を増やす 不適当なタグ(ノイズ)が付加された場合への対応 類義語も発⾒できないならノイズの可能性を⽰唆できる 13 2014年7月29日 JST新技術説明会 想定される用途 低コストかつスピーディなアーカイブシステム構築 ★⼈的・時間的コストは対象とする⼀次資料の⽤意がメイン ★ブラウジング中⼼であるために検索のためのテキスト化は不要 ★時系列のように線形に配置することができれば,任意の⽂書 や画像,データに対応可能 例えば, 公⽂書や歴史⽂書など,膨⼤な量の⽂書画像 アーカイブ 時系列で収集されたビッグデータの視覚的探索を ⽀援するブラウジングシステム JST新技術説明会 2014年7月29日 実用化に向けた課題 試⽤第1版は2つの公⽴図書館で現在稼働中 操作性,応答性を確認中 ソーシャルタギングによるタグを収集中 複数ユーザへの対応可能システムの実現.Web化を 視野に. ソーシャルタギングにおけるタグ位置・ノイズ推定のための リアルタイムに反応可能な推定機構の実現.また,そ のための⾼速OCRの準備 2014年7月29日 JST新技術説明会 本技術に関する知的財産権 発明の名称: 新聞記事アーカイブシステム 出願番号 : 特願2013-222654 出願人 : 国立大学法人大分大学 発明者 : 中島誠・松原重喜・髙木祐耶・ 後藤幹登・中上祐基 問い合わせ先 国立大学法人大分大学 産学官連携推進機構 産学官連携コーディネーター 江隈 一郎 TEL: 097-554-7969 FAX: 097-554-7740 e-mail : coordinator@oita-u.ac.jp