...

テキストへのpdf

by user

on
Category: Documents
10

views

Report

Comments

Transcript

テキストへのpdf
機関リポジトリ
構築後の実際の作業
近畿における機関リポジトリコミュニティ形成の支援
平成23年度連続研修会 2011年10月21日
森下映理(奈良女子大学附属図書館電子情報係)
本日の内容
●奈良女子大学と本学リポジトリの概要
立ち上げ当初から現在まで
●本学リポジトリに関する実際の作業について
画像のPDF化を中心に
奈良女子大学について
◆大学の概要
学部・研究科の構成:
学部
奈
良
女
子
大
学
文学部
理学部
生活環境学部
大学院
人間文化研究科
会議中の鹿達
附属中等教育学校
附属学校部
附属小学校
附属幼稚園
学生総数: 2685名(学部学生2111名、大学院学生574名)
教員総数: 364名(附属学校園含む)
(2011年5月1日現在)
(C)奈良女子大学社会連携センター
奈良女子大学附属図書館について
◆構成:
情報管理係・情報サービス係・電子情報係
(常勤:6名 非常勤:6名)
★リポジトリ担当は電子情報係(常勤1・非常勤1)
本学リポジトリについて
平成18年
学内委員会の立ち上げ
「平成18年度次世代学術コンテンツ基盤共同構築事業:領域1」委託業務に採択される!
学内刊行物の調査・把握→公開許諾依頼
近年の刊行物のPDF化
D‐Space 構築(業者に依頼)
初代担当者、登校拒否寸前に。
リポジトリって何?
平成19年
領域1継続中
10月リポジトリ専任非常勤職員採用
情報収集(DRFメーリングリストへの参加)
学内広報活動の推進
公開許諾依頼 (研究者総覧に登録されている論文について)
平成20年
3月 正式公開
引き続き、個別の著者に対しての公開許諾依頼→登録作業
平成21年
3月末 リポジトリ専任の非常勤退職→後任の学内予算つかず
10月 担当係長交代 (初代担当係長、学外へ)
平成22年
3月 領域1委託業務終了
4月 またもや担当係長交代 (館内移動)。新課長のもと新体制に。
領域3(近畿領域)と領域2(遺跡リポジトリ)採択される
平成23年
領域3(近畿領域)と領域2(遺跡リポジトリ)継続中。
4月 図書館長が副学長と兼任に。
人員減!!!
登録はじりじり増加。海外からもアクセスあり。
Sep‐11
Jun‐11
Mar‐11
Dec‐10
Sep‐10
Jun‐10
Mar‐10
Dec‐09
Sep‐09
0
Jun‐09
500
Mar‐09
25,000
Dec‐08
2000
Sep‐08
2500
Jun‐08
累計登録件数
Mar‐08
Sep‐11
Jun‐11
Mar‐11
Dec‐10
Sep‐10
Jun‐10
Mar‐10
Dec‐09
Sep‐09
Jun‐09
Mar‐09
Dec‐08
Sep‐08
Jun‐08
Mar‐08
少しずつでも、前進
しk
月別アクセス数(item view)
30,000
2010年3月~6月、
エラーでデータ無
20,000
1500
15,000
1000
10,000
5,000
0
構築後の実際の作業
コンテンツ収集
著作権処理
電子データの作成
登録
本学では、基本的に外注せず、図書館内で作業
本学の電子データの作成について
1
印刷会社等が
作成したPDF
Microsoft Office
のファイル
(WORD等)
2
3
紙媒体の資料
(本・雑誌等)
紀要などの印刷
時に作成された
PDF
CHECK!
SCAN
PDFプリンタで
PDF化
PDF化
(画像化)
OCR
登 録(メタデータ付与)
OCRって何のこと?
Q1. OCR (Optical Character Reader)とは?
OCR(Optical Character Reader)は、光学式文字読取装置。文
字を光学的に読み取り、前もって記憶されたパターンとの照
合により文字を特定し、文字データを入力する。
Q2.なぜOCR機能を利用して透明テキストをつけるのか?
紙媒体をスキャンしたPDFはただの画像で、文字データを持
たない。OCR機能で透明テキストを付与して、検索可能にす
るために、OCRを行う。
印刷会社が作成したPDFやMicrosoft Wordなどから変換し
たPDFは、もともと文字データがあるため、PDFではあるが、
なりたちが違う。
9
PDFの成り立ちの違い
電子媒体由来のPDF
文字データと画像データの組み合わせ。フォント
情報を有する。ファイルは、スキャンして作成し
たPDFより小さく、拡大縮小した場合にも文字等
がつぶれず美しい。
注)印刷会社の仕様書を作成する場合は、「フォ
ント埋め込み」を依頼すること。
個々の
文字データ
あ +い+う+え+お
紙媒体由来のPDF
一枚の画像。文字情報がないので、OCR
機能を使って、上から透明テキストをかぶ
せる必要がある。
透明テキスト
OCR
処理
あいうえお
あ +い+う+え+お
画像データ
10
フォント埋め込みはなぜ必要か?
■表示の問題
印刷会社が作成したPDFの場合、特殊なフォ
ントを使用していることがある。しかし、フォン
トを埋め込みを行わないと、PCにないフォン
トを使用しているPDFは、文字が正しく表示さ
れない。そのため、出版物印刷時にPDFを作
成してもらう場合は、「フォント埋め込み」を行
う必要がある。
Microsoft Office文書ファイルを
PDFに変換する
Adobe Acrobat (Readerは×)をインストールするとOffice文書をPDFに変換可能に。
■Adobe Acrobat プリンタを利用
Word やPowerPointなどのOfficeアプリ
ケーションがインストールされているパソ
コンに、Adobe Acrobatをインストールす
ると、PDFプリンタが利用可能になる。
印刷設定で出力プリンタとしてAdobe PDFを選択すれば、簡単にPDFに変換
できる。
■PDF Makerを利用
同様に Acrobatをインストールすると、
PDF Maker機能も使えるようになる。プ
リンタの方が画像のずれ等が少ない?
紙媒体からのPDF作成①
貧乏なので、業者に頼まず、自力で作成しています。
使用機器およびソフト
● SCAN : Fuji Xerox カラー複合機 DocuCentre‐III C2205)
● OCR: Adobe Acrobat 8.0 Professional と e.Typist V.12.0を併用
苦労しました・・・・
★開始当初は、スキャナも買えず、ペーパーレス化のため事務局から支
給されたA4用ScanSnapを使用。裁断したものしかScanできず・・・。
★リポジトリ開始直後は、Abobe Acrobat Standardを使用していたが、墨消
し機能もなく、画像のゴミや影を消すのにも苦心。
後にAcrobat Professionalを購入。後に複数言語のOCR化のため、e‐typist
を導入して、現在に至る。
13
紙媒体からのPDF作成②
アクセスしやすいPDFを作る!
スキャン(PDF化)
OCR(透明テキスト付与)
【SCAN時の設定】
●解像度:400dpi程度
(詳細な画像が必要な場合は、600dpiに変更する場合も)
●裏写り防止設定
●カラーモードを使い分ける。
(カラー写真等はカラーモード。白黒写真はグレースケール。
綴じがきつく、影が入ってしまう場合も、グレースケール。)
14
ソフトの長所・短所
(Adobe Acrobat 8.0 Professional)
長所:
短所:
●OCR化が早い
●複数言語が混在する場合、対
応できない。
●墨消し機能あり。
(画像や文字を墨消し可能なの
で、プライバシーに関係するよ
うな画像や文字等を消すことが
できる。 Standardにはなし。 )
●Wordやエクセルなどのソ
フトに対応。
●出来上がりサイズが小さい
●透明テキストの確認が面倒。
●透明テキストの書き換え方法
が複雑。
ソフトの長所・短所
(e.Typist v.12.0)
長所:
短所:
●OCRソフトなので、文字認識率は
高い。
●多言語対応(58ヶ国語)しており、
Adobe Acrobat Pro. にはない言
語もOCR化可能。
●複数の言語が混在する文もOCR
化可能。
●認識範囲の指定、透明テキストの
確認、修正が可能。
●画像編集機能あり。(トリミング、
消しゴム機能、直線描画等)
●Abobe Acrobatでエラーが起きて
OCR化できないPDFでもOCR化で
きる場合がある。
●言語の組み合わせによってはOC
Rの認識ができない。
●PDFファイルを読み込むと、いっ
たん1Pずつの画像として認識し、
それぞれ分割して処理を行うた
め、作業効率が悪く、認識時間も
長い。
●デフォルトでPDFを処理した場合、
文字の後ろに影が入る場合があ
る。(改善は可能だが、ファイル
サイズが大きくなる。)
ソフトのまとめ
■AcrobatプリンタやOfficeソフトとの連携、セキュリ
ティの設定等のことを考えると、Acrobatが便利。
■墨消し機能等のことを考えるとAcrobatのバージョン
は、Standardではなく、Professionalがお勧め。
■画像処理を頻繁に行うのであれば、e‐typistも便利。
が、作業効率が悪いなど、短所もあり。
■AcrobatのOCRは1ページにつき、1言語。e‐Typistは
多言語対応なので、必要に応じて・・・
■広告を見ているだけではわからないこともある。体験
版やネットの口コミ情報、他大学の状況も要調査。
PDF化のまとめ
■自力でのPDF化は面倒なだけでなく、ファイル
サイズも大きくなる。新規に出版される紀要等は
事前に出版団体と相談し、印刷業者にPDF(要
フォント埋め込み)も納品してもらう。
■自力で紙からPDF化する場合、利用者のことを
考えたPDFを作成。 (重すぎない、粗すぎない。
外部から検索されやすいように、透明テキスト
を!)
導入当初を振り返って
以前より・・・
★出版と同時に公開できる紀要が増えた!
★研究者からの公開依頼が(時々)来るようになっ
た!
★コンテンツ+アクセス数増!
★認知度が上がり、「リポジトリって何?」と聞かれ
る頻度が少なくなった。
★自分自身のスキル、知識がすこしずつアップ!
★他大学に質問できる知り合いが増えた!
今後の予定+野望
学内広報を行う!
・現在、公開許諾されていな
い紀要を公開できるようにした
い!
・もっと多くの研究者に登録し
てもらいたい!
スキルアップ!
D‐Spaceのバージョンアップ
+
リポジトリと研究者DBの連携
博士論文の登録
コンテンツ増!+アクセス数増!
ご静聴ありがとうございました。
質問等ありましたら、下記連絡先までお気軽に
ご連絡ください。
奈良女子大学附属図書館電子情報係
森下 映理
[email protected]‐wu.ac.jp
TEL:0742‐20‐3327
FAX:0742‐20‐3250
Fly UP