...

プレインテキストとオープンソースソフトウェアの 中国古典

by user

on
Category: Documents
17

views

Report

Comments

Transcript

プレインテキストとオープンソースソフトウェアの 中国古典
プレインテキストとオープンソースソフトウェアの
中国古典文献研究における利用
――
英語・フランス語・日本語コーパス研究を参考に 1
笠井
直美
ここ数十年来、中国古典文献の電子化の発達はめざましく、研究者に大いに便宜をもたらしてきたが、ま
だ残されている問題もすくなからずある。多くの研究者は、技術水準を高め、さらに多くの機能・高級な機
能を具えたソフトとデータベースを作ることで、こうした問題を解決することを考えているようである。も
ちろん、それが実現すれば理想的であるが、そのためには多くの労力と経費を投じなければならず、そのよ
うにしてもなお専門的な研究に必要な個別の特殊な必要には適合するとは限らない。
本稿ではこれとは異なる、個人の研究者や小規模な組織に比較的向いた解決の方向を紹介したい。高い技
術で先進的なデータベースを開発するよう技術者に要求するのではなく、研究者自身が、既にある習得しや
すい技術を学び、必要とする検索などの操作を行い、研究に利用するという方向である。ここで紹介する知
識、方法、ツール等は、英語・フランス語・日本語のコーパス研究(特に言語学的な研究)においては広く
用いられているもので、中国古典文献や古典小説の研究にも応用可能なものと考えられる。
一点、注意すべきなのは、上述の言語のコーパスを利用する研究者には既に整えられている環境・条件の
一部が、中国語のデータベース・コーパスの利用者には缺けているということである。従って、中国語デー
タベース・コーパスを利用する研究者が、以下で紹介するような方法を利用しようとするならば、まずは、
この「缺けている条件」を整える必要がある。
1.技術の高級化では解決できない問題
1-1.「技術的と言えば言えるが・・・」という問題
既に公開・発売されている大型の古典データベースについて、しばしば取り上げられる問題の一つは、簡
単な検索しかできないという点である。例えば、王兆鵬氏は「三大功能:對未來數字化古籍的期待〔三つの機能:
将来のデジタル化古籍への期待〕」(第一屆中國古籍數字化國際學術研討會論文、2007 年)で「在《四庫全書》
電子版中檢索‘蘇軾’的資料,只能檢索到包含有‘蘇軾’二字的資料,卻不能檢索到不含‘蘇軾’二字、卻
含有‘東坡’‘子瞻’‘大蘇’‘蘇徐州’‘蘇黃’等與蘇軾有關的資料。〔『四庫全書』電子版で『蘇軾』を検索
しても、
『蘇軾』の二字を含む資料しかヒットせず、
『蘇軾』の二字は含まないが『東坡』
『子瞻』
『大蘇』
『蘇
徐州』『蘇黃』等の文字を含む、蘇軾と関連のある資料は検索することができない。〕」と述べている。
この問題について、王氏は自動的に「東坡」
「子瞻」
「大蘇」
「蘇徐州」等も蘇軾と関連があると識別できる
ような検索システムが開発されることを期待している。こうした期待は自然なものではあるが、自動的にこ
うした事柄を識別するシステムを開発することはかなり困難で、膨大な研究と経費が必要になるのではない
かと推測される。
こうした問題に対し、しばしば採用される方法の一つは、データベース中のテキストに情報付与
(annotation)を行い、比較的複雑な検索を実現するというものである。コーパスに付与される情報で比較
的一般的なのは、メタデータ(テキストの題、著者名、底本、情報付与方式、情報付与者等、テキストその
ものに関する情報)と品詞タグ(part of speech (POS) tag)等の言語学的な情報であるが 2 、そのほか、談
1
この論文はマカオで開催された第七屆中國古代小説文獻暨數字化國際研討會(第七回中国古典小説文献及
びデジタル化国際学会:2008 年 8 月 27、28 日)で発表したものに補充・修正を行ったもの(本報告書所收)
の日本語訳である。学会主催者と、ご教示を賜った先生方に感謝申し上げます。
2言語学的な情報を付与しているコーパスは多くあり、現代中国語のもので有名なものとしては、ペンシルバ
ニア大学の Penn Chinese TreeBank( http://www.cis.upenn.edu/~chinese/ctb.html )、中央研究
19
話情報(discourse annotation)を付与したコーパス 3 や、史的社会言語学(historical sociolinguistics)の観点か
ら情報を付与したコーパス 4 なども存在する。テキスト中の「東坡」「子瞻」などの文字列に「この文字列は
『蘇軾』を指す」ことを示すタグをつけておけば、先の問題は解決しうる。しかし、今のところ、品詞タグ
付けがかなり自動化されている(この中で最も誤りが発生しやすいのは固有名詞の識別である)のを除けば、
ほかの情報付与は手作業で進めなければならない部分が多い。従って、この方法でもやはり多くの労力と経
費が必要となり、データベースの規模が大きければ、やはり大規模な組織によって行うのが妥当ということ
になろう。
これは一例に過ぎず、研究者が必要とする検索機能は多種多様である。現在、組み合わせ検索の機能を備
えているデータベースもあるが、それでも大部分は and / or 検索や、“?”(0 または 1 字にマッチ)、“*”(0
個以上の文字列にマッチ)を利用した比較簡単な検索にとどまり、研究者の多様な需要に十分に応えられる
とは言えない。しかし、もし、研究者が必要としている検索機能を一つ一つ個別にプログラミングして実装
しようとするならば、やはり膨大な時間と費用が必要となろう。
検索機能のほか、検索範囲の調整、異体字(俗字、繁体字と簡体字、通用字等)や誤字をどう処理するか、
などの問題も、同様の問題点を含んでいる。検索範囲の調整では、例えば、ある場合にはデータベース内の
唐代の文献すべてを検索範囲としたい、ある場合には白居易と元稹の作品、ある場合には唐代の上奏文すべ
てを検索範囲としたい、……といった多種多様な希望が出てくることが考えられる。異体字・誤字について
は、多くのケースでは字体が一定の標準化を経ているテキストが望ましいだろうが、研究の目的によっては、
原本の状態を忠實に反映したテキストが必要になることが考えられる。実際のデータベースを例にとると、
例えば『四庫全書』電子版では、四庫分類、著者名、書名から検索範囲を調整できるが、上述のような範囲
調整はできない。また、字体に関しては、『四庫全書』電子版では検索文字列として打ち込んだ字のほかに、
「繁簡(繁体字と簡体字を同時に検索)」「古今(古い字体と新しい字体を同時に検索)」「通假(通用字、仮
借字を同時に検索)」……など、形が微妙に異なる字体・互いに通用される文字を同時に検索するかどうかを
選択できるようになっており、これはこれでたいへん優れた機能であるが、ユーザが検索を行う前に、どの
設定を採用すればシステムがどの文字とどの文字を検索することになるかを予め知ることはできず、また、
同時に検索する文字・字体を詳細に指定することもできない。
『四庫全書』電子版のこれらの機能は既にかな
院の現代漢語平衡語料庫 (http://www.sinica.edu.tw/ftms-bin/kiwi.sh)、北京大学計算語言研
究所と富士通が共同開発した人民日報語料庫( http://www.icl.pku.edu.cn/ :現在アクセス不能)
等がある。中国語コーパスの概況については、冯志伟「中国语料库研究的历史与现状」(『汉语语言与计算学
报(Journal of Chinese Language and Computing)』 12、2002 年、127-136 頁 (Online version at:
http://www.china-language.gov.cn/doc/FengZhiwei01.doc , Last checked: 2008-11-04)) を参
照。
3談話情報を付与したコーパスとしては、以下のようなものがある。
Burrows, J.F. & A.Antonia (eds.), The Complete Works of Jane Austen: Electronic Edition, (Oxford:
Oxford University Press, 1992;TEI 形式)
ICE(International Corpus of English; 英語を第一・第二言語とする 18 の地域の書き言葉と話し言葉を含
む英語コーパス。現在、イギリス、アフリカ東部が部分的に公開されており、ICE 形式を採用している。以
下の URL を参照。 http://www.ucl.ac.uk/english-usage/ )
城西国際大学の長瀬真理氏らが構築した『源氏物語』電子テキスト(COCOA 形式。日英対照電子テキスト
もある。OTA(Oxford Text Archive) http://ota.ahds.ac.uk/ を通じ、研究目的での利用には無償で提
供されている)
国立国語研究所の『日本語話し言葉コーパス』
(http://www.kokken.go.jp/katsudo/seika/corpus/ ;XML 形式)、等。
4有名なものとしては、ヘルシンキ大学の Corpus of Early English Correspondence (CEEC;
http://www.helsinki.fi/varieng/domains/CEEC.html を参照)。ヘルシンキ大学は CEEC を基
礎として、イギリスのヨーク大学と共同で Parsed Corpus of Early English Correspondence (PCEEC)を開
発している。こちらは品詞タグをつけ、統語解析を行ったものである。CEEC の一部(CEECs) と PCEEC
は、OTA 及び ICAME (International Computer Archive of Modern and Medieval English) を通じ、研究
目的での利用には無料で提供されている。
20
り高級と言えようが、それでも研究者にとっての必要を完全に満たしているとは言えない。
「開発者に対して、技術を高め、多機能な・高級な機能を持つソフトやデータベースを開発するよう求め
る」方向は、レベルの高い技術者と膨大な開発コストを必要とするため、個人の研究者や小規模な組織では
実現困難である。こうした、多くの資金を投じて開発されるようなデータベースは多くの人々の最大公約数
的な需要を満たすことを目標とするのに対し、研究者とその研究課題にとって必要な機能にはかなり特殊な
ものが含まれ、かつ多種多様であるため、そうした需要の一つ一つを満たすことは困難であり、また、仮に
技術的には実現できるとしても、採算の点から言って引き合わない。
1-2.非技術的問題
そのほか、非技術的な、主として開発体制に関わる問題も存在する。
中国古典文献のデータベースは多くが商業ベースの生産品であるため、多くがブラックボックスである、
というのもその一つである。ブラックボックスになっているソフトしか使えないという状況は、以下のよう
なデメリットをもたらしている。
(1)自由度が低い:ユーザが機能を増やしたり拡張してソフトを改良したり、カスタマイズしたりする余地が
小さく、従って研究者の多種多様な需要には適応しにくい。
(2)プラットフォームが異なる場合には、ほかのソフトやバージョンが必要となる:Windows 向けに開発さ
れたソフトの多くは、ほかの OS 上では動作しない。また、中国語版でのみ動作するもの、或いは、日本語
版でも動作するものの使用の際はインターフェイス言語を中国語に切り替え(て再起動し)なければならな
いものもある。OS をバージョンアップすると使用できなくなるソフトもある。
(3)各企業が各々の目的のためにバラバラに開発しているため、ソフトの汎用性が低い:ユーザが多種のデー
タベースを利用したい場合には検索・表示用のソフトも多数インストールせねばならず、ソフトの起動や使
用の際に不便であるだけでなく、相互に干渉して問題が起きる場合もある。
(4)継続性に関わる問題:ソフトを開発した企業が万一倒産したり、技術サポートを行わない・継続しないこ
とを決めた場合、ユーザは PC の買い換えなどの際には当該ソフトを使用できなくなることがある。
また、中国古典文献のデータベースは、
(検索・表示のための)アプリケーションソフトがブラックボック
スであるだけでなく、テキストデータも含めてブラックボックス化してあり、ユーザは検索のみ可能でテキ
ストデータ全体は利用できないようになっているものが多い。
こうした傾向は、商業ベースのものだけでなく、研究機関・大学などが開発したデータベースにも見られ
る傾向である。開発したデータベースを外部に全く公開しない機関も少なくなく、ウェブサイトで検索サー
ビスを提供している機関もあるが、テキストデータ全体を公開しているもの(首都師範大学の周文業教授が
開発した中国古典小説データベースのように)は非常に少ない。
これに対し、英語、フランス語、日本語などは、
(もちろんこれらの言語にも多くの商業ベースのデータベ
ースが存在するが)、大規模なコーパスはおおむね国家の研究機関、非営利の学術団体、大学が(または複数
の大学が連携して)構築しており、その内容は基本的に公開されている。以下、簡単にその状況を紹介する。
2.英語、フランス語、日本語のコーパス研究とオープンソースソフトウェア
2-1.コーパスのテキストデータの共有状況
英語 5 、フランス語、日本語大規模コーパスの公開方式は様々であるが、よくあるのは以下のような形であ
る。
5
英語コーパス研究の概況については、Hunston, Susan. Corpora in Applied Linguistics , (Cambridge,
U.K.: Cambridge University Press, 2002)、齋藤俊雄等(編)『英語コーパス言語学』(研究社、2005 年)、
等を参照。
21
完全公開、非営利の学術機関にのみ無償で提供、少し経費をとって利用許可を与える方式(この利用許可
の種類や範囲は多岐にわたる)、会員制による利用、等。
一般的には、こうしたコーパスのテキストデータとアプリケーションソフト・ツール等とは別々に提供・
公開され、テキストデータ(作者の版権が既に消滅した・版権処理がなされた文献の)は学術的な目的への
利用に関しては基本的に公開されている。
例えば、ICAME (International Computer Archive of Modern and Medieval English) 提供するCD-ROM
(多少の経費を納める必要がある)には、英語の通時コーパス(diachronic corpus) である Helsinki Corpus
of English Texts (Diachronic Part) 等、20 種の英語のコーパスが収められている。データにはプレインテ
キストのものもタグ付きのものもあるが、いずれもユーザが自由に利用できる形式である。 6
1995 年に正式に公開(EU内)された 1 億語を擁する大規模現代英語コーパス BNC (British National
Corpus) は、当初 SGML (standard generalized markup language) に従って情報付与されたバージョン
が、また、現在では XML (extensible markup language) に従って情報付与されたバージョンも公開されて
いる。 BNC は、インターネット上で無償・有償で検索サービスが提供されているほか、多少の経費を納め
れば DVD の形でコーパス全体が提供される。DVD にはテキストデータのほか閲覧・検索ソフトの Xaira
が含まれており、テキストデータは XML 形式のタグ付けがされている。XML文書の検索・閲覧用ソフト
は多数あり、ユーザは Xaira 以外の自分が選択したソフトで BNC を利用することも可能である。 7
このほか、OTA (Oxford Text Archive)、LDC (Linguistic Data Consortium) 等も、英語以外の言語も含
む多くのデータベースやテキストを公開している。 8
フランスでは 9 、1960 年代に Centre de recherche pour un Trésor de la langue française(TLFのための
研究センター)
10 を設立し、大規模テキストアーカイブ
Frantext を構築し始めるとともに、このアーカイ
ブに基づいた大辞典 TLF (Trésor de la Langue Française) の編纂を開始した。TLF は 英語における
OED に相当するような大辞典で、1994 年に完成し、計 17 卷、収録項目 10 万、43 万にのぼる例文を収め
ており、その例文の大部分は Frantext から採られたものである。2001 年より、ウェブサイト上でその電
子版 TLFi (Trésor de la langue française informatisé)
11 が公開された。TLFの多数の例文が
XML 形式で
タグ付けされて含まれている TLFi は各種の複雑な検索が可能であり、さらにハイパーリンクを利用して
Frantext 等、ほかの電子化リソースを容易に参照できるため、それ自体一種のコーパスとして利用するこ
とができる。TLF の基づいた Frantext 12 は、16 世紀から 20 世紀のフランス語資料を含む、現在 2 億 1000
万語を超える大規模テキストアーカイブで、世界の大学、研究機関、研究者に有償で公開されている。また、
一部の内容(18~19 世紀の 500 作品)は CNRTL (Centre National de Ressources Textuelles et Lexicales;
テクストと語彙データ国立研究所) 13 のウェブサイト上で検索でき、また、XML形式のテキストをダウンロー
The ICAME Corpus Collection on CD-ROM, version 2 に収められているコーパスのリスト:
http://icame.uib.no/newcd.html
提供方式の説明:http://icame.uib.no/newcd-of.html
7 BNC ホームページ: http://www.natcorp.ox.ac.uk/
BNC XML 版の説明:http://www.natcorp.ox.ac.uk/XMLedition/index.XML.ID=intro
8 OTA ホームページ: http://ota.ahds.ac.uk/
LDC ホームページ:http://www.ldc.upenn.edu/
9 以下に紹介するフランスのコーパスの状況は、主として藤村逸子「フランスの特徴的なコーパス研究:語
6
彙研究と政治ディスコース研究」(『英語コーパス研究』15、2008 年、45-56 頁)に拠っている。
この研究センターは、1977 年に Institut National de la Langue Française (国立フランス語研究所)、
2001 年に Analyse et Traitment Informaique de la Langue Française (フランス語の分析と情報処理研究
所)と改称されているという(注 9 前掲藤村論文 49,56 頁)。
11 TLFi ホームページ:http://atilf.atilf.fr/tlf.htm
12 Frantext ホームページ:http://www.frantext.fr/
13 CNTRL ホームページ:http://www.cnrtl.fr/
10
22
ドできる。
日本では、国立国語研究所 14 が『太陽コーパス』
『近代女性雑誌コーパス』などを構築し、現在『日本語書
き言葉均衡コーパス』を開発中である。『太陽コーパス』は書籍附属CD-ROMの形で(有償)、『近代女性雑
誌コーパス』は CD-ROM 版(無償)の形で配布され、CD-ROM にはコーパス(XML形式でタグ付けされ
たテキスト)と検索・閲覧のためのソフト『たんぽぽ』『ひまわり』等が含まれている。『日本語書き言葉均
衡コーパス』のデータはXML形式で情報が付与されており、ウェブサイト上での無償オンライン公開、有償
オンライン公開、データ全体をDVD等の媒体で有償配布、の三つの方式で公開される予定という 15 。また、
国文学研究資料館が『日本古典文学本文データベース』 16 を構築中である。一部は既に同資料館のウェブサ
イト上で公開され、テキスト(同館の制定した KOKIN 方式で情報を付与したテキストと、一部について
はXML版もある)のダウンロードも可能であるが、利用条件は学術研究に限定されており、複製・譲渡等は
禁じられている。このほか、日本電子化辞書研究所が開発したEDR日本語コーパスは、コンピュータでの利
用を前提とした『EDR電子化辞書』 17 の日本語共起辞書の附録である。このコーパスは各種の言語学的タグ
付けを施した約 20 万例の例文から成り、商業的な目的で利用する場合にはやや多くの費用が必要であるが、
大学等の研究機関が研究目的で利用する場合には少額で利用することができる。日本電子化辞書研究所は
2002 年に解散し、現在は独立行政法人情報通信研究機構により改善とサポートが継続されている。
総じて、これらの言語のコーパスのテキストデータは、研究目的で使用する場合には、無償か少額の経費
を納めることで、データ全体をプレインテキストやタグつきテキストの形で利用することができる。研究者
は、直接(同時に提供されるソフトなどをそのまま使って)コーパスを利用できるほか、好みの検索用ソフ
トで検索したり、自分の研究目的に合わせてテキストを加工し、自分用のコーパスを構築して利用すること
も可能である。
以下では、これらの言語のコーパス研究、特に上記の「好みの検索用ソフトで検索したり、自分の研究目
的に合わせてテキストを加工し、自分用のコーパスを構築して利用する」段階において重要な役割を果たし
ているが、中国の文系研究者にとってはなじみの薄いと思われるオープンソースソフトウェア(及びシェア
ウェア)と、プレインテキスト・タグつきテキストに関して簡単に紹介する。
2-2.アプリケーションソフトとツール:オープンソースソフトウェア
「オープンソース」は、ソフトウェアを配布する方式の一つで、ソフトウェア開発者の権利を守りつつ、
ソフトウェアの改良に資すべくソースコードを公開するものである。この方式は、フリーソフトウェア財団
(FSF)の提唱する free software の概念と密接な関係がある 18 が、この概念は、現在一般に使われている
「フリーウェア」とは異なる。ソースコードを公開していなくとも無料でバイナリファイルが入手できるソ
フトも「フリーウェア」と呼ばれているが、これは(FSFの定義する free software や)オープンソースに
は該当しない。ここでは、混乱を避けるため、
「オープンソースソフトウェア」
(ソースコードを公開)と「フ
リーウェア」(無料で入手可能)と呼び分けることとする。
オープンソースソフトウェアのライセンス方式(ソフトウェアの使用を許可する条件と範囲)は多くあり、
最も多く利用されているものの一つが FSF により作られた GNU General Public License (“GNU GPL”
または“GPL”と略称)である。GPL 方式のライセンスでは、
〔ソフトの著作権者がライセンスを得る人に〕、
14
国立国語研究所ホームページ:http://www.kokken.go.jp/
『日本語書き言葉均衡コーパス』公開方式の説明:
http://www2.kokken.go.jp/kotonoha/ex_6.html
16 日本古典文学本文データベース:http://base3.nijl.ac.jp/Rcgi-bin/hon_home.cgi
17 EDR 電子辞典ホームページ:http://www2.nict.go.jp/r/r312/EDR/J_index.html
18 厳密に言えば、FSF の提唱するフリーソフトウェアの概念と、Open Source Initiative が定義している
オープンソースソフトウェアの概念とは異なる部分があるが、
「ソフトウェアの改良に資すべくソースコード
を公開する」方向は一致している。
15
23
以下のような「自由」--プログラムを実行する自由、プログラムの複製物を再頒布する自由、プログラム
を改変する自由、改変を公開・配布する自由--を認めている。ただし、改変を配布・頒布する際には同じ
く GPL でライセンスされなければならず(従ってソースコードを公開することが前提となる)、GPL のもと
に配布された著作物(プログラム等)の派生的著作物も GPL でライセンスされなければならない、などの
制限がある。
オープンソースソフトウェアでよく知られているものとしては、OS の Linux、プログラミング言語 C、
C++、Java、Perl、Python、JavaScript、PHP、Windows 上で UNIX に類似した環境を実現するシステム
Cygwin 等があり、一部がオープンソースである有名なソフトとしては、HTTP サーバ Apache、ウェブブ
ラウザ Mozilla Firefox、オフィススイート OpenOffice.org 等が挙げられる。
上述の検索用ソフト(BNC XMLバージョンと一緒に提供される Xaira、国立国語研究所から提供される
『たんぽぽ』等)はいずれもGPLライセンスに基づいて配布されており、利用条件に従う限り誰でも利用で
きるし、プログラムに改変を加えることもできる 19 。
このほか、テキストの加工、テキストへの情報付与(タグ付け)、テキストやコーパスの検索、コーパスの
データについて統計を取るなどの目的で、さまざまなオープンソースソフトウェアが広く利用されている(第
3節で幾つかの例について簡単に紹介する)。
オープンソースソフトウェアのメリットとしては以下の点が挙げられよう。
(1)自由度が高い;自由にプログラムを拡張したり、機能を増やし、ソフトを改変することができるので、少
数の利用者の特殊な要求にも応えることができる。
(2)様々なプラットフォームに適応しやすい;オープンソースソフトウェアは一般的には UNIX 系 OS 上で開
発されることが多いが、ソースコードが公開されているため、ほかのプラットフォームに移植しやすい。有
名なオープンソースソフトウェアは概ね Windows 版が開発されている。また、ソースコードが公開されて
おり、そのソフトに関心のある世界中の開発者が開発に参加できるので、開発と改良の速度は比較的速い。
(3)特定のコンテンツやデータとセットになっていてそれのみにしか使えないようなソフトではなく、汎用性
のあるソフトを開発しようとする傾向がある。例えば、Xaira、
『ひまわり』などは、一緒に配布されている
コーパス( BNC や『太陽コーパス』など)の検索に利用できるだけでなく、XML 形式でタグ付けされた
ほかのコーパス(他の言語のコーパスも含む)の検索に利用することも可能である。
(4)ソフトを開発した企業が万一倒産しても、ソースコードが公開されているため、そのソフトウェアに関心
19
これに関連して注目されるのは、これらの言語のコーパスを構築している研究機関・研究者は「汎用性・
共通化を追求する」傾向があることである。コーパスの設計、形式、タグ付けの形式などは、多くの場合、
コーパスの目的に適合する範囲内で、できるだけほかのコーパスと同様の形式を採るようにしているようで
ある。現在構築中(既に一部の内容を公開している)の American National Corpus (ANC) の規模、コー
パスの設計は基本的に BNC と同様にしてあり、完成すれば英語と米語の比較研究がさらに正確に、効率的
に行えるようになっている。一方、BNC は、当初は当時の標準的なマークアップ言語であった SGML 形式
でタグ付けを行ったが、その後、SGML のサブセットの一つである XML が広く普及すると(ANC も XML
形式でタグ付けを行っている)XML バージョンも公開した。これは、XML 文書を検索・閲覧するソフトの
うちから好みのものを選んでコーパスを利用できるだけでなく、一つのソフトで BNC と ANC(或いは同様
の形式の別のコーパス)を利用することができる(それぞれのコーパスに別の専用ソフトを用意しなくてよ
い)ことを意味する。すなわち、英語コーパスでは、コーパスの設計やタグ付けの形式の共通化とソフトの
汎用性とを結びつけることで、労力を節約し、研究の進展に役立てていると言えよう。
このほか、第一言語の獲得の研究・話し言葉の研究では、Carnegie Mellon 大学とハーバード大学の研究
者が CHILDES プロジェクトを開始し、話し言葉コーパスを構築している。彼らは自分の構築したコーパ
スのほか、コーパスのフォームや、個人情報保護に関する詳細な規定等も公開した。この方面を専門とする
研究者は概ねこのフォームに従ってコーパスを構築し、CHILDES のウェブサイト
( http://childes.psy.cmu.edu/ )を通じて公開しており、現在既に 29 の国・地域のコーパスが公開さ
れている。こうしてより多くのコーパスと研究成果が共有されており、このしくみは研究の順調な進展に寄
与していると言えよう。
24
のある人が開発を継続することができる。
欠点としては、オープンソースソフトウェアには、ユーザフレンドリーでない、利用するにはある程度知
識が必要なものもあること、商業ベースのソフトと異なり、開発者は技術サポートを提供する義務がないこ
とが挙げられる。しかし、有名なソフトは、概ね開発者や愛好者がネット上にコミュニティを形成し、ウェ
ブサイト、掲示板、メーリングリストなどを通じて知識を提供しており、それほど有名でないソフトも一般
的にはネット上で必要な知識が得られるようになっている。とは言え、オープンソフトウェアを利用しよう
とする人は、主体的に勉強し、知識を吸収する態度が必要である。一般的にはソフトがユーザフレンドリー
であるほど自由度は低下するので、こうした不便さは「自由を享受する代価」であると言えるだろう。
2-3.プレインテキストとタグつきテキスト
プレインテキストは Microsoft Word などのワードプロセッサで作成した文書ファイルと異なり、文字
情報のみの情報から成るファイル形式である。字体、文字の大小、色など、文字そのもの以外の情報は含ま
れない。プレインテキストは最も基本的・原始的なファイル形式なので、容量が小さく、汎用性が高く、ど
のプラットフォームでも、開いたり、読み書きしたりすることができる。Windows 上では、Notepad など
のテキストエディタのほか、Internet Explorer などのウェブブラウザ、Word、Excel などのソフトでも利
用できる。
(逆に、これらのソフトで編集した文書の文字情報はプレインテキストとして保存することもでき
る。)プレインテキストは、テキストエディタで編集するのに便利であるほか、各種のプログラミング言語や
ツールで検索・分析、置換等の加工を行いやすく、また、大量のファイルを処理するのに適している。一般
的には「テキスト」とのみ言うが、Word などのワードプロセッサで作成したドキュメントファイルをも「テ
キスト」「テキストファイル」と呼ぶ人もいるので、ここでは「プレインテキスト」の語を用いる。
既に何度も言及しているタグつきテキスト(tagged text)は、何らかの規則に従ってプレインテキストに情
報(annotation)を付与した(タグ付けした)テキストである。最もよく見られるのはメタデータと言語学
的なタグであるが、談話情報など、ほかの観点に基づくタグを付したものもある。一部の研究者は、自分の
研究上の目的と必要に合った情報付与を行い、小規模なコーパスを構築して研究を進めている。 20
学術研究上、より価値の高いのは、もちろんタグつきテキストであるが、筆者の知る範囲では中国語の大
規模な古典文献データベースにはタグつきテキストをまるごと提供しているものは無いようである。情報付
与は一般的に言って手間のかかるものであり、タグつきの大規模コーパスを構築することは個人や小規模な
研究機関には無理と言えよう。また、仮にタグつきテキストを公開しているコーパスがあったとしても、必
ずしも研究者個々の特殊な目的にかなうとは限らない。そういうわけで、比較的入手の容易なプレインテキ
ストも利用する価値が十分にあると思われる。
以下では、我々の手許に、ある程度多くの古典文献のプレインテキストがあると仮定して、プレインテキ
ストとオープンソースソフトウェア(及びフリーウェア、シェアウェア)を利用してどんなことができるか
を簡単に紹介したい。
3.プレインテキストとオープンソースソフトウェア(及びフリーウェア、シェアウェア)を
利用するとどんなことができるか?:簡単な例
3-1.テキストの比較、平行表示、差分表示
オープンソースソフトウェアは「ユーザフレンドリー」でない傾向があるので、まずは相対的にユーザフ
レンドリーであるフリーウェア、シェアウェアを紹介する。
20
例 え ば 、 Tabata,Tomoji “Characterization in Dickens's Christmas Books: A Computer-assisted
Approach to Idiolects,” (Studies in English language and literature (熊本大学英語英文学),34, 1991),
pp.98-126 、 Semino,E. and Michael H.Short, Corpus Stylistics: Speech, Writing, and Thought
Presentation in a Corpus of English Writing, (London: Routledge, 2004)、等。
25
フリーウェア Rekisa 21 は複数(3 個以上も可)のファイルを比較し、相異を表示するソフトである。各
種の文字コードに適応しており、テキストの文字エンコーディング゙(character encoding)を自動的に識別
する機能がある。
図1
Rekisa のテキスト比較画面
Rekisa は使いやすい GUI(graphical user interface)版のほか、大量のファイルを分析するのに適した
CUI(character-based user interface)版もあり、CUI 版はコマンドプロンプト上で使用できる。
3-2.正規表現(regular expressions)を利用した検索
(1)テキストエディタでの利用
上述のように、プレインテキストは、各種のテキストエディタ、プログラム言語、ツール等で検索・分析・
置換等の加工が可能であり、大量のファイルを処理するのに適している。まずは、ユーザフレンドリーなテ
キストエディタである EmEditor 22 (これはシェアウェア)を使って検索する方法を紹介する。
EmEditor に限らず、テキストエディタの多くは多数のファイルを対象に検索を行う機能を具えており、
これは普通「grep 検索」と呼ばれる。EmEditor では、「ファイルから検索」という機能がこれにあたる。
また、EmEditor を含め、テキストエディタの多くは正規表現(regular expressions)を利用して検索が
できる。これは、複数の文字列が、正規表現の規則に従って書かれたある一つの文字列(パターンと呼ばれ
る)で表現できるというものである。例えば、<例1>では、正規表現の規則に従って書かれた文字列
“(蘇?(東坡|子瞻)|蘇(軾|徐州|黃|黄)|大蘇)”を「検索する文字列」として検索を行えば、検索の対象
Rekisa ホームページ:http://frozenlib.net/rekisa/
EmEditor ホームページ:http://jp.emeditor.com/
EmEditor には簡体字中国語・繁体字中国語を含め、多種の言語インターフェイスが用意されている。
21
22
26
となったテキストに含まれる“蘇東坡”
“蘇子瞻”……等、下に挙げた多くの文字列を検出することができる。
正規表現は、テキストエディタのほか、UNIX 系 OS 上で動作する多くのプログラム言語やツールで広く
利用されている。実際にはプログラム言語やツールによって相異があるが、その中では Perl の正規表現は強
力なものといわれており、EmEditor の正規表現は基本的には Perl の正規表現に基づいている。
図 2 テキストエディタを利用して正規表現検索を行った画面(<例1>のパターンで検索)
<例1>
パターン(検索する文字列):(蘇?(東坡|子瞻)|蘇(軾|徐州|黃|黄)|大蘇)
→“蘇東坡”“蘇子瞻”“東坡”“子瞻”“蘇軾”“蘇徐州”“蘇黃”“蘇黄”“大蘇”等の文字列とマッチする。
23
<例2>
パターン:[喫吃].{0,8}衣[食飯粮糧]
→“喫衣食”
“吃衣飯”
“喫裙帶上衣食”
“喫這等衣飯”
“吃着這件衣飯”
“吃着死囚的衣飯”
“喫他官家重衣糧”
……等字の文字列とマッチする。
<例3>
パターン:馬.{0,7}漢.{0,7}妻.{0,7}夫
→“馬卻馱癡漢走,美妻常伴拙夫”“馬常駝(馱)癡漢走,美妻常伴拙夫”“馬慣馱村漢走,巧妻專伴拙夫”
“馬每馱村漢走,巧妻常伴拙夫”“馬每馱癡漢走,巧妻常伴拙夫”“馬每馱蠢漢走,嬌妻常伴拙夫”……等の
文字列とマッチする。
23
検索対象に簡体字も含めたければ、“([蘇苏]?([東东]坡|子瞻)|[蘇苏](軾|轼|徐州|黃|黄)|大[蘇苏])”とい
うパターンを検索文字列にすれば、“苏东坡”“苏子瞻”“东坡”“苏轼”“大苏”等も検出することができる。
27
<例4>
パターン:([一二三四五六七八九][^一二三四五六七八九十百千萬月日,。/s]){2,}
→“一上一下”“三回五次”“三智五猜”“三魄七魂”“三頭六臂”“四面八方”“四圍八面”“四平八穩”“四分
五落”
“五府六部”
“六街三市”
“三市六街”
“六韜三略”
“七上八下”
“七顛八倒”
“七斷八續”
“七損八傷”
“九
卿四相”“九流三教”……等の文字列とマッチする。
EmEditor では、検索結果から原文に飛ぶことができ、文脈を確認するのも容易である。
正規表現は形(文字列)のみによる(字面は同じだが意味は異なる語を区別して検索する、といったこと
はできない)検索なので、検索結果がかなり「ゴミ」を含むこともあり得るし、検索に用いるパターンが適
切でなければ自分の意図に合った文字列が検索対象ファイルに含まれていても検出できない、といったこと
も起こりうる、などの欠点や限界もある。しかし、正規表現を利用することで、かなり複雑な検索が実現で
き、検索範囲もフレキシブルに調整できる。しかもこの方法はそれほど多くの労力や経費を必要としない。
(2)Perl (コマンドライン上での利用)
Windows系のOS上で簡単にPerlを利用する方法の一つは、ActivePerl
24 をダウンロードし、コマンドプロ
ンプトで利用することである。テキストエディタを使うより検索スピードが速く、大量のファイルを処理す
る場合に適している。図は、Cygwin上でActive Perl を利用して検索を行い、検索結果をターミナルエミュ
レータに表示させたものである。
図3
Perl で正規表現を利用した検索を行い、結果をコマンドライン上に表示(<例2>のパターンで検索)
。
3-3.コンコーダンサー
(1)KWIC Finder
KWIC (key word in context)は文書の索引を作成する方法の一つで、指定したキーワードのみならず、そ
の前後の文脈も抽出するものである。KWIC 形式で出力するコンコーダンサー(コーパスから指定した表現
を抽出し、整形して表示するソフト)は多くあり、キーワードを中央に、前後の文を左右に配置して、検索
結果を観察しやすいようにしてあるものが多い。
ここで紹介する KWIC Finder 25 はフリー(/シェア)ウェアのコンコーダンサーで、and / or / not 検索
もでき、検索結果をKWIC形式で表示する。対応している文字エンコードは Shift_JIS、EUC-JP、JIS、UTF-8、
UCS-2 なので、中国語のテキストを対象に検索する場合は、テキストファイルのエンコーディングを予め
UTF-8 に変更しておくのが良い。シェアウェア版では、プレインテキストだけでなく、Word、Excel、PDF
等のファイルも検索することができる。
24
25
ActivePerl ホームページ:http://www.activestate.com/Products/activeperl/index.mhtml
KWIC Finder ホームページ:http://www31.ocn.ne.jp/~h_ishida/KWIC.html
28
図 4 KwicFinder は自動的に検索結果を KWIC 形式で表示する。下部には選択した例の全文を表示している。
(2)Perl (CGI プログラム)
CGI (Common Gateway Interface)プログラムは、一般的にはウェブサーバで使われる技術として広く利
用されている。WWW上で公開する場合には、セキュリティへの配慮等、技術的なハードルが高くなるが、
普通のパソコンに Apacheや AN HTTP 26 等の httpサーバとPerl等のプログラミング言語をインストール
し、適切な設定を行うことで、その一台のパソコン内のみで利用することもできる(そのパソコンがサーバ
兼クライアントという形になる)。
ここに示すのは、上記のような一台のパソコンで利用する設定の、Perlで作成したCGIプログラムの操作
画面で、ウェブブラウザを検索インターフェイスとしている。このプログラムの場合、Perlの正規表現を直
接利用して検索を行い、KWIC形式で表示するようになっており、キーワードから原文に飛ぶこともできる。
文字エンコーディングや検索範囲もフレキシブルに調整することが可能である。 27
26
27
AN HTTPD ホームページ:http://www.st.rim.or.jp/~nakata/
これらのプログラムは名古屋大学の大名力氏よりご提供いただいた。ここに記して感謝申し上げたい。
29
図5
CGI プログラムによる検索画面(<例 3>のパターンで検索)
図6
CGI プログラムによる検索画面(<例4>のパターンで検索)
30
3-4.テキストを加工する
(1)テキストエディタで正規表現を利用した検索・置換を行い、テキストを加工する
<例5>
検索する文字列:(<[^>]*)¥n
置換後の文字列:¥1
HTML 文書に対し、HTML タグ< > 内に改行があれば、それを削除する。
<例6>
検索する文字列:<.*?>
置換後の文字列:
<例5>の加工を行った HTML 文書からタグを削除し、プレインテキストにする。
<例7>
検索する文字列:([。!?:])([”’]?)([“‘]?)
置換後の文字列:¥1¥2¥n¥3
句読点が施されているプレインテキストを、一文一行の形式に加工する。
図 7 右側は左側のウェブページのソースである。<例5>~<例7>等の加工を行うことで、一文一行形式
のプレインテキストにすることができる。
(2)Perl(スクリプトファイルの利用)
<例8>
上述の<例5>~<例7>の置換を一つのスクリプトファイルにまとめておけば、コマンドライン上で一
回そのスクリプトを実行させるだけで、多数のファイルに対して上述の三つの置換を一気に行うことができ
る。
<例9>
Perl を利用して文字エンコーディングを変更できる。(テキストエディタでもエンコードは変更可能だが、
31
多数のファイルを変換する場合には Perl の方が能率的である)。
図8
多数の HTML 文書に対し、<例8><例 9>等の加工を同時に行う Perl script の例
3-5.計量的研究への利用
Perl は字数や文の数を数えたり、統計等の用途にも使えるので、計量的研究にも応用できる。英語やフ
ランス語のコーパス研究では、Perl script を用いて単語頻度表を作る例もよく見られる。ここではごく簡単
な例を紹介する。
<例10>
この Perl script 26 は、句読点のついているプレインテキストについて、会話文と地の文とを分けて字数を計
算し、一文当たりの平均字数を算出するものである。
図9
コマンドライン上で Perl script を実行し、結果を表示する
<例11>
多数のファイルに対して<例10>で行った操作を施し、結果を TSV (tab separated variables)形式で別
のファイル上に出力するようにする。このファイルはテキストファイルでもあり(テキストエディタで編集
可能)、また、Excel などの表計算ソフトで利用するにも便利である。
32
図 10 Perl script を実行後、結果を出力した TSV 形式のファイルを Excel に貼り付けて利用することが
できる。
3-6.N-gram
N-gram とは、ある要素の連続から n 個の要素の連続を抽出したものである。中国語を対象とする場合、
一般的には一文字を一要素とし、ある文章から 2 文字の連続を切り出したものを 2-gram(bigram)、3 文字の
連続を切り出したものを 3-gram(trigram)と呼ぶ。例えば、「中國古代小説文献暨數字化國際研討會」の
2-gram としては、「中國、國古、古代、代小、小説、説文、文献、獻暨、暨數、數字、字化、化國、國際、
際研、研討、討會」が挙げられ、いずれも頻度は 1 となる。
N-gram 分析ツールは、指定された文章から全ての N-gram を抽出し、その頻度を算出してくれる。
N-gram 分析によって分析対象の文章に良くある表現、特色ある表現を知ることができる 28 。この分析法は
情報付与のなされていない資料についても分析を行うことが可能であるというメリットがあるが、分析結果
にはいわゆる「ゴミ」が多く、結果から新しい事実を発見できるかは資料について深く研究しているかにか
かっていると言える。
morogram 29 は花園大学の師茂樹氏が開発した、Unicode(UTF-8) 対応の N-gram 分析ツールで、Perl
script(これはどのプラットフォームでも利用可能である)とWindows版がある。
図 11
morogram を実行後、統計結果が出力される TSV ファイルは Excel 上に貼り付けることができる。
左は 2-gram、右は 6-gram の統計結果である。
28
N-gram のこうした特長を生かした研究として、近藤みゆき「n グラム統計処理を用いた文字列分析によ
る日本古典文学の研究:『古今和歌集』の『ことば』の型と性差」(『千葉大学文学部紀要・人文研究』29、
2000 年、187-238 頁)、山田崇仁「『孟子』の成書時期について:N-gram と統計的手法を利用した分析」
『立
命館東洋史学』27、2004 年、1-32 頁)、等が挙げられる。
morogram ダウンロードページ:http://sourceforge.jp/projects/morogram/
Windows 版ダウンロードページ:http://hpcgi1.nifty.com/dune/gwiki.pl?morogram
29
33
3-7.Tagger: プレインテキストからタグつきテキストへ
テキストにタグを付けた大規模なコーパスはますます多くなってきている。タグ付けでよく行われる手順
は、自動タグ付けシステムで言語学的なタグを付け、その後手作業で修正を施す方法である。とりわけ、品
詞タグ付け(POS tagging)の自動化の発展はめざましく、今では多くの自動タグ付けシステムが存在する。
英語では、例えば以下のようなものがある。オープンソースソフトウェアの Brill's tagger 30 の精度は 96%
前後に達しており、このソフトは“trainable”なので、ユーザは自分で語彙や文法的情報などを増やしたり
してカスタマイズすることができ、研究者の個々の必要に応えやすくなっている。GoTagger 31 は Brill's
tagger のデータを基に開発された形態素解析ツールで、Windows 上で利用できるフリーウェアである。
CLAWS 32 は LOB (Lancaster-Oslo/Bergen Corpus) 、BNC 等に用いられたタグ付けシステムで、精度は
96-98%にのものぼる。ウェブサイトで無償でタグ付けサービスを行っているほか、有償でシステム全体も提
供しており、大学や研究機関には安価で提供されている。個人研究者向けの Windows 版は更に安価である。
現代中国語のタグつきコーパスも増加しており(注2参照)、古典文献についても、中央研究院の古漢語語
料庫 33 、近代漢語標記語料庫 34 等がある。しかし、一部の機関がウェブサイト上で現代中国語テキストへの
タグ付けを行うサービスを無料で提供しているのを別にすれば、タグ付けのシステム全体を提供する機関は
ほとんど無かった 〔補注〕 。
そこで、汎用性の高い、カスタマイズ可能な形態素解析システムを利用することも考慮する価値があると
思われる。以下では、こうしたツールを幾つか紹介する。
Brill's Tagger は、当初 http://www.cs.jhu.edu/~brill で公開されていたが、現在は、
http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/parsing/taggers/
brill/0.html 等でダウンロード可能である。
31 GoTagger 紹介ページ:http://uluru.lang.osaka-u.ac.jp/~k-goto/gotagger.html
32 CLAWS 紹介ページ:http://ucrel.lancs.ac.uk/claws/
33中央研究院古漢語語料庫:http://www.sinica.edu.tw/~tibe/2-words/old-words/
34中央研究院近代漢語標記語料庫:http://www.sinica.edu.tw/Early_Mandarin/
(中国語史上の「近代漢語」は元~清代の中国語を指す)。
30
34
ChaSen(茶荃) 35 、MeCab(和布蕪) 36 はいずれも単語分割・形
態素解析システムで、日本語のテキストの形態素解析によく利用さ
れている。UNIX版とWindows版があり、いずれもオープンソース
である。これらのシステムは、いずれも核心となるプログラムと、
分析対象となる言語のデータ(辞書、文法定義ファイル等)が別に
開発されており、システム自体は汎用的な(特定の言語に向けたも
のではない)設計を基本方針としているため、ユーザがシステムに
適合した適切な辞書(・文法定義ファイル等)を用意すれば、現代
日本語以外の言語についても分析を行うことが可能である 37 。
TreeTagger も、言語に依らない(language independent) カス
タマイズ可能な形態素解析ツールで、研究・教育目的には無償で提
供されている。コアのプログラムと、分析対象となる言語に関する
データは分けて開発されており、ユーザは分析対象言語の
parameter file を用意すれば、TreeTagger で分析を行うことがで
きる。現在、英語、ドイツ語、フランス語、イタリア語、オランダ
語、スペイン語、ロシア語、ブルガリア語等の parameter file が
公 開 さ れ て い る 。 中 国 語 の parameter files と tokeniser は
Serge Sharoff 氏が開発・公開している 38 。
中国語の古典文(“文言”)の単語分割・形態素解析はたいへん困
難であることが予測されるが、口語的な要素の強い一部の白話小説
については、こうしたツールを(辞書をカスタマイズするなど必要
な調整を行った上で)利用することで、自動品詞タグ付けが可能に
なるかもしれない。
図 12 TreeTagger の分析結果を出力したファイルは Excel
に貼り付けて利用できる。白話小説への適用では、現在はそ
れほど精度が高いとは言えず、今後調整を行う必要がある。
4.現在缺けている研究条件と将来の課題
このように見てくると、古典文献や古典小説を研究するのに助けとなるオープンソースソフトウェア(及
びフリーウェア、シェアウェア)は少なくなく、個人の研究者や小規模な機関にとっては福音と言えよう。
しかし、我々はこれらのソフトをダウンロードし、さあ分析するぞという時、良質のテキストファイルが少
なすぎる、という別の困難に遭うのである。これが本稿の初めに述べた、我々に缺けている研究条件の一つ
である。
35茶荃(ChaSen)ホームページ:http://chasen-legacy.sourceforge.jp/
茶荃(ChaSen)旧ホームページ(茶筌に関する詳しい知識を紹介):
http://chasen.naist.jp/hiki/ChaSen/
36 Mecab ホームページ:http://mecab.sourceforge.net/
37 ChaSen ホームページによれば、ChaSen 向けの古文辞書、中国語辞書等も開発中とのことである。この
ほか、chunk annotator である YamCha で形態素解析を行っている研究者もいる。吉田辰巳・大竹清敬・
山本和英「サポートベクトルマシンを用いた中国語解析実験」(『自然言語処理』10(1)、2003 年、109-131
頁)を参照。
38 TreeTagger ホームページ:
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
Chinese tokeniser と parameter files ダウンロードページ:
http://corpus.leeds.ac.uk/tools/zh/
35
上述の通り、英語、フランス語、日本語などのコーパス研究では、国や大学などの研究機関が主となって
開発した、質が高く信頼のおけるプレインテキストファイルやタグつきテキストがあるほか、研究者が個人
的に作成して公開している、或いは多くのボランティアが製作に関わっているテキストが多くある 39 。
ICAME, OTA 等は、そうした研究機関や研究者の作成した多くのテキストを提供しており、多くのボラン
ティアが関与している Project Gutenberg 40 、青空文庫 41 等も、ボランティアが共同で校正を行う体制を整
えており、信頼性は以前より向上している。また、これらのテキストはいずれも研究者が簡単に入手できる
ようになっている。これに対し、中国語の質の高いコーパスやデータベースは、一般的には検索ができるだ
けで、テキストデータ全体を利用することはできず、データへの加工も行えない。ネット上には多くのテキ
ストがあるが、多くは一般読者の鑑賞に供するためのもので、底本は一般向けの排印本、校正は行わない、
といったものが多く、信頼性はやや劣る。
学術研究の目的でデジタルテキストを利用する場合、とりわけ計量的研究を行う場合には、質の高いプレ
インテキストは缺くべからざるものである。タグつきテキストも質の高いプレインテキストを基にしたもの
であってこそ、その長所が活かされる。数年来、首都師範大學の周文業教授が開発・公開している中国古典
小説データベースは、2008 年も大幅に収録テキストが増加しただけでなく、新たに「繁体原貌版(繁体字・
原本に近いバージョン)」をそなえ、古典小説研究の発展に大きな役割を果たすものと思われる。このほか、
2006 年から金沢大学の上田望氏らと筆者が共同で進めている科研費プロジェクトでも、古典小説・戯曲の電
子化を行っている 42 。このプロジェクトでは影印本を OCR して「繁体原貌版」を作り、一部のテキストに
ついては校勘を行い、将来的にはウェブサイトで公開する予定である。経費と時間の関係で提供できるテキ
ストは少数にとどまるが、こうした現状に対し、微力を尽くしたいと考えている。
このほか注19でとりあげた、「汎用性、共通化」も、部分的には参考にできると考える。
上述のように、英、仏、日本語などのコーパスの構築では、タグ付けやコーパスの加工に使うソフトや、
検索・閲覧に使うソフトは、特定のコーパスのみで使うように開発するより、複数のコーパスで広く利用で
きるよう汎用性を追求する傾向が強い。言語を問わず利用できるツールやソフトも少なくなく、どのプラッ
トフォーム(OS)でも利用できるものもあり、こうしたソフトは中国古典文学研究にも利用可能である。
コーパスのどのような要素にタグを附けるかなどは、研究上の必要・目的により異なってくるので、文学
研究においてタグ付けの対象や内容について「共同化」
「標準化」を行うことはあまり適切ではない。しかし、
コーパスのデータやタグ付けの形式については、完全に孤立した、そのコーパス独自の特殊な形式を採るよ
りは、XML のような広く利用されているマークアップ言語を用いた方が良いと思われる(誤解の無いよう
に付言しておくと、タグ付けの対象を品詞タグなどに限定すべきという主張をしているわけではない。上述
の通り、実際には、自動化の進んでいる品詞タグをつけたコーパスが多いのが現状であるが、本来、XML、
SGML などのマークアップ言語は、ユーザが自分で定義できる範囲が比較的広いのが特徴で、定義をきちん
39
研究者が個人的に作成した日本の古典文学の電子テキストは、以下のようなリンク集から容易に探すこと
ができる。
岡島昭浩「日本文学電子テキストリンク集」:
http://www.let.osaka-u.ac.jp/~okajima/bungaku.htm
柴田雅生「電子化された日本語テキスト」:http://jcmac5.jc.meisei-u.ac.jp/etext-i.htm
また、国際日本文化研究センターが、「和歌データベース」「俳諧データベース」など、多くのデータベー
スを公開している。
http://www.nichibun.ac.jp/graphicversion/dbase/database.html
40 Project Gutenberg ホームページ:http://www.gutenberg.org/wiki/Main_Page
41 青空文庫ホームページ:http://www.aozora.gr.jp/
42 平成 18-20 年度文部科学省科学研究補助金・基盤研究(B)「中国近世白話文学の電子化状況情報及びコー
パスの共有基盤の構築に関わる基礎的研究」。現在、『魯智深喜賞黄花峪』『黑旋風仗義疏財』脈望館抄本等、
戯曲 15 作品、白話小説2作品の校勘を進めている。
『三国演義』余象斗本と劉龍田本の校勘については大東
文化大学の中川諭氏の、『水滸伝』貫華堂(金聖歎)批評の校勘については井上浩一氏の協力を得ている。
36
と行えば、ユーザはどんな内容についても情報付与を行うことができる)。例えば XML 形式で情報付与を行
ったコーパスであれば、XML 文書に対応した既存の閲覧・検索ソフトを利用することもでき、ソフトを開
発する労力は節約することができる、といった利点がある。唐磊「對古籍數字化建設及其學術應用的若干思
考」(第一屆中國古籍數字化國際學術研討會論文、2007 年)で提案されたメタデータの形式なども、共通化
を行うのに向いた項目の一つであろう。
さらには、ある研究者の採用した情報付与の方法(対象・内容・形式)が有意義で有効であり、かつその
人が詳細な仕様を公開したとすれば、似たテーマを扱う研究者は主体的にその形式を採用することもあり得
よう。こうした形で、文学研究でも一定の範囲内において「共通化」が達せられれば、結果的にはお互いに
利用できるコーパスが更に多くなり、研究成果を共有することができる。こうしたことが実現するかは、意
義のある・有効な方法を提案することができるかどうかにかかっており、文学研究にとって意義のある・有
効な情報付与の方法はいかなるものかという課題は、これから深めていくべき研究課題の一つであると思わ
れる。また、研究者がお互いに情報を交換し、関連する知識・コーパス・研究成果を共有する場を作ること
ができるならば、さらにこの方面の研究を促進することができるであろう。
以上は筆者がこの数年、中国の古典文献のデジタル化とその応用研究を通じて得たささやかな知識を共有
していただき、また筆者の個人的な考えを述べたもので、古典文献の研究のための一試論に過ぎない。専門
家の方々の批正とご教示をお願い申し上げたい。本稿で述べたような方向、方法が中国文学研究においてい
ささかでも研究の発展に資することになればと願っている。
〔補注〕
中国で開発された中国語形態素解析システムについては、システム全体を安定的に部外者に提供する機
関が長らく無かったが、最近喜ばしい変化が生じた。中国社会科学院計算技術研究所が開発した ICTCLAS
の公式ホームページが 2008 年に開設され、利用が格段に便利になったのである。自動単語分割・形態素解
析システムはオープンソースとなっており、辞書等のカスタマイズも可能である。シェアウェア版(ユーザ
辞書付き)、商用版等もリリースされている。バージョンにもよるが、Linux 版・Windows 版があり、2008
年 9 月には繁体字版、Unicode (UTF-7、UTF-8、UTF-16) に対応したバージョンもリリースされた。
37
Fly UP