...

自然言語処理の静かな再来

by user

on
Category: Documents
6

views

Report

Comments

Transcript

自然言語処理の静かな再来
Part 1 復 活
自然言語処理の静かな再来
いまでは仕事や生活に欠かせなくなっ
た日本語ワープロ・ソフト。日本語で
NIKKEI
BYTE
トの普及に伴い爆発的にコンテンツが増
囲である。
加した今になって,新たな情報分析の手
キーワードを指定すると,その言葉を
自然言語処理研究の歴史は長く,コ
使っているWeb サイトを見つけてくる
ンピュータの登場とともに始まったと言っ
検索サービス。また,パソコンを購入す
てもいいだろう(表 1)
。この種の知的な
それでは復活の実態はどのようなもの
ると簡単な翻訳ソフトが付いてくること
システムは期待と失望のサイクルを繰り
なのか。それを確かめる前に,自然言語
も多く,それを使うと英文サイトの内容
返すものだが,自然言語処理もその例に
処理の歴史を簡単に振り返っておこう。
をある程度意味の通じる日本語に翻訳
漏れなかった。日本で過去最も盛り上
してくれる。コンピュータが日本語を扱
がったのは1980 年代のことだ。折から
う場面は,いまではごくありふれた風景
の人工知能ブームと相まって,言葉につ
コンピュータ最初期から重要な応用と
になった。
いても人間並みの処理が可能になるので
して期待され,今なお自然言語処理の代
はないかという希望を多くの人々に与え
表的なテーマであり続けているのが,あ
た。そして,今なお夢のままである。
る言語で書かれた文章を別の言語に自動
このように,人間が使う言葉をコン
32
タの存在するところ,すべてその応用範
ピュータに処理させようとする分野を,
段として再登場してきた。これを自然言
語処理の“復活”と呼ぶことにしたい。
言語を自動翻訳する夢
自然言語処理と呼ぶ。自然言語とは,コ
しかしその後,1990 年代に,自然言
的に翻訳する「機械翻訳」である。機械
ンピュータのプログラミング言語のよう
語処理技術は大きな変身を遂げた。完
翻訳を実現するプロセス(図1)には,コ
な記述形式の定まったものと区別して,
ぺきな知的処理を目指すのではなく,現
ンピュータに言葉を理解させるために必
人間が普通に用いる言語を指すときに使
実的で有効な成果を出す道への方向転
要な条件がすべてそろっている。
う表現である。およそ言葉で表せるデー
換であった。その成果が,インターネッ
人間の言語
図1 を簡単に説明しよう。与えられた
A言語
B言語
形態素解析
形態素解析
構文解析
構文解析
意味解析
意味解析
文法
処理
90年代∼
・コーパス
・統計モ
デル
・文法
理論
・
70∼80年代 意味理論
意味
処理
共通の意味理解?
図 1 機械翻訳の基本的な考え方
意味レベルで言語に依存しない共通の表現が存在するのなら,そこ
まで分析すれば他の言語へ翻訳できるはずである。
■ NIKKEI BYTE 2005 June ■
1 Avron Barr,Edward A. Feigenbaum(編),田中幸吉,淵一博(監訳),
『人工知能ハンドブック』,第 I 巻,共立出版( 1983 )
人工知能学会:人工知能の歴史,http://www.ai-gakkai.or.jp/jsai/whatsai/AIhistory.html
B. G. Buchaman : Brief History of Artificail Intelligence,http://www.aaai.org/Pathfinder/bbhist.html
前田隆,青木文夫,
『新しい人工知能』,オーム社( 1999 ) 土屋俊,中島秀之,中川裕志,橋田浩一,松原仁(編集),
『 AI 辞
典』,ユー・ピー・ユー
( 1988 ),菅原研次,
『人工知能[第 2 版]』,森北出版
Robert Dale,Hermann Moisl,Harold Somers,H. L. Somers( 著),Handbook of Natural Language Processing,Marcel Dekker( 2000 ),Ruslan Milkov( 著),The Oxford Handbook Of Computational Linguistics,Oxford University
Press( 2003 )
Cover Story
言葉を理解する
コンピュータ
文章に対して,語の区切りや語尾を処理
1947
A. D. BoothとD. H. V. Brittenが辞書引きプログラムを開発
して品詞を判断する形態素解析,語や
1949
W. Weaverが「世界的な翻訳の問題に関する解法」
として,コンピュータを使うことを提案
句がどのように関係するかを分析する構
1954
機械翻訳に関する論文誌「MT」発刊
文解析,そして語句の意味を調べる意味
1957
N. Chomskyが文には意味を表現する深層構造があるという考えに基づいた生成文法を提案
解析と処理を進める。その結果が言語に
1963
R. Lindsayが親戚関係に関する英語の文を受け取って,データベースを構成し,蓄えられている事
実に関する質問に答えるプログラム「SAD-SAM(Syntactic Appraiser and Diagrammer ーSemantic Analyzing Machine)
」
を開発
式で表現できるのであれば,同じ内容の
1963
B. Greenらが野球の試合に関する英語の質問に対して答える情報検索プログラム「BASEBALL」
を
開発
文章を別の言語を使って生成できるはず
1964
D. Bobrowが代数の文章題を解くのに十分な自然言語の理解がコンピュータに可能なことを示す
である。
依存しない
(さまざまな言語に共通の)形
1964
B. RaphaelがQ&Aシステムでの知識の論理表現の能力を示したSIRプログラムを発表
この考え方自体に疑問の余地はあまり
1966
J. Weizenbaumが英語でいろいろな話題について会話できるELIZAプログラムを発表
ない。次ページの図 2 の文例で詳しく説
1966
ALPAC(Automatic Language Processing Advisory Committee)
が機械翻訳の困難を指摘するレ
ポートを作成,機械翻訳研究に対する財政支援が打ち切られたことにより研究が停滞
明しよう。例えば「I eat meat」とい
1968
B. Raphaelが強い制限付きで部分英語による入力を理解できるSemantic Information Retrieval
(SIR)
を開発
1968
D. Bobrowが高校程度の代数の問題を読みパターン・マッチングで解を求める自然言語プログラム
「STUDENT」
を開発
1968
C. Fillmoreが「The Case for Case」
という論文で,名詞は動詞と特定の意味関係で結びついてい
るという格(case)文法を提案
1969
R. Quillianが人間の連想記憶のモデルとして,コンピュータ・プログラム中のデータ構造にある節点
と枝の集合により単語と意味を表現する意味ネットワークを提案
う英文は,
「I」
「eat」
「meat」という要
素に分けることができる(英語の場合は
スペースで単語が区切られているのでそ
のまま分けられる。日本語は語を区切る
のにある程度の処理が必要である)
。
次に名詞句(I)
+動詞句(eat meat)
1969
R. Schankが自然言語理解での概念依存モデルを定義
という構造に分解する。この場合,名詞
1970
B. Woodsが自然言語理解の表現のために「Augmented Transition Networks」
を利用
句は代名詞(I)のみである。そして動詞
1970
J. Carbonell が知識表現として意味ネットワークを用いたコンピュータの補助による説明用プログラ
ム「SCHOLAR」
を発表
1971
T. Winogradが子供が積み木遊びで使う言葉を理解して,その通りに動作させる自然言語理解シス
テム「SHRDLU」
をデモ
1971
米国防総省のARPAが音声理解研究(SUR)
プロジェクトを開始(1971-1976)
句はさらに,動詞(eat)+名詞句(実際
には名詞 meat のみ)に分解される。こ
うしてできた木のような形の構造を構文
木という。
1973
Carnegie Mellon大学で音声チェスのプログラム「HEARSAY-I」
を開発,続いて1976 年にかけて
「HEARSAY-II」
を開発
そして構文木から,文章の意味構造を
1973
Y. Wilksが少量の英文の一節から仏語を作り出すシステムを開発
考える。ここでは「eat」という動詞を
1973
W. Woodsが月面から持ち帰った岩石の資料に関する質問応答をするLUNARプログラムを開発
中心とし,これに対して他の語がどのよ
1973
T. BoothとR. Thompsonが確率文脈自由文法を提案
1975
R. Schankが概念依存関係理論を用いたプログラムMARGIE(Meaning Analysis,Response Generation,and Inference on English)
を開発
1975
M. Minskyがすでにある知識の範囲で世界を理解する
「フレーム理論」
を発表
うな格の関係にあるかを考える。すなわ
ち,主格が I で,目的格がmeat である。
この構造が示す文章の意味は,他の言
語であっても同じであるから,ここで日
1975
1980
L. Erman,R. Hayes-Roth,V. Lesser,R. Reddyが後の音声理解システム「HEARSAY-II」で利用
された黒板モデルについて発表
1982
日本で超並列で論理型言語を実行するコンピュータと自然言語の理解などを目標とした「第5世代コ
ンピュータ計画」が始まる
(1982-1991)
本語に変換して,動詞「食べる」を中心
に,主格「私」
,目的格「肉」という構造
に置き換える。
R. Schank,R. Abelsonらが簡単な物語を理解するためにスクリプトとプランを利用するSAM
(Script Applier Mechanism)
とPAM(Plan Applier Mechanism)
を開発
1984
ブラビスインターナショナルが日英機械翻訳ソフトを世界で初めて製品化
あとは,英文を解析したときと同様の
1986
日本で電子化辞書プロジェクトが始まる
(1986-1994)
過程を逆にたどる。日本語の意味構造
1988
米IBM社のP. Brownらが統計的アプローチによる機械翻訳を発表,1990年にシステムを開発
から構文木を生成するが,このとき日本
1992
D. Cuttingらが品詞付けに隠れマルコフモデルを適用
語のルールに従って,文章後半の名詞句
1992
V. Vapnikがパターン認識手法「Support Vector Machine」
を提案
1998
C. Fellbaumがオンラインの語彙情報システム「WordNet」
を開発
と動詞の順序が英文の場合とは逆にな
る。同時に助詞も補われて,最終的に
表 1 自然言語処理の研究に関する主な出来事
1
■ NIKKEI BYTE 2005 June ■
33
NIKKEI
BYTE
ル基地を巡って米国とソ連の間で最も緊
の構文的解釈があり得る,という事実を
張が高まった時期でもあった。実際,米
明らかにすることにもなった。実際に構
この例は非常に単純な場合を示したに
国では安全保障上の目的などから,大量
文解析してみると,構文木は一意に決ま
すぎない。人間が実際に使う文章はもっ
の外国語文書や通信内容を自動的に英
らないというわけである。
と複雑であるが,基本的にはこのような
語に翻訳するニーズが高まった。その結
そのような例としてよく引き合いに出
文法上の処理と意味上の処理によって,
果,1950 年代後半から60 年代前半にか
されるのは「Time flies like an arrow」
遠からず自動的な翻訳も可能になると考
けて,多くの機関で機械翻訳の研究が進
という文章である。flies が動詞(fly)で
えても無理はない。それには言語の構造
んだ。
あればlike は形容詞になる。しかしlike
「私は肉を食べる」という翻訳文を生成
するに至る。
背景にはN. Chomsky が1957 年に明
は動詞でもあるので,その場合の主語は
しかし,現実がそう甘くなかったことは
らかにした考え方がある。すなわち先ほ
time flies(時蝿)という耳慣れないもの
周知の通りである。
ど説明したような木構造に対し,構造を
になってしまう。どちらが正しいかを判
組みかえる(変形する)ことによって文章
定するにはこれらの単語に関する知識が
が作り出されるというものである。結果
必要である。
や意味を精密に定式化する必要がある。
一時停滞した機械翻訳研究
米国で機械翻訳の研究が非常に盛ん
として,構文解析の研究が進んだが,こ
しかし事態はさらに複雑であった。と
だった1960 年前後は,キューバのミサイ
れは逆に,同じ文章に対して非常に多く
いうのも,上の例ならまだ判定すること
ができるが,これまた有名な「He saw a
woman in the garden with a telescope」という文章になると,garden に
私は肉を
食べる。
I eat meat.
34
NIKKEI
BYTE
いるのはHe かwoman か,またtelescope
を持っているのがHe かwoman かは定
かではない。判定するには前後関係など
構文解析
文章生成
何らかの知識が必要になる。
このような解釈のあいまいさは,文章
文
が複雑になるにつれて一気に大きくなっ
文
ていく。その結果,判定のための条件の
名詞句
名詞句
動詞句
動詞句
数もまた膨大にならざるを得ない。しか
し,有効な解決手段は簡単には見つから
代名詞 動詞
名詞句
構文
トランスファ
私は 名詞句
eat
なかった。そして実際には,意味の解析
に力を入れるより,構文のレベルで目標
名詞
I
動詞
肉を
食べる
とする言語に変換することが現実的に
なっていく
(これを構文トランスファなど
meat
と呼ぶ)
。
機械翻訳が抱えていたこのような課題
意味解析
構文生成
が,現実の問題として噴出したのが有名
な1966 年のALPAC レポートである。こ
eat
主格=I
目的格=meat
意味
トランスファ
食べる
主格=私
れはALPAC(Automatic Language
目的格=肉
Processing Advisory Committee)
図 2 オーソドックスな機械翻訳の手順
意味レベルで変換できればいいが,現実には難しい。そこで,構文レベルで目標とする言語に変換してしま
う「構文トランスファ」方式が普通である。
■ NIKKEI BYTE 2005 June ■
と名付けられた調査委員会の報告書で,
おおむね次のような結論を出してい
た
2 。それは,まず当時の機械翻訳は
2 Language and Machines - Computers in Translation and Linguistics: A Report by the Automatic Language
Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National
Research Council, Publication 1416, First Printing November 1966.
c
o
l
u
m
Cover Story
言葉を理解する
コンピュータ
n
コンピュータを数値計算以外にも使うことは,わが国
でも黎明期の頃から考えられていた。情報処理学会が
③ は論文などの要約を目指すものである。具体例と
設立された1960 年,その設立総会で工業技術院電気
して,ネコの首に鈴を付けようとネズミが相談する話を
試験所の和田弘・電子部長(当時)
が行った記念講演か
紹介している。よく使われている注目単語を洗い出し,
らは,わが国におけるコンピュータ黎明期の自然言語処
それを中心に文を選ぶという単純な方式である。その
理の状況が伝わってくる*A。
「計算をしない計算機」
と題する講演は,① 文字を読
む機械,② 外国語の翻訳,③ 要約機,④ 検索機,の四
つについて論じている。いずれも当時の電気試験所で
研究していた内容である。
日本 の
自然 言 語 処 理
ことはじめ
代がしのばれる。
結果,三つの文章,The cat killed some of the mice.
Put a bell on the cat. But who is going to put the
bell on the cat?が印字された。
これらの文にはcat,mouse,bell という三つのキー
ワードが二つ以上入っていたから,
と説明しているが,な
まず,① の文字を読む機械は,要するに文字認識で
るほど要約になっていると思えるところが面白い。当時,
ある。英文タイプライタの文字と記号 73 種を対象に,
1000 語程度の文章なら17 分ほどで要約できたという。
どれくらいの解像度でスキャンすればいいかということ
課題として,構文解析から機械学習にまで進む必要性
や,太さやフォントが違っても同じ文字と認識できるた
を指摘している。
めに,各文字の性質を抽出する機械学習の必要性に触
④ については,講演が行われた時点では具体的なシ
ステムの説明はしていない。この問題の重要性を強調
れている。
② はもちろん,機械翻訳システムを指す。同じ単語で
し,何とか合理的な情報の整理法を生み出したいとし
も違う品詞・意味になる場合があること,語順が言語に
ている。これはインターネット時代の今,非常に切実な
よって異なる点に注意を促した後,当面は意味には踏
課題となっているが,すでに45 年前から問題だったの
み込まず,構文的な研究に取り組むことを述べている。
である。
そして現状の翻訳例として,
「I have some eggs in my
以上を眺めたとき,現在のコンピュータは当時に比べ
hand」
を,
「ワレ ガ イクラカノ タマゴ ヲ ワレノ テ ノナ
てどれだけ進歩したのだろうかと感慨を禁じ得ない。あ
カニ モツ」
と翻訳する処理を具体的に解説している。こ
えて比較すれば,遺跡から分かった古代ポンペイの都市
の翻訳文は,タイプライタにカナ出力されていた。もち
機能と,現代都市のそれとの違いは何かということかも
ろん,当時は漢字を含む日本語処理機能は実現されて
しれない。
35
NIKKEI
BYTE
いない。
このシステムの内部では日本語の1 語を64 ビットで
表現しているが,そのビット列を詳細に示すあたりに時
* A この講演の内容は
『情報処理』第 1 巻第 1 号(1960 年 7月)
に掲載されている。
c
o
l
u
m
n
科学として支援されるべき段階にあり,
ても妥当な内容で,急速な実用化を期
れ,ある程度は意味も扱える文法や,文
現実的な翻訳として今すぐ成果が得ら
待せず,研究は長期的に支援すべきとい
の単位を超えて意味を処理する理論や談
れるものではないこと,そして一方では
うものであったが,実際には,機械翻訳
話の分析なども可能になった。日本でも
翻訳の速度と品質を得るための研究に支
の研究は支援を打ち切られ,停滞を余儀
80 年代に実行された第五世代コンピュー
援が必要,というものである。
なくされた。これには,宣伝ばかりでな
タ計画に関連して,自然言語処理も主
この委員会の聞き取り先には,かつて
かなかオモチャの水準を脱しない当時の
要テーマの一つとなっていた。しかし第
DARPA で人工知能
(AI)
研究者に予算
人工知能研究に対する不信感が反映し
五世代プロジェクトの帰趨は別にしても,
を与えていた J.C.R Licklider も含まれ
ていたのかもしれない。
言葉の理解に至るほどの目覚ましい成果
ている。Licklider は,ALPAC の調査
が行われたときは米IBM 社にいたが,機
械翻訳の現状に対して否定的な態度を
取ったことが記録されている。
報告書の結論は現時点から振り返っ
を自然言語処理研究が挙げることはな
文法理論は発展したが知識記述が壁に
1980 年代から90 年代前半にかけて,
かった。
文章を発話する場面や,前後の文脈
文法に関する研究は大きく進展した。文
など,周囲の状況を前提知識として持つ
章を構文レベルで解析する技法が洗練さ
ことによって,あり得る解釈の中から適
■ NIKKEI BYTE 2005 June ■
切なものを選べるようにすると言うのは
別の問題もあった。適切な言語処理
を実らせることはなかったのである。ど
簡単だが,そのような知識を完ぺきに記
には関連する知識が必要だが,ある分野
うやら既存の路線の延長線上には目覚
述することは事実上不可能だった。そこ
の知識を集めても,それは他の分野の処
しい成果を期待できないのではないか,
には1970 年代から80 年代にかけて人工
理には使えない。そのつど知識に関する
という考えも出てきた。
知能の応用成功例として盛んに開発さ
「シジフォス的状況」が出現せざるを得
れたエキスパート・システムが,結局の
新しい方向――コーパスと統計処理
ない*1。
ところ知識の完全な記述が不可能なこと
結局,文法理論が進んでも,多少の
その頃までには,新しい傾向がいくつ
から行き詰まったのと同様の理由が待っ
意味が扱えるようになっても,それらが
か自然言語処理の研究に現れるように
ていたのである。
自然言語処理システムとして大きな成果
なっていた。まず,大量の言語データ
(コーパス)を用いた研究の増加である。
コーパス自体の歴史は古く,米国の出
コーパス(構文解析済み)
版物を対象として1964 年にBrown 大
(名詞句(決定詞 the)
(名詞 man))
学が公開したもの(その後も改版されて
動詞句(動詞 saw)
(名詞句(決定詞 a)
(名詞 lady))
いる)をはじめ,数百万語から数千万語
に及ぶコーパスがいくつも作られている。
学習
それらは例えば言語辞書の作成などにも
入力文
構文木
モデル
(例えば構文解析)
I eat meat.
36
NIKKEI
BYTE
利用されていた。
文
つまりコーパスは,現実に存在する言
語のデータ集である。何らかの知識(ら
名詞句
図 3 学習によるモデルの推定と,
そのモデルを使った構文処理
動詞句
しきもの)を抽出することができれば,そ
のコーパスが表す分野に関する言語処理
コーパス中のタグなどは適当に書いただけのもので,
内容に意味はない。
I
eat
meat
にとって有用なものになるであろう。そ
れを自動的に行うツールを開発すれば,
a
上記のシジフォス的状況は大きく緩和さ
汎用の通信システム(Shannon)
情報源
メッセージ
送信機
信号
れることになる。
受信した
信号
受信機
メッセージ
最終
受信者
一般にコーパスは,文章のテキストだ
けから成る場合もあれば,ある程度文法
的に解析して品詞の区別を示すタグを付
けたり,また構文的な情報まで含むタグ
を付加したりすることもある。翻訳に使
雑音源
う場合は,二つの言語の表現をペアにし
b
た対訳コーパスも用いられる。
音声を伝えるシステム
情報源
文章
そしてもう一つは,統計的な言語処理
音声
発生
音声
聞いた
音声
■ NIKKEI BYTE 2005 June ■
文章
最終
受信者
の台頭だ。英語から日本語への機械翻
訳を例にとると,ある英文に対して,す
べての日本文が翻訳文になり得ると考
え,それぞれが翻訳文になる確率を調べ
図 4 通信路のモデルと音声処理の
モデル
a はShannon が1947 年に提案した一般的な
4。b はそれを音声認
通信路のモデルである
識に適用したもの。機械翻訳にも応用できる。
音声
処理
雑音源
るのである。計算はあまり単純なもので
はないが,いくつも確率モデルが提案さ
れている。そして確率モデルの形を決め
3 Peter F. Brown, et al, "A Statistical Approach to Machine Translation," Computational Linguistics,
Vol.16, pp.79-85, 1990.
4 C.E. Shannon,"A Mathematical Theory of Communication,"The Bell System Technical Journal, Vol.27,
pp.379-423, 623-656, 1948.
原文の単語列
I
like
to
Cover Story
言葉を理解する
コンピュータ
文
文
a1
b1
dance
動詞
名詞句
名詞句
a2
名詞
名詞
不定詞
名詞
動詞
前置詞
動詞
各単語が
とりうる品詞
前置詞
接続詞
b2
名詞
助詞
a3
a4
kore
動詞
o
名詞
a5
b3
kure
kore
a1×a2×a3×a4×a5
比較
b4
okure
b1×b2×b3×b4
形容詞
図 6 確率的な構文解析
最も確からしい
品詞列の選択
図 5 確率的な形態素解析
品詞の選択を行っている。
このような文法を確率自由文脈文法という。この例は「koreokure」と音声で入
力した場合を示している。
る(パラメータを求める)ためには大量の
すると,2 文字以上の文字列にも出現
を決めることが,モデル推定の実際であ
データが欠かせない。そのようなデータ
確率で順番を付けることができそうだ。
る。この決め方が,何種類も提案されて
として,コーパスが使われる(図 3)
。
実際,2 字の場合,
「e 」
(後ろはスペー
いる。
このような統計的な考え方は,すでに
ス)が最も多く,
「 t」
(前はスペース)
,
確率モデルはまず,音声認識の分野で
音声認識の研究で有用性が明らかになっ
さらに「th」
「he」と続く。それぞれの
実績を上げてきた。これはShannon の
ていた。1970 年代にIBM の研究チーム
出現確率は3.05 %,2.40 %,2.03 %,
通信理論で仮定された,雑音のある通信
が用いた確率モデルの成功によって,そ
1.97 %となっている。単語を一つの単位
。文
路のモデルを基にしている(図 4a)
の後の音声研究が決定付けられた。そし
とすると,出現確率が最も多いのは「the」
章を音声に変えて送る側から,それを聞
て今度は機械翻訳で1990 年に,やはり
で6.15 %,次が「of」で3.54 %といっ
いた側が文章の形に復元するまでの過程
た具合だ。
を,図 4b のようなモデルで考えるので
IBM が統計的な手法を提案した
3。
いったん方向が示されると,この手法
これらは,言語データ集団で観測され
ある。話し手が発する音声データは,雑
も急速に自然言語処理分野に普及し,さ
る「現象」である。現象の背後には,そ
音が混入した状態で聞き手に届く。入力
らに改良・拡張が施されていった。こう
れを説明するモデルがあるだろう。その
データのパターンに対し,最もうまく合
して1990 年代には,実用面で停滞感を
ようなモデルを,言語データから推定し
う音素データや音節のデータを見つける
拭えなかった自然言語処理の分野で,統
たものを確率的言語モデルと呼ぶ。
ころができればいい。そのようなモデル
計的な言語処理を中心とする転換が起
こったのである。
もちろんモデルは,対象とする言語
データ
(つまりコーパス)の分野などによっ
て変わる。しかし,あるコーパスについ
統計的言語処理とは
一般の目からは,人間の言葉や文章
として成功したのが隠れマルコフ・モデ
ル(HMM)である*3。
図4 の考え方は,言語処理にも適用可
てこのような確率モデルを求めることが
できれば,モデルに適当な文章(文字列)
を統計的・確率的に扱えるのかという疑
を入力することによって,文章が当該の
問が生じるかもしれない。ところが自然
言語データが表す分野でどの程度確から
言語の統計的性質は結構知られている
しいかを計算することが可能になる。
のである。例えば英文の場合,スペース
実際の確率言語モデルは,未定のパラ
を除いて調べると「ETAOIN」の6 文
メータをいくつも含んだ数式として表さ
字がこの順番でよく使われることが,印
れる。対象となるコーパス(言語データ)
刷会社では経験的に知られていた*2。
に最も適合するように,パラメータの値
5 からの引用で
* 1「シジフォス的状況」
という言葉は
ある。神話で有名なシジフォスの,終わりのない仕
事を指している。
* 2 北研二ほか
『音声言語処理』
(森北出版,1996 年)
による。これに続く6 文字は「SHRDLU」
となって
いるが,同書によればこの順番には諸説あるよう
だ。以下,出現頻度の記述は同書に従う。
* 3 以下,品詞付けや構文解析(図 5,図 6 を含む)
に
ついては,北研二ほか「確率・統計モデルの音声
言語処理への適用」
『人工知能学会誌』
(1995 年
3月)
による。同じ内容が上記* 2 の書籍に再録さ
れている。
■ NIKKEI BYTE 2005 June ■
37
NIKKEI
BYTE
能である。形態素解析の場合,単語の
在では,ルールを併用する場面はあるだ
再び「盛り上がる」ことを予言する。同
列を入力データとしたときに,それを品
ろうが,基本的には統計的なモデルが自
教授はすでに1990 年代半ばに「人工知
詞の列に対応付けることを考える。こう
然言語処理の主要な手段となっている。
能と知識工学が理論と工学の乖離から
すると,音声データに対するのと同じ考
なお,言うまでもないことであるが,
陥った不毛」を自然言語処理が繰り返
統計処理は計算の量も多く,高いコン
してはならないと説いていた
前ページの図 5 は,
「I like to dance」
ピュータ性能を必要とする。実際,90 年
具体的な方法として,コーパスという
という英文に品詞付けしたものである。
代はコンピュータが劇的に高速化・小型
「観察可能な大量の実体から出発」する
それぞれの語がとり得る品詞の中から,
化した時代でもあった。最近になって普
最も確からしい品詞の列として,名詞+
及し始めたグリッド・コンピューティン
応用分野として,辻井教授は生命科学
動詞+不定詞+動詞が求められる。
グも,処理が重い統計モデルにとっては
に大きな可能性を見ている。20 世紀末
追い風となっている。
にヒトゲノムが解読されたことで,病気
同じことは構文解析にも適用できる。
「これ/を/くれ」と「これ/おくれ」という
38
ことを重視したのである。
の治療や新薬の設計にますます拍車がか
日本語で「koreokure」と発話した場合,
NIKKEI
BYTE
5 。その
え方を適用できることがわかる。例えば
再び盛り上がる自然言語処理
かっている。ところがこの分野では,ほ
二つの構文構造が考えられる(前ページ
方法論の転換と時期を同じくして,90
んのちょっとした研究内容の違いが用語
の図6)
。二つのうち,どちらがもっとも
年代にはコンピュータの利用状況にも転
の差になって現れることが多く,同じタ
らしいかを決める場合,構文木を構成す
機が訪れていた。インターネットである。
ンパク質を扱った研究であっても名称の
る要素ごとに確率が分かっていれば,確
爆発的に増加するインターネット上のコ
不統一などから,同一分野であることを
率の積を比較して,より大きい方を正し
ンテンツの前では,単なるキーワードに
認識できないケースが少なくないのだと
い(らしい)構文木として選択することが
よる検索はほとんど意味を失う。散在す
いう。これでは過去に得られた知見を共
できる。
る情報の中から内容が関連する情報を
有することは困難である。
具体的な確率言語モデルには,いくつ
探し出したいと思っても,一般的な検索
しかも以前から,生命科学の分野では
もの方式が登場した。従来のルールに基
サービスは無力である。何らかの言語的
論文の要点が電子的な形でMEDLINE
づく解析よりも精度が高く,またデータ
処理が必要なことは明らかだろう。
と呼ぶデータベースに集積されてきた。
の変化に対して強いことが,実際の応用
こうした状況をとらえ,東京大学の辻
を積み重ねることで実証されてきた。現
井潤一教授は,自然言語処理の応用が
現在その規模は1200 万件以上に及ぶ。
これらが個別の専門用語を使って書かれ
ているのである。研究者個人が,そのよ
DNA
転写
mRNA
翻訳
タンパク質
知見1
うな膨大な数の文献に書かれた知見を調
べ,総合して生命現象全体を理解する
などということは不可能に近い。従来の
科学研究の方法論が,膨大なデータを前
知見2
に成立しなくなっているとも言えるので
ある。
知見3
このため自然言語処理の技術を生か
して活路を見いだそうという機運が,生
細胞内のタンパク質の関係として理解
命科学分野の研究者から生まれている。
個々の論文に盛り込まれている知見を総
図 7 生命科学の課題
合して,生命としての理解に結びつけた
個別のDNA について得られた知見を,
細胞内のタンパク質の関係として総合
的に理解する必要がある。 6 を参照
した。
い。これは例えば図 7 のように,DNA
■ NIKKEI BYTE 2005 June ■
の塩基配列とタンパク質との関係から,
タンパク質の相互関係に理解を広げるこ
5 辻井潤一,
「視点の変換−言語の理論から設計の理論へ−」,
『人工知能学会誌』,第 11 巻第 4 号,pp.530-541 ,1996 年 7 月
6 辻井潤一,
「ゲノム情報学と言語処理」,
『情報処理』,第 43 巻第 1 号,pp.36-41 ,2002 年 1 月
c
o
l
u
m
Cover Story
言葉を理解する
コンピュータ
n
コーパスや確率モデルが確立し,広く使われるように
まで幅広く取り上げている。
なったのは1990 年代半ば以降である。そのため,これ
らの動きまで含めてカバーする適切な教科書はまだ多
現実的な応用を離れて読みたい本も,この分野には
くはない。
読書案内
─ 確率モデルから
脳科学まで
言語理解から脳科学,進化まで
その中では,Christopher D. Manning と Hinrich
多い。実際,コンピュータに言語を与えることは,実現
Schutze によるFoundations of Statistical Natural
可能性とは別に関心を呼ぶテーマなのである。子供が
Language(MIT Press, 1999)
が挙げられよう。この方
言葉を覚える過程をコンピュータで実現する試みの記
法に関する全般的な解説書となっている。日本語の書
録が,錦見美貴子『言語を獲得するコンピュータ』
(1998
籍では,本文中でも引用した北研二・中村哲・永田昌
年,共立出版)
である。また最近では,荒木健治『自然
明『音声言語処理−コーパスに基づくアプローチ−』
(森
言語処理ことはじめ』
(森北出版,2004 年)
が,遺伝的ア
北出版,1996 年)
がある。このテーマでは最も早い時
ルゴリズムを用いた実例を解説している。言語を理解
期に出た本であるが,基本的な事項から丁寧に書かれ
するシステムへの道のりは長いが,夢を持てる試みで
ており,わかりやすい。
ある。
この著者らの一人が後に書いたのが,北研二『確率
人間がいかに言語を生み出すのかという疑問は脳科
的言語モデル』
(東京大学出版会,1999 年)
である。こ
学と切り離すことができない。人間が言葉を話したり聞
れは「言語と計算」
という5 冊シリーズの1 冊で,確率言
いたりするときの大脳の活性化の状態をMRI によって
語モデルに絞って学ぶとすれば,最もよく練られた部類
測定し,言語の研究に役立てることが盛んになっている。
の本に属する。また巻末にシリーズ編者の辻井潤一教
その代表的な1 冊が,酒井邦嘉『言語の脳科学』
(中公
授による解説があるが,これは歴史的な動向の把握に
新書,2002 年)
である。Chomsky が切り開いてきた言
役立つ。
語科学への理解を脳科学の観点から深めることができ,
ただし,自然言語処理研究の歴史は長く,確率的な
読んで面白い。
モデルだけで全貌をとらえることはできない。それを全般
また,言語と脳の働きの関係を歴史的に概観するに
的というか最も広範囲にわたって視野におさめた1 冊
は杉下守弘『言語と脳』
(講談社学術文庫,2004 年)
が
が,わが国自然言語処理研究の大御所の手になる,長
手ごろである。これは1985 年に発行されものだが,文
尾真編著『自然言語処理』
(岩波書店,1996 年)
である。
庫化にあたって最近の状況も書き加えられている。
ぶ厚い本だが,教科書として使うのなら決定版と呼んで
もし脳に文法中枢が生まれながらに存在するなら,そ
れは遺伝によるものであろうから,文法遺伝子があって
いい。
これに次ぐものを1 冊挙げるなら,田中穂積監修『自
もおかしくない。もちろん存在の証拠はまだないが,これ
然言語処理―基礎と 応用―』
(電子情報通信学会,
は言語の起源や進化への興味をかきたてる。
「言語の起
1999 年)
になるだろう。形態素・構文解析からコーパ
源」
という特集を
『科学』2004 年7月号が組んでいるが,
ス・ベースまで基礎技術を解説するほか,応用分野では
これを読むとかえってこの問題の難しさが分かったりして
視覚や聴覚などを含むマルチモーダルの対話システム
面白い。
c
とに相当する
6。
というのである。
このような知見相互の関係は,セマン
同様の考え方は生命科学以外にも使
ティックWeb におけるオントロジ*4 に
えるだろう。これはゲノムの解読によっ
似ている。個々の論文が,実地に得られ
てたまたま顕在化したのであって,同じ
たデータがいかなる生命現象に関係する
ような知識の構造化を必要とする問題は
かを言語的に記述しているとしよう。そ
多くの分野に潜在していると考えられる。
れらを整理・体系化し,生命現象に関
自然言語処理の新しい時代は,以前ほ
する総合的な理解を生み出すためのツー
ど目立つ形ではないが,静かに始まって
ルとして,自然言語処理を位置付けよう
いる。
39
NIKKEI
BYTE
o
l
u
m
n
*4 セマンティック Web は階層構造をしており,
デ
ータ表現層の上に知識表現層,
さらにその上にオ
ントロジ層がある。知識の表層的な記述に対し
て,
そのメタレベルで「意味」に相当する内容を
記述したものがオントロジである。自然言語処
理と対比するならば,
さまざまな言語による原テ
キスト文がデータ表現層,
それを構文解析したも
のが知識表現層,
さらに意味解析して他の言語と
共通の記述ができるのがオントロジ層というこ
とになろうか。このことからすぐに想起されるの
は,
意味解析の困難がそのままオントロジの困難
になるのではないか,
あるいは逆に,
オントロジの
構築が容易なら意味解析もそう難しくはない,
と
いうことである。
■ NIKKEI BYTE 2005 June ■
Fly UP