...

確率有限オートマトンとしてのモダリティを特定する言語モデルの研究

by user

on
Category: Documents
18

views

Report

Comments

Transcript

確率有限オートマトンとしてのモダリティを特定する言語モデルの研究
確率有限オートマトンとしてのモダリティを特定する言語モデルの研究
- 日本語モダリティの階層構造に着目して A study on a language model for identification of modality described probabilistic finite automaton
- Focusing hierarchy structure of Japanese Modality 03M43100
小橋 洋平
Yohei, Kobashi
指導教員:坂野 達郎
Adviser: Tatsuro, Sakano
SYNOPSIS
Masuoka(1991) said Japanese sentence is composed of “Proposition” and “Modality”. I assume that
you could extract issues if you identify “Value Judgment Modality”, and I suppose that you are able to
specify Value Judgment Modality with probabilistic finite automaton. Masuoka suppose that Modality
has hierarchy structure. If it is true, Modality has potential for described the structure using only
immediately-adjacent relation between two morphemes. According to examine a HMM model, recall of
the model achieves is about 80% and precision of it is about 60%.
1.序章 研究の背景と目的
1-1.研究の背景
従来の自然言語処理の研究においては、文書の翻訳や要
約、検索技術などで目覚しい進歩を遂げているが、その一方
でその対象となる情報は文の命題(proposition)が表す意味に
ついてのものが大半であり、文書の書き手や話し手に関わる
情報についてはほとんど扱われてこなかった.しかし、近年
では、藤田(1999)による新聞記事に入り込んでいる書き手の
客観性についての分析や、永野ら(2001)による 2 つの独立し
た文書からそれぞれ筆者の評価、判断にもとづく要求などの
情報を特定し、対話形態の抄録を作成するシステムの開発な
ど、書き手、話し手の判断・態度についての情報を抜き出す
研究が始まってきている.社会科学の分野においても、話し
手の判断や態度に関する情報を取り扱うことができれば、特
定の主体が発した発話・記述データからその主体の判断・態
度を自動的に抽出することが可能となり、マスメディアやイ
ンターネット、アンケートやインタビューなどさまざまな言
語媒体の情報集約に用いることが考えられる.
しかし、藤田(1999)や永野ら(2001)の研究では、書き手の
判断・態度として扱っている表現に偏りが見られ、多様な言
語媒体に対する適用可能性という点で疑問を感じる.益岡
(1991)は、話し手の判断・態度を表す表現が多様に現れるの
は日本語の特徴的な点であると述べており、欧米の言語に対
する研究が起源となる自然言語処理の分野では、話し手の判
断・態度を表す表現についての研究自体が少なく、考察は十
分でないといえよう.
1-2.研究の目的
小橋(2003)では「社説において書き手が価値判断を下して
いる命題は、その社説のテーマである社会問題においてその
善し悪しが重要となる命題、すなわち争点である」と考え、
新聞の社説から、価値判断モダリティという書き手の価値判
断を表す表現を特定するために、辞書をベースにした手法を
開発しており、社説 2664 文に含まれる価値判断モダリティ
を学習データに対しては約 94%の精度で特定できた.
しかし、その手法は辞書に登録されている表現に左右され
るために、未知の社説記事に対する精度や、辞書に登録する
べき表現の判断自体が難しいといった問題を残している.
そこで、本研究では、共通した構造的特徴を持つとされる
モダリティ全体に研究対象を拡大するとともに、その定義を
見直し、より一般性の高い文法規則でモダリティを特定する
アルゴリズムを考察し、その上で価値判断モダリティを特定
するモデルの開発を目指す.
2.モダリティの定義
2-1.既存の研究における定義
2-1-1.益岡によるモダリティの定義
益岡(1991)によると、日本語文は大きく「命題」と呼ばれ
る客観的な事柄を表す要素と「モダリティ」と呼ばれる表現
者の主観的な判断・態度を表す要素とに分けられる.小橋
(2003)では価値判断モダリティのみを扱ったが、本研究では
上記で述べたように、より一般性の高い文構造上の特徴を明
らかにするため、モダリティ全体を分析の対象として扱う.
モダリティの例として次の文を示す.
メディアへの統制も見直す[べきだ]。(朝日社説)
この文では、
「メディアへの統制も見直す」が命題、
「べきだ」
が価値判断を表すモダリティとなる.
2-1-2.Neumann によるモダリティの定義
Neumann(1998)は、近年の“モダリティ”という用語の用
いられ方は、構造(form)と機能(function)に関する部分で混同
して使われている、としている.益岡の定義も命題とモダリ
ティの関係について曖昧な点が残るため、構造と機能の関係
に関して必ずしも明瞭でないと考えられる.
その上で、Neumann はモダリティの定義を、
「全ての言語
には命題に対する話し手の態度を表現するモダリティとされ
る概念が存在する」としている.益岡の定義とは、
Subjective(主観的)という言葉をモダリティかどうかの判断
基準ではなくモダリティ内部の分類に用いているところや、
価値判断に相当するモダリティを Deontic(当為)と Wish(希
望)に分類している点などで異なる.
2-1-3.本研究におけるモダリティの定義
以上の考察を踏まえ、本研究におけるモダリティの定義を
以下のように定める.
日本語文は「命題」、「モダリティ」および、時制とみとめ方
の表現から構成される.「命題」は文の中に存在する命題核、
モダリティは命題核に対する話し手の判断・態度を表す
また、価値判断と真偽判断のモダリティについては、さらに
次のような細分類を行う.
・ 価値判断のモダリティ
[派生的当為] 他の価値があるとされる事象に対し、命
題がそれを実現する上で必要であると主張する表現
[価値表明] 倫理感、願望など話し手の心的要因に基づ
いて、命題に価値があることを表明する表現
・ 真偽判断のモダリティ
[伝聞] 他者から伝達された情報で、話し手にとっては
その真偽が不確定なことを示すもの
[推定] 話し手が、不確定ではあるが真の可能性がある
と考えていることを示すもの
-
2-2.モダリティ特定モデル
2-2-1.永野ら(2001)による先行研究
永 野 ら (2001) は 、 命 題 (prepositional content) と 様 相
(modality、以後モダリティと呼ぶ)に着目して、政府と野党
の間の国会答弁書から、政府と野党との間の仮想の質疑応答
対を作成することを目標とした応答対を作ることを目標にし
た研究を行っている.
永野らが採用している手法は、金山ら(2000)にて開発され
た日本語係り受け解析器によって得られた係り受け構造にた
いして、ルールを適用して命題とモダリティを適用する、と
いうものであり、モダリティを含む文全 40 文に対して適用し
たところ、50%の文(20 文)から正しい命題-モダリティを抽出
することに成功している.なお、モダリティの例としては“賛
成/反対”と”確信/推測”の例文を示しており、他のモダリティ
の扱いについて明示されているわけではないが、真偽判断、
価値判断のモダリティに研究対象を限定していると思われる.
2-2-2.オートマトンと Chomsky の階層
永野らのモデルと本研究でのモデルを比較する上で最も重
要となるものが、オートマトンおよび Chomsky の階層と呼
ばれるオートマトンの生成能力の差を表した分類となる.
記号の集合Σに対して、Σ*の部分集合のことを言語
(language)と呼ぶ.言語は一般に無限集合だが、これを有限
の手段で記述するための枠組みをオートマトン(automaton)
または文法(grammar)という.オートマトンあるいは文法は、
表 2-1 のようにその生成能力によって次の 4 つに分類するこ
とができ、この分類を Chomsky の階層という(北,1999).
表 2-1 Chomsky の階層(北 1999)
オートマトン
文法
チューリング機械
線形拘束オートマトン
プッシュダウンオートマトン
有限オートマトン
述可能なモデルを採用する.なお、確率有限オートマトンは
その記述が確率によって成されるが、生成能力としては有限
オートマトンと等価であることが知られている.
永野らはモダリティの構造を一般の係り受け構造と同等に
扱っているが、本研究では 2-2-5 で述べるモダリティの階層
構造については、隣接する形態素間の関係のみで記述できる
と考えており、モダリティは有限オートマトンによって特定
可能であるという仮説を置く.
2-2-5.モダリティの階層構造
図 2-1.モダリティの階層構造
益岡(1991,2000)によると、日本語には図 2-1 のように文の概
念レベルがモダリティの語順にそのまま反映される、と考え
られている.このモダリティの階層構造よりモダリティの出
現順序が一意に規定されることで、本研究では隣接する命題、
モダリティ間の関係を測るために述語からモダリティまでに
おける隣接した形態素同士の関係のみでモダリティの構造を
記述できるのではないかと見ている、
3.隠れマルコフモデル
3-1.隠れマルコフモデルの定義
隠れマルコフモデル(Hidden Markov Model: HMM)は確
率有限オートマトンと等価な確率モデルであり、次のように
定義される.
HMM は自然言語処理の分野においては、浅原ら(2000)など、
句構造文法
文脈依存文法
文脈自由文法
正則(正規)文法
2-2-3.先行研究のモデルの生成能力
正則文法は
A→Bw, A→w A,B∈非終端記号,w∈Σ
で表される規則で、隣接した関係しか記述できないとされて
いる.永野らのモデルでは、金山らの係り受け解析器を用い
ているが、これは KANAYAMA.et.al(1998)における構文解析
の結果をもとにしている.構文解析は、
「たけやぶやけた」の
ような回文の構造に代表されるように、一般に 正則文法(=有
限オートマトン)では解析できないとされている.構文解析で
用いられるモデルは一般に文脈依存文法(=プッシュダウンオ
ートマトン)による記述が一般的で、永野らのモデルもこれに
当てはまると考えられる.
2-2-4.モダリティ特定に関する仮説
本研究では、永野らのモデルのように構文解析の結果に基
づいて行うものではなく、確率有限オートマトンによって記
形態素解析(単語列から各単語の品詞を推定する)に用いられ
るのが一般的である.
形態素解析に HMM を適用する例を以下に示すと、”Time
flies like an arrow.”を「名詞-動詞-前置詞-冠詞-名詞(光陰矢の
ごとし)」であるか「名詞-名詞-動詞-冠詞-名詞(時蝿は矢が好
き)」であるかを決定するために、形態素(単語)を出力記号、
品詞を状態とする HMM と解釈し、状態が名詞→動詞→前置
詞→冠詞→名詞と遷移する確率と、名詞→名詞→動詞→冠詞
→名詞と遷移する確率の両方を計算して、確率が高い方の遷
移を採用する、というものである.実際は、与えられた単語
列から考えられるあらゆる状態遷移の組み合わせについて計
算し、最も高い確率のものを採用する.
本研究では、前章でのモダリティの構造を確率有限オート
マトンで解析可能であるという仮説に従い、形態素およびそ
の属性(品詞など)を出力記号、モダリティのカテゴリー(価値
表明、派生的当為、伝聞、推定、説明、疑問、無標(非モダリ
ティ))を状態とみなし、形態素解析器「茶筅」にかけて得ら
れた形態素解析済みコーパスからモダリティ特定情報を得る
モデルを採用する. HMM は
1.任意の状態から任意の状態に確率的に移動する
2.各状態で定められた確率に従い記号を出力する
を繰り返すことで文を生成するモデルで、図 3-1 に本研究で
用いる HMM の遷移図のイメージを載せる.
図 3-1.本研究の HMM イメージ
4.モデルの検証
4-1.基本モデルの検証
4-1-1.モデルの検証手順
本研究におけるモデルの検証は全て次の手順で行われる.
① 朝日・毎日・産経・読売の社説コーパスから人手によ
ってモダリティ解析済みコーパスを 2000 文作成
② 2000 文をランダムに学習コーパス 1500、評価コーパ
ス 500 文に分類
③ 学習コーパスから状態遷移確率および記号出力確率
を計算
④ 計算した確率から学習、評価コーパスそれぞれのモダ
リティを推定
⑤ 推定したモダリティと実際のモダリティから、
level1,2 のそれぞれについて再現率(Recall)と適合率
(Precision)を計算
⑥ ②~⑤を 10 回繰り返し再現率と適合率の平均を算出
検証手順を図示したものを図 4-1 に示す.
図 4-1 検証手順
なお、level1,2 および再現率、適合率は次の通りである.
・ level1 : 命題にどのモダリティが付随しているかのみを
推定した場合
・ level2 : 形態素単位でモダリティかどうか推定した場合
・ 再現率 : 正解単語数 / コーパス内のモダリティ数
・ 適合率 : 正解単語数 / モデル推定モダリティ数
本研究の争点の特定という目的においては、Level1 の精度を
あげることが望ましい.
4-1-2.基本モデルの概要
本研究で採用するモデルの概要を表 4-1 に示す.
表 4-1 HMM によるモダリティ特定基本モデル
状態決定方法
Viterbi アルゴリズム
状態の種類
推定、伝聞、疑問、価値表明、派生的当
為、無標
出力記号
形態素およびその品詞
使用コーパス
朝日・毎日・産経・読売 4 紙の社説 500
文ずつ計 2000 文
学習コーパス数
1500 文
評価コーパス数
500 文
4-1-3.基本モデルの検証結果
検証結果は次の表 4-2 に表されるとおりである.本研究が
抽出目的としている価値表明および派生的当為のモダリティ
についてみてみると、level2 に関しては評価コーパスにおけ
る再現率がそれぞれ 12.1%、14.6%ときわめて低い.ただし、
本研究の目的において重要となる level1 で見てみると、適合
率、再現率とも 50%以上の値を示している.
level1 と level2 に見られる値の差は、例えば派生的当為の
モダリティが全文中に「なければならない」の 1 つしかない
としたときに、形態素単位で判断すると「なけれ-ば-なら-な
い」と 4 つに分割される.仮に「なけれ」のみ派生的当為と
見なされると、level1 では 100%的中となるが、level2 では 4
つのうち 1 つしか的中していないので、25%の的中となると
ころから来ていると思われる.
また、特定が比較的容易であると思われる疑問のモダリテ
ィが極めて低い値を示している原因は、実際に誤推定された
事例を観察すると、説明のモダリティが過剰に推定されてい
るために、疑問を表す表現の前の状態も誤って説明のモダリ
ティと見なされてしまい、説明のモダリティから疑問のモダ
リティへの推移確率が 0 のため、疑問のモダリティが全く特
定できない結果となっていることがわかった.このことは、
価値判断モダリティの特定精度を上げるためには、他のモダ
リティ精度もバランスよく挙げないといけないことを示唆し
ている.
表 4-2. 基本モデルの集計結果
状態
学習level2
学習level2
評価level2
評価level2
学習level1
学習level1
評価level1
評価level1
適合率
再現率
適合率
再現率
適合率
再現率
適合率
再現率
全体
35.5%
56.5%
27.2%
13.1%
30.1%
80.3%
24.3%
43.2%
推定
71.6%
57.0%
59.9%
10.5%
67.8%
85.7%
61.6%
51.9%
伝聞 疑問
価値表明 派生的当為 説明
22.1% 100.0%
72.6%
75.4%
12.3%
35.7%
1.6%
49.6%
70.2% 100.0%
15.3%
0.0%
62.2%
65.3%
10.1%
7.0%
0.0%
14.1%
15.1%
26.6%
20.8% 100.0%
79.4%
62.9%
8.4%
66.5%
2.4%
93.5%
96.6% 100.0%
12.0%
0.0%
68.9%
53.3%
7.3%
42.0%
0.0%
58.7%
61.7%
48.7%
4-2.スムージングを導入したモデルの検証
4-2-1.スムージング導入モデルの概要
本研究は、学習に用いているコーパスの量が少ないために、
評価コーパスの中に学習コーパスで一度も出現していない表
現が出てくる、0 頻度問題の出現可能性が高い.この問題を
解決するには、学習コーパスを増やす以外に、確率値のスム
ージングを行う方法がある.
本研究では、次式のような確率の補正を行う線形補完法を
採用する.
bi(ot) = λbi1(ot) + (1-λ)bi2(ot)
bi1(ot) = 状態 i で ot に該当する形態素と品詞が出力さ
れる確率
bi2(ot) = 状態 i で ot に該当する品詞細分類と活用形を
出力する確率
4-2-2.スムージング導入モデルの検証結果
検証結果を表 4-3 に示す.
価値表明、派生的当為の level1 の評価データのみに焦点を当
てて、基本モデルとの比較を行う.まず、価値表明のモダリ
表 4.3
状態
学習level2
学習level2
評価level2
評価level2
学習level1
学習level1
評価level1
評価level1
適合率
再現率
適合率
再現率
適合率
再現率
適合率
再現率
スムージング導入モデル(λ=0.9)での検証結果
全体
16.8%
39.8%
16.8%
39.5%
16.2%
55.3%
16.0%
54.3%
推定
68.7%
35.5%
68.7%
39.8%
65.0%
51.5%
65.3%
55.3%
伝聞 疑問
価値表明 派生的当為 説明
23.9%
80.0%
65.1%
57.0%
5.9%
40.6%
0.7%
24.3%
51.9%
98.3%
20.3%
20.0%
59.9%
58.5%
6.0%
30.8%
0.4%
22.5%
52.7%
97.1%
22.0%
80.0%
81.2%
48.1%
5.1%
74.8%
1.0%
48.7%
77.3% 100.0%
19.3%
20.0%
77.3%
46.5%
5.3%
63.1%
0.6%
47.8%
73.7% 100.0%
ティについては適合率は上がったのに対し、再現率は逆に下
がっている.スムージングの結果、誤った特定は減ったもの
の、今まで特定できていなかったモダリティを新たに特定す
ることができなかったという意味では、特定できない表現が
出てきてしまう 0 頻度問題の観点から見ると、問題は解消し
ていないといえる.
それに対し、派生的当為では適合率が下がり、再現率が上
がっている.こちらは今まで特定できなかったモダリティが
特定できるようになったという点で、0 頻度問題解消の効果
は表れているが、その代わりに誤って特定されてしまう表現
も多くなり、スムージングの弊害が出てきてしまっていると
考えられる.
4-3-1.述語・テンス・みとめ方モデルの概要
これまでは、状態としてモダリティのカテゴリーのみを採
用してきたが、モダリティの階層構造は述語から始まり、テ
ンスやみとめ方の表現も含むものである.これらのひょうげ
んを関係性を明確にするために、述語、テンスおよびみとめ
方を新たに状態として加える.
4-3-2.述語・テンス・みとめ方モデルの検証結果
検証結果を表 4-4 に示す.この結果を基本モデルと比較す
ると、価値表明、派生的当為ともに適合率が上がり、再現率
が下がっている.50%台の再現率では、実用レベルまで達し
ているとは考えにくく、何らかの改善措置が必要だと思われ
る.ここで学習データの適合率、再現率を見ると、全て 80%
以上とかなり高い値を示している.このことより、パラメー
タの過剰推定を完全に否定することは出来ないものの、学習
コーパスを膨大な量に増やし、0 頻度問題を完全に解消する
ことが出来れば、高い適合率、再現率を実現できる可能性が
あるといえるだろう.
表 4-4 述語・テンス・みとめ方モデルの検証結果
状態
学習level2
学習level2
評価level2
評価level2
学習level1
学習level1
評価level1
評価level1
適合率
再現率
適合率
再現率
適合率
再現率
適合率
再現率
全体
91.1%
81.8%
88.0%
22.4%
97.9%
95.2%
97.9%
40.1%
推定
97.8%
38.6%
93.6%
8.7%
97.7%
61.5%
100.0%
42.0%
伝聞 疑問
価値表明 派生的当為 説明
48.5%
82.1%
89.2%
91.3%
57.7%
23.6%
74.5%
54.9%
51.9%
7.8%
5.0%
94.6%
81.1%
77.3%
58.0%
0.4%
32.3%
14.5%
9.6%
3.0%
47.0%
80.5%
95.2%
84.4%
56.7%
46.6%
93.5%
89.1%
89.5%
10.1%
5.0%
96.0%
89.7%
71.0%
56.7%
2.0%
52.8%
53.4%
56.8%
6.0%
5.本研究のまとめ
5-1.結論
本研究では、
「モダリティの階層構造からモダリティを特定
することは確率有限オートマトンによって可能である」とい
う仮説を立て、HMM によって実際に解析済みの社説コーパ
ス 2000 文に対して検証を行った.その結果、価値判断モダ
リティに関しては永野らの結果以上の成果が得られ、仮説の
妥当性が示されたが、再現率が十分高い値を示さなかった原
因としては
・ 0 頻度問題による特定の失敗
・ 他のモダリティの特性精度が低いことによる影響
などが考えられる.
5-2.今後の課題
5-2-1.今後の作業方針
今後、仮説の更なる検証およびモデルの精度を上げていく
ために必要となることは
・ 大量の解析済みコーパスの作成
・ 文の概念レベル及びモダリティのカテゴリーに対する検
討および適切な状態の設定
・ 文法規則と確率の混合モデルの検討
が挙げられる.
5-2-2.モデルの実用化に向けた展望
本研究によって開発された社説におけるモダリティ特定は、
主に政治の分野における用途が考えられる.佐藤(2003)は、
単語の共起性にから新聞記事の集合をクラスターに分類し、
各クラスターの中心にある記事を選挙争点とすることで得ら
れた争点群に対して、まず候補者に態度を伺った上で、有権
者にも同様の争点群に対する態度を聞くことで、一定の基準
に従い有権者と候補者の距離を測り有権者に教える、争点投
票支援システムを提案している.
小橋(2003)における研究の目的のひとつには、このクラス
ターの中心にある記事に対して本研究のモデルを適用するこ
とで、価値判断のモダリティを含んだ文を抜き出し、争点を
命題単位まで絞り込むというものがあった.しかし、教えら
れた各候補者との距離から有権者が投票態度を決定する可能
性を考えると、争点領域や取り出される命題の傾向など、ほ
ぼ 100¥%の確率で「争点に対して一定の理解がある人によっ
て公平に選ばれた結果」と同様のものになることが求められ、
現時点では現実的でないだろう.
それに対し、純粋な文書の要約ツールとしては、より低い
精度でも実用的なものが実現可能であると考えられる.たと
えば、新聞記事に限らず、議会の答弁書、市民団体や政党の
パンフレットや WEB サイトなど、できるだけ幅広く言語デ
ータを収集し、1.キーワードによって争点領域を限定、2.限
定された領域における各主体の争点態度をモダリティ特定モ
デルによって抽出、という検索ツールを実現することは、一
般に自然言語処理の分野で実用化において必要とされる
90¥%程度の精度があれば十分可能ではないかと考えられる.
ただし、このようなツールを実現するには、社説に限らず
幅広い文書を分析対象とする必要がある.本研究は社説とい
う枠にとらわれることなく、一般的な意味でのモダリティの
定義を行っているが、実際の用例観察としては社説以外のも
のに関しては不十分であり、今後は社説以外の文書によるモ
ダリティ解析済みコーパスも作成していくことが求められる.
<主要参考文献>
Chistoph Neumann, 1998, Modality expressions in Japanese, 自然言語処理, 126, 2,
pp. 9-16
Norm Chomsky, 1957, Syntactic Structures, Mouton
Thomas Michael Gross, 1998, その依存文法的な分析, 文明, 21, 1
浅原正幸ほか, 2000, 統計的日本語形態素解析に対する拡張HMMモデル, 自然言語
処理, 137, 6 ,pp. 39-46
井上優, 2002, モダリティ, 方言文法調査ガイドブック, pp. 133-150
金山博ほか, 2000, 3つ組・4つ組モデルによる日本語係り受け解析, 言語処理学会第
6回年次大会発表論文集, pp. 487-490
児玉徳美, 1987, 依存文法の研究, 研究者出版
小橋洋平, 2003, 価値判断様相を利用した争点抽出のためのソフトウェア試作, 東
京工業大学社会工学科学士論文
永野圭一郎ほか, 2001, 談話文からの命題-様相の抽出システム, 言語処理学会第7回
年次大会発表論文集, pp. 38-41
北研二, 1999, 言語と計算4 確率的言語モデル, 東京大学出版
金明哲ほか, 2003, 言語と心理の統計, 岩波書店
益岡隆志, 2000, 日本語文法の諸相, くろしお出版
益岡隆志, 1997, 複文, くろしお出版
益岡隆志, 1991, モダリティの文法, くろしお出版
Fly UP