...

コリゲーションと形態統語情報 - 東京大学文学部・大学院人文社会系研究科

by user

on
Category: Documents
86

views

Report

Comments

Transcript

コリゲーションと形態統語情報 - 東京大学文学部・大学院人文社会系研究科
松村一登編 (2009)『電子化された言語資料と個別言語研究』, pp.37-54
コリゲーションと形態統語情報―類型論的観点から―†
千葉庄寿
麗澤大学外国語学部
[email protected]
本稿では,フィンランド語と日本語を主な分析対象として,類型論的観点か
らコロケーション抽出に必要な手順を検討するとともに,特に文法情報を含む
コロケーション (コリゲーション) について以下の点を指摘し,汎用的なコリゲ
ーション抽出ツールの要件を提案する。
•
•
コロケーションの分析における形態統語的情報の位置づけ:コロケーション
の単位は「語」であり,語形情報 (出現形,代表形) とともに,語に結びつ
いている形態統語的情報を共起関係の分析に含める必要がある。
有意味なコリゲーション認定の条件:形態統語的情報をコリゲーションの統
計的評価に導入する場合,語と語の単純な共起関係の評価に用いる統計的手
法をそのまま用いることができない。
1. コロケーションの理論的位置づけ
「コロケーション」(collocation) が含む射程は多様である (松野ほか 2004, 石
川 2006)。コロケーションは一般に連語関係,つまり語と語の組み合わせ関係を
表し,
「一般的な文法規則に則って共起する語と語の慣用的な結びつき,またそ
の語句のこと」を指す (『応用言語学辞典』p. 658)。「慣用的な結びつき」がし
ばしば「慣習的結合」(滝沢 2007:18)や「繰り返し現れる連鎖」(Kjellmer 1991:116),
「再帰性のある語の連続」(Hoey 2005: 2) といった表現で置き換えられることか
ら分かるように,コロケーションが指す現象の中心は,定型表現のもつ組み合
わせの固定性や慣用句性を必ずしももたない「ある語がそれと共起しうる数多
くの語のうち特定のものと共起する傾向」にある (村木 2007)。
一方,Hoey (2005) と Partington (1998) の以下のような特徴づけは,コロケー
ションのもう一つの側面を表している。
(1) “(collocation) is a psychological association between words (rather than lemmas)
up to four words apart and is evidenced by their occurrence together in corpora
more often than is explicable in terms of random distribution.”
37
「4 単語の範囲内に現れる統計的に検証可能な語と語の心理的な結びつ
き」(Hoey 2005: 5)
(2) “(collocation) is part of a native speaker’s communicative competence … to
know what are normal and what are unusual collocations in given circumstances”
「何が普通でなにが普通でないコロケーションであるかを状況ごとに知
っているというネイティブ・スピーカーの言語運用能力の一部」(Partington
1998: 16)
これらの議論はコロケーションが「コロケーションは心理的現象である」こと
とともにそれが「統計的に検出可能である」ことを示している。このことは,
コンピュータコーパスを利用した経験的な分析により,心理現象としてのコロ
ケーションを検出することができることを意味する。
滝沢 (2007) は文法パターンとコロケーションについて,コロケーションは母
語話者の意識にのぼらないものがある,と述べ,コーパスがコロケーションと
いう文法の一分野において,内省による文法分析の限界を超えるブレークスル
ーをもたらすことを説得的に述べている。
(3) 「コーパスの利用方法として,まず考えられるのは,コーパス中の各単語
に与えられている品詞タグを活用した語と語の慣習的結合 (コロケーショ
ン) の抽出である。[…]このような利用によりコーパスは,母語話者の意
識にのぼっていない言語の慣習的側面の記述に大きな力を発揮する。コー
パスの活用により,手作業による用例収集や内省の限界を超越することが
できるのである。」(滝沢 2007: 18)
本稿は,コロケーション分析がもつこのような理論的可能性を視野に入れな
がら,特に文法情報を含む共起関係 (= コリゲーション) の分析の枠組み作りへ
の貢献をめざすものである。
2. コロケーション分析ツール
コロケーションをコーパスから発見する手順を自動化するにはコロケーショ
ン抽出の単位と評価を設定することが必要である。英語を中心に発達してきた
多くのコロケーション分析ツールにおいては,以下の (4),(5) にみられるよう
に,「語」と「語」の共起をその近接性によって評価する:
(4) 調査対象となる語 (中心語 keyword, node) およびそれと共起する語につ
いて,中心語の左右数語程度の範囲 (スパン span) に出現した語を対象に
共起の有意性や結びつきの強さを統計的に評価する手法が用いられる。
38
(5) 共起語の頻度を抽出・表示する単純な分析ツールもあるが (e.g. Barlow
2003),語の単純な頻度だけではその単語の出現頻度の大小により共起頻度
が偏ってしまうため,頻度情報を補正するための統計的指標が提案されて
いる (Manning et al. 1999)。多くの指標では,コーパスの総語数を利用して
出現頻度から期待頻度を算出し,その差異を評価に用いる。
このような手法は英語以外にも適用可能であるとされ (Sinclair et al. 1997),日本
語においても深田 (2007) によって形態素を単位とした日本語コロケーション
分析ツールの実装がなされている。
3. コロケーションとコリゲーション
コロケーションを構成する要素の種類として,Kjellmer (1991:114) は以下のよ
うな分類をおこなっている。
(6) 2 つ以上の語彙的な語によるもの。文法的な語が付随することもある
(7) 1 つの語彙的な語と 1 つ以上の文法的な語によるもの
このうち,(7) にあたる現象を特にコリゲーション colligation と呼ぶ。Hunston
(2002)もコリゲーションについて「The collocation between a lexical word and a
grammatical one is frequently termed ‘colligation’」(Hunston 2002:12, n.1) と上記 (7)
に近い特徴づけをおこなっている。
コリゲーションの概念は Firth が提唱したものを Hoey らがより洗練させたも
ので (Hunston 2001; Hoey 2005) 【注1】,文法パターンの記述にコロケーション
が関わることで語彙論と文法論に垣根がないこと (Sinclair 1991),また文法的振
る舞いの分析にコーパスからの量的証拠が役立つことを示すものであるとされ
る (Hunston 2001:15, cf. Teubert 2007)。Hoey (2005:43) はコリゲーションを以下
の(8)~(10)のように定義する。
(8) the grammatical company a word or word sequence keeps (or avoids keeping)
either within its own group or at a higher rank
(9) the grammatical functions preferred or avoided by the group in which the word or
word sequences participates
(10) the place in a sequence that a word or word sequence prefers (or avoids)
これらの定義から,コリゲーションには語をとりまく文法環境だけでなく,
語そのものがもつ文法機能も関わることがわかる。語を単位としてコロケーシ
ョンを分析する場合,後者は純粋に語の形態論情報として現れる (cf. 松村 2001)。
39
Hoey (2005) は英語の動詞 ponder「熟考する」が受動文で現れる傾向を挙げて
いるほか,主語,目的語,前置詞句といった特定の統語的位置を出現環境とし
て好む名詞があることを論じている。
4. 類型的言語特徴とコリゲーション
前節でみたように,現在のコリゲーションの捉え方は,語と語の単純な共起
関係を発展させたものである。一見非常に明快に見えるこの概念は,日本語や
フィンランド語といった,一語に多数の文法素性が共存する形態論的に複雑な
言語には適用することが難しい。本節では,コロケーションのもつ「語」の概
念の問題点を明らかにするために,コロケーションの単位としての「語」が含
みもつ情報が言語類型論的に斉一でないという問題を考察する。
4.1 日本語の場合
まず,日本語の例文(11)について,分析例を (12) ~ (14) に示す【注2】:
(11) わたしたちはいったい、相手のどこを見ていればよいであろうか。
(CASTEL/J 2000, 井上忠司 (1982) 『まなざしの人間関係』)
(12) 形態素単位 (短単位) で分析する場合:19 要素 (句読点含む)
わたし|たち|は|いったい|、|相手|の|どこ|を|見|て|いれ|ば|よい|で|あろ|う|か|。
(13) 語単位 (≒長単位) で分析する場合:14 要素 (句読点含む) 【注3】
わたし-たち|は|いったい|、|相手|の|どこ|を|見-て=いれ|ば|よい|で=あろ-う|
か|。
(14) 文節単位で分析する場合:8 要素 (句読点含む)
わたしたちは|いったい|、|相手の|どこを|見ていれば|よいであろうか|。
このように,分析の単位によってコロケーションの分析単位は大きく異なる。
日本語の長単位以上の単位の自動解析ツールはまだ一般的でないため,日本語
のコロケーション分析では,殆どの場合,形態素区切り(「短単位」)によりコー
パスを解析し,形態素間の共起関係の評価を行っている(e.g. 深田 2007)。以下の
表1は形態素解析ツール (ChaSen 2.3.3, URL: http://chasen-legacy.sourceforge.
jp/) の出力例であり,形態素単位の解析をおこなう。
表1:ChaSen 2.3.3 による日本語形態素解析
1
2
3
文節
4
文節
語
わたし
たち
わたし
たち
名詞-代名詞-一般
名詞-接尾-一般
語
=は
は
助詞-係助詞
語
いったい
いったい
副詞-一般
40
5
6
7
文節
8
9
文節
10
11
12
13
、
、
記号-読点
語
相手
相手
名詞-一般
語
=の
の
助詞-連体化
語
どこ
どこ
名詞-代名詞-一般
語
=を
を
助詞-格助詞-一般
語
見
-て
=いれ
見る
て
いる
動詞-自立
助詞-接続助詞
動詞-非自立
語
=ば
ば
助詞-接続助詞
よい
よい
形容詞-非自立
形容詞・
アウオ段
=で
だ
=あろ
ある
【注4】
-う
う
助動詞
助動詞
特殊・ダ
五段・ラ
行アル
不変化型
=か
か
助詞-副助詞/並立
助詞/終助詞
。
。
記号-句点
語
文節
14
15
語
語
16
17
18
文節
語
語
19
助動詞
一段
一段
このような形態素区切りによるコロケーション分析は,類型論的にどの程度
妥当性を持っているのであろうか。
日本語は情報構造により語順が大きく変異する。文頭・文末といった節境界
を意識したスパンの指定,節や文全体を単位とする共起情報の取得により,不
連続の要素に関する共起関係を分析することにより,近接性を重視した従来の
コロケーションの枠組みでは見いだすことのできない共起情報を発見できる可
能性がある。
コロケーションの検索システムにおいては,通例,単語 (形態素) の境界は多
かれ少なかれ慣例や解析ツールの都合によって決定されており,分析の中で単
語境界自体を吟味することはない。ところが,日本語においてはしばしば「語
の単位は何か」という視点が重要になる (宮岡 2002)。このことは,日本語の分
かち書きのない書記体系のみが理由なのではない。形態論的に独立した語 (後倚
辞) としての位置付けをうける日本語の助詞や,日本語の複雑な用言のヴァリエ
ーションは日本語の形態統語的特徴の本質に関わる問題であり,コロケーショ
ン認定の基準となる単位自体も柔軟に指定できることが望ましい (cf. 山内
2008) が,このような機能は高機能なコーパス検索ソフトウエアである ChaKi
(松本ほか 2004) にも実装されていない。
このような柔軟な共起関係の吟味の仕組みは,日本語の (語と語の) 自然なコ
41
ロケーションを網羅的に抽出するだけでなく,さらに,当該の文法要素に関す
る言語学的評価,結合価のような依存関係に関する情報と組み合わせることに
より,コロケーションの一種である「連辞的結合」を的確に記述し,文法パタ
ーンの抽出と発見に豊かな成果をもたらす可能性がある(Teubert 2007)。
上で述べたような問題は,これまで英語や日本語のコロケーション分析にお
いては殆ど議論されてきていない (cf. 山内 2008)。このことは,コロケーショ
ンの分析がもっぱら形態素区切りによって解析されたコーパスによって行われ
ていることに大きな要因があると思われる。そこで,以下ではフィンランド語
を例にこの問題をさらに検討する。
4.2 フィンランド語の形態統語論
フィンランド語は膠着語的な性質をもち,1 つの単語に複数の接辞が接続する。
例えば,名詞類には 10 を超える格のほか数,格,所有接辞,各種小辞がこの順
番で接続し,その結果,現実に可能な屈折変化だけで 2,000 を超える語形が存在
することになる:【注5】
•
フィンランド語の名詞の活用パターン:語幹–数–格–所有語尾–小辞
(15) a. ohjelma 「プログラム」
【注6】
b. ohjelma-ssa (語幹-内格 INE) 「プログラムの中で」
c. ohjelm-i-ssa (語幹-複数 PL-内格 INE) 「複数のプログラムの中で」
d. ohjelm-i-ssa-mme-ko (語幹-複数 PL-内格 INE-所有語尾 PX3-疑問の小辞 Q)
「我々の複数のプログラムの中でか?」
派生接辞による語形成も多い (Vesikansa 1979)。Karlsson (1982: 262, 267) によ
れば,現代フィンランド語において語彙化していない派生接辞は 75,さらに生
産性に乏しい語彙化した接辞は少なくとも 66 観察される。
このような複雑な語形変化のシステムをもつ言語にあっては,そもそもコロ
ケーション分析の「単位」を何とするかが問題となる。その結果,英語のコロ
ケーション分析の多くが従っているような,出現形や代表形の共起関係といっ
た単純な調査では,フィンランド語の形態統語情報がもつコリゲーションのパ
ターンの全体像を効率よく得ることはできない。同様の問題は日本語のコロケ
ーションを検討する際にも起こるように思われる。
さらに,フィンランド語の語形成は強い膠着性をもっている:接尾辞は語に
密着して添加され,その順序ははっきり決まっており自由度は低い。英語の機
能語にあたる要素が屈折語尾として添加され,内容語と一語で表示される。
42
一方で,フィンランド語の接尾辞は屈折的な特徴も示す。接辞の添加の際,語幹
に密着し,しばしば語幹に音韻変化をもたらすことがある。上述の例文 (15c, 15d)
で複数を表す接尾辞 i の前で語幹の母音が落ちていることに注意されたい。このこ
とは,フィンランド語の接尾辞の語形成が統語的ではなく,純粋な形態論の体系の
中で説明されるべき要素であることを示している。
フィンランド語の例文(16)の分析例を表2に示す。形態統語解析は Connexor
FDG 3.7 (フィンランド語版,fi-fdg) 【注7】に基づく。
(16) Tommi Mäkinen käv-i
tutki-ma-ssa
murheellise-n
T
M.NOM
visit-IMP.3SG research-3INF-INE
sad-GEN
ojan=penka-n
muutama tunti
törmäykse-nsä
jälkeen.
ditch=edge-GEN
several
hour.NOM
crash.GEN-PX3
after
「T. マキネンは自身のクラッシュの数時間後,哀しみの道路脇を調べにやっ
てきた」(kielipankki, aamu1999) 【注8】
表2:FDG 3.7 によるフィンランド語形態統語解析
attr:>2 &A> N SG NOM
1 Tommi
T (男性名)
subj:>3 &NH N SG NOM
2 Mäkinen
M (姓)
3 käv
Käydä
main:>0 &+MV V ACT IND PAST
SG3
‘visit’
-i
4 tutki
tutkia
obj:>3
‘research’
-過去
&-MV V ACT INF3 SG
INE
-ma-ssa
-第 3 不定詞
-内格
5 murheellise-n murheellinen attr:>6 &A> A SG GEN
‘sad’
-属格
ojan#penkka
obj:>4
6 ojan=penka-n
&NH N SG GEN-属格
7 muutama
8
tunti
‘ditch=edge’
muutama
attr:>8 &A> PRON SG NOM
‘several’
tmp:>3
tunti ‘hour’
com:>3
9 törmäykse-nsä törmäys
‘crash’
10 jälkeen
jälkeen ‘after’ pm:>9
11 .
.
43
&NH N SG NOM
&NH N SG GEN POSS:3
-所有接尾辞
&PM PSP
フィンランド語のような複雑な語形に変化する形態音韻的な操作が行われる言
語には適切ではない。
従って,コロケーション分析において共起関係を分析する単位として形態素を選
び,形態素間の共起を調べることは不適切であると言わざるを得ない。
このような形態統語的特徴を念頭に置きながらフィンランド語のコロケーショ
ンやコリゲーションの分析を行う場合,どのような点に注意しなければならないで
あろうか。図1にみるように,出現形での分析は,主動詞の人称や時制,不定詞の
形や格形などが異なれば異なる分類が行われてしまう。かといって異なる語形を基
本形に戻した上でおこなうことで,本来共起関係のうえで注目すべき特徴が抜け落
ちてしまう可能性がある。形態統語的情報のいずれが共起関係を見る上で有効であ
るかは,代表形のもつ語彙的な情報のほか,その語がもつ形態統語素性一つ一つの
有効性をチェックできなくてはならないことになる。
käv-i
‘visited’
‘in researching’
KÄY-DÄ
TUTKI-A
‘to visit’
‘to research’
[動詞]
[定形]
[過去]
[3 人称単数]
[自動詞]
[動詞]
[非定形]
[内格形]
[他動詞]
出現形:
代表形:
形態統語
情報:
tutki-ma-ssa
図 1:主動詞と不定詞のコリゲーション
例えばこの例の場合には,
•
•
•
•
主動詞である語彙素 KÄYDÄ がどのような格をとる要素と共起傾向にあるか
どのような動詞の語彙素を非定形要素として取りうるか。共起しやすい動詞
は他動詞か,自動詞か。
非定形動詞である語彙素 TUTKIA がどのような主動詞と共起しやすいか。
主動詞である語彙素 KÄYDÄ がとりやすい人称,時制は何か
といった情報がコリゲーション分析から明らかにならなければならない。この
ような情報は,単純な語と語の分析としての機能では不十分であるのはいうま
でもない。さらに,フィンランド語のように語順が比較的自由な言語の場合,
44
•
共起要素はどの程度離れたところに現れうるか (またはどの程度ノードに
近い位置に集まる傾向にあるか)。統語的に定められた位置に現れやすい傾
向はないか。
といった情報も調査できることが望ましい。
最後に,形態統語的情報を厳密に指定するためには情報のもつ曖昧性を排除
する必要がある。例えば,同じ人称情報であっても,それが動詞の屈折変化が
もつ形態統語的素性であるのか,それとも所有語尾や人称代名詞のもつ情報な
のか,その出自を明確にしておく必要がある。コーパスにおいてこの種の形態
統語的な情報を曖昧でなく記述するためには,例えば Farrar et al. (2003)などが提
唱する言語学的オントロジーの階層構造を用いることで,形態統語情報を曖昧
でなく分類処理することが可能となる。
4.3
形態統語論における倚辞
最後に,日本語とフィンランド語において語形成上非常に異なると思われる
のが,付属語(倚辞)の文法的な位置づけである。
形態素の独立性は,連結の自由度や単独での出現可能性といった特徴から自
立語>付属語>付属形式という性質の異なる要素に分類される (服部 1960)。屈
折形態論の発達した言語では,機能語にあたる要素が屈折語尾または倚辞とし
て内容語に添加される。日本語の助詞は一般に付属語(後倚辞)として扱われ,形
態論的に独立した語としての位置づけを与えうる (宮岡 2002)。
一方,フィンランド語ではこれまで述べた屈折要素としての接尾辞は付属形
式に属するが,
「小辞」と呼ばれる後倚辞も存在する。小辞は文の情報構造と密
接に関係しており,具体的には例文 (17) ~ (19) のように文頭の最初の要素の
後に添加される。
(17) On-ko
ohjelma-ssa-ni
virhe?
be.3SG-Q program-INE-PX1SG mistake.NOM
「私のプログラムの中に間違いはあるか?」
(18) Ohjelma-ssa-ni-ko
on
virhe?
program-INE-PX1SG-Q be.3SG mistake.NOM
「間違いがあるのは私のプログラムの中にか?」
(19) Virhe-kö
ohjelma-ssa-ni
on?
mistake.NOM-Q program-INE-PX1SG be.3SG
「私のプログラムの中に間違いがある(という)のか?」
45
従って,フィンランド語の小辞は文の位置情報と関係して添加され,日本語の
後倚辞とは異なった出現傾向をもつ。
フィンランド語の小辞のような統語的な出現条件をもつ要素のコロケーショ
ン分析での扱いは,接尾辞のそれと異なることはもちろん,同じ「倚辞」とい
うカテゴリーに属していても,言語によって大きく異なってくるといえる。
日本語の助詞について宮岡 (2002)は「日本語の用言と体言は,形態法的装い
のいちじるしく異なった語となる。用言は生産的な派生接尾辞や義務的な屈折
接尾辞をともなって,かなり統合度がたかくなりうるが,体言は孤立語を思わ
せるほどに単純かつ独立的であり,[…] 日本語の体言の形態法的なつつましさ
は,まさに付属語としての後倚辞の豊かさによって補われている」と述べてい
る (宮岡 2002:80)。倚辞のもつ文法的な位置づけには,言語によって形態論上の
分析手順にはとどまらない違いや特徴があり,コロケーション分析にはそのよ
うな点に関する考慮が必要であろう。
5. コリゲーション認定の条件
「あるテキストにおいて共起している2ないしそれ以上の語」(Sinclair 1991:
170)の関係がどの程度有意味であるのか,有意味なコロケーションの発見の手順
はできる限り自動化することが望ましい。これまでコロケーションの自動認定
のための統計処理法について多くの提案がなされており (Manning et al. 1999),
判定の枠組みは文法機能の共起情報の分析にかかわるコリゲーション情報の抽
出にもある程度用いることができると考えられる。
コロケーション分析ツールの中には,共起語の頻度のみを抽出・表示するも
のも多い (Barlow 2003)。しかし,語の単純な出現頻度だけでは,その単語の出
現頻度の大小により共起頻度が偏ってしまうため,共起情報のより厳密な評価
に際しては,コーパスの総語数と実際の出現頻度から,期待頻度 (偶然出現した
場合の頻度) を算出して利用することが一般的である。期待頻度と実際の出現頻
度のずれを観察することで,特徴的な共起語をある程度見つけることができる。
(20) 期待頻度【注9】:
期待頻度 =
共起語の出現頻度
× 基準語の出現頻度
コーパスの総語数
期待頻度の算出には,このように,通常「基準語」と「共起語」の出現頻度
に加えコーパスの総語数を用いられる。しかし,期待頻度を用いる現在のコロ
ケーション認定の統計的手法は,一語に多数の文法素性が共存する形態論的に
46
複雑な言語について,特定の文法素性を柔軟に抽出とした場合の分析には適用
できない。これは以下の 2 つの理由による。
(21) コリゲーションが単なる語の共起関係ではないこと
• 特定の品詞のみについて共起関係を調査する,など調査の対象
となる単位は常に同じではない
• 「文頭」などの統語的な位置情報など,全ての出現環境を共起
情報に還元し,統計的に評価することはできない
(22) コリゲーションには任意の,または不特定多数の形態統語情報が複合的にか
かわること
• コーパスの総語数にあたる「総要素数」が調査対象により代わ
ったり,計測不能になる
• 調査の対象となる文法要素の範囲によって,一語に多数の文法
素性がかかわったり,分散して存在したりするため,コーパス
中から計測対象となる要素数を計算することが難しい
事前に各要素の出現頻度を計算することが難しいうえ,コーパスの総語数に
あたる要素数を計算することが不可能になるためである。
コーパスの総語数のような,数値の相対化をおこなうための要素を使った統
計処理が難しい場合,コロケーションの共起関係を評価するためにはどうすれ
ばよいのだろうか。本稿では,2 つの手法を提案する。まず,千葉 (2008) では,
(特定の形態統語的情報をもつ)基準語と共起語の頻度情報と,これらの共起頻度
のみで算出できる結びつきの強さの算出方法として,MI スコア (Barnbrook
1996: 98-100; cf. Hunston 2002: 70ff) から得られるランキング情報を利用するこ
とを提案した。
(23) MI スコア:
I = log
語Aと語Bの共起頻度 ×コーパスの総語数
2
語Aの頻度 × 語Bの頻度
MI スコアにおいてはコーパスの総語数は単純に積算されるだけなので,スコア
のランキング自体にはコーパスの総語数の情報は影響しない。
【注10】ただし,
MI スコアで高い値をとる共起語はコロケーションに制限のある頻度の低い語で
ある傾向がある (idem. p. 74),このことは複雑な形態統語情報を指定した検索の
際に障害となる可能性があり,共起語の頻度に一定の制限をつける(さらに共起
47
語の頻度を色分け表示する)などの工夫をすることが肝要と考えられる。
もう一つの解決法は,総単位数を必要としない統計的指標としてダイス係数
(Dice coefficient) を用いることである (石川 2006)。
(24) ダイス係数:
D = 2×
共起頻度
中心語頻度 + 共起語頻度
ダイス係数は共起頻度を中心語頻度と共起語頻度の和で割って2倍するもので,
特徴語の分析に効果を発揮すると考えられている。内山ほか (2004) は「ダイス
係数は人間が行なう選定との近似という観点から … 単独指標の中では [最も]
有効であった」と述べている。
6. コリゲーション分析の例
コロケーション,特にコリゲーションの分析においてこのような統計的指標
の利用は必須である。今後これらの指標を分析ツールに実装して有効性や適用
範囲などの評価を進めていきたい。
本節では,試験的な分析として,日本語教育支援システム研究会 (CASTEL/J)
による「CASTEL/J 2000 CD-ROM」に収録されている書籍データ (講談社ブルー
バックスなど約 290 万語,以下 BOOKDATA と略す) をサンプルコーパスとして
用い,前節で挙げた 2 つの指標 (ダイス係数,MI スコアのランキング情報) を
使ったコロケーション分析をおこなうことにする。
BOOKDATA に現れた動詞「加える」の総出現回数は 333 である。この動詞を
含む文中に共起した語の共起頻度と単独での出現頻度を求め,上記の基準で評
価し順位づけを行った結果,共起頻度 10 以上の共起語が 146 パターンみつかっ
た。以下に共起語のうち,ダイス係数の高い上位 15 位までを挙げる。
表3:動詞「加える」(変化系含む, ƒ=333)を含む文中に共起した語
順位
共起語
出現頻度
1 所得_名詞/一般
22
378
0.06188
966
2 酢酸_名詞/一般
10
82
0.04819
608
3 要因_名詞/一般
19
475
0.04703
1190
4 円_名詞/接尾/助数詞
22
754
0.04048
1459
5 億_名詞/数
14
414
0.03748
1331
6 手_名詞/一般
18
732
0.0338
1591
48
ダイス
MI 順位
共起頻度
7 導入_名詞/サ変接続
10
280
0.03263
1279
8 図_名詞/接尾/一般
25
1273
0.03113
1766
9 資産_名詞/一般
13
507
0.03095
1547
10 制度_名詞/一般
16
790
0.0285
1744
11 5_名詞/数
42
2642
0.02824
1954
12 率_名詞/接尾/一般
17
885
0.02791
1799
13 年度_名詞/接尾/助数詞
16
842
0.02723
1802
14 さらに_副詞/助詞類接続
23
1418
0.02627
1942
15 消費_名詞/サ変接続
13
714
0.02483
1836
なお,今回は書籍データのみを扱ったため,動詞「加える」の出現形には書
籍データの特徴と思われる偏りがみられ,過去形が最も多い (81,7%)。各語形の
集計結果を以下に示す。
表4:動詞「加える」の出現形の分類
中心語
頻度
加え (た,たら,たとして,られ)
加えよ (う)
272
1
加える (Ø, と, 「名詞」)
57
加えれ (ば)
3
333
合計
ダイス係数にいて上位にランクされる共起語と「加える」の過去形との共起率
は高く,30 位までの共起語で過去形との共起が上記比率以下の語は,「円」(名
詞/接尾/助数詞)「さらに」(副詞/助詞類接続)「万」(名詞/数, 44.4%)「水」(名詞/
一般, 54.5%)のみであった。これらは Hoey が ‘colligational nesting’ と呼ぶ「あ
る語彙が特定の文法機能をもつ場合に特定の要素と共起」する複合的なコリゲ
ーション関係をもつ可能性があり,ジャンル間の差異の分析と合わせ,今後さ
らに検討したいところである。
一方,今回の試行でさまざまな問題点も明らかになった。以下にコメントす
る:
•
助詞のような高頻度語はそのままでは共起関係の重要性を評価できない:他
の内容語を含めた頻度のばらつきがある要素と一緒に調査すると適切な評
価が得られない可能性がある。例えば助詞のみにする,「名詞」+「助詞」
の連鎖として評価など,調査対象を限定して共起情報を評価したほうがよい
49
と考えられる。
•
ダイス係数と MI スコアの評価がかなり異なる (cf. 内山ほか 2004, 石川
2006):特にスパンを広く取る場合,MI スコアの値は信頼性が極端に落ちた。
MI スコアは出現頻度の小さい要素に高い評価を与えるため,文中にある低
頻度語に敏感に作用してしまうようである。MI スコアのランキングがもつ
意味合いについてはさらに考察が必要だが,単独での出現頻度や,語彙レベ
ルによる対象の適切な絞り込みがある程度有効であると考えられる。
一方で,ダイス係数は比較的良好な値を示しているように思われる。しか
し,有意味なコロケーションかの判断基準として有効かどうかを含め,さら
なる検証が必要である。
7. コリゲーション分析ツールの構築にむけて
基準語が決まっている場合,まず検索対象を含む用例をコーパスから取得し
た後,表示したい共起情報を選ぶことになる。この場合,特に類型論的な妥当
性を意識した柔軟なコリゲーション情報を検証するための共起情報として,以
下のような内容を指定することを提案する。
(25) a. 出現形:イディオム的共起パターン抽出
b. 代表形:いわゆるコロケーションパターンの抽出
c. 形態統語的素性:形態統語情報に基づくコリゲーションパターンの抽出
多くのコロケーション分析ツールは (12a, 12b) に対応している。(12b) はいわゆ
るコロケーションにあたる意味をもつ語同士の結びつきを検証することはもち
ろん,英語や日本語の助詞のような機能語によって形成される構造 (valency,
Teubert 2007, cf. ‘collocational framework’, Renouf et al. 1991:128-129) を含むコリ
ゲーションパターンの抽出を行うことも可能である。しかし,本発表で提案す
る,類型論的に妥当性のある語を単位とするコロケーション分析においては,
さらに(25c)の分析ができることが望ましい。
インターフェースとしては,以下のようなものが想定される:Bank of English
の検索システムのピクチャ画面に準じ,検索結果を共起語としてランキングの
高いものから順に表示をおこない,さらに共起語の形態統語情報を選択して用
例の絞り込みをおこなうことでスパン内の統計情報を動的に更新し,MI スコア
のランキング表示を行う。
複数の単位のまとめあげや,文・節といった可変長のスパンの設定による統
計処理の難しさは,統語構造や意味構造,談話構造といった異なるレベルの情
報が混在するコーパスの共起関係の評価にも同じように関わってくる。今後の
50
システム構築における課題となろう。
コリゲーションの抽出システムでは,共起関係の統計的評価にコーパスの総
語数によらない算定方法 (ダイス係数,および MI スコアを援用したランキング)
を利用する。各算定結果の解釈には一定の注意が必要であり (Clear 1993,
Barnbrook 1996, Hunston 2002, 石川 2006; cf. 内山ほか 2004),他の基準との比較
が重要となる。特に,低頻度の共起語が高くランクづけされてしまう MI スコア
の性質に過度に影響されないためには,実装済みの共起語の出現頻度による絞
り込みと色分け表示のほか,共起語の語彙レベル (日本語の場合には「教育基本
語彙」や「日本語能力試験出題基準」等の利用が考えられる。cf. 田中ほか 2008;
山内編 2008) による語彙の重要度情報が有効と考えられる。
謝辞と注
†
本稿は以下の口頭発表の内容をまとめたものである。発表時にコメントを頂い
た方々に感謝いたします。
千葉庄寿「形態論情報を考慮したコロケーション分析の枠組みに関する考
察」(2007 年 11 月 10 日,特定領域研究「日本語コーパス」辞書編集班拡大班会
議,於ホテルスワ(つくば市))
千葉庄寿「コリゲーションの抽出における形態統語情報の役割」(2008 年 3
月 20 日,言語処理学会第 12 回年次大会,於東京大学駒場キャンパス)
千葉庄寿「日本語コーパスからの共起情報の抽出のための柔軟な検索環境
の構築」(2008 年 7 月 6 日,特定領域研究「日本語コーパス」日本語教育班研究
連絡会議,於早稲田大学)
千葉庄寿「日本語コーパスからのコロケーション情報の抽出―言語特徴を
考慮した枠組みに基づくシステムの設計―」(2008 年 7 月 13 日,第 7 回日本語
教育国際研究大会 (日本語教育学世界大会),於釜山外国語大学校 (韓国))
【1】機能語を含むコロケーションを扱う研究でも,文献によってこの術語が
用いられないことがある (Hoey 2005:43)。
【2】「-」は付属形式を,「=」は付属語 (後倚辞) を表す。
【3】宮岡(2002: 93)によれば,
「ている」は「-テ=イル」と分析され,接尾辞と
補助動詞の複合化した「接尾辞的複合体」とされる。特定領域研究「日本
語コーパス」の『文節認定規程・長単位認定規程(案)
』では「テイル」は
「助動詞/連語」として長単位として認定されており,上記の分析とは一致
しない。
【4】宮岡(2002: 75)によれば,
「である」は(「=ニ=テ=アル」>)「=デ=アル」と
51
分析され,後倚辞的複合体とされる (「=ダ」は後倚辞的複合体がさらに融
合したもの)。
【5】フィンランドの言語学者 Fred Karlsson によるフィンランド語の名詞
kauppa「店」の全変化形リスト (合計 2,253 パターン) を参照されたい。URL:
http://www.ling.helsinki.fi/~fkarlsso/genkau2.html
【6】フィンランド語のグロスは形態素をハイフン (-) で区切って表示する。
マーカーの顕在しない語形のもつ情報や,文法情報を複数含むいわゆる鞄
型形態素のグロスは,ピリオド (.) に続けて表記する。複合語や派生接辞等
の形態分析は差し障りのない限りにおいて省略し,動詞の現在形のグロス
は省略している。グロスに用いる略号は以下の通り:
1,2,3=人称; 1INF=第1 不定詞; 3INF=第3 不定詞; ADE=接格; ALL=向格;
APT=行為者分詞; GEN=属格; ILL=入格; IMP=未完了過去; INE=内格; NOM=
主格; PAR=分格; PASS=受動; PL=複数; PX=所有接尾辞(+人称,(数)); Q=疑
問の小辞; REL=関係代名詞; SG=単数; VNEG=否定動詞
なお,本文中,ことわりがない限り動詞は第1不定詞 (1INF),名詞は主格
(NOM) の形で挙げる。
【7】Connexor 社によるフィンランド語,英語をはじめとする形態・統語・意味
解析器のオンラインデモサイト URL:
http://www.connexor.eu/technology/machinese/demo/syntax/
【8】データは Kielipankki による。Kielipankki はフィンランドの教育省管轄の学
術情報技術センターCSC (The Finnish IT Center for Science) が運営するフィン
ラ ン ド 語 を 中 心 と し た コ ー パ ス サ ー ビ ス で あ る 。 URL:
http://www.csc.fi/tutkimus/alat/kielitiede
【9】単なる単語と単語の共起でなく,複数の語からなるスパンを想定する場合に
は,基準となる語の出現頻度にスパン分の語数をかける。
【10】アイディアの端緒は奈良先端科学技術大学院大学の松本裕治先生とのディ
スカッションで得られた。ここに記して感謝いたします。
参照文献
Barnbrook, Geoff (1996) Language and Computers: a Practical Introduction to the
Computer Analysis of Language. Edinburgh: Edinburgh University Press.
Barlow, Michael (2003) Concordancing and Corpus Analysis Using
M(onoConc)P(ro) 2.2. Houston: Athelstan.
千葉庄寿 (2008)「コリゲーションの抽出における形態統語情報の役割」
『言
語処理学会第 12 回年次大会発表論文集』言語処理学会, pp. 861-864.
Clear, Jeremy (1993) “From Firth principles: computational tools for the study of
52
collocation,” in Baker, Mona, Gill Francis & Elena Tognini-Bonelli (eds.) Text and
Technology: in Honour of John Sinclair. Amsterdam: John Benjamins, pp. 271-292.
Farrar, Scott & Terry Langendoen (2003) “A linguistic ontology for the semantic
web,” Glot International 7: 97-100.
服部四郎 (1960) 「附属語と附属形式」
『言語学の方法』岩波書店, pp. 461-491.
深田淳 (2007) 「日本語用例・コロケーション抽出システム『茶漉』」
『日本
語科学』22: 161-172.
Hoey, Michael (2005) Lexical Priming: A New Theory of Words and Language.
London: Routledge.
Hunston, Susan (2002) Corpora in Applied Linguistics. Cambridge: Cambridge
University Press.
Hunston, Susan (2001) “Colligation, lexis, pattern, and text,” in Scott, Mike &
Geoff Thompson (eds.) Patterns of Text: In Honour of Michael Hoey. Amsterdam: John
Benjamins, pp. 13-33.
石川慎一郎 (2006)「言語コーパスからのコロケーション検出の手法:基礎
的統計値について」『統計数理研究所共同研究レポート』190: 1-14.
石川慎一郎 (2008)「コロケーションの強度をどう測るか:ダイス係数,t ス
コア,相互情報量を中心として」言語処理学会第 14 回年次大会チュートリアル
資料, pp. 41-50.
Karlsson, Fred (1982) Suomen kielen äänne- ja muotorakenne. Porvoo: Werner
SöderStröm Osakeyhtiö.
Kjellmer, Göran (1991) “A mint of phrases,” in Aijmer, Karin & Bengt Altenberg
(eds.) English Corpus Linguistics. London: Longman, pp. 128-143.
Manning, Christopher D & Hinrich Schütze (1999) Foundations of Statistical
Natural Language Processing. Cambridge, MA: MIT Press.
松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生 (2006)「タ
グ付きコーパス管理/検索ツール『茶器』」『言語処理学会第 12 回年次大会発表
論文集』言語処理学会, pp. 460-463.
松村一登 (2001) 「フィンランド語の名詞の意味と場所格の使用頻度の関係
について―コーパスのデータに基づく研究―」『梅田博之教授古希記念 韓日語
文学論叢』ソウル: 太学社, pp. 1161-1206.
松野和子, 杉浦正利 (2004)「コロケーションの定義:コロケーションの概念
と判定基準に関する考察」科学研究費補助金基盤研究(C)(2)『はぜ英語母語話者
は英語学習者が話すのを聞いてすぐに母語話者ではないとわかるのか』研究成
果報告書, pp. 79-96.
宮岡伯人 (2002) 『「語」とはなにか:エスキモー語から日本語をみる』三
省堂.
53
村木新次郎 (2007) 「コロケーションとは何か」
『日本語学』2007 年 10 月号.
Pp. 4-17.
Renouf, Antoinette & John M. Sinclair (1991) “Collocational frameworks in
English,” in Aijmer, Karin & Bengt Altenberg (eds.) English Corpus Linguistics.
London: Longman, pp. 128-143.
Siepmann, Dirk (2005a) “Collocation, colligation and encoding dictionaries. Part I:
Lexicological aspects,” International Journal of Lexicography 18: 409-443.
Siepmann, Dirk (2005b) “Collocation, colligation and encoding dictionaries. Part
II: Lexicographical aspects,” International Journal of Lexicography 19: 1-39.
Sinclair, John M. (1991) Corpus, Concordance, Collocation. Oxford: Oxford
University Press.
Sinclair, John, Oliver Mason, Jackie Ball1 & Geoff Barnbrook (1997) “Language
independent statistical software for corpus exploration,” Language Resources and
Evaluation. 31: 229-255.
滝沢直宏 (2007). 「コーパスを用いた英語研究の方法」
『日本言語学会第 134
回大会予稿集』Pp. 18-23.
田中牧郎, 近藤明日子, 平山允子 (2008)「均衡コーパスに基づく語彙のレベ
ル分け」
『特定領域「日本語コーパス」平成 19 年度公開ワークショップ予稿集』
pp. 27-32.
Teubert, Wolfgang (2007). “Sinclair, pattern grammar and the question of hatred,”
International Journal of Corpus Linguistics 12: 223-248.
内山将夫, 中條清美, 山本英子, 井佐原均 (2004)「英語教育のための分野特
徴単語の選定尺度の比較」『自然言語処理』11/3: 165-197.
Vesikansa, Jouko (1979) Johdokset. Porvoo: Werner Söderström Osakeyhtiö.
山内博之 (2008)「形態素解析に関する提案:日本語教育の視点から」
『代表
性を有する書き言葉コーパスを利用した日本語教育研究』特定領域「日本語コ
ーパス」平成 19 年度研究成果報告書 (JC-E-07-01), pp. 84-93.
山内博之編 (2008)『日本語教育スタンダード私案 語彙』ひつじ書房.
54
Fly UP