...

語の平均使用度数に現れるテキストの特徴 Textual

by user

on
Category: Documents
3

views

Report

Comments

Transcript

語の平均使用度数に現れるテキストの特徴 Textual
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
語の平均使用度数に現れるテキストの特徴
山崎 誠(データ班班長:国立国語研究所 言語資源研究系)†
Textual Characteristics as Seen in Mean Word Frequency
Makoto Yamazaki (National Institute for Japanese Language and Linguistics)
1.はじめに
本発表では、従来語彙の計量的指標としてとらえられてきた異なり語数の延べ語数に対
する比、すなわちテキストにおける 1 語当たりの平均使用度数からそのテキストの持つ特
徴(特に文章論的な観点から見た特徴)をとらえようとする試みである。
2.延べ語数と異なり語数
語彙の計量的研究の基礎的な概念として延べ語数と異なり語数がある。これらは 1950 年
代後半から日本での計量語彙論の発達の過程で成立した概念で、国立国語研究所報告
(1958:94-96)で理論的な整備がなされ、水谷(1983:6-16)で完成を見たものである。同時に、
計量語彙論の基本的なテーマとして延べ語数と異なり語数の関係、特に、異なり語数(語
彙量)の推定問題が議論された。また、両者の関係では、延べ語数(n)の異なり語数(k)に対
する比、すなわち、n/k の値あるいはその逆数がいわゆる「語彙の豊かさ」を示す指標とし
て提案されている(水谷 1983:45)。近年では英語コーパス言語学の影響もあり、この逆数
のほうが TTR(type/token ratio)として知られつつある1(石川 2008)。
3.使用するデータ
本発表で使用するデータは、国語研究所が 2006 年度から 5 年計画で構築している『現代
日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese、以下
BCCWJ と略す)の一部である。BCCWJ は異なる母集団から抽出されるサブコーパス(SC)
の集合体であるが、本発表で使用するデータは以下のとおりである。以降特に紛らわしく
ない限り、サブコーパス名を冠さない。また、必要に応じて[ ]内の略称を用いる。
・生産実態(出版)SC の書籍[PB]
・流通実態(図書館)SC の書籍[LB]
:8485 サンプル
:10,073 サンプル
・生産実態(出版)SC の雑誌[PM]
:884 サンプル
・生産実態(出版)SC の新聞[PN]
:833 サンプル
・非母集団(特定目的)SC の白書[OW] :1,500 サンプル
本発表で使用するデータは、1 サンプルが 1,000 字に統一された固定長のサンプルである。
この 1,000 字には句読点・空白は含まない。1 サンプルが 1,000 字で固定しているため、サ
†
1
[email protected]
Baayen(2001)では、TTR よりも mean word frequency(本稿で言う n/k 値)の方を語彙の豊かさの指標として
適切と指摘している。
5
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
ンプル同士の比較のための処理は行う必要がない。ただし、単語の途中から始まり、単語
の途中で終わる可能性があるため、延べ語数で 2~4 語程度の誤差を生じる可能性がある2。
3.1
データの概要
データの量的な概要として各サンプルの延べ語数及び異なり語数の分布を表 1、表 2 に示
す。平均値を比べると。延べ語数では、書籍(PB・LB)と新聞とがほぼ同じ、雑誌がやや低
く、白書がやや高くなっている。異なり語数では、書籍(PB・LB)がほぼ同じであるが、雑
誌はそれよりやや高く、新聞がさらに高い値を示す。一方、白書はいちばん低い値となっ
ている。
表1
データの概要・延べ語数
最小値
第 1 四分位
中央値
平均値
第 3 四分位
最大値
書籍(生産実態)
393
582
606
603.4
628
789
書籍(流通実態)
352
585
606
605.0
627
828
雑誌
396
549
585
577.1
611
757
新聞
489
590
610
608.9
628
725
白書
462
611
630
638.8
659
836
表2
データの概要・異なり語数
最小値
第 1 四分位
中央値
平均値
第 3 四分位
最大値
書籍(生産実態)
83
212
234
233.3
235
379
書籍(流通実態)
56
221
241
240.4
260
383
雑誌
143
233
254
252.9
274
336
新聞
195
261
275
275.3
289
343
白書
77
199
217
215.4
234
302
4.
n/k データの値の分布
図 1~図 5 に使用した各データの n/k 値の分布状況を示す。
図1
2
書籍(生産実態)の n/k 値の分布
図2
書籍(流通実態)の n/k 値の分布
本発表で計測に用いた語は「短単位」である。この単位は 1 単位当たり平均 1.7 字という経験値があるた
め、サンプルの先頭あるいは末尾でランダムに文字列が分断された場合、約 1/2 の確率で本来の単位境界
と一致せず、誤解析となるがその与える影響は無視できると考える。
6
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
図 3 雑誌の n/k 値の分布
図5
図4
新聞の n/k 値の分布
白書の n/k 値の分布
図 1~5 から、書籍(PB・LB)サンプルの n/k 値はほとんどがほぼ 2~3 の間に収まってい
るのに対して、雑誌、新聞は 2~2.5 に集中している。また、白書は 2.5~3.5 に集中し、こ
れらの中ではいちばん分布が大きい方に偏っている。単純な分布だけからも書籍、雑誌・
新聞、白書という 3 つの媒体が異なる様相を示すことが分かる。これらの原因を作ってい
るのは何か。n/k 値の多寡がどのような原因で起きるのかをテキストの持つ特徴と関連づけ
て考えてみたい。
4.1
n/k 値の高いサンプル
今回調査した中でいちばん n/k 値が高かったのは、LBf8_00005(『標準広東語同音字表』、
千島英一編著、東方書店刊)の 14.79 であった。サンプルとして採られた個所は、広東語と
日本漢字音との音韻の対応を箇条書きで説明した部分で、対応を示す簡単な説明文3のあと
に「e→ik」などの個別的な音韻対応例が続くというもので、説明文が 13 回、対応例が
35 回登場する。2 番目に n/k 値が高かったのは PB56_00061(『朝日自動車』、BJ エディター
ズ発行;星雲社発売)の 8.99 であった。このサンプルの該当個所は、
「朝日3037(日野
KK‐RX4JFEA)
(67)
」などのバスの型式が 53 回続くというものである。上
記 2 つのサンプルは通常の文章というよりも一覧表ないしはリストのようなものである。
3
例えば、「普通話の○○は,広東語では××になる。この場合,広東語の××は日本漢字音では△△にな
ることが多い。」のような文。
7
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
LBf8_00005 には、文といえるものがあるが、PB56_00061 は完全に名詞(数字を含む)及び
記号の羅列で、動詞が現れない。PB56_00061 は、今回調査した中では、唯一動詞が 1 回も
現れなかったサンプルである。表 2-1~2-5 に書籍(PB・LB)、雑誌、新聞、白書で n/k 値の
高いサンプルを挙げた。それぞれのジャンルにより n/k 値の分布が異なるため、書籍は n/k
値 5 以上、雑誌は 4 以上、新聞は 3 以上、白書は 6 以上を挙げた。
表 2-1
n/k 値の高いサンプルと文章のタイプ(書籍(PB)
n/k 値 サンプル ID
NDC
8.99PB56_00061
6 産業
8.20PB33_00446
3 社会科学
6.11PB15_00290
5 技術・工学
6.02PB43_00651
3 社会科学
5.99PB25_00183
5 技術・工学
5.84PB22_00186
2 歴史
5.77PB43_00281
3 社会科学
5.73PB53_00080
3 社会科学
5.64PB5n_00108
分類なし
5.53PB13_00155
3 社会科学
出典名
著編者
出版者
文章の特徴
BJ エディターズ;星
朝日自動車
雲社(発売)
書式会社更生の実務 申立てから終結ま 東京地裁会社更生
での理論と書式
実務研究会
ガス事業関係法令研修テキスト 平成 13
年版
国際課税の基礎知識
ル
大阪河内の近代 東大阪・松原・富田林
の変貌
浅海智晴
大谷渡
規約・条文
税務経理協会
居住用財産譲渡・買換えの税務 特例の
上手な活用法 平成 17 年版
5 日で学ぶ Jw_cad 4 手塚貴晴+手塚由
比の「屋根の家」を描く
規約・条文
ピアソン・エデュケ
ーション
東方出版
厚生労働省安全衛 中央労働災害防
新/衛生管理 第 1 種用 下
規約・条文
日本ガス協会
川田剛
XML SmartDoc 公式リファレンスマニュア
民事法研究会
リスト
リスト
数量記述
規約・条文
生部労働衛生課
止協会
菅原恒夫
大蔵財務協会
規約・条文
Obra Club
エクスナレッジ
操作マニュアル
沖縄県総務部総
情報公開事務の手引
務私学課行政情 規約・条文
報センター
お役所手続がズバリわかる本 Q&A 税務
5.50PB13_00400
3 社会科学
署・社会保険事務所・公共職業安定所な
どへの届出ガイド
木全美千男,近藤
洋一
「教育アンケート調
中央経済社
規約・条文
創育社
数量記述
5.27PB53_00462
3 社会科学
教育アンケート調査年鑑 2005 年版 上
5.22PB31_00131
1 哲学
ヘーゲルを読む
高山守
5.13PB13_00063
3 社会科学
国際租税法
本庄資
大蔵財務協会
規約・条文
5.10PB54_00138
4 自然科学
広畑育生
工学社
操作マニュアル
5.02PB54_00220
4 自然科学
森北出版
定理と証明
表 2-2
カルキング J 入門 計算できる数式エディ
タ
査年鑑」編集委員会
上野修一,高橋篤
情報とアルゴリズム
司
放送大学教育振
興会
古典の解釈
n/k 値の高いサンプルと文章のタイプ(書籍(LB))
n/k 値 サンプル ID
14.79 LBf8_00005
NDC
8 言語
出典名
著編者
標準広東語同音字表
ことわざに表れた性差別 男と女のことわ
5.41 LBj3_00103
3 社会科学
5.31 LBs3_00186
3 社会科学 行政法がわかった
ざ事典
出版者
東方書店
箇条書き・リスト
渡辺友左
南雲堂
数量記述
長野秀幸,川崎政司 法学書院
はじめての Excel 2000 クイックマスター
高作義明,遠藤陽
応用編
子,半田直子
5.09 LBn0_00002
0 総記
5.01 LBe5_00027
5 技術・工学イラストで学ぶでんき電気でんき
8
文章の特徴
千島英一
若山芳三郎
新星出版社
東京電機大学出
版局
規約・条文
操作マニュアル
操作マニュアル
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
表 2-3
n/k 値の高いサンプルと文章のタイプ(雑誌)
n/k 値サンプル ID
4.35PM52_00012
表 2-4
出典名
芸術新潮
著編者
2005 年 9 月号(第 56
出版者
新潮社
巻第 9 号、通巻 669 号)
文章の特徴
リスト・数量記述
n/k 値の高いサンプルと文章のタイプ(新聞)
n/k 値サンプル ID
出典名
著編者
出版者
文章の特徴
3.16PN1e_00006 北海道新聞 朝刊 2001/11/3
北海道新聞社
数量記述
3.15PN3f_00006
中日新聞社
ですます体
朝日新聞
ですます体
中日新聞 朝刊 2003/7/27
3.11PN2a_00025 朝日新聞 夕刊 2002/5/8
表 2-5
n/k 値の高いサンプルと文章のタイプ(白書)
n/k 値 サンプル ID
出典名
著編者
出版者
文章の特徴
9.68OW2X_00221 地方財政白書 昭和 59 年版
自治省
大蔵省印刷局
定型反復・数量記述
7.86OW3X_00192 青少年白書 平成元年版
総務庁青少年対策本部 大蔵省印刷局
定型反復・数量記述
6.83OW1X_00631 地方財政白書 昭和 54 年版
自治省
定型反復・数量記述
大蔵省印刷局
6.50OW4X_00146 青少年白書 平成 4 年版
総務庁青少年対策本部 大蔵省印刷局
数量記述
6.30OW4X_00245 通信白書 平成 5 年版
郵政省
大蔵省印刷局
数量記述
6.12OW4X_00169 通商白書 平成 3 年版(各論) 通商産業省
大蔵省印刷局
数量記述
6.00OW5X_00000 公害紛争処理白書 平成 8 年版 公害等調整委員会
大蔵省印刷局
定型反復・数量記述
表 2 の「文章の特徴」は本発表で仮に名付けたものであり、必ずしも排他的なカテゴリ
ーになっていないが、書籍の n/k 値の高いサンプルでは、「規約・条文」
「操作マニュアル」
と名付けたタイプが特徴的である。
「規約・条文」の代表的な例を以下に挙げる。
第15条
法第248条第1項の保全処分の登記の嘱託書には、同項各号に規定する保全処分の謄本を添付しな
ければならない。
2
法第248条第2項において準用する同条第1項の規定による登記の嘱託書には、同項に規定する保全処分
を変更し、若しくは取り消す旨の決定の決定書の謄本又は当該保全処分が効力を失ったことを証する書面を添付し
なければならない。
3
法第248条第3項の登記の抹消の嘱託書には、更生手続の開始の決定の決定書の謄本を添付しなければな
らない。
4
法第248条第4項の登記の回復の嘱託書には、更生手続の開始の決定を取り消す決定の決定書の謄本を添
付しなければならない。
5
法第248条第5項において準用する同条第3項の登記の抹消の嘱託書には、認可決定書謄本を添付しなけ
ればならない。
6
法第248条第5項において準用する同条第4項の登記の回復の嘱託書には、更生計画の認可の決定を取り
消す決定の決定書の謄本を添付しなければならない。
(PB33_00446(『書式会社更生の実務
申立てから終結までの理論と書式』、東京地裁会社
更生実務研究会編、民事法研究会刊)より引用)
「規約・条文」の特徴は、厳密さが優先されるため省略を避け、冗長をいとわないとい
うことであろう。
「操作マニュアル」は、パソコンの操作を解説するものと電気工作に関するものが n/k 値
が高いものに入っている。文章の機能としてはほぼ同じと思われる料理のレシピのは n/k 値
9
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
の高い方には入っていない4。
書籍に 3 例見られる「数量記述」は、以下のような例を指す。表やグラフについて分布
や動向などの数量的な記述を行っている場合である。回答の割合を記述するアンケート結
果の解説なども同じタイプとした。このような記述における同一語句の繰り返しや数詞の
使用度数が高いことが n/k 値を引き上げている。
表26、表27、表28は、三宅・恵我・天美の各小学校の一九二七年、二八年または一九三四年、三五年にお
ける尋常科六年と高等科一、二年の児童数を男女別に示したものである。高等科一年生は、前年には尋常科六年生
だったから、高等科一年の児童数とその前の年の尋常科六年の児童数を比べると、前年に尋常科六年だった児童の
うち何人が、義務制の尋常科を卒業したのち高等科に進んだかがわかる。一九二七年の三宅小学校の尋常科六年生
は、男二六人、女一九人であった。このうち高等科に進んだのは、男一六人、女九人である。一九二七年の恵我村
の尋常科六年生の男三〇人、女三二人のうち、高等科に進んだのは男二三人、女一一人であった。同校の一九二七
年の高等科一年の児童数は、男一一人、女一三人で女のほうが多いが、前年の一九二六年(大正一五)の尋常科六
年生は男が二一人、女が三四人であったから、高等科への進学率は男のほうがはるかに高かった。一九三四年の尋
常科六年生は男三三人、女三二人で、翌一九三五年の高等科一年生は男二三人、女一三人であった。天美小学校で
は、一九三四年の尋常科六年生の男四〇人のうち高等科に進んだのは三二人であったが、女は四五人のうち一五人
しか高等科に進まなかった。いずれの小学校においても、女性の高等科への進学率が、男性に比べて著しく低かっ
たことがわかる。
(PB22_00186(『大阪河内の近代
東大阪・松原・富田林の変貌』、大谷渡、東方出版)よ
り引用)
白書では、「定型反復・数量記述」と名付けたタイプが多い。これは、数量記述が一定の
型にはまった文で繰り返されるものである。代表的な例を以下に挙げる。
(b)市場事業
法適用企業では、純利益を生じた事業は7事業で、その額は7億円、純損失を生じた事業は6事業で、その額は
27億円となっており、総収支比率は92.0%となっている。一方、経常利益を生じた事業は7事業で、その額
は6億円、経常損失を生じた事業は6事業で、その額は27億円となっており、経常収支比率は91.5%となっ
ている。法非適用企業では、実質収支で148事業が16億円の黒字を、19事業が35億円の赤字を生じ、差引
18億円の赤字となっている。
(c)と畜場事業
法適用企業では、純利益を生じた事業は3事業で、その額は17百万円となっており、純損失を生じた事業はな
い。総収支比率は104.1%となっている。一方、経常利益を生じた事業も3事業で、その額は17百万円とな
っており、経常損失を生じた事業はない。経常収支比率は104.1%となっている。法非適用企業では、実質収
支で219事業が11億円の黒字を、38事業が21億円の赤字を生じ、差引10億円の赤字となっている。
(OW2X_00221(『地方財政白書
昭和 59 年版』、自治省、大蔵省印刷局発行)より引用)
上記に引用した 2 つの段落は数字の部分を除いてほとんど同じ表現の繰り返しになってい
る。このような段落がさらに 3 つ続いているため、全体での n/k 値が高くなったものであ
る。白書に特徴的なのは、このような定型表現の繰り返しと数量記述とがともに使われる
場合が多いことである。
4
料理のレシピを記述したサンプルで n/k 値が最高だったのは、PB35_00224(『手軽においしく豆腐料理
124』、藤田裕子監修、ナツメ社)の 4.21 であった。その次は 3.23、3.13 と値が下がる。
10
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
4.2
n/k 値の低いサンプル
表 3-1~3-4 に n/k 値の低いサンプルを挙げた。それぞれのジャンルにより n/k 値の分布が
異なるため、書籍は(PB)は、1.6 未満、書籍(LB)及び雑誌は 1.7 未満、新聞は 1.8 未満、白書
は 2.1 未満である。調査したデータの中で n/k 値のもっとも低かったのは、PB17_00159(『淡
路人形浄瑠璃
伝統芸能
国宝重要文化財等保存事業』、三原町教育委員会)である。該当
箇所は、用語集の部分が当たっており、「サコノシロ―豆腐」などの業界用語とその対訳と
のリストになっている。PB18_00010 及び LBj8_00006 も同様に語彙リストのサンプルであ
る。また、PB2n_00001 は日本を紹介する図録のようなサンプル、LBe2_00037 と LBo2_00009
は過去の記録をリストの形で示すサンプルである。これらに共通する特徴は情報を集約し
て示す機能であると推測される。例えば、見出しとそれに従属する短い記述のセットが一
定の基準で配列されているような場合である。配列は読み順に相当するが、必ずその順で
並べなくてもよいようなものである。このような文章における見出しは検索機能に対応し
ているため、必然的に同一の見出しはなく、異なり語数を増やし n/k 値を低くしていると考
えられる。雑誌と新聞に目立つのは、複数の記事が混在しているサンプルで異なる話題が
ひとつのサンプルに採録されたことで、ここの記事自体は n/k 値が低くなくてもそれらが合
わさることにより n/k 値が下がったものである。同様の事情は新聞のテレビ番組欄
(PN4l_00004、PN1d_00014)にも言える。異なる番組を短く(100 字程度)で紹介するた
め、複数記事が混在しているのと同じような効果がある。
表 3-1
n/k 値の低いサンプルと文章のタイプ(書籍(PB・LB)
n/k 値 サンプル ID
NDC
出典名
1.5198PB17_00159 7 芸術・美術
1.5771PB18_00010 8 言語
著編者
出版者
淡路人形浄瑠璃 伝統芸能 国
三原町教育委員会 リスト
宝重要文化財等保存事業
漢字・仮名・記号テキスト
文章のタイプ
佐々木光朗
共同文化社(発売) リスト
1.5906PB2n_00001 分類なし
日本を伝える
梅澤実(監修)
学習研究社
リスト
1.6018LBe2_00037 2 歴史
昭和家庭史年表 1926~1989
家庭総合研究会
河出書房新社
リスト
三省堂
リスト
東京書籍
リスト
日本語キーワード英語表現辞典
1.6683LBj8_00006
8 言語
日本語の発想で引けて英語表 三省堂編修所
現が豊かになる辞典 名詞編
1.6814LBo2_00009 2 歴史
表 3-2
1946-1999 売れたものアルバム Media View
n/k 値の低いサンプルと文章のタイプ(雑誌)
n/k 値 サンプル ID
1.5771PM31_00229
1.6296PM11_00376
1.6824PM31_00223
表 3-3
出典名
Weeklyぴあ
著編者
2003 年 1 月 27 日号
(第 32 巻第 4 号、通巻 986 号)
marie claire Japon
2001 年 7
月号(第 3 巻第 7 号、通巻 26 号)
女性自身
2003 年 5 月 27 日号(第
46 巻第 20 号、2118 号)
出版者
文章のタイプ
ぴあ
複数記事・リスト
角川書店
リスト
光文社
複数記事
n/k 値の低いサンプルと文章のタイプ(新聞)
n/k 値 サンプル ID
出典名
著編者
1.7121PN1d_00006 産経新聞 朝刊 2001/7/8
出版者
文章のタイプ
産業経済新聞社
複数記事・箇条書き
1.7267PN4l_00004 中国新聞 朝刊 2004/7/14
中国新聞社
TV 番組欄
1.7383PN1d_00014 産経新聞 朝刊 2001/1/6
産業経済新聞社
TV 番組欄
1.7468PN2g_00022 西日本新聞 朝刊 2002/10/3
西日本新聞社
複数記事
11
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
表 3-4
n/k 値の低いサンプルと文章のタイプ(白書)
n/k 値 サンプル ID
2.0458OW6X_00211
2.0572OW4X_00014
2.0596OW3X_00062
出典名
著編者
我が国の政府開発援助 2000
(下巻(国別援助))
我が国の政府開発援助 1991
(下巻(国別実績))
我が国の政府開発援助 1989
(下巻(国別実績))
2.0614OW4X_00397 国民生活白書 平成 6 年版
2.0753OW3X_00047
2.0973OW6X_00016
我が国の政府開発援助 1986
(国別実績)
日本の防衛‐防衛白書‐ 平成
15 年版
外務省経済協力局
外務省経済協力局
外務省経済協力局
経済企画庁
外務省経済協力局
防衛庁
出版者
(財)国際協力推進
協会
(財)国際協力推進
協会
(財)国際協力推進
協会
大蔵省印刷局
(財)国際協力推進
協会
ぎょうせい
文章のタイプ
概説
概説
概説
複数記事
概説
複数記事
5.n/k 値と度数分布
一般に語彙の使用度数分布は L 字型分布を示すことが知られているが、まれにその分布
から外れるものがある。端的な例としては、使用度数 1 の語の数(異なり語数)が、使用
度数 2 の語の数(異なり語数)より少ない場合である。水谷(1975)では短い言語作品(歌謡
曲)で繰り返しが多い場合、そのような現象が起こる例が紹介されている。また、散文で
は L 字分布から外れるようなものはほとんど起こらないのではないかとも指摘している。
水谷(1975)では、天気予報の記事(複数)を調べたが使用度数 1 の語が 8 語、使用度数 2 の
語が 5 語であり、特殊な分布ながら使用度数 2 の語が使用度数 1 の語を上回ることはなか
ったと述べている。中野(1976)では、「散文においても、同じことを繰り返し述べる文章や
一つの話題についてくわしく述べる文章では,L 字型分布をくずさないまでも,度数 2 の割
合が高くなる.」と述べている(中野 1976:28-29)。本発表で調査したサンプルにおいても使
用度数 2 が使用度数 1 を上回るものがいくつか発見された。
表 4 は、使用度数 2 の語の異なりに対する使用度数 1 の語の異なりの割合の分布を示し
たものである。この値が 1 より大きいものは L 字分布から大きく外れるものになる。表 4
の最大値の欄から書籍(生産実態・流通実態)と白書に該当するサンプルが見られること
が分かる。また、k(2)/k(1)全体の傾向として、平均値を比較すると、書籍・雑誌・新聞はほ
ぼ同様の値であるが、白書がそれらよりも離れて高い値をとっていることが分かる。また
表 5 に使用度数 1 の語の異なりが当該サンプルの異なりに対する割合の分布を示した。
一般的に、使用度数 1 の語は語彙量のうち半分以上を占めることが知られている。表 5
表4
k(2)/k(1)5の分布
最小値
5
第 1 四分位数
中央値
平均値
第 3 四分位数
最大値
0.075
0.180
0.220
0.235
0.271
3.077
書籍(流通実態)
0.063
0.173
0.207
0.217
0.250
1.122
雑誌
0.072
0.173
0.210
0.215
0.247
0.528
新聞
0.102
0.181
0.215
0.220
0.255
0.445
白書
0.141
0.250
0.300
0.325
0.363
6.200
書籍(生産実態)
k(n)は、使用度数 n の語の異なり語数を表す。
12
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
表5
k(1)/k の分布
最小値
第 1 四分位数
中央値
平均値
第 3 四分位数
最大値
書籍(生産実態)
0.140
0.608
0.660
0.649
0.703
0.849
書籍(流通実態)
0.268
0.631
0.675
0.668
0.713
0.841
雑誌
0.408
0.642
0.682
0.679
0.720
0.825
新聞
0.511
0.649
0.683
0.684
0.722
0.813
白書
0.046
0.510
0.562
0.550
0.606
0.754
からもその傾向は見てとれるが、書籍と白書については最小値が小さく、使用度数 1 の語
の占める割合がかなり低いサンプルが存在することが分かる。これは表 4 で、k(2)/k(1)最大
値が 1 を超えるサンプルが存在することと符合する。
表 6 に k(2)/k(1)の値が 1 を超えるサンプルを挙げた。併せて n/k 値と k(1)/k の値も示した
が、これらのサンプルは n/k 値も各ジャンルの平均よりもかなり高いことが分かる。また、
通常は語彙量のうちもっとも大きな部分を占める使用度数 1 の語が少ないということは、
異なり語数全体に占める使用度数 1 の語の割合も低いことが予想される。表 6 の k(1)/k を見
ると、すべて 0.3 以下であり、こちらも各ジャンルの平均(PB:0.65、LB:0.67、OW:0.55)
よりもかなり低くなっている。しかし、逆に n/k 値が高ければかならずしも L 字型分布から
外れるわけではない、先に「数量記述」の例として挙げた PB22_00186(『大阪河内の近代
東
大阪・松原・富田林の変貌』、大谷渡、東方出版)では、k(2)/k(1)は 0.28、k(1)/k は 0.45 で
ある。また、
「定型反復・数量記述」の例として挙げた OW2X_00221(『地方財政白書
昭
和 59 年版』、自治省、大蔵省印刷局発行)も、k(2)/k(1)は 0.47、k(1)/k は 0.25 である。
表6
L 字型分布から外れるサンプル
k(2)/k(1)
n/k 値
k(1)/k
PB25_00183
3.08
5.99
0.14
PB13_00063
1.68
5.13
0.20
PB43_00005
1.20
4.74
0.20
PB5n_00052
1.11
4.39
0.27
PB43_00651
1.06
6.02
0.16
PB35_00224
1.03
4.21
0.27
LBq0_00021
1.12
3.85
0.30
OW1X_00631
6.20
6.83
0.05
OW4X_00146
2.42
6.50
0.10
OW3X_00192
1.27
7.86
0.15
6.n/k 値と書籍のジャンル
表 2-1、2-2 の書籍のサンプルのジャンル(NDC)を見ると、偏りがあることに気づく。
BCCWJ の書籍は NDC をもとにランダムサンプリングされているため、任意に抽出した部
分も母集団の NDC の構成比をそのまま表していることが期待される。図 6、図 7 はそれぞ
れ書籍(PB),書籍(LB)n/k 値が 4 以上だったサンプルの数と母集団構成比に基づく期待値を
示した。両者ともほぼ似たような傾向を示す。最大の特徴は「9 文学」に属する書籍からの
サンプルがひとつもないことである。また、「3 社会科学」に属する書籍からのサンプルが
期待値以上に多い。文学が出現しないのは、小説の会話における冗長さが影響している可
13
特定領域研究「日本語コーパス」平成 21 年度公開ワークショップ(研究成果報告会)予稿集(2010 年 3 月)
能性があるが、本発表では未調査である。
一方、n/k 値が低い書籍サンプルにおけるジャンルの特徴は、紙幅の関係で図は省略する
が、「4 自然科学」に属する書籍のサンプルがひとつもないこと、また「2 歴史」に属する
書籍のサンプルが期待値以上に多いこと、「3 社会科学」に属する書籍のサンプルが期待値
以上に低いことが書籍(PB・LB)の両者に共通する特徴として挙げられる。
70
18
60
16
14
50
12
40
10
8
30
サンプル数
20
6
期待値
4
10
2
0
0
図6
n/k 値が 4 以上のジャンル(書籍(PB))
図7
サンプル数
期待値
n/k 値が 4 以上のジャンル(書籍(LB))
7.おわりに
本発表では n/k 値の多寡とテキストの持つ特徴との関係について概観した。本発表で主張
したのは以下の 5 点である。
(1)サイズを一定したサンプルの観察において、n/k 値から書籍、雑誌・新聞、白書という媒
体の違いが認められたこと。(2)n/k 値の高いサンプルには「規約・条文」
「操作マニュアル」
「定型反復」「数量記述」などの特徴が認められたこと。(3)n/k 値の低いサンプルには「リ
スト」
「複数記事の混在」という特徴が認められたこと。(4)n/k 値の高いサンプルの中には L
字型分布から外れるものがあること。(5)n/k 値の高い(低い)書籍のサンプルには NDC の
偏りがあること。
今後視野に入れるべき点としては、品詞の構成比との関係、会話文の数との関係などが
挙げられる。n/k 値はきわめて単純な指標であるが、他の言語的特徴との関連から興味深い
事実が今後も発見されるのではないかと期待する。
謝辞
本研究は、文部科学省科学研究費補助金特定領域研究「代表性を有する大規模日本語書き
言葉コーパスの構築:21 世紀の日本語研究の基盤整備」
(平成 18~22 年度、領域代表者:
前川喜久雄)による補助を得た。
参考文献
Baayen,Harald(2001) “Word Frequency Distribution”, Kluwer Academic Publishers, Dordrecht
石川慎一郎(2008)『英語コーパスと言語教育』大修館書店
国立国語研究所(1958)『現代語の語彙調査:総合雑誌の用語』後編,秀英出版
中野洋(1976)「いわゆる L 字型分布からはずれる語彙量の分布について」,『計量国語学』
76,pp.25-31.
水谷静夫(1975) 「短い作品の語彙の量的構造」,『計量国語学』72,pp.1-12.
水谷静夫(1983)『朝倉日本語新講座2語彙』朝倉書店
14
Fly UP