独話音声と対話音声の発話末のF0変化

by user

on 28-03-2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 独話音声と対話音声の発話末のF0変化

Transcript

独話音声と対話音声の発話末のF0変化

第5回コーパス日本語学ワークショップ予稿集
（2014年3月，国立国語研究所）
独話音声と対話音声の発話末の F0 変化
石本祐一（国立国語研究所研究情報資料センター）†
小磯花絵（国立国語研究所理論・構造研究系）
F0 Changes at the End of Utterance in Monolog and Dialog
Yuichi Ishimoto (Center for Research Resources, NINJAL）
Hanae Koiso (Dept. Linguistic Theory and Structure, NINJAL)
はじめに
1.
発話の韻律的特徴のひとつとして，発話末において基本周波数（F0）が急激に低下する final
lowering 現象が生じることが指摘されている（Pierrehumbert and Beckman (1988)）。小磯・石
本 (2012) は，『日本語話し言葉コーパス（Corpus of Spontaneous Japanese:以下 CSJ）』（前川
(2004)）のコアに収録されている独話音声を対象に，イントネーション句を単位として発話中
の F0 の大局的な変動を調べたところ，発話冒頭から発話末にかけて F0 最大値・最小値がとも
に下降する傾向にあること，この下降傾向は発話中の強い統語境界でリセットされること，発
話末では発話全体にわたる F0 下降とは異なる final lowering に相当するような著しい F0 下降
が見られること，このような著しい下降は発話中の強い統語境界では観察されないことを明ら
かにした。また前川 (2013) は，同じく CSJ のコア（全体，ただしその大半は独話）を対象に，
1∼5 つ連続する有核アクセント句からなる連鎖に限定して final lowering の生起領域を詳細に
調べ，統語的境界にあたる最終アクセント句全体にわたって final lowering が生じることを明
らかにした。
一方，石本・小磯 (2013) では，CSJ の対話音声を対象に石本・小磯 (2012) と同種の方法で発
話中の F0 変動を調べ，発話末での F0 変動の程度はそれ以前の F0 変動と同程度であること，
また発話末の F0 最小値は発話中の強い統語境界とほぼ同じであり独話ほど下がらないことを
明らかにした。この結果は，独話音声とは異なり対話音声では，発話末において final lowering
が生じない可能性のあることを示唆する。
そこで本稿では，より統制した条件において CSJ の独話と対話の発話末の F0 を比較すると
同時に，CSJ の対話（インタビュー・課題指向対話）とは異なるタイプの雑談会話をも合わせ
て比較することによって，対話における final lowering の有無について改めて検討する（3 節）
。
また，仮に対話において final lowering が観察されない（されづらい）として，その背景には独
話と対話間の発話の計画性や自発性の程度の違いが関わりうると考え，final lowering との関係
について検討する（4 節）。
†
[email protected]
181
第5回コーパス日本語学ワークショップ予稿集
（2014年3月，国立国語研究所）
データ
2.
2.1
発話単位の認定
2.1.1 CSJ
CSJ 第 3 刷に基づき作成された RDB（小磯ほか (2012)）を用い，独話音声として，「コア」
と呼ばれるデータ範囲から学会における口頭発表（以下「学会講演」）約 19 時間と一般話者に
よる主に個人的な内容に関するスピーチ（以下「模擬講演」）約 20 時間を分析対象とした。ま
た，対話音声としてコアデータ範囲中の 18 対話から，インタビュー形式の対話と課題指向対
話のうち後述の韻律情報が付されたインタビュイーの発話*1 約 220 分を選択した。
発話単位の認定にあたっては，CSJ に付与されている節単位情報（丸山ほか (2006)）を利用
した。節単位は原則「節（clause）」の境界によって得られる文法的・意味的なまとまりを持っ
た単位であり，節境界の構造的な切れ目の大きさの観点から以下の 3 つに分類される。
絶対境界「∼です」「∼ます」などのいわゆる文末に相当する節境界*2 。
強境界「∼けれど」
「∼が」などの後続の節に対する切れ目の度合が強い（従属度の低い）節
境界。
弱境界「∼から」「∼で」などの後続の節に対する切れ目の度合が弱い（従属度の高い）節
境界。
本研究では，絶対境界で区切られる区間を発話に相当する単位として扱う。
2.1.2 千葉大 3 人会話コーパス（千葉大コーパス）
CSJ の対話とは異なる種類のデータとして千葉大 3 人会話コーパス（Den and Enomoto
(2007)）を取り上げる。これは，親近性のある 3 人が定められたテーマのもとで自由に雑談を
行うという内容である。分析対象として 12 会話約 120 分を用いた。
千葉大 3 人会話コーパスには，転記テキストや発話単位，形態論情報，韻律情報などの種々
のアノテーションが付与されているが，節単位情報は付与されていない。ただし，節単位情報
に類似した単位として，統語・語用論の観点から認定される長い単位 (LUU: Long Utterance
Unit)（Den et al. (2010)）が提供されている。そこで本研究では，LUU および形態論情報・韻
律情報を用い，LUU 末の品詞において活用形が終止形であるものを絶対境界，出現形が「け
ど」「けれど」「が」で接続助詞であるものを強境界と暫定的に認定することとした。これは，
2.1.1 節に記した CSJ の絶対境界・強境界のサブセットに相当する。
2.2 F0 特徴量
本研究では節単位境界直前のアクセント句の F0 最小値を用いる。具体的には，コーパスに
付与されているラベリングスキーム X-JToBI（五十嵐ほか (2006)）に基づく韻律情報から節末
のアクセント句の下降音調（L%）の F0 値を求めた*3 （図 1）。分析において性差・個人差の影
響を小さくするために，F0 値は談話・話者ごとの平均 F0・標準偏差によって Z スコアへ変換
*1
課題指向対話の場合はインタビュー対話でインタビュイーの役割だった話者の発話。
明示的な文末表現が置かれるもののほか，
「と文末」や「体言止め」なども含む。
*3 千葉大 3 人会話コーパスでは X-JToBI の簡易版に準拠して韻律情報が付与されている。
*2
182
第5回コーパス日本語学ワークショップ予稿集
A
S
Clause Unit
なお
予稿集には
（2014年3月，国立国語研究所）
実験ゼロを含みませんでしたが
節境界前の F0 最小値 A
Clause Unit
ここでは実
験
ゼ
ロ
(M まま) 系
列
の
同定実験を含めて説明いたします
F0
tone
A
%L L% %L
AP
IP
A
AP
IP
L% %L
H-
A
AP
L%
H%
%L
H-
A
IP
AP
H%
L%
%L
H- A
AP
IP
L% %L
H-
AP
IP
Utterance
A
L%
%L
H-
A
AP
H%
L%
%L
IP
A
AP
L% %L
A
L% %L
AP
H-
A
IP
AP
L%
図 1 節単位末の F0 特徴量
表 1 分析 1 のデータ数
強境界 (S)
絶対境界 (A)
CSJ 独話
847
1369
CSJ 対話
27
114
千葉大コーパス
46
295
し標準化を行っている。
分析 1: 独話音声と対話音声の発話末の F0
3.
3.1
方法
CSJ の独話と対話，および千葉大 3 人会話コーパスの雑談会話に対し，節単位絶対境界 (A)
および強境界 (S) の直前の F0 の値を調べた。2.1.1 節の発話単位の定義から，絶対境界直前を
発話末，強境界直前を発話中の F0 とみなす。同様の分析は石本・小磯 (2013) でも行っている
が，そこでは下降調，上昇調，上昇下降調などの句末音調の違いについてあまり考慮しておら
ず，様々なモダリティを持つ発話が混在していたため，今回は句末音調が下降調である音声の
みを分析した。また，相づちや応答などの極端に短い発話を除くため，2 つ以上のアクセント
句を含む発話を対象とした。分析に用いた CSJ および千葉大 3 人会話コーパスのデータ数を
表 1 に示す。
3.2
結果
CSJ の独話音声と対話音声における強境界および絶対境界直前の F0 最小値を図 2 に示す。
独話に対する t 検定の結果，平均の差は有意（t(1954.10)=21.82, p<0.001）で発話末のほうが
より低い F0 になっている。仮に対話においても発話末に（強境界よりも相対的に強い）final
lowering が見られるならば，独話の結果と同様，強境界よりも絶対境界の方が F0 値は低く
なることが予想される。しかし対話については t 検定の結果，平均の差は有意ではなかった
（t(66.30)=0.01, p=0.99）。
対話音声は独話音声に比べて極端にデータ数が少なく，話者数も大きく異なるため，話者に
よる違いが影響を与えている可能性がある。そこで，CSJ の独話と対話両方に音声が収録され
ている話者 1 名（Speaker ID: 514）の F0 について調べた。結果を図 3 に示す。データ数は独話
音声の強境界が 15・絶対境界が 29，対話音声の強境界 10・絶対境界 31 であり，総数は少ない
ものの独話と対話でほぼ同じである。t 検定の結果，独話の F0 の平均は強境界と絶対境界で有
183
1
0
−3
−1
F0
−1
−3
F0
0
1
2
（2014年3月，国立国語研究所）
2
第5回コーパス日本語学ワークショップ予稿集
S
A
S
monolog
dialog
1
0
−3
−1
F0
−1
−3
F0
0
1
2
CSJ の強境界 (S) と絶対境界 (A) における F0 最小値
2
図2
A
S
A
S
monolog
A
dialog
図 3 CSJ の強境界 (S) と絶対境界 (A) における F0 最小値（話者 1 名）
意差があり（t(19.12)=2.18, p<0.05）
，対話の F0 の平均には有意差はなかった（t(29.95)=-0.90,
p=0.37）。図 3 からもわかるように同一話者においても対話音声では強境界と絶対境界で F0
に差がみられない。なお，独話と対話の両方に音声が収録されている他の 5 名の話者について
もほぼ同様の結果となった。よって，話者個人の発声様式による違いではなく，独話と対話全
般における傾向であると考えられる。
次に，千葉大 3 人会話コーパスの強境界前と絶対境界前の F0 最小値を図 4 に示す。
CSJ の対話（インタビュー・課題指向対話）と同様，雑談会話においても，やはり強境界と
絶対境界で F0 に差は見られないことが分かる*4 。t 検定の結果，強境界と絶対境界の F0 平均
に有意差はなかった（t(77.33)=-1.20, p=0.23）。以上の結果から，インタビューや雑談などの
*4
2.1.2 節に記した通り，千葉大 3 人会話コーパスの絶対境界・強境界は，定義上 CSJ のサブセットになっており，
完全には一致しない。そこで，CSJ の独話・対話についても同じ基準で絶対境界・強境界のサブセットを作成して
分析を行ったところ，図 2 と同様の結果を得た。
184
（2014年3月，国立国語研究所）
0
−4
−2
F0
2
4
第5回コーパス日本語学ワークショップ予稿集
S
A
図 4 千葉 3 人会話コーパスの強境界 (S) と絶対境界 (A) における F0 最小値
対話・会話では，独話で見られるような final lowering に相当する発話末での急激な F0 下降は
出現しない（出現しづらい）可能性が高い。
分析 2: 発話の自発性と節単位末の F0 の関係
4.
4.1
方法
対話において final lowering が観察されない（されづらい）要因として，独話と対話間の発話
の計画性や自発性の程度の違いが考えられる。CSJ における独話音声（の大半）は原稿の読み
上げではないが，講演という性質上，あらかじめ用意した内容に基づいて発声することから，
対話と比べて相対的に発話の事前の計画性が高く自発性が低い傾向にある。こうした違いが発
話末を韻律的に特徴付けるという final lowering の実現の有無に関わっている可能性が考えら
れる。仮にそうであるとするならば，同じ独話音声であっても，自発性の高い発話と自発性の
低い発話では final lowering の出現傾向が異なることが予想される。そこで本節では，発話の
自発性の程度と final lowering との関係を調べる。
CSJ コアの独話データには様々な種類の印象評定値が付与されているが，そのうち集合評定
データと呼ばれる印象評定の中に「原稿を読み上げている—その場で考えて話している」とい
う話し方の印象に関する評定項目がある（籠宮ほか (2004)）。そこで，この項目を自発性の程
度を表す指標として用い，評定値が付与されている CSJ コアの独話データを対象に，自発性の
度合と節単位絶対境界 (A) および強境界 (S) の直前の F0 の値との対応関係について調査した。
印象評定は「原稿を読み上げている (1)」から「その場で考えて話している (7)」の 7 段階で行
われており，評定値が大きいほど自発性が高いと判断されたことを意味する。また，20 名の評
定者が「講演の冒頭」「講演の中盤」「講演の終盤」から 1 分前後の音声を聴いてそれぞれ評定
を行っており，各講演に対し 60 個の評定値がつけられているため，講演ごとに評定値の平均
値を求めて自発性の程度とした。
4.2
結果
CSJ の独話における自発性の程度と強境界および絶対境界直前の F0 最小値の対応関係を
図 5 に示す。図 5(a) は学会講演，図 5(b) は模擬講演であり，それぞれ上段が強境界，下段が
絶対境界のデータに対応している。図中の直線は学会講演，模擬講演全体での線形回帰直線で
185
0
−1
−3
−2
F0
−1
−3
−2
F0
0
1
（2014年3月，国立国語研究所）
1
第5回コーパス日本語学ワークショップ予稿集
1
2
3
4
5
6
7
1
2
3
5
6
7
5
6
7
1
0
F0
−3
−2
−1
0
−1
−3
−2
F0
4
Spontaneity
1
Spontaneity
1
2
3
4
5
6
7
1
2
Spontaneity
3
4
Spontaneity
(a) 学会講演
(b) 模擬講演
図5
自発性の印象評定と F0 最小値（上: 強境界，下: 絶対境界）
表2
一般化線形混合モデルのパラメータ（応答変数: F0 最小値）
Estimate
(Intercept)
-1.687
自発性の程度
0.182
講演（模擬）
-0.157
節境界（絶対）
-0.310
Std. Error
0.107
0.030
0.081
0.021
自由度
146.9
133.8
135.4
2159.2
t値
-15.723
6.047
-1.939
-14.749
p<0.001
p<0.001
p=0.055
p<0.001
***
***
.
***
あり，上段と下段では同じ傾き・切片であることに留意されたい。学会講演と模擬講演で自発
性の程度を比較すると，模擬講演ではその多くが自発性の高い講演であるのに対し，学会講演
では相対的に自発性の低い講演が多くなっており，自発性の観点から学会講演と模擬講演では
異なる性質にあることがわかる。また，そのような学会講演と模擬講演の性質の違いにもかか
わらず，両者とも自発性が低ければ F0 が低く，自発性が高ければ F0 が高くなる傾向にある。
これらの傾向を確認するため、強境界・絶対境界直前の F0 最小値を応答変数とし，自発性
の程度・節境界ラベル（強・絶対）
・講演タイプ（学会・模擬）を説明変数として話者による影
響を誤差項として加えた一般化線形混合モデルを構築した。なお，節境界は強境界 (0)・絶対
境界 (1)，講演タイプは学会講演 (0)・模擬講演 (1) とダミー変数化している。モデルから得ら
れた説明変数のパラメータを表 2 に示す。3 つの説明変数のうち、自発性の程度および節境界
ラベル（強・絶対）が有意であった。すなわち，図 5 とあわせて考えると，自発性が高くなる
ほど F0 も高くなり，絶対境界の F0 は強境界よりも低くなると言える。一方，講演の種類が
186
第5回コーパス日本語学ワークショップ予稿集
（2014年3月，国立国語研究所）
F0 値に与える影響は有意ではなく，学会講演・模擬講演といった講演のタイプに限らず上記の
傾向がみられることがわかる。
以上のことから，独話であっても自発性が高い発話では発話末の F0 は低くならず final
lowering が観察されにくい傾向にあると言える。
5.
議論
3 節の分析から，インタビューや雑談などの対話・会話では，独話で見られるような final
lowering に相当する発話末での急激な F0 下降は出現しない（出現しづらい）傾向にあること
が分かった。また 4 節の分析から，同じ独話であっても，自発性の低い発話では発話末の F0
はかなり低くなるのに対し，自発性の高い発話では発話末の F0 は低くならず final lowering が
観察されにくい傾向にあることが分かった。対話は基本的に事前に発話内容が決まっておらず
総じて自発性が高いと考えられることから，独話・対話を通じて final lowering の生起は自発
性の程度と関係していると言える。
では何故，自発性の高い独話や対話では絶対境界における F0 の低下がはっきりと現れない
のだろうか。一つの可能性として，自発性の程度に伴う発話生成の認知的負荷が影響している
と考えられる。自発性の低い発話では発話前に何をどのように話すかといった発話計画がある
程度なされている。そのため，来たる発話末を明示するために F0 を急激に低下させるといっ
た調整をするだけの認知的な余裕があると考えられる。一方，自発性の高い発話では，発話内
容や表現を考えながら発話をするため，発話生成の認知的負荷が高く，発話末で final lowering
のような韻律調整を行うだけの余裕が十分にないことが予想される。
CSJ は自発性の高い発話を収録したコーパスであるが，独話，特に学会講演ではあらかじめ
発表内容が決まっていることもあり，練習を積んだ上で原稿を読み上げるように発話している
データも含まれてる。Umeda (1982) は，F0 下降はスタイルに依存しており final lowering は
朗読音声に限られる可能性を示唆しており，本研究の結果と整合的である。ただし今回の結果
は，朗読か否かという二分的なスタイルに依存するようなものではなく，その背後に自発性の
程度に伴う発話生成の認知的負荷が影響していることを示唆している。
また，仮に final lowering の役割が発話の終了を表示することであるならば，学会講演のよ
うに聞き手に対して談話の構造や切れ目を明確に伝えることが指向されるようなスタイルの
スピーチにおいて，final lowering による発話末の表示が好まれる可能性も十分にある。つま
り，談話構造を明示化するような発話の仕方を好むスタイル，またそれを可能とする自発性の
低さに伴う認知的な余裕，こうしたことが合わさって学会講演では発話末の final lowering が
特徴的に観察された，対話の場合はその逆の状況だったため final lowering があまり観察され
なかった，という解釈である。この可能性については，今後，異なるスタイルの独話や対話を
分析・比較することによって検討したい。
187
第5回コーパス日本語学ワークショップ予稿集
（2014年3月，国立国語研究所）
参考文献
Den, Yasuharu, and Mika Enomoto (2007). “A scientific approach to conversational informatics: Description,
analysis, and modeling of human conversation.” Toyoaki Nishida (Ed.), Conversational informatics: An
engineering approach. Hoboken, NJ: John Wiley & Sons. pp. 307–330.
Den, Yasuharu, Hanae Koiso, Takehiko Maruyama, Kikuo Maekawa, Katsuya Takanashi, Mika Enomoto,
and Nao Yoshida (2010). “Two-level annotation of utterance-units in Japanese dialogs: An empirically
emerged scheme.” Proceedings of the 7th Language Resources and Evaluation Conference (LREC2010),
pp. 2103–2110. Valletta, Malta.
五十嵐陽介・菊池英明・前川喜久雄 (2006)．「韻律情報」『国立国語研究所報告 124：日本語話し言葉
コーパスの構築法』 pp. 347–453．
石本祐一・小磯花絵 (2012)．「日本語話し言葉コーパスを用いた統語境界におけるイントネーション句変
動の分析」第 2 回コーパス日本語学ワークショップ予稿集, pp. 239–246．
石本祐一・小磯花絵 (2013)．「日本語話し言葉コーパスを用いた対話音声のイントネーション句の分析」
第 4 回コーパス日本語学ワークショップ予稿集, pp. 159–166．
籠宮隆之・山住賢司・槙洋一 (2004)．「印象評定データの概要」『日本語話し言葉コーパス『DVD 付属
マニュアル』』．
小磯花絵・石本祐一 (2012)．「日本語話し言葉コーパスを用いた「発話」の韻律的特徴の分析–イントネー
ション句を切り口として–」
第 1 回コーパス日本語学ワークショップ予稿集, pp. 167–176．
小磯花絵・伝康晴・前川喜久雄 (2012)．「『日本語話し言葉コーパス』RDB の構築」
第 1 回コーパス日
本語学ワークショップ予稿集, pp. 393–400．
前川喜久雄 (2004)．「『日本語話し言葉コーパス』の概要」日本語科学, 15, pp. 111–133．
前川喜久雄 (2013)．「日本語自発音声における final lowering の生起領域」
第 27 回音声学会全国大会予
稿集, pp. 47–52．
丸山岳彦・高梨克也・内元清貴 (2006)．「節単位情報」『国立国語研究所報告 124：日本語話し言葉コー
パスの構築法』 pp. 255–322．
Pierrehumbert, Janet B., and Mary E. Beckman (1988). Japanese tone structure. Cambridge: MIT Press.
Umeda, Noriko (1982). “F0 declination is situation dependent.” Journal of Phonetics, 10, pp. 279–290.
※ 本研究は JSPS 科研費 24700109, 25370505 および萌芽・発掘型共同研究「会話の韻律機能に関する実
証的研究」（リーダー：小磯花絵）による成果である。
188