韻律に寄与する音響特徴量を用いて高速再生音声の聞き取りやすさを

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 韻律に寄与する音響特徴量を用いて高速再生音声の聞き取りやすさを

Transcript

韻律に寄与する音響特徴量を用いて高速再生音声の聞き取りやすさを

01
韻律に寄与する音響特徴量を用いて
高速再生音声の聞き取りやすさを
改善する話速変換技術
今井　篤　清山信正　都木　徹†
†（一財）NHK エンジニアリングシステム
Intelligible High-speed Playback Technology
Using the Acoustic Features of Speech Prosody
Atsushi IMAI, Nobumasa SEIYAMA and Tohru TAKAGI†
† NHK Engineering System
要　約
ABSTRACT
近年，マルチメディアコンテンツの楽しみ方が多様化して
The ways in which people are using multimedia content
are diversifying. As with subtitle services using speech
recognition technology and audio book services using
speech synthesis technology, the accessibility of media
to everyone has been improved by measures taken in
response to specific needs of elderly and challenged
people. Speech, however, is a form of time-series data,
and there are not a few people that feel that obtaining an
overall picture of the information being presented is more
difficult with speech than with text-based information.
Against this background, we have developed an
intelligible high-speed speech rate conversion technology
using the acoustic feature quantities that contribute
to prosody. It is known that humans can understand
speech that is up about three times normal speed. Our
technology using the acoustic feature quantities that
contribute to prosody realized a great improvement in
the intelligibility of such rapid speech.
いる。また，障害者や高齢者のニーズを動機として，放
送字幕のように音声が文字化されたり，本や雑誌が音声
化されてオーディオブックになるなど，全ての人に対するメ
ディアアクセスの利便性が向上している。しかし，音声は
時系列情報であるため，内容の一覧性に乏しく，斜め読
みのような欲しい情報への効率的なアクセスが難しいと
いう課題があった。そこで本稿では，斜め読みの代替手
段として，音声を高速に再生した場合でも発話内容が聞
き取りやすい話速変換方式を提案する。一般に発話速度
（話速）に関する人の聴取能力の上限は３倍速程度と
されているが，韻律に基づく緩急を与えることにより，同
じ３倍速の再生時間でありながら，内容の聞き取りやすさ
が大幅に改善することを確認したので報告する。
NHK技研 R&D/No.154/2015.11
21
は提示内容の90%以上が聞き取れるが，1,400mora/min
１．まえがき
になると50%程度しか聞き取れなくなると報告されて
マルチメディアコンテンツの楽しみ方が多様化する
いる１）。これを，日本語の一般的な話速である８mora/
中，障害者や高齢者など情報弱者のニーズを動機とした，
secを基準に倍率換算すると，２倍速くらいまでは完全
「どう見たいか」
，
「どう聞きたいか」に応える，
「人にや
さしい技術」が種々提案されている。そのようなニーズ
に聞き取ることができるが，３倍速は実用的な限界とい
うことになる。
の一つに，欲しい情報への効率的なアクセスがある。欲
視覚障害者は一般の人に比べて速聴能力が高いと言わ
しい情報を探す場合，検索エンジンで行われているよう
れているが，2009年２月に神奈川県視覚障害者福祉協会
な，インデックスなどを用いて情報にダイレクトにアク
福祉大会にて実施した当事者へのアンケート調査による
セスする方法が一般的であるが，一方で，新聞や雑誌の
と，従来法＊３による高速再生で特に問題ないと感じて
斜め読みのように，コンテンツの内容を大まかに確認し
いる人は30%を下回り，聞き取りやすさの改善を望む声
ながら，各個人の興味に照らしてインタラクティブに欲
が多いことが分かった。従来法に対する不満の主な理由
しい情報にアクセスする方法を求める声も少なくない。
は，「点字ならいくらでも速く読めるが，音声は速く再
視覚障害者が欲しい情報を探す場合は音声情報が重要
生するとすぐに聞き取れなくなる」，「録音図書を一冊聞
となるが，音声は時系列情報であるため，俯瞰的に内容
き終えるのに時間がかかりすぎる。しかし速く再生する
を捉えることが難しく，文字情報に比べて情報取得の時
とよく聞き取れない」，「早口は疲れるので，長時間は聞
間効率が悪いという課題がある。本や雑誌などは，読み
いていられない」などであった。
ふかん
手が自らの興味に応じて精読をしたり斜め読みをしたり
そこで本研究では，人が読み上げた音声を対象として，
できるが，これを音声化した場合には，斜め読みに相当
現状の録音図書再生器の上限である３倍速の聞き取りの
する方法が見当たらないのが現状である。視覚障害者の
確保，または聞き取りやすさの改善を目標とした。比較
多くは，活字情報の代替として録音図書を利用している
対象は，従来法による高速再生技術とした。
が，その聴取時にコンテンツを高速に再生している場合
２．
２　聞き取りやすさの改善に寄与する声の特徴量
が多いのは，斜め読みに相当する効率的な聴取方法に対
提案手法（以下，提案法）は，従来の一様な波形伸縮
する要望があるからに他ならない。視覚障害者へのアン
による話速変換とは異なり，話における重要な部分を際
ケート調査によると，自らの聴力の限界を超えるくらい
立たせるような非線形な変換を行うことをねらいとして
の速さで情報を得たいという声や，現状の速さで良いか
いる。課題は，重要な箇所の動的な抽出と，その重み付
ら，聞き取りやすくしてほしいという声など，高速再生
けである。
方式の改善を望む声が多く聞かれた。
先行研究によると，日本語は主に音調（音の高低の調
そこで本稿では，斜め読みの代替となる効率的な音声
子）で発話意図を表現するとされている。中でも上昇音
聴取方法を実現する技術として，高速再生された音声を
調は何らかの意味があるときに見られ，しかも，その変
聞き取りやすくする話速変換技術（以下，高速話速変換
化の仕方は，話のニュアンスや意図，話者の態度などに
技術と呼ぶ）を提案する。この技術は，韻律
の特徴
よって，適応的に変化するとされている２）。また，筆者
に応じたメリハリのある音声を再生することにより，従
らによるNHKのベテランアナウンサー数名へのインタ
来の一様に時間短縮する高速再生方式に比べて，同じ再
ビューにおいても，発話に意図を込める場合は，声の高
生時間でありながら聞き取りやすさを改善することがで
さ，強さ，間合いで表現することが多く，特に声の高さ
きる。この技術の外国語への適用についても検討した結
を意図的に上げた場合には，何らかの伝えるべき情報が
果，一定の有効性が確認できたので，併せて報告する。
あるということであった。さらに工学的な観点において
＊１
も，高齢者を対象にした話速変換技術に関する研究にお
２．高速話速変換技術
いて，声の高さが上昇する部分を局所的にゆっくり再生
することで，発話全体のゆっくり感の向上や，聞き取り
２．
１　再生速度の目標値
視覚障害者が用いる録音図書再生器には３倍速程度ま
での話速変換機能が備わっており，コンテンツを効率的
＊１音声を形づくる発話の特徴。本稿では，特に「声の高さと大きさの変化」
を指す。
に聴取するための手段となっている。視覚障害者の速
＊２１moraは，短母音を含む１音節の長さに相当し，日本語では，ほぼ，か
な１文字がこれに相当する。
聴能力を調べた先行研究によると，1,100mora/min＊２で
22
NHK技研 R&D/No.154/2015.11
＊３音声の波形全体を一様に伸縮させる話速変換の方法。
報告
音声波形
音声波形
平滑化して
振幅を正規化した
パワー波形 Po
1.5
01
Sr1 a＝0.5 b＝0.5 Sr2 a＝0.7 b＝0.3 話速制御の
指標波形 P
0.5
平滑化して
振幅を正規化した
基本周波数
波形 Pt
0
0
1,000
2,000
3,000
4,000
5,000
1,000
2,000
3,000
4,000
5,000
6,000
時刻（ms）
6,000
時刻（ms）
（b）
（a）
で導出した２つの特徴量の合成波形（中間波形）
（a）正規化した基本周波数とパワーの時間変化
１図　高速再生時の適応的な話速変換の指標となる緩急規則の生成プロセス
やすさの改善に寄与することが報告されている３）。
以上のような知見を基に，声の高さが大きく上昇し，
化し，両者を適当な重みで合成した波形を，話速に緩急
を与える際の指標とした。
）の変化量も大きい部分の聞き取
一般的な会話音声においては基本周波数の変動が
りを重点的に確保することが，高速音声における効率的
10Hz以下になるとされている５）。そこで，
（１）の分析
な情報の取捨選択に有効であると考え，声の高さとパ
により算出した基本周波数の変化をカットオフ周波数
ワーの２つの特徴量の変化を総合的に反映した時系列の
10Hzで平滑化し，有声音区間以外の部分も含めた連続
値を，その動的な指標とした。
的な値を得るために，ある有声音区間の最後の数フレー
２．
３　高速話速変換の倍率の生成
ムと次の有声音区間の最初の数フレームのデータを用い
かつ強さ（パワー
＊４
声の高さとパワーのそれぞれの時間変化を基に，話速
て，非有声区間をスプライン補間＊６した。そして，感
変換倍率を生成する方法について述べる。今回は，録音
覚量と対応させるために，振幅を対数に変換し，その波
図書などあらかじめ音声ファイルが用意されていること
形の中央値を１として振幅を０～２に正規化した。この
が前提であるため，ファイル全体を俯瞰した上で倍率を
値を，基本周波数の変化に基づく話速の緩急の指標Ptと
決定する方法を提案する。従来の逐次処理方式とは異な
した。
ふかん
り，再生時点よりも未来の情報も踏まえて，発話を最適
パワーについても同様に（１）の分析によって算出し
化することができる。また，音響情報のみを扱うため，
た波形をカットオフ周波数６Hzで平滑化した後に対数
発話のバリエーションや言語の違いなどを意識する必要
に変換し，その中央値を１として振幅を０～２に正規化
がなく，
アルゴリズムの汎用性が高いという利点がある。
した。この値を，パワーの変化に基づく話速の緩急の指
（１）付加情報の作成
標Poとした。パワーのカットオフ周波数は，無音区間
各コンテンツの韻律に寄与する音響特徴量として，音
声・非音声の分類，有声音・無声音・無音などの音声属
性情報，基本周波数
＊５
，パワーの変化を分析し，これ
で音声波形の伸縮率が完全には０にならないように，筆
者が主観的に設定したものである。
以上により算出されたPtとPoを，それぞれの重みをa，
らをコンテンツごとに付加情報として保存して，話速変
bとして合成することにより，話速に緩急を与える際の
換の際にこれを参照した。
指標Pを次のように定義した。
上記の分析は，５msごとに，パワー，ゼロ交差数，
自己相関分析を組み合わせて，音声・非音声の判定，有
a
b
P ＝ Pt × Po （a > 0, b > 0）
────（１）
声音・無声音・無音の分類，基本周波数の抽出を行なっ
以上で述べた，高速再生時の適応的な話速変化の指標
た。パワーも同じく５msごとに定義するが，計算の
となる波形の生成プロセスを１図に示す。１図（a）は，
フレーム長を20msとし，サンプル値の２乗和をフレー
平滑化した基本周波数とパワーのそれぞれの時間変化を
４）
ム長で除算して正規化したものを用いた。
（２）高速話速変換の倍率の生成方法
基本周波数とパワーの変化を，それぞれの振幅で正規
＊４波形振幅の２乗の時間平均値。
＊５声の高さを決める喉の震えに相当する周波数。
＊６離散点を滑らかにつなぐデータ補間方法の一つ。
NHK技研 R&D/No.154/2015.11
23
5
5
4
4
評価値
評価値
3
2
1
3
2
0
30
60
90
120
150
180
1
0
休止区間の長さ（ms）
30
60
90
120
150
180
休止区間の長さ（ms）
（a）３倍速再生
（b）２倍速再生
２図　高速再生における休止区間の長さと聞き取りやすさの関係
振幅で正規化した波形，１図（b）は，１図（a）の２
すると，休止区間長は約70msとなる。そこで主観評価
つの波形を任意の重みで合成した複合波形である。１図
実験では，0 ～ 180msの間で，30ms単位で休止区間を
（b）の実線Sr1はa=0.5，b=0.5の場合，破線Sr2はa=0.7，
設定した。ただし，話速変換前の休止区間長よりも長い
b=0.3の場合である。この波形（中間波形と呼ぶ）が非
休止区間は設定しなかった。被験者には，「なるべく短
線形な話速変換の基本的な動きを表しており，これを基
時間に効率的にコンテンツの内容を聞くという目的に照
に５msごとに倍率を与える。しかし，この段階では最
らして，提示音声全体の聞き取りやすさを５段階で評価
終的な再生倍率になっていない。
せよ」と教示した。実験で使用した音声（以下，実験音声）
これを最終的に意図する倍率で再生するためには，中
は，ニュース音声と小説の朗読音声の30秒程度のコンテ
間波形による話速変換音声の再生時間を観測した上で，
ンツから作成し，それぞれ２倍速，2.5倍速，３倍速の
最終的に意図した倍率の再生時間になるように波形全体
３種類の話速で実験を行なった。上述の先行研究と比較
を線形伸縮する必要がある。つまり，原音声の再生時間
するために，話速変換は一様に伸縮する従来法を用いた。
をt0，中間波形による話速変換後の再生時間をt1とする
被験者は聴力に問題のない大学生５名である。ニュース
と，n倍速で再生する場合には，中間波形に対して，以
音声と小説による傾向の違いは見られなかったため，同
下の倍率Rで線形に話速変換を行う。
一再生倍率の全ての実験データを合算して集計した。こ
R =
t0
n . t1
────（２）
のうち，３倍速と２倍速の結果をそれぞれ２図（a）と（b）
に示す。
以上の手順によって生成された非線形な話速変換音声
２図の結果では，実験条件として設定した休止区間長
は，基本周波数およびパワーが大きな値を示すほどゆっ
の範囲では，30ms以上はいずれの話速ともほぼ一定の
くり再生されるが，逆にいずれの値も小さい場合には，
評価値となった。一般に，呼気段落＊７の冒頭ではパワー
聞き取れないほど高速に再生される場合もある。
つまり，
が大きく，末尾に向かって次第に小さくなっていくため，
アルゴリズムが聞き取りに重要ではないと判定した部分
呼気段落と呼気段落の間で小さな声から大きな声に急激
については極力情報を削り，その時間を聞き取りに資す
に変化した場合，休止区間が短い場合には，逆行性の継
る部分に割り当てるという処理が行われる。
時マスキング＊８を生ずる可能性がある６）。30msはその
２．
４　休止区間長の短縮について
影響が排除できる閾値付近に相当しており，この実験か
高速再生時に最低限必要な休止区間の長さについて調
らは，高速に音声を聞くという目的においては，最低限，
べた。ニュース音声を対象に文中の休止区間の短縮許容
声の切れ目が分かればよいという結果となった。これは，
限を調べた先行研究によると，約200msまで短縮しても
斜め読みと精読が異なるように，通常の音声を聞くとい
聞こえの自然さが保たれると報告されており，この値
う行為とは全く性質が異なるため，目的に応じた情報提
３）
を参考に，休止区間長が高速音声の聞き取りにどのよう
に影響するかを主観評価実験により調べた。200msまで
休止区間長が短縮された音声を一様に３倍速に話速変換
24
NHK技研 R&D/No.154/2015.11
＊７呼気によるポーズで区切られる発声区間。
＊８時間的に先行する音が，後続する音にマスクされて聞こえなくなる現象。
報告
5
4
4
評価値
評価値
5
3
3
2
2
1
01
0
25
50
75
100
1
10
30
50
75
Poの寄与率（%）
Poの寄与率（%）
（a）３倍速再生（日本語）
（b）３倍速再生（フランス語）
90
３図　高速音声が聞き取りやすい Pt と Po の寄与率
示が好まれたと考えることができる。
る。本実験で従来法とした話速変換手法は，提案法で話
以上の実験結果から，２倍速以上の高速音声再生アル
速変換倍率を固定値にしたものであり，音質は従来法と
ゴリズムにおいては，休止区間を30ms以下には短縮し
提案法で違いはない。評価実験の結果，５種類の実験
ないこととした。
音声間で傾向の差が見られなかったため，全てのデータ
を合算して集計した。実験結果を３図に示す。１個の評
３．多様な発話への適応に関する実験
Pt とPo の合成波形の生成方法については２．３節で述
価点における評価回数は25回である。
３図（a）の日本語の高速再生（３倍速）においては，
声の高さの変化であるPtの寄与率をやや高め（a=0.75，
べたとおりであるが，それぞれの好ましい重み付けを主
b=0.25）に設定することが聞き取りに好ましいという結
観評価実験によって調べた。すなわち，高速音声の聞き
果になった。一方，２倍速については特筆すべき傾向が
取りやすさを目的として，PtとPoの好ましい寄与率を
見られなかった。実験後の内観調査＊９によると，２倍
実験的に調べた。
速では，従来法でも内容が十分に聞き取れてしまったと
３．
１　日本語への適応について
いうことであった。以上から，日本語の高速音声再生ア
実験に用いた音声は，視覚障害者用の録音図書から１
ルゴリズムでは，Ptの寄与率を高めた上記の値を適用す
編，一般向けオーディオブックから小説を２編，NHK
ることとした。
ニュースから２編の，計５編から作成した。合成波形の
３．２　外国語への適応について
寄与率は，Ptの寄与率を100%（Po：0%）
，75%（Po：
日本語以外へのアルゴリズムの適応可能性を調べるこ
25%），50%（Po：50%），25%（Po：75%），0%（Po：
とを目的として，フランス語，ドイツ語，英語を対象に
b
100%）の５種類とした。これらの寄与率を
（1）式のa，
予備的な実験を実施した。このうち，フランス語による
にそれぞれ代入することにより，指標Pが算出される。
実験結果を３図（b）に示す。実験方法は前節の日本語
各実験音声は，上記の５編の実験音声中の異なる部分か
の場合と同様であり，被験者は20歳代のフランス語を母
ら５箇所を選択し，１種類の寄与率の組み合わせ当たり
語とする２名である。実験音声には，語学教材の朗読
話者の異なる５種類の音声が網羅されるようにした。１
音声とニュース番組を用いた。PtとPoの寄与率につい
つの実験音声はいずれも30秒程度である。再生速度は，
ては，日本語で低評価だった各パラメータの両端を除外
多くの視覚障害者が頻繁に利用している２倍速と，今回
して，Ptの寄与率を90%（Po：10%），70%（Po：30%）
，
の目的である３倍速の２種類とした。
50%（Po：50%），30%（Po：75%），10%（Po：90%）
実験は，従来法と提案法の一対比較で，従来法と比較
の５種類とした。１個の評価点の評価回数は10回である。
した場合の提案法の聞き取りやすさを５段階（１．非常
３図（b）のフランス語の高速再生においては，寄与
に聞きづらい，
２．聞きづらい，
３．どちらともいえない，
率均等（a=0.5，b=0.5）が好ましいという結果になった。
４．聞き取りやすい，５．非常に聞き取りやすい）で評
価した。被験者は２．４節の実験と同じ大学生５名であ
＊９実験の際の回答の根拠や感想を評価者に問う調査方法。
NHK技研 R&D/No.154/2015.11
25
ドイツ語と英語については，１個の評価点の評価回数が
４回と少なかったため，参考としての結果ではあるが，
いずれもPoの寄与率を高め（a=0.3，b=0.7）に設定する
ことが好ましいという結果になった。実験条件が異なる
ので単純な比較はできないが，これは日本語における好
ましい寄与率とは全く逆の傾向である。この結果は，本
アルゴリズムを，外国語を含む多様な発話へ適応させる
場合に，寄与率の調整という簡便な方法で適応化ができ
る可能性を示唆している。
４．日本語の高速話速変換音声の聴取実験
４図　実験で使用したワイヤレス式押しボタン回答器
今回開発した高速話速変換方式による高速音声の聞
き取りやすさについて，視覚障害者を被験者として評価
予備実験で指摘されたためである。実際の日本語能力
実験を実施した。聞き取りやすさの評価にはさまざまな
試験は四者択一方式であるが，今回の実験では「分から
観点があるが，本実験では視覚障害者の日常の用途に照
ない」という回答も認めた。被験者は26名で，無作為に
らして，単語レベルの正確な聞き取りではなく，話の内
13名ずつの２グループに分けて別々に実験を進めた。内
容がどの程度正しく把握できたかを指標に有効性を調
容はいずれも同じだが，１グループ目で従来法によって
査した。
変換した問題は２グループ目では提案法によって変換
４．
１　実験音声
し，手法間で評価回数や評価者に偏りがないように考慮
本実験では，外国人向けの日本語能力試験７）の聴解問
した。
題の音声を用いた。１人の話者による演説調の音声もし
各被験者には，録音図書再生器やスクリーンリーダー
くは２人の話者による会話音声を20秒間ほど聞いた後
（PC上にあるテキスト情報を音声合成で読み上げるソフ
に，内容について正しく説明されている音声を四者択一
トウエア）の利用状況について事前にアンケート調査を
で選択するものである。難易度を確認するために日本人
実施し，日常的に高速再生機能を利用していると回答し
大学生４名で予備試験を行ったところ，全員がほぼ満点
た26名を選んだ。年齢層は40 ～ 60歳代で，障害歴は考
であった。実験は，リスニングの対象部分を種々の話速
慮しなかった。
で高速再生する以外は，実際の試験と同じ手続きで実施
４．３　実験結果と考察
した。再生倍率は２倍速から５倍速までに設定し，従来
従来法と提案法の再生倍率ごとの正解率の結果を５図
法と提案法で音声全体の長さが同じになるように，それ
に示す。提案法のスコアは，２倍速から５倍速の全ての
ぞれ話速を変換した。１つの話速当たり従来法で３問，
倍率で従来法を上回った。破線は，それぞれの方式で
提案法で３問の計６問を用意した。提案法の実験音声
「分からない（聞き取れない）」と回答された割合である。
は，３．１節の実験で求めたPtとPoの最適な寄与率であ
これも従来法に比べて提案法はその割合が低く，特に高
るa=0.75とb=0.25を適用して作成した。従来法の一様伸
速再生でその差が広がる結果となった。この結果から，
縮による変換音声は，倍率を提案法と同じ倍率に固定し
３倍速を従来法に比べて聞き取りやすくするという目標
て作成した。
については達成したと言うことができる。
４．
２　実験方法
提案法に関して，実験後に各被験者に聞き取り調査を
実験は，福祉施設内の一般的な会議室で，スピーカー
実施したところ，
「キーワードが聞き取れなくて不正解
提示により一斉に実施した。音声の明瞭度については，
だったが，話の概要は十分聞き取ることができた」とい
事前の練習セッションで問題がないことを被験者全員に
う声が多く聞かれた。今回の評価には反映できなかった
確認した。実験は日本語能力試験と同じ手続きで行なっ
が，これは，斜め読みの代替手段としても目的にかなっ
たが，被験者が視覚障害者であるため，解答用紙の代わ
ており，その評価には，斜め読みの状況を反映できる別
りに別途用意したワイヤレス式の押しボタン回答器を用
の評価方法が必要である。内観調査においても，「従来
いた（４図）。挙手を用いなかったのは，手を動かす際
法では全く聞き取れなかったものが，少なくとも何の話
のきぬ擦れ音が，周りの人の回答に影響を及ぼすことが
くらいは分かった」という声が聞かれ，その観点では，
26
NHK技研 R&D/No.154/2015.11
報告
01
100
提案法
従来法
分からない
（従来法）
分からない
（提案法）
80
正解率︵％︶
60
40
20
0
2
3
4
5
再生倍率（倍）
５図　日本語の高速話速変換音声の聴取実験における提案法と従来法の正解率の比較
５倍速の「分からない」が従来法で80%近くに及ぶのに
比べて，提案法では僅か30%程度にとどまっている。
以上の結果から，同じ再生速度では聞き取りやすさが
改善していると捉えることができ，さらに，より高速な
音声の聞き取りの可能性も示すことができたと考えてい
る。今後は，より大胆な情報の取捨選択を含め，高速再
生に何を求めるかという観点，
つまり「どう聞きたいか」
に応えるアルゴリズムの最適化を進める必要がある。今
回は音響情報のみを指標にしたが，言語解析情報の利
用による情報量の削減方法もこれまでに提案されてお
り１）８），今後は，より効率的な音声情報聴取を目指して，
６図　評価実験の様子
両者の利点を兼ね備えた方法についても検討を進める予
定である。
には，提案法と従来法の提示順序が同数となるように，
５．本アルゴリズムの英語への適応可能性を
調べるための実験
San Diego Center for the Blind（California, USA）の
手法間で評価回数や評価者に偏りがないように考慮し
た。提案法の実験音声は，３．２節の予備実験で求めた
PtとPoの最適な寄与率であるa=0.3とb=0.7を適用して
作成した。従来法の一様伸縮による変換音声は，倍率を
協力を得て，英語を母語とする視覚障害者を対象に，本
提案法と同じ倍率に固定して作成した。
高速話速変換技術の英語への適応可能性を調べるため
５．２　実験方法
に，従来法と提案法の聞こえの好ましさを比較する実験
実験は，視覚障害者施設内の多目的スペースで，ス
を行った。
ピーカー提示により一斉に実施した。音声の明瞭度につ
５．
１　実験音声
いては，事前の練習セッションで問題がないことを全員
本実験で用いた音声は，ABC News，TOEFL，NHK
に確認した。ペアの音声を提示した直後に，先に提示し
World News，視覚障害者向け録音図書（英語）の４種
た音声と，後で提示した音声のどちらが聞き取りやすい
類の音声から作成した。英語では日本語よりも高速に再
かを口頭で質問し，挙手で回答してもらった。集計は実
生して聞いている人が多いという情報を得たため，実験
験補助者が目視で行った。現地での実験の様子を６図に
での倍率設定は４倍速までとした。実験音声の種類は，
示す。
２倍速が５種類，３倍速が５種類，４倍速が２種類の計
被験者は，San Diego Center for the Blindに所属する
12種類である。聞こえの好ましさを比較する音声のペア
視覚障害者11名（50歳代：３名，60歳代：６名，70歳代：
については，全てのペア同士を異なる発話内容（各ペア
２名）で，全員が英語のネイティブスピーカーである。
内は同一の発話内容）で構成し，実験音声を提示する際
障害歴は特に考慮しなかった。また，各被験者が普段か
NHK技研 R&D/No.154/2015.11
27
100
従来法
提案法
分からない
選択率︵％︶
50
0
2
3
4
再生倍率（倍）
７図　英語において従来法と提案法の聞こえの好ましさを比較する実験の結果
ら録音図書の高速再生音声を耳にしているかどうかは不
話速変換を施すことで，３倍速再生における内容の聞き
明である。
取りやすさが，従来法に比べて大きく改善されることを
５．
３　実験結果と考察
確認した。また，３倍速よりも更に高速な音声の聞き取
実験結果を７図に示す。各倍率で，従来法と提案法の
りについても，今後の可能性が示唆された。さらに，基
いずれかが「好ましい」と選択された割合を示したもの
本周波数とパワーの特徴の寄与率を適宜調整すること
である。これによると，４倍速では無回答が増えたもの
で，日本語だけでなく，外国語にも適用できることを示
の，３倍速までは提案法が圧倒的に高い評価を得たこと
した。今後は，マルチメディアコンテンツの多様な楽し
が分かる。実験後の内観調査においても提案法は総じて
み方の一つとして，実用化に向けた検討を進めていく。
好評であったが，ネガティブな感想としては，
「休止区
謝辞　実務担当としてご尽力いただいた（一社）映像
間が短いのではないか」
，
「単語の意味を取り違えるよう
情報メディア学会（当時，
（財）NHKエンジニアリング
な音声の一部欠落があった」など，情報を落とした部分
サービス）の岩鼻幸男氏，同じく，
（一財）NHKエンジ
に関するコメントがあった。発言者に確認したところ，
ニアリングシステムの田澤直幸氏，研究を進める上で多
いずれも高速に音声を聞くという目的に照らしては特に
くのアドバイスをいただいた東京大学高齢者研究機構
問題はないとのことであった。
（当時，東京大学先端科学技術センター）特任教授の田
以上から，英語への適用についても一定の有効性が確
中敏明氏，同じく，東京大学名誉教授の伊福部達氏に深
認された。実用化に向けては，英語の特徴をより生かせ
くお礼申し上げる。また，本報告の一部は，情報通信研
るように，ネイティブスピーカーを交えた詳細なアルゴ
究機構（NICT）の助成事業の成果に基づくものである。
リズムの調整が必要である。
本稿は，映像情報メディア学会誌に掲載された以下の論文を元に
６．むすび
効率的な音声の聴取を目的として，高速再生音声が聞
き取りやすい話速変換方式を提案した。高速再生時に，
基本周波数とパワーのそれぞれの変化の特徴を加味した
28
NHK技研 R&D/No.154/2015.11
加筆・修正したものである。
今井，田澤，岩鼻，都木，清山，田中，伊福部：
“韻律に寄与す
る音響特徴量を用いた聞きやすい高速話速変換技術，
”映情学誌，
Vol.66，No.7，pp.214-220（2012）
報告
参考文献
01
１）
浅川，高木，井野，伊福部：
“視覚障害者への音声提示における最適・最高速度，
”ヒューマンインターフェー
ス学会論文誌，Vol.7，No.1，pp.105-111（2005）
２）
杉原：
“音声表現に見る共通語の韻律理論，
”放送研究と調査，Vol.61，No.4，pp.76-90（2011）
３）
今井，池沢，清山，中村，都木，宮坂，中林：
“ニュース音声を対象にした時間遅れを蓄積しない適応型話
速変換方式，
”信学誌，J83-A，8，pp.935-945（2000）
４）
都木，服部，小宮，今井，岸，伊藤：
“韻律の視覚化及び矯正音声を用いた中国語学習システム，
”信学誌，
J88-D-Ⅱ，2，pp.478-487（2005）
５）
古井：ディジタル音声処理，東海大学出版会，p.18（1992）
６）
L. L. Elliot：“Backward Masking：Monotic and Dichotic Conditions，”J. Acoust. Soc. Am.，34[8]，
pp.1108-1115（1962）
７）
（財）日本国際教育支援協会・
（独）国際交流基金：
“The Japanese Language Proficiency Test，
”
（2004-2009）
８）
鳥原：
“
「ななめ聞き」システム – 統語情報を用いた，視覚障害者のための「速聞き」システム – ，
”信学技報，
第５回福祉情報工学研究会（2000）
いまいあつし
せいやまのぶまさ
今井篤
清山信正
1989年入局。名古屋放送局を経て，1992年か
ら放送技術研究所において，話速変換技術，音
声知覚，音声合成，音響認知科学，視覚障害者
向けバリアフリー技術の研究に従事。2008年
から2010年まで（財）NHKエンジニアリング
サービスに出向。現在，ヒューマンインター
フェース研究部上級研究員。博士（工学）
。
1989年入局。同年から放送技術研究所におい
て，話速変換，声質変換，音声合成，高齢者
向け音声信号処理の研究に従事。2007年から
2009年まで（財）NHKエンジニアリングサー
ビスに出向。現在，ヒューマンインターフェー
ス研究部上級研究員。
たかぎ
とおる
都木　徹
1981年入局。長野放送局を経て，1984年から
放送技術研究所において，声質変換方式，音声
知覚，話速変換，字幕番組制作等の研究に従事。
2001年から2003年まで，通信・放送機構「視
覚障害者向け放送ソフト制作研究開発」
サブリー
ダー兼務。現在，
（一財）NHKエンジニアリン
グシステム先端開発研究部部長。博士（工学）
。
NHK技研 R&D/No.154/2015.11
29

韻律に寄与する音響特徴量を用いて 高速再生音声の聞き取りやすさを

Comments

Description

Transcript

韻律に寄与する音響特徴量を用いて高速再生音声の聞き取りやすさを