自然な音声合成実現に向けた音響的特徴の分析

by user

on 28 марта 2017

Category: Documents

>> Downloads: 9

views

Report

Comments

Description

Download 自然な音声合成実現に向けた音響的特徴の分析

Transcript

自然な音声合成実現に向けた音響的特徴の分析

日本工業大学研究報告　第 46巻　第 1号　（平成 28年6月）
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
修士論文概要
自然な音声合成実現に向けた音響的特徴の分析†
吉田幸平＊
（2016 年 03 月 17 日受理）
Analyses of Acoustic Features for Realizing the Natural Speech Synthesis
Kohei Yoshida
(Received March 17,2016)
1
である．本節では，上述の特徴量の抽出方法及び本研究
はじめに
で用いたパラメータの詳細について述べる．
近年，合成音声は多くの場所で使用されているが，そ
フォルマント以外の特徴量の分析は音響的な特徴のた
れはどれもいかにも合成した音声である．音声分析合成
め周波数分解能をよくしたい．よって窓長は 256ms で
ソフトウェア STRAIGHT[1]では違和感なく自然なピッ
分析を行った．
フレームシフトは分析結果を STRAIGHT
チの変化が可能であるが，合成の元となった音声と聞き
に反映させることを考え，STRAIGHT と同様に 1ms と
比べると違いがあるように感じる．
した．インテンシティとスペクトルコントラストに関し
そこで，本研究では個人性を保持した自然な音声合成
てはサブバンドのパワースペクトルの分割にオクターブ
の実現に向けて，収録音声と STRAIGHT による合成音
スケールバンドを用い，詳細に分析するため 8 分割(n=8)
声の聞こえの違いに関係する特徴量を調査した．まず，
にした．分割にはサンプリング周波数 fs を 16kHz とし
音声から個人性を知覚するための特徴量の一つと言われ
以下の式を用いた．
ォルマントシフトを考慮した合成音声が自然な発話に感
 fs   fs fs 
 fs fs 
0, 2 n ,  2 n , 2 n 1 , ,  2 2 , 21 





じるかの主観評価を行った．次に，同じ話者により発話
よってサブバンドは 0～62.5Hz，62.5～125Hz，125～
された同じ文音声であっても，発話したピッチが異なる
250Hz，250～500Hz，500～1000Hz，1～2kHz，2～4kHz，
ことで別人として知覚されることがある．そして，別人
4～8kHz となる．
ているフォルマントとピッチの関係について調査し，フ
以降の式で X(t , f)はパワースペクトル，t はフレーム番
と判断した要因としてトーンの違いが挙げられている．
そこで，同一人物か別人かの弁別に関係するトーンの違
号，f は周波数を表す．
いを生じさせる音響的特徴量を INDSCAL(INDividual
2.1
Differences SCALing)分析[2]により調査した．
2
フォルマント
フォルマントは声道の共鳴特性のことで，主に第一，
第二フォルマントは母音の構成，第三から第五フォルマ
音響的特徴量
ントまでは個人性に関わると言われている．本研究では
音声分析用のフリーソフトウェア Praat の「Formant
本研究で調査対象とする音響的特徴は，音声から個人
性を知覚するための特徴量の一つと言われているフォル
listing」を用いてフォルマントを抽出した．
マント，音の高さを表す基本周波数，また，文献[3]を参
2.2
基本周波数
考に音量に関する特徴量であるインテンシティ，音色に
基本周波数は音の高さを表す特徴量で， Praat の
関する特徴量であるスペクトル重心，スペクトルロール
「Analyse periodicity」より「To Pitch」を用いて基本
オフ，スペクトルフラックス，スペクトルコントラスト
周波数を抽出した．
「To Pitch」の分析窓長は，抽出する
最低ピッチによって決まる．分析窓長を 256ms とする
ため，抽出する最低ピッチは 2.9296875Hz とした．
________________________________ ________________________________ ________________________________ ________________________________ ___________
†
＊
本研究の一部は，2015 年 3 月 17 日日本音響学会春季研
発表会，2015 年 9 月 18 日日本音響学会秋季研究発表会
において発表した
電子情報メディア工学専攻 2148014 神野研究室
2.3
スペクトル重心
スペクトル重心 fc(t)は，音の明るさに関する特徴量で
129
日本工業大学研究報告　第 46巻　第 1号　（平成 28年6月）
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
ある．明るい音はスペクトル重心が高くなり暗い音はス
数点数を表しており，k は 0 から始まる j 番目のサブバン
ペクトル重心が低くなる．スペクトル重心は以下の式で
ドに含まれる系列の要素番号を表す．α はサブバンドに
求まる．
含まれるサブバンドピークとサブバンドバレーの割合を
表している．文献[4]において α を 0.02 から 0.2 まで値を
 X t, f   f
fc t  
 X t, f 
fs / 2
f 0
変更しても分析性能に差がないと述べているため，文献[3]
fs / 2
f 0
2.4
と同様の α=0.2 とした．
スペクトルロールオフ
3
スペクトルロールオフ fｒは，スペクトルの形状に関す
ピッチ変化に伴うフォルマントシフトの
分析
る特徴量である．高次の倍音成分を多く含んでいると値
が大きくなり，逆に高次の倍音成分が少ないものは値が
まず，合成音声と収録音声では，音声の個人性の弁別
小さくなる．数値的にはスペクトル分布の全帯域の 95％
に違いがあると考え，音声の個人性知覚に関係するフォ
を占める周波数のことで，以下の式で求まる．
ルマントの違いを調査した．その結果をもとにフォルマ
fr
fs / 2
ントシフトを考慮した音声合成を行った．また，この合
f 0
f 0
成手法で作成した文音声について自然な発話と感じるか
 X t , f   0.95   X t , f 
2.5
スペクトルフラックス
主観評価を行った[5]．
3.1
スペクトルフラックス F は音の変動に関する特徴量で
ある．スペクトルフラックスが大きいと変動の大きい音
収録した音声は，日本語の母音 5 種類/a/,/i/,/u/,/e/,/o/
を表す．以下の式で求まる．
F
を A#2 の高さから A#3 の高さまで平均律の半音刻みの
ピッチで発話させた計 65 種類である．ただし，A4 を
fs / 2
2
  X t , f   X t  1, f 
440Hz とする．収録条件はサンプリング周波数 16kHz，
f 0
2.6
音声の収録
量子化ビット数 16bit とした．各ピッチの音声の収録時
間は 1 秒であるが，収録開始前から発話させ，ピッチが
インテンシティ
インテンシティは音量に関する特徴量である．パワー
安定した時点から収録を開始した．よって 1 秒の音声に
の強い周波数成分を含んでいるサブバンドの値が大きく
おいてピッチに変動は小さいと考えられる．話者は，成
なる．フレーム全体の音量 I(t)と，フレームを分割した
人男性 3 名である．
各サブバンドの音量の比 Dj(t)で以下の式で求まる．
3.2
I t  
 X t, f 
した音声の第一フォルマント及び第二フォルマントを示
f 0
D j t  
1
I t 
収録音声のフォルマント
Fig. 1 に話者 1 名が母音/o/を 13 種類のピッチで発話
fs / 2
す．Fig. 1 の横軸はフレーム番号であり，左端から順に
Hj
 X t , f 
A#2，B2，…となり右端が A#3 のピッチに対応している．
f Lj
Fig. 1 より，ピッチの上昇に伴って第一，第二フォルマ
ここで，j をサブバンド番号とし，Lj はサブバンドの下限
ントともに上昇していることがわかる．他の母音及び他
の周波数，Hj はサブバンドの上限の周波数を表す．
の 2 人の話者についても同様の傾向が得られた．
2.7
3.3
スペクトルコントラスト
フォルマントシフトを考慮せず合成した音声
スペクトルコントラスト Cj は声の明瞭性に関する特徴
STRAIGHT を用いて，基本周波数のみを操作するこ
量である．声がはっきりとしているとスペクトルコント
とでピッチを変化させた音声を合成し，フォルマント周
ラストが高くなる．スペクトルコントラストはサブバン
波数が変化するか調査した．調査に用いた音声は，話者
ドピーク Pj とサブバンドバレーVj の比により求まる．サ
が発話できた音声のうち最も低いピッチ A#2 の音声を基
ブバンドピークとサブバンドバレーは j 番目のサブバン
準として，STRAIGHT により平均律の半音ずつピッチ
ド含まれるパワースペクトルの大きさに関して降順に並
を変化させ 1 オクターブ分の音声を合成した．合成した
び替えた系列 X’を用い，それぞれ以下の式で求まる．
音声のうち母音/o/を Praat で分析した結果を Fig. 2 に示
1
Pj  log
N
V j  log
N
 X'
k 1
す．Fig. 1 と比較すると，STRAIGHT で合成した音声
j ,k
はフォルマントがほぼ変化しなかった．
N
3.4
1
 X ' j, N k 1
N k 1
フォルマントシフトを考慮した合成方法
ピッチ変化に伴うフォルマントシフトは，STRAIGHT
C j  Pj  V j
により抽出されるストレイトスペクトル(n3sgram)と非
ここで，N は j 番目のサブバンドに含まれる離散周波
する．本研究では個人性知覚に関連するといわれている
周期性指標(ap)を周波数軸方向へ伸縮させることで実現
130
日本工業大学研究報告　第 46巻　第 1号　（平成 28年6月）
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
判断した要因として，被験者からはトーンの違いなどが
挙げられた[6]．この回答について，より具体的に同一人
物か別人かの弁別に重要な音響的特徴を調査するため主
観評価を行った．
4.1
刺激音
音声の収録条件はすべて量子化ビット数 16bit，サン
Fig. 1 収録音声の/o/の第一，第二フォルマント
プリング周波数 16kHz，A 特性で収録した．使用した文
は，ATR 音素バランス 503 文の C セット[7]の 5 番目の
文「あの坂を上れば海が見える」である．
本実験では成人男性 4 名の音声を収録した．時間的ピ
ッチ変動のある文音声を用いて実験を行うと同一人物か
別人かの弁別の要因に音響的特徴以外の判断基準が生じ
る可能性があるため，各話者には時間的なピッチ変動を
Fig. 2 STRAIGHT によるピッチ変化音声/o/の第一，
消して一定のピッチで発話させる必要がある．そこでま
ず，男性 1 名が普通に発話した音声をもとに，STRAIGHT
第二フォルマント
により一定のピッチで発話した音声を作成する．そして，
作成した音声のピッチを平均律の半音刻みで変化させた．
話者 4 名にはこの合成音声を聴取させ，ピッチが一定の
合成音声の発話を再現させた．ピッチの範囲は，4 名の
話者が共通して発話できた範囲としたため，A#2 から
A3 までの高さの 12 種類のピッチが得られた．また，各
Fig. 3 フォルマントシフトを考慮した合成音声/o/の第一，
話者の収録音声の最低ピッチの音声をもとに，収録音声
第二フォルマント
と同じ範囲でピッチを変化させた合成音声も用意した．
結果として，収録音声は話者 4 人に対して 12 種類のピ
第四フォルマントまでを伸縮させた．ただし，第三，第
ッチ，合成音声は基準にした音声 4 つに対して 12 種類
四フォルマントは第一，第二フォルマントのように安定
のピッチとなり，刺激音は合計で 96 種類になった．
して抽出できないため，変化のパターンを特定できない．
4.2
実験方法
被験者には 2 つの音声を聴取させ，それらの音声の話
そのため，第一から第四フォルマントはストレイトスペ
者が同一人物であるか別人であるかを 7 段階で評価させ
クトルをもとに目視で求めた．
最も低いピッチの音声 A#2 を基準として，
STRAIGHT
た．聴取させる音声の組み合わせは，同じ話者の収録音
によりフォルマントシフトも考慮し平均律で半音ずつピ
声同士，
合成音声同士，及び収録音声と合成音声とした．
ッチを変化させ 1 オクターブ分の音声を合成した．合成
被験者は男子大学生 20 名である．話者 4 人に対してこ
した音声のうち母音/o/を Praat で分析した結果を Fig. 3
の実験を行うと主観評価にかかる時間が現実的ではない
に示す．フォルマントシフトを考慮せず STRAIGHT で
ので，被験者を 2 グループに分け話者 2 人ずつに対して
合成した音声とは異なり，フォルマントシフトを考慮し
の評価をさせた．実験結果の信頼性のため全く同じ音声
た合成音声は Fig. 1 と同様にピッチの上昇に伴って第一，
の対の回答が「同一人物の発話に聞こえる」
「似ている人
第二フォルマントともに上昇した．しかし，フォルマン
の発話に感じる」
「やや似ている人の発話に感じる」を選
トシフトを考慮せず合成した音声とフォルマントシフト
んでない被験者に関しては集計から排除した．
を考慮した合成方法のそれぞれで作成した文音声につい
4.3
結果
てどちらが自然な発話に感じるかの評価をしたところ，
主観評価にて全く同じ音声の対の回答が「同一人物の
フォルマントシフトだけでは合成音声の自然さを収録音
発話に聞こえる」「似ている人の発話に感じる」
「やや似
声に近づけることはできなかった．
ている人の発話に感じる」を選んでない被験者が 1 つ目
4
のグループ(話者 A，B からなるグループ A)に 4 人，2
多次元尺度法を用いた収録音声と合成音声
における類似度の検討
つ目のグループ(話者 C，D からなるグループ B)に 2 人
いたため，この 6 人の評価は以降の分析に含まないもの
文音声に対する平均ピッチを半音刻みで変化させた同
とする．
一人物の音声を連続で聴取させたとき，ある半音数だけ
各グループごとに主観評価の評価値を用いて多次元尺
声の高さが変化したところで別人と知覚された．別人と
度法の一つである INDSCAL 分析を，プログラムソフト
131
日本工業大学研究報告　第 46巻　第 1号　（平成 28年6月）
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
R の smacof パッケージを用いて行った．INDSCAL は
Table 1 INDSCAL 分析により得られた二次元平面の
個人差に着目した多次元尺度法で，複数の類似度に関す
各軸と音響的特徴との相関
るデータからパターンや構造を探るものであり，その構
造をできるだけ最小の次元の空間に配置する．
本研究では二次元の平面が得られ，平面の各軸の座標
と相関の高い音響的特徴を相関係数により求める．本研
究では，2 節で挙げた音響的特徴との関係を探るがフォ
ルマントについては 3 節で述べた通り，基本周波数との
相関が高いため除外する．INDSCAL 分析により得られ
た各話者に対する平面の各軸の座標と各音響的特徴との
相関係数を Table 1 に示す．太字は各話者の各軸と最も
相関が高い値を示している．第一軸に対しては全話者に
共通して基本周波数が最も高い相関値を示した．このこ
とは，異なるピッチの 2 つの音声を聞き比べたときに，
別人と知覚されやすくなることを示している．ここで，
Fig. 4 同一ピッチの収録音声と合成音声を聞き比べた
Fig. 4 に同一ピッチの収録音声と合成音声を聞き比べた
全話者に対する評価値のヒストグラム
ときの評価値のヒストグラムを示す．凡例の数値は評価
値であり，縦軸は各評価をつけた人数，横軸はピッチで
ある．この図より，同一ピッチの音声であっても，ピッ
チの高い収録音声と合成音声を聞き比べると別人と知覚
されやすくなることがわかる．つまり，同一ピッチの収
録音声と合成音声を聞き比べた場合，同一人物か別人か
Fig. 5 収録音声と合成音声のスペクトルロールオフの差
の弁別に基本周波数以外の要因が関係している．そこで，
Table 1 の第二軸と相関の高いスペクトルロールオフに
参考文献
注目する．Fig. 5 に 4 人の話者の同一ピッチの収録音声
[1]
と合成音声のスペクトルロールオフの差を示す．この図
Hideki Kawahara,“Restructuring speech representations using
より，ピッチの上昇とともにスペクトルロールオフの差
a pitch adaptive time-frequency smoothing and an
が大きくなっていることがわかる．つまり，同一ピッチ
instantaneous –frequency-based F0 extraction: Possible role of
の収録音声と合成音声を聞き比べたときに，ピッチが高
a repetitive structure in sounds”,Speech communication,27,
くなるとともに別人と知覚されやすくなる要因としてス
pp.187-207,1999
[2]
ペクトルロールオフが関係すると考えられる．
5
亀川ら,“三味線の皮の素材の違いによる音響特徴の比較 ”,
音楽音響研究会資料 ,pp.19-24,2015.9
結論
[3]
平賀ら,“主観評価に基づく楽曲間類似度算出モデル ”,情報
処理学会研究報告 ,pp.1-6,2009.7
本研究では，自然な合成音声の実現に向けて収録音声
[4]
と合成音声についてフォルマント及び聞こえの違いに関
Dan-Ning Jiang,“MUSIC TYPE CLASSIFICATION BY
SPECTRAL CONTRAST FEATURE”,IEEE,pp.113-116,2002
係する音響的特徴量を調査した．フォルマントは，収録
[5]
音声の場合ピッチの上昇に伴って上昇するが，
STRAIGHT で合成した音声は上昇しなかった．また，
吉田ら,“ピッチ変化に伴うフォルマントシフトを考慮した
音声合成 ”,音講論（春）,pp.373-376,2015.3
[6]
フォルマントに関して収録音声の特徴を再現した合成音
吉田ら,“収録音声と合成音声における話者特定可能な基本
周波数シフトの範囲 ”,音講論（秋）,pp.343-344,2015.9
声を作成したが，フォルマントシフトだけでは，自然さ
[7]
は収録音声に近づかなかった．
磯ら,“音声データベース用文セットの設計 ”,音講論
（春）,pp.89-90, 1988.3
同じ話者の発話した文音声が，ある半音数だけ声の高
さが変化したところで別人と知覚される要因について調
査したところ，収録音声と合成音声の個人性の違いに関
指導教授
する音響的特徴の一つはスペクトルロールオフであるこ
とが明らかとなった．今後，収録音声のスペクトルロー
ルオフを保持した合成音声を作成し，収録音声の個人性
を保持できているかを主観評価により明らかにしたい．
132
審査委員（主査）教授
神野
審査委員（副査）教授
吉野
審査委員（副査）准教授木許
健哉
秀明
雅則