...

自然な音声合成実現に向けた音響的特徴の分析

by user

on
Category: Documents
63

views

Report

Comments

Transcript

自然な音声合成実現に向けた音響的特徴の分析
日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月)
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
修士論文概要
自然な音声合成実現に向けた音響的特徴の分析†
吉田 幸平*
(2016 年 03 月 17 日受理)
Analyses of Acoustic Features for Realizing the Natural Speech Synthesis
Kohei Yoshida
(Received March 17,2016)
1
である.本節では,上述の特徴量の抽出方法及び本研究
はじめに
で用いたパラメータの詳細について述べる.
近年,合成音声は多くの場所で使用されているが,そ
フォルマント以外の特徴量の分析は音響的な特徴のた
れはどれもいかにも合成した音声である.音声分析合成
め周波数分解能をよくしたい.よって窓長は 256ms で
ソフトウェア STRAIGHT[1]では違和感なく自然なピッ
分析を行った.
フレームシフトは分析結果を STRAIGHT
チの変化が可能であるが,合成の元となった音声と聞き
に反映させることを考え,STRAIGHT と同様に 1ms と
比べると違いがあるように感じる.
した.インテンシティとスペクトルコントラストに関し
そこで,本研究では個人性を保持した自然な音声合成
てはサブバンドのパワースペクトルの分割にオクターブ
の実現に向けて,収録音声と STRAIGHT による合成音
スケールバンドを用い,詳細に分析するため 8 分割(n=8)
声の聞こえの違いに関係する特徴量を調査した.まず,
にした.分割にはサンプリング周波数 fs を 16kHz とし
音声から個人性を知覚するための特徴量の一つと言われ
以下の式を用いた.
ォルマントシフトを考慮した合成音声が自然な発話に感
 fs   fs fs 
 fs fs 
0, 2 n ,  2 n , 2 n 1 , ,  2 2 , 21 





じるかの主観評価を行った.次に,同じ話者により発話
よってサブバンドは 0~62.5Hz,62.5~125Hz,125~
された同じ文音声であっても,発話したピッチが異なる
250Hz,250~500Hz,500~1000Hz,1~2kHz,2~4kHz,
ことで別人として知覚されることがある.そして,別人
4~8kHz となる.
ているフォルマントとピッチの関係について調査し,フ
以降の式で X(t , f)はパワースペクトル,t はフレーム番
と判断した要因としてトーンの違いが挙げられている.
そこで,同一人物か別人かの弁別に関係するトーンの違
号,f は周波数を表す.
いを生じさせる音響的特徴量を INDSCAL(INDividual
2.1
Differences SCALing)分析[2]により調査した.
2
フォルマント
フォルマントは声道の共鳴特性のことで,主に第一,
第二フォルマントは母音の構成,第三から第五フォルマ
音響的特徴量
ントまでは個人性に関わると言われている.本研究では
音声分析用のフリーソフトウェア Praat の「Formant
本研究で調査対象とする音響的特徴は,音声から個人
性を知覚するための特徴量の一つと言われているフォル
listing」を用いてフォルマントを抽出した.
マント,音の高さを表す基本周波数,また,文献[3]を参
2.2
基本周波数
考に音量に関する特徴量であるインテンシティ,音色に
基 本周波 数は音 の高さ を表す 特徴 量で , Praat の
関する特徴量であるスペクトル重心,スペクトルロール
「Analyse periodicity」より「To Pitch」を用いて基本
オフ,スペクトルフラックス,スペクトルコントラスト
周波数を抽出した.
「To Pitch」の分析窓長は,抽出する
最低ピッチによって決まる.分析窓長を 256ms とする
ため,抽出する最低ピッチは 2.9296875Hz とした.
________________________________ ________________________________ ________________________________ ________________________________ ___________
†
*
本研究の一部は ,2015 年 3 月 17 日 日本音響学会 春季研
発表会,2015 年 9 月 18 日 日本音響学会 秋季研究発表会
において発表した
電子情報メディア工学専攻 2148014 神野研究室
2.3
スペクトル重心
スペクトル重心 fc(t)は,音の明るさに関する特徴量で
129
日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月)
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
ある.明るい音はスペクトル重心が高くなり暗い音はス
数点数を表しており,k は 0 から始まる j 番目のサブバン
ペクトル重心が低くなる.スペクトル重心は以下の式で
ドに含まれる系列の要素番号を表す.α はサブバンドに
求まる.
含まれるサブバンドピークとサブバンドバレーの割合を
表している.文献[4]において α を 0.02 から 0.2 まで値を
 X t, f   f
fc t  
 X t, f 
fs / 2
f 0
変更しても分析性能に差がないと述べているため,文献[3]
fs / 2
f 0
2.4
と同様の α=0.2 とした.
スペクトルロールオフ
3
スペクトルロールオフ frは,スペクトルの形状に関す
ピッチ変化に伴うフォルマントシフトの
分析
る特徴量である.高次の倍音成分を多く含んでいると値
が大きくなり,逆に高次の倍音成分が少ないものは値が
まず,合成音声と収録音声では,音声の個人性の弁別
小さくなる.数値的にはスペクトル分布の全帯域の 95%
に違いがあると考え,音声の個人性知覚に関係するフォ
を占める周波数のことで,以下の式で求まる.
ルマントの違いを調査した.その結果をもとにフォルマ
fr
fs / 2
ントシフトを考慮した音声合成を行った.また,この合
f 0
f 0
成手法で作成した文音声について自然な発話と感じるか
 X t , f   0.95   X t , f 
2.5
スペクトルフラックス
主観評価を行った[5].
3.1
スペクトルフラックス F は音の変動に関する特徴量で
ある.スペクトルフラックスが大きいと変動の大きい音
収録した音声は,日本語の母音 5 種類/a/,/i/,/u/,/e/,/o/
を表す.以下の式で求まる.
F
を A#2 の高さから A#3 の高さまで平均律の半音刻みの
ピッチで発話させた計 65 種類である.ただし,A4 を
fs / 2
2
  X t , f   X t  1, f 
440Hz とする.収録条件はサンプリング周波数 16kHz,
f 0
2.6
音声の収録
量子化ビット数 16bit とした.各ピッチの音声の収録時
間は 1 秒であるが,収録開始前から発話させ,ピッチが
インテンシティ
インテンシティは音量に関する特徴量である.パワー
安定した時点から収録を開始した.よって 1 秒の音声に
の強い周波数成分を含んでいるサブバンドの値が大きく
おいてピッチに変動は小さいと考えられる.話者は,成
なる.フレーム全体の音量 I(t)と,フレームを分割した
人男性 3 名である.
各サブバンドの音量の比 Dj(t)で以下の式で求まる.
3.2
I t  
 X t, f 
した音声の第一フォルマント及び第二フォルマントを示
f 0
D j t  
1
I t 
収録音声のフォルマント
Fig. 1 に話者 1 名が母音/o/を 13 種類のピッチで発話
fs / 2
す.Fig. 1 の横軸はフレーム番号であり,左端から順に
Hj
 X t , f 
A#2,B2,…となり右端が A#3 のピッチに対応している.
f Lj
Fig. 1 より,ピッチの上昇に伴って第一,第二フォルマ
ここで,j をサブバンド番号とし,Lj はサブバンドの下限
ントともに上昇していることがわかる.他の母音及び他
の周波数,Hj はサブバンドの上限の周波数を表す.
の 2 人の話者についても同様の傾向が得られた.
2.7
3.3
スペクトルコントラスト
フォルマントシフトを考慮せず合成した音声
スペクトルコントラスト Cj は声の明瞭性に関する特徴
STRAIGHT を用いて,基本周波数のみを操作するこ
量である.声がはっきりとしているとスペクトルコント
とでピッチを変化させた音声を合成し,フォルマント周
ラストが高くなる.スペクトルコントラストはサブバン
波数が変化するか調査した.調査に用いた音声は,話者
ドピーク Pj とサブバンドバレーVj の比により求まる.サ
が発話できた音声のうち最も低いピッチ A#2 の音声を基
ブバンドピークとサブバンドバレーは j 番目のサブバン
準として,STRAIGHT により平均律の半音ずつピッチ
ド含まれるパワースペクトルの大きさに関して降順に並
を変化させ 1 オクターブ分の音声を合成した.合成した
び替えた系列 X’を用い,それぞれ以下の式で求まる.
音声のうち母音/o/を Praat で分析した結果を Fig. 2 に示
1
Pj  log
N
V j  log
N
 X'
k 1
す.Fig. 1 と比較すると,STRAIGHT で合成した音声
j ,k
はフォルマントがほぼ変化しなかった.
N
3.4
1
 X ' j, N k 1
N k 1
フォルマントシフトを考慮した合成方法
ピッチ変化に伴うフォルマントシフトは,STRAIGHT
C j  Pj  V j
により抽出されるストレイトスペクトル(n3sgram)と非
ここで,N は j 番目のサブバンドに含まれる離散周波
する.本研究では個人性知覚に関連するといわれている
周期性指標(ap)を周波数軸方向へ伸縮させることで実現
130
日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月)
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
判断した要因として,被験者からはトーンの違いなどが
挙げられた[6].この回答について,より具体的に同一人
物か別人かの弁別に重要な音響的特徴を調査するため主
観評価を行った.
4.1
刺激音
音声の収録条件はすべて量子化ビット数 16bit,サン
Fig. 1 収録音声の/o/の第一,第二フォルマント
プリング周波数 16kHz,A 特性で収録した.使用した文
は,ATR 音素バランス 503 文の C セット[7]の 5 番目の
文「あの坂を上れば海が見える」である.
本実験では成人男性 4 名の音声を収録した.時間的ピ
ッチ変動のある文音声を用いて実験を行うと同一人物か
別人かの弁別の要因に音響的特徴以外の判断基準が生じ
る可能性があるため,各話者には時間的なピッチ変動を
Fig. 2 STRAIGHT によるピッチ変化音声/o/の第一,
消して一定のピッチで発話させる必要がある.そこでま
ず,男性 1 名が普通に発話した音声をもとに,STRAIGHT
第二フォルマント
により一定のピッチで発話した音声を作成する.そして,
作成した音声のピッチを平均律の半音刻みで変化させた.
話者 4 名にはこの合成音声を聴取させ,ピッチが一定の
合成音声の発話を再現させた.ピッチの範囲は,4 名の
話者が共通して発話できた範囲としたため,A#2 から
A3 までの高さの 12 種類のピッチが得られた.また,各
Fig. 3 フォルマントシフトを考慮した合成音声/o/の第一,
話者の収録音声の最低ピッチの音声をもとに,収録音声
第二フォルマント
と同じ範囲でピッチを変化させた合成音声も用意した.
結果として,収録音声は話者 4 人に対して 12 種類のピ
第四フォルマントまでを伸縮させた.ただし,第三,第
ッチ,合成音声は基準にした音声 4 つに対して 12 種類
四フォルマントは第一,第二フォルマントのように安定
のピッチとなり,刺激音は合計で 96 種類になった.
して抽出できないため,変化のパターンを特定できない.
4.2
実験方法
被験者には 2 つの音声を聴取させ,それらの音声の話
そのため,第一から第四フォルマントはストレイトスペ
者が同一人物であるか別人であるかを 7 段階で評価させ
クトルをもとに目視で求めた.
最も低いピッチの音声 A#2 を基準として,
STRAIGHT
た.聴取させる音声の組み合わせは,同じ話者の収録音
によりフォルマントシフトも考慮し平均律で半音ずつピ
声同士,
合成音声同士,及び収録音声と合成音声とした.
ッチを変化させ 1 オクターブ分の音声を合成した.合成
被験者は男子大学生 20 名である.話者 4 人に対してこ
した音声のうち母音/o/を Praat で分析した結果を Fig. 3
の実験を行うと主観評価にかかる時間が現実的ではない
に示す.フォルマントシフトを考慮せず STRAIGHT で
ので,被験者を 2 グループに分け話者 2 人ずつに対して
合成した音声とは異なり,フォルマントシフトを考慮し
の評価をさせた.実験結果の信頼性のため全く同じ音声
た合成音声は Fig. 1 と同様にピッチの上昇に伴って第一,
の対の回答が「同一人物の発話に聞こえる」
「似ている人
第二フォルマントともに上昇した.しかし,フォルマン
の発話に感じる」
「やや似ている人の発話に感じる」を選
トシフトを考慮せず合成した音声とフォルマントシフト
んでない被験者に関しては集計から排除した.
を考慮した合成方法のそれぞれで作成した文音声につい
4.3
結果
てどちらが自然な発話に感じるかの評価をしたところ,
主観評価にて全く同じ音声の対の回答が「同一人物の
フォルマントシフトだけでは合成音声の自然さを収録音
発話に聞こえる」「似ている人の発話に感じる」
「やや似
声に近づけることはできなかった.
ている人の発話に感じる」を選んでない被験者が 1 つ目
4
のグループ(話者 A,B からなるグループ A)に 4 人,2
多次元尺度法を用いた収録音声と合成音声
における類似度の検討
つ目のグループ(話者 C,D からなるグループ B)に 2 人
いたため,この 6 人の評価は以降の分析に含まないもの
文音声に対する平均ピッチを半音刻みで変化させた同
とする.
一人物の音声を連続で聴取させたとき,ある半音数だけ
各グループごとに主観評価の評価値を用いて多次元尺
声の高さが変化したところで別人と知覚された.別人と
度法の一つである INDSCAL 分析を,プログラムソフト
131
日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月)
Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016)
R の smacof パッケージを用いて行った.INDSCAL は
Table 1 INDSCAL 分析により得られた二次元平面の
個人差に着目した多次元尺度法で,複数の類似度に関す
各軸と音響的特徴との相関
るデータからパターンや構造を探るものであり,その構
造をできるだけ最小の次元の空間に配置する.
本研究では二次元の平面が得られ,平面の各軸の座標
と相関の高い音響的特徴を相関係数により求める.本研
究では,2 節で挙げた音響的特徴との関係を探るがフォ
ルマントについては 3 節で述べた通り,基本周波数との
相関が高いため除外する.INDSCAL 分析により得られ
た各話者に対する平面の各軸の座標と各音響的特徴との
相関係数を Table 1 に示す.太字は各話者の各軸と最も
相関が高い値を示している.第一軸に対しては全話者に
共通して基本周波数が最も高い相関値を示した.このこ
とは,異なるピッチの 2 つの音声を聞き比べたときに,
別人と知覚されやすくなることを示している.ここで,
Fig. 4 同一ピッチの収録音声と合成音声を聞き比べた
Fig. 4 に同一ピッチの収録音声と合成音声を聞き比べた
全話者に対する評価値のヒストグラム
ときの評価値のヒストグラムを示す.凡例の数値は評価
値であり,縦軸は各評価をつけた人数,横軸はピッチで
ある.この図より,同一ピッチの音声であっても,ピッ
チの高い収録音声と合成音声を聞き比べると別人と知覚
されやすくなることがわかる.つまり,同一ピッチの収
録音声と合成音声を聞き比べた場合,同一人物か別人か
Fig. 5 収録音声と合成音声のスペクトルロールオフの差
の弁別に基本周波数以外の要因が関係している.そこで,
Table 1 の第二軸と相関の高いスペクトルロールオフに
参 考 文 献
注目する.Fig. 5 に 4 人の話者の同一ピッチの収録音声
[1]
と合成音声のスペクトルロールオフの差を示す.この図
Hideki Kawahara,“Restructuring speech representations using
より,ピッチの上昇とともにスペクトルロールオフの差
a pitch adaptive time-frequency smoothing and an
が大きくなっていることがわかる.つまり,同一ピッチ
instantaneous –frequency-based F0 extraction: Possible role of
の収録音声と合成音声を聞き比べたときに,ピッチが高
a repetitive structure in sounds”,Speech communication,27,
くなるとともに別人と知覚されやすくなる要因としてス
pp.187-207,1999
[2]
ペクトルロールオフが関係すると考えられる.
5
亀川ら,“三味線の皮の素材の違いによる音響特徴の比較 ”,
音楽音響研究会資料 ,pp.19-24,2015.9
結論
[3]
平賀ら,“主観評価に基づく楽曲間類似度算出モデル ”,情報
処理学会研究報告 ,pp.1-6,2009.7
本研究では,自然な合成音声の実現に向けて収録音声
[4]
と合成音声についてフォルマント及び聞こえの違いに関
Dan-Ning Jiang,“MUSIC TYPE CLASSIFICATION BY
SPECTRAL CONTRAST FEATURE”,IEEE,pp.113-116,2002
係する音響的特徴量を調査した.フォルマントは,収録
[5]
音声の場合ピッチの上昇に伴って上昇するが,
STRAIGHT で合成した音声は上昇しなかった.また,
吉田ら,“ピッチ変化に伴うフォルマントシフトを考慮した
音声合成 ”,音講論(春),pp.373-376,2015.3
[6]
フォルマントに関して収録音声の特徴を再現した合成音
吉田ら,“収録音声と合成音声における話者特定可能な基本
周波数シフトの範囲 ”,音講論(秋),pp.343-344,2015.9
声を作成したが,フォルマントシフトだけでは,自然さ
[7]
は収録音声に近づかなかった.
磯ら,“音声データベース用文セットの設計 ”,音講論
(春),pp.89-90, 1988.3
同じ話者の発話した文音声が,ある半音数だけ声の高
さが変化したところで別人と知覚される要因について調
査したところ,収録音声と合成音声の個人性の違いに関
指導教授
する音響的特徴の一つはスペクトルロールオフであるこ
とが明らかとなった.今後,収録音声のスペクトルロー
ルオフを保持した合成音声を作成し,収録音声の個人性
を保持できているかを主観評価により明らかにしたい.
132
審査委員(主査)教授
神野
審査委員(副査)教授
吉野
審査委員(副査)准教授 木許
健哉
秀明
雅則
Fly UP