...

統計的パラメトリック音声合成のための 変調スペクトルを考慮した 音声

by user

on
Category: Documents
0

views

Report

Comments

Transcript

統計的パラメトリック音声合成のための 変調スペクトルを考慮した 音声
第85回 音声言語情報処理研究会 (SIG-SLP)
2月27日(金) (1)
統計的パラメトリック音声合成のための
変調スペクトルを考慮した
音声パラメータ生成アルゴリズム
〇 高道 慎之介 (奈良先端大/CMU)
戸田 智基 (奈良先端大)
Alan W. Black (CMU)
中村 哲(奈良先端大)
2014©Shinnosuke TAKAMICHI
02/09/2014
統計的パラメトリック音声合成

音声合成
–
入力情報から音声を合成する技術
“Sample”
テキスト音声合成 (TTS)
Speech
声質変換 (VC)

統計的パラメトリック音声合成
–
–
–
音声特徴量を統計モデル{でモデル化/から生成}
HMM音声合成 (HMM-based TTS) [Tokuda et al., 2013.]
GMM声質変換 (GMM-based VC) [Toda et al., 2007.]
2/23
統計的パラメトリック音声合成の特徴

利点: 容易な応用
–
–
–
–
–

音声翻訳 & 音声対話 [Aguero et al., 2006.] [Tsiakoulis et al., 2014.]
希少言語の保存 [Watt et al., 2013.] [Sitaram et al., 2013.]
身障補助 [Creer et al., 2010.] [Tanaka et al., 2014.]
言語教育 [Handley et al., 2008.] [高道 他. 2015.]
アミューズメント応用 [Goto et al., 2012.] [Kobayashi et al., 2014.]
欠点: 合成音声の音質劣化
–
–
分析部・学習部・生成部それぞれに劣化要因あり
本発表は生成部における劣化要因である過剰な平滑化にアプローチ
3/23
提案法の概要

基本的なアイディア: 過剰な平滑化の影響を定量化
–
–

系列内変動 (GV) ... 音声パラメータ系列の分散 [Toda et al., 2007a, 2007b]
変調スペクトル (MS) ... 系列のパワースペクトル [Takamichi et al., 2014.]
• 従来の生成基準を無視した、生成パラメータに対する補償処理
本発表の目的と提案法
–
–
従来の生成基準とMS基準の同時最適化により音質を改善したい!
MSを組み込んだ音声合成技術 (適応・学習等) を確立したい!
MSを考慮した音声パラメータ生成法を提案
GVを考慮したパラメータ生成法よりも高い音質改善効果を確認
4/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
5/23
統計的パラメトリック音声合成の手順
特徴量
分析
音声


学習
テキスト
or 音声
特徴量
分析
波形
生成
音声
特徴量
分析
テキスト
or 音声
生成




学習
–
–

入力の言語/音声特徴量  と出力の音声特徴量  を抽出
HMM/GMMパラメータセット  を ,  から推定.
合成
–
–
入力情報から特徴量  を抽出
 に対応する  から出力の音声特徴量  を決定し,音声波形を生成
6/23
HMMによる特徴量のモデル化
[Tokuda et al., 2013.]
テキスト
“Sample”
 = argmax  |, 
テキスト
解析
“s” “ae” …
コンテキスト要因

“s”
1,
1
音声特徴量
“Sample”
音声
音声
分析
“a”
2,
2
3,
3

*  ∙; ,  は平均ベクトル  と
共分散行列  の正規分布
7/23
HMMからの音声パラメータ生成
[Tokuda et al., 2000.]
入力  から、 静的・動的特徴量の制約  の下でパラメータ  を生成
 = argmax  |, ,  = argmax  ; , 
d-th Mel-cepstrum  

∗  = 
: 継続長
Natural speech
Synthetic speech
Time t
生成パラメータ系列の過剰な平滑化により、音質が劣化
8/23
系列内変動(GV)
[Tokuda et al., 2000.][Toda et al., 2007.]
過剰な平滑化を定量化する特徴量: 系列内変動 (GV)
–
–
パラメータ系列の2次モーメント(=スケール)として定義
生成パラメータ系列のGVは、自然音声のGVより小さくなる傾向
d-th Mel-cepstrum  

Natural speech
スケールが
小さい!
w/o GV
Time t
1
パラメータ系列のGV(スケール):   =


=1
  − 
2
9/23
GV補償による音質改善法
[Toda et al., 2007a.][Toda et al., 2007b.]
GVを考慮した音声パラメータ生成法
 = argmax  ; ,     ; v , v
d-th Mel-cepstrum  


:重み
Natural
w/o GV
w/ GV
Time t
GVは補償されるが,自然/合成音声のパラメータは未だ異なる…
10/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
11/23
変調スペクトル(MS)の定義
[Takamichi et al., 2014.]

MS (Modulation Spectrum): パラメータ系列のパワースペクトル
–
2次
モーメント
 
–
時間的変動を表現可能 [Atlas et al., 2003.]
GVの数学的拡張
パワー
スペクトル
Time 

GV (スカラ)
MS (ベクトル)
0 … f … M-1
d次のパラメータ系列の,f 番目のMS (MはFFT長の半分)
,  =
−
  cos


2
+
−
  sin


2
12/23
自然/合成音声の変調スペクトル
Log MS of the d-th mel-cepstrum
[Takamichi et al., 2014.]
Natural
w/o GV
w/ GV
Modulation frequency f [Hz]
合成音声の変調スペクトルを補償することで音質改善
13/23
提案法

MSを考慮した音声パラメータ生成
 = argmax  ; ,     ; s , s

: 重み
MS制約    ; s , s の効果
–


生成パラメータ系列のMSを補償(=自然音声のMSに近づける)
実装
–
–
–
初期化: 従来の生成 + MSを補償するフィルタ [Takamichi et al., 2014.]
生成: 最急降下法(目的関数の一次微分を利用)による反復的生成
• 重み:  と   の次元数の比
後処理: 50Hzカットオフのローパスフィルタ
• カットオフ周波数は,知覚実験により決定
14/23
目的関数の1次微分の導出
(1次元ベクトルを仮定)

目的関数の対数関数 log を パラメータ系列  で微分
 log

=
log ; ,     ; s , s  

= −T −1  + T −1  +  1 , ⋯ ,  , ⋯ , 
時刻 t に  = T −1   − 

s
s

おける微分値
T
全変調周波数の項を
足す形で微分値を計算
  の微分

GVの場合は・・・
 log

=
log ; ,     ; v , v  

= −T −1  + T −1  +  1 , ⋯ ,  , ⋯ ,   T
1
時刻 t に
 = 
  − v
GVではスカラだった項が

v
おける微分値
MSではベクトル/行列へ
  の微分
15/23
Log MS of the d-th mel-cepstrum
提案法の効果(変調スペクトル)
w/ MS
Natural
w/o GV
w/ GV
Modulation frequency f [Hz]
提案法により変調スペクトルを補償!
16/23
d-th Mel-cepstrum  
提案法の効果(パラメータ時系列)
w/ GV
Natural
w/o GV
w/ MS
Time t
振動したパラメータ系列を生成!
17/23
Log GV
提案法の効果(GV)
Natural
Temporally-larger scale
w/o GV
Temporally-smaller scale
w/ GV
w/ MS
Index of mel-cepstrum d
GVを考慮していないが,GVを補償!
18/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
19/23
主観評価の条件
HMM音声合成
GMM声質変換
統計モデル
5状態 HSMM
64混合 GMM
話者
ARCTIC databaseの男性/女性英語話者,16 kHz
音声パラメータ
25次元のメルケプストラム (スペクトルパラメータ),
対数F0,5帯域の非周期成分 (音源パラメータ)
学習データ
593文
評価データ
学習データに含まれない100文
共分散行列
HMM/GMM,MSモデル共に対角共分散行列
提案法の適用
メルケプストラム & F0
比較手法
GV: GVを考慮したパラメータ生成 [Toda et al., 2007.]
MS: MSを考慮したパラメータ生成 (提案法)
50文
メルケプストラム
音質に関するABテスト (HMM音声合成,GMM声質変換)
を実施
話者性に関するXABテスト(GMM声質変換のみ)
20/23
評価結果
提案法による音質改善効果を確認
* エラーバーは95%信頼区間
21/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
22/23
まとめ

目的
–

提案法
–

MSを考慮した音声パラメータ生成法
評価結果
–

音質を改善したい! & MSを音声合成に組み込みたい!
従来のGVを考慮したパラメータ生成法と比較して,音質を改善
今後の予定
–
–
MSを考慮した学習法 … SP研究会@石垣島で報告予定
MSを補償するフィルタ [Takamichi et al., 2014a-c] との音質比較
23/23
Fly UP