...

統計的パラメトリック音声合成のための 変調スペクトルを考慮した 音声

by user

on
Category: Documents
24

views

Report

Comments

Transcript

統計的パラメトリック音声合成のための 変調スペクトルを考慮した 音声
第85回 音声言語情報処理研究会 (SIG-SLP)
2月27日(金) (1)
統計的パラメトリック音声合成のための
変調スペクトルを考慮した
音声パラメータ生成アルゴリズム
〇 高道 慎之介 (奈良先端大/CMU)
戸田 智基 (奈良先端大)
Alan W. Black (CMU)
中村 哲(奈良先端大)
2014©Shinnosuke TAKAMICHI
02/09/2014
統計的パラメトリック音声合成

音声合成
–
入力情報から音声を合成する技術
“Sample”
テキスト音声合成 (TTS)
Speech
声質変換 (VC)

統計的パラメトリック音声合成
–
–
–
音声特徴量を統計モデル{でモデル化/から生成}
HMM音声合成 (HMM-based TTS) [Tokuda et al., 2013.]
GMM声質変換 (GMM-based VC) [Toda et al., 2007.]
2/23
統計的パラメトリック音声合成の特徴

利点: 容易な応用
–
–
–
–
–

音声翻訳 & 音声対話 [Aguero et al., 2006.] [Tsiakoulis et al., 2014.]
希少言語の保存 [Watt et al., 2013.] [Sitaram et al., 2013.]
身障補助 [Creer et al., 2010.] [Tanaka et al., 2014.]
言語教育 [Handley et al., 2008.] [高道 他. 2015.]
アミューズメント応用 [Goto et al., 2012.] [Kobayashi et al., 2014.]
欠点: 合成音声の音質劣化
–
–
分析部・学習部・生成部それぞれに劣化要因あり
本発表は生成部における劣化要因である過剰な平滑化にアプローチ
3/23
提案法の概要

基本的なアイディア: 過剰な平滑化の影響を定量化
–
–

系列内変動 (GV) ... 音声パラメータ系列の分散 [Toda et al., 2007a, 2007b]
変調スペクトル (MS) ... 系列のパワースペクトル [Takamichi et al., 2014.]
• 従来の生成基準を無視した、生成パラメータに対する補償処理
本発表の目的と提案法
–
–
従来の生成基準とMS基準の同時最適化により音質を改善したい!
MSを組み込んだ音声合成技術 (適応・学習等) を確立したい!
MSを考慮した音声パラメータ生成法を提案
GVを考慮したパラメータ生成法よりも高い音質改善効果を確認
4/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
5/23
統計的パラメトリック音声合成の手順
特徴量
分析
音声
𝒀
𝒀
学習
テキスト
or 音声
特徴量
分析
波形
生成
音声
特徴量
分析
テキスト
or 音声
生成
𝑿
𝑿
𝝀

学習
–
–

入力の言語/音声特徴量 𝑿 と出力の音声特徴量 𝒀 を抽出
HMM/GMMパラメータセット 𝝀 を 𝑿, 𝒀 から推定.
合成
–
–
入力情報から特徴量 𝑿 を抽出
𝑿 に対応する 𝝀 から出力の音声特徴量 𝒀 を決定し,音声波形を生成
6/23
HMMによる特徴量のモデル化
[Tokuda et al., 2013.]
テキスト
“Sample”
𝝀 = argmax 𝑃 𝒀|𝑿, 𝝀
テキスト
解析
“s” “ae” …
コンテキスト要因
𝑿
“s”
𝝁1,
𝜮1
音声特徴量
“Sample”
音声
音声
分析
“a”
𝝁2,
𝜮2
𝝁3,
𝜮3
𝒀
* 𝑁 ∙; 𝝁, 𝜮 は平均ベクトル 𝝁 と
共分散行列 𝜮 の正規分布
7/23
HMMからの音声パラメータ生成
[Tokuda et al., 2000.]
入力 𝑿 から、 静的・動的特徴量の制約 𝑾 の下でパラメータ 𝒚 を生成
𝒚 = argmax 𝑃 𝒀|𝒎, 𝑿, 𝝀 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮
d-th Mel-cepstrum 𝑦𝑑 𝑡

∗ 𝒀 = 𝑾𝒚
𝒎: 継続長
Natural speech
Synthetic speech
Time t
生成パラメータ系列の過剰な平滑化により、音質が劣化
8/23
系列内変動(GV)
[Tokuda et al., 2000.][Toda et al., 2007.]
過剰な平滑化を定量化する特徴量: 系列内変動 (GV)
–
–
パラメータ系列の2次モーメント(=スケール)として定義
生成パラメータ系列のGVは、自然音声のGVより小さくなる傾向
d-th Mel-cepstrum 𝑦𝑑 𝑡

Natural speech
スケールが
小さい!
w/o GV
Time t
1
パラメータ系列のGV(スケール): 𝑣𝑑 𝒚 =
𝑇
𝑇
𝑡=1
𝑦𝑑 𝑡 − 𝑦𝑑
2
9/23
GV補償による音質改善法
[Toda et al., 2007a.][Toda et al., 2007b.]
GVを考慮した音声パラメータ生成法
𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒗 𝒚 ; 𝝁v , 𝜮v
d-th Mel-cepstrum 𝑦𝑑 𝑡

𝜔
𝜔:重み
Natural
w/o GV
w/ GV
Time t
GVは補償されるが,自然/合成音声のパラメータは未だ異なる…
10/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
11/23
変調スペクトル(MS)の定義
[Takamichi et al., 2014.]

MS (Modulation Spectrum): パラメータ系列のパワースペクトル
–
2次
モーメント
𝑦𝑑 𝑡
–
時間的変動を表現可能 [Atlas et al., 2003.]
GVの数学的拡張
パワー
スペクトル
Time 𝑡

GV (スカラ)
MS (ベクトル)
0 … f … M-1
d次のパラメータ系列の,f 番目のMS (MはFFT長の半分)
𝑠𝑑,𝑓 𝒚 =
−𝜋𝑓𝑡
𝑦𝑑 𝑡 cos
𝑀
𝑡
2
+
−𝜋𝑓𝑡
𝑦𝑑 𝑡 sin
𝑀
𝑡
2
12/23
自然/合成音声の変調スペクトル
Log MS of the d-th mel-cepstrum
[Takamichi et al., 2014.]
Natural
w/o GV
w/ GV
Modulation frequency f [Hz]
合成音声の変調スペクトルを補償することで音質改善
13/23
提案法

MSを考慮した音声パラメータ生成
𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s

𝜔: 重み
MS制約 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s の効果
–

𝜔
生成パラメータ系列のMSを補償(=自然音声のMSに近づける)
実装
–
–
–
初期化: 従来の生成 + MSを補償するフィルタ [Takamichi et al., 2014.]
生成: 最急降下法(目的関数の一次微分を利用)による反復的生成
• 重み: 𝑾𝒚 と 𝒔 𝒚 の次元数の比
後処理: 50Hzカットオフのローパスフィルタ
• カットオフ周波数は,知覚実験により決定
14/23
目的関数の1次微分の導出
(1次元ベクトルを仮定)

目的関数の対数関数 log𝐿 を パラメータ系列 𝒚 で微分
𝜕 log𝐿
𝜕
=
log𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s 𝜔 𝜕𝒚
𝜕𝒚
= −𝑾T 𝜮−1 𝑾𝒚 + 𝑾T 𝜮−1 𝑾𝝁 + 𝜔 𝑠1 , ⋯ , 𝑠𝑡 , ⋯ , 𝑠𝑇
時刻 t に 𝑠 = 𝒇T 𝜮−1 𝒔 𝒚 − 𝝁
𝑡
s
s
𝑡
おける微分値
T
全変調周波数の項を
足す形で微分値を計算
𝒔 𝒚 の微分

GVの場合は・・・
𝜕 log𝐿
𝜕
=
log𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝑣 𝒚 ; 𝜇v , 𝛴v 𝜔 𝜕𝒚
𝜕𝒚
= −𝑾T 𝜮−1 𝑾𝒚 + 𝑾T 𝜮−1 𝑾𝝁 + 𝜔 𝑣1 , ⋯ , 𝑣𝑡 , ⋯ , 𝑣 𝑇 T
1
時刻 t に
𝑣𝑡 = 𝑔𝑡
𝑣 𝒚 − 𝜇v
GVではスカラだった項が
𝛴
v
おける微分値
MSではベクトル/行列へ
𝑣 𝒚 の微分
15/23
Log MS of the d-th mel-cepstrum
提案法の効果(変調スペクトル)
w/ MS
Natural
w/o GV
w/ GV
Modulation frequency f [Hz]
提案法により変調スペクトルを補償!
16/23
d-th Mel-cepstrum 𝑦𝑑 𝑡
提案法の効果(パラメータ時系列)
w/ GV
Natural
w/o GV
w/ MS
Time t
振動したパラメータ系列を生成!
17/23
Log GV
提案法の効果(GV)
Natural
Temporally-larger scale
w/o GV
Temporally-smaller scale
w/ GV
w/ MS
Index of mel-cepstrum d
GVを考慮していないが,GVを補償!
18/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
19/23
主観評価の条件
HMM音声合成
GMM声質変換
統計モデル
5状態 HSMM
64混合 GMM
話者
ARCTIC databaseの男性/女性英語話者,16 kHz
音声パラメータ
25次元のメルケプストラム (スペクトルパラメータ),
対数F0,5帯域の非周期成分 (音源パラメータ)
学習データ
593文
評価データ
学習データに含まれない100文
共分散行列
HMM/GMM,MSモデル共に対角共分散行列
提案法の適用
メルケプストラム & F0
比較手法
GV: GVを考慮したパラメータ生成 [Toda et al., 2007.]
MS: MSを考慮したパラメータ生成 (提案法)
50文
メルケプストラム
音質に関するABテスト (HMM音声合成,GMM声質変換)
を実施
話者性に関するXABテスト(GMM声質変換のみ)
20/23
評価結果
提案法による音質改善効果を確認
* エラーバーは95%信頼区間
21/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
22/23
まとめ

目的
–

提案法
–

MSを考慮した音声パラメータ生成法
評価結果
–

音質を改善したい! & MSを音声合成に組み込みたい!
従来のGVを考慮したパラメータ生成法と比較して,音質を改善
今後の予定
–
–
MSを考慮した学習法 … SP研究会@石垣島で報告予定
MSを補償するフィルタ [Takamichi et al., 2014a-c] との音質比較
23/23
Fly UP