統計的パラメトリック音声合成のための変調スペクトルを考慮した音声

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 統計的パラメトリック音声合成のための変調スペクトルを考慮した音声

Transcript

統計的パラメトリック音声合成のための変調スペクトルを考慮した音声

第85回音声言語情報処理研究会 (SIG-SLP)
2月27日(金) （1）
統計的パラメトリック音声合成のための
変調スペクトルを考慮した
音声パラメータ生成アルゴリズム
〇高道慎之介（奈良先端大／CMU）
戸田智基（奈良先端大）
Alan W. Black （CMU）
中村哲（奈良先端大）
2014©Shinnosuke TAKAMICHI
02/09/2014
統計的パラメトリック音声合成

音声合成
–
入力情報から音声を合成する技術
“Sample”
テキスト音声合成 (TTS)
Speech
声質変換 (VC)

統計的パラメトリック音声合成
–
–
–
音声特徴量を統計モデル{でモデル化／から生成}
HMM音声合成 (HMM-based TTS) [Tokuda et al., 2013.]
GMM声質変換 (GMM-based VC) [Toda et al., 2007.]
2/23
統計的パラメトリック音声合成の特徴

利点：容易な応用
–
–
–
–
–

音声翻訳 & 音声対話 [Aguero et al., 2006.] [Tsiakoulis et al., 2014.]
希少言語の保存 [Watt et al., 2013.] [Sitaram et al., 2013.]
身障補助 [Creer et al., 2010.] [Tanaka et al., 2014.]
言語教育 [Handley et al., 2008.] [高道他. 2015.]
アミューズメント応用 [Goto et al., 2012.] [Kobayashi et al., 2014.]
欠点：合成音声の音質劣化
–
–
分析部・学習部・生成部それぞれに劣化要因あり
本発表は生成部における劣化要因である過剰な平滑化にアプローチ
3/23
提案法の概要

基本的なアイディア：過剰な平滑化の影響を定量化
–
–

系列内変動（GV） ... 音声パラメータ系列の分散 [Toda et al., 2007a, 2007b]
変調スペクトル (MS) ... 系列のパワースペクトル [Takamichi et al., 2014.]
• 従来の生成基準を無視した、生成パラメータに対する補償処理
本発表の目的と提案法
–
–
従来の生成基準とMS基準の同時最適化により音質を改善したい！
MSを組み込んだ音声合成技術（適応・学習等）を確立したい！
MSを考慮した音声パラメータ生成法を提案
GVを考慮したパラメータ生成法よりも高い音質改善効果を確認
4/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
5/23
統計的パラメトリック音声合成の手順
特徴量
分析
音声
𝒀
𝒀
学習
テキスト
or 音声
特徴量
分析
波形
生成
音声
特徴量
分析
テキスト
or 音声
生成
𝑿
𝑿
𝝀

学習
–
–

入力の言語/音声特徴量 𝑿 と出力の音声特徴量 𝒀 を抽出
HMM/GMMパラメータセット 𝝀 を 𝑿, 𝒀 から推定.
合成
–
–
入力情報から特徴量 𝑿 を抽出
𝑿 に対応する 𝝀 から出力の音声特徴量 𝒀 を決定し，音声波形を生成
6/23
HMMによる特徴量のモデル化
[Tokuda et al., 2013.]
テキスト
“Sample”
𝝀 = argmax 𝑃 𝒀|𝑿, 𝝀
テキスト
解析
“s” “ae” …
コンテキスト要因
𝑿
“s”
𝝁1,
𝜮1
音声特徴量
“Sample”
音声
音声
分析
“a”
𝝁2,
𝜮2
𝝁3,
𝜮3
𝒀
* 𝑁 ∙; 𝝁, 𝜮 は平均ベクトル 𝝁 と
共分散行列 𝜮 の正規分布
7/23
HMMからの音声パラメータ生成
[Tokuda et al., 2000.]
入力 𝑿 から、静的・動的特徴量の制約 𝑾 の下でパラメータ 𝒚 を生成
𝒚 = argmax 𝑃 𝒀|𝒎, 𝑿, 𝝀 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮
d-th Mel-cepstrum 𝑦𝑑 𝑡

∗ 𝒀 = 𝑾𝒚
𝒎: 継続長
Natural speech
Synthetic speech
Time t
生成パラメータ系列の過剰な平滑化により、音質が劣化
8/23
系列内変動（GV）
[Tokuda et al., 2000.][Toda et al., 2007.]
過剰な平滑化を定量化する特徴量：系列内変動 (GV)
–
–
パラメータ系列の2次モーメント（＝スケール）として定義
生成パラメータ系列のGVは、自然音声のGVより小さくなる傾向
d-th Mel-cepstrum 𝑦𝑑 𝑡

Natural speech
スケールが
小さい！
w/o GV
Time t
1
パラメータ系列のGV（スケール）： 𝑣𝑑 𝒚 =
𝑇
𝑇
𝑡=1
𝑦𝑑 𝑡 − 𝑦𝑑
2
9/23
GV補償による音質改善法
[Toda et al., 2007a.][Toda et al., 2007b.]
GVを考慮した音声パラメータ生成法
𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒗 𝒚 ; 𝝁v , 𝜮v
d-th Mel-cepstrum 𝑦𝑑 𝑡

𝜔
𝜔:重み
Natural
w/o GV
w/ GV
Time t
GVは補償されるが，自然／合成音声のパラメータは未だ異なる…
10/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
11/23
変調スペクトル（MS）の定義
[Takamichi et al., 2014.]

MS (Modulation Spectrum): パラメータ系列のパワースペクトル
–
2次
モーメント
𝑦𝑑 𝑡
–
時間的変動を表現可能 [Atlas et al., 2003.]
GVの数学的拡張
パワー
スペクトル
Time 𝑡

GV (スカラ)
MS (ベクトル)
0 … f … M-1
d次のパラメータ系列の，f 番目のMS (MはFFT長の半分)
𝑠𝑑,𝑓 𝒚 =
−𝜋𝑓𝑡
𝑦𝑑 𝑡 cos
𝑀
𝑡
2
+
−𝜋𝑓𝑡
𝑦𝑑 𝑡 sin
𝑀
𝑡
2
12/23
自然/合成音声の変調スペクトル
Log MS of the d-th mel-cepstrum
[Takamichi et al., 2014.]
Natural
w/o GV
w/ GV
Modulation frequency f [Hz]
合成音声の変調スペクトルを補償することで音質改善
13/23
提案法

MSを考慮した音声パラメータ生成
𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s

𝜔: 重み
MS制約 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s の効果
–

𝜔
生成パラメータ系列のMSを補償（＝自然音声のMSに近づける）
実装
–
–
–
初期化：従来の生成＋ MSを補償するフィルタ [Takamichi et al., 2014.]
生成：最急降下法（目的関数の一次微分を利用）による反復的生成
• 重み： 𝑾𝒚 と 𝒔 𝒚 の次元数の比
後処理： 50Hzカットオフのローパスフィルタ
• カットオフ周波数は，知覚実験により決定
14/23
目的関数の１次微分の導出
(1次元ベクトルを仮定)

目的関数の対数関数 log𝐿 をパラメータ系列 𝒚 で微分
𝜕 log𝐿
𝜕
=
log𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s 𝜔 𝜕𝒚
𝜕𝒚
= −𝑾T 𝜮−1 𝑾𝒚 + 𝑾T 𝜮−1 𝑾𝝁 + 𝜔 𝑠1 , ⋯ , 𝑠𝑡 , ⋯ , 𝑠𝑇
時刻 t に　𝑠 = 𝒇T 𝜮−1 𝒔 𝒚 − 𝝁
𝑡
s
s
𝑡
おける微分値
T
全変調周波数の項を
足す形で微分値を計算
𝒔 𝒚 の微分

GVの場合は・・・
𝜕 log𝐿
𝜕
=
log𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝑣 𝒚 ; 𝜇v , 𝛴v 𝜔 𝜕𝒚
𝜕𝒚
= −𝑾T 𝜮−1 𝑾𝒚 + 𝑾T 𝜮−1 𝑾𝝁 + 𝜔 𝑣1 , ⋯ , 𝑣𝑡 , ⋯ , 𝑣 𝑇 T
1
時刻 t に
𝑣𝑡 = 𝑔𝑡
𝑣 𝒚 − 𝜇v
GVではスカラだった項が
𝛴
v
おける微分値
MSではベクトル/行列へ
𝑣 𝒚 の微分
15/23
Log MS of the d-th mel-cepstrum
提案法の効果（変調スペクトル）
w/ MS
Natural
w/o GV
w/ GV
Modulation frequency f [Hz]
提案法により変調スペクトルを補償！
16/23
d-th Mel-cepstrum 𝑦𝑑 𝑡
提案法の効果（パラメータ時系列）
w/ GV
Natural
w/o GV
w/ MS
Time t
振動したパラメータ系列を生成！
17/23
Log GV
提案法の効果（GV）
Natural
Temporally-larger scale
w/o GV
Temporally-smaller scale
w/ GV
w/ MS
Index of mel-cepstrum d
GVを考慮していないが，GVを補償！
18/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
19/23
主観評価の条件
HMM音声合成
GMM声質変換
統計モデル
5状態 HSMM
64混合 GMM
話者
ARCTIC databaseの男性/女性英語話者，16 kHz
音声パラメータ
25次元のメルケプストラム（スペクトルパラメータ），
対数F0，5帯域の非周期成分（音源パラメータ）
学習データ
593文
評価データ
学習データに含まれない100文
共分散行列
HMM/GMM，MSモデル共に対角共分散行列
提案法の適用
メルケプストラム & F0
比較手法
GV: GVを考慮したパラメータ生成 [Toda et al., 2007.]
MS: MSを考慮したパラメータ生成 (提案法)
50文
メルケプストラム
音質に関するABテスト（HMM音声合成，GMM声質変換）
を実施
話者性に関するXABテスト（GMM声質変換のみ）
20/23
評価結果
提案法による音質改善効果を確認
* エラーバーは95%信頼区間
21/23
目次

研究背景

統計的パラメトリック音声合成

変調スペクトルを考慮したパラメータ生成法

実験的評価

まとめ
22/23
まとめ

目的
–

提案法
–

MSを考慮した音声パラメータ生成法
評価結果
–

音質を改善したい！＆ MSを音声合成に組み込みたい！
従来のGVを考慮したパラメータ生成法と比較して，音質を改善
今後の予定
–
–
MSを考慮した学習法 … SP研究会@石垣島で報告予定
MSを補償するフィルタ [Takamichi et al., 2014a-c] との音質比較
23/23

統計的パラメトリック音声合成のための 変調スペクトルを考慮した 音声

Comments

Description

Transcript

統計的パラメトリック音声合成のための変調スペクトルを考慮した音声