Comments
Description
Transcript
統計的パラメトリック音声合成のための 変調スペクトルを考慮した 音声
第85回 音声言語情報処理研究会 (SIG-SLP) 2月27日(金) (1) 統計的パラメトリック音声合成のための 変調スペクトルを考慮した 音声パラメータ生成アルゴリズム 〇 高道 慎之介 (奈良先端大/CMU) 戸田 智基 (奈良先端大) Alan W. Black (CMU) 中村 哲(奈良先端大) 2014©Shinnosuke TAKAMICHI 02/09/2014 統計的パラメトリック音声合成 音声合成 – 入力情報から音声を合成する技術 “Sample” テキスト音声合成 (TTS) Speech 声質変換 (VC) 統計的パラメトリック音声合成 – – – 音声特徴量を統計モデル{でモデル化/から生成} HMM音声合成 (HMM-based TTS) [Tokuda et al., 2013.] GMM声質変換 (GMM-based VC) [Toda et al., 2007.] 2/23 統計的パラメトリック音声合成の特徴 利点: 容易な応用 – – – – – 音声翻訳 & 音声対話 [Aguero et al., 2006.] [Tsiakoulis et al., 2014.] 希少言語の保存 [Watt et al., 2013.] [Sitaram et al., 2013.] 身障補助 [Creer et al., 2010.] [Tanaka et al., 2014.] 言語教育 [Handley et al., 2008.] [高道 他. 2015.] アミューズメント応用 [Goto et al., 2012.] [Kobayashi et al., 2014.] 欠点: 合成音声の音質劣化 – – 分析部・学習部・生成部それぞれに劣化要因あり 本発表は生成部における劣化要因である過剰な平滑化にアプローチ 3/23 提案法の概要 基本的なアイディア: 過剰な平滑化の影響を定量化 – – 系列内変動 (GV) ... 音声パラメータ系列の分散 [Toda et al., 2007a, 2007b] 変調スペクトル (MS) ... 系列のパワースペクトル [Takamichi et al., 2014.] • 従来の生成基準を無視した、生成パラメータに対する補償処理 本発表の目的と提案法 – – 従来の生成基準とMS基準の同時最適化により音質を改善したい! MSを組み込んだ音声合成技術 (適応・学習等) を確立したい! MSを考慮した音声パラメータ生成法を提案 GVを考慮したパラメータ生成法よりも高い音質改善効果を確認 4/23 目次 研究背景 統計的パラメトリック音声合成 変調スペクトルを考慮したパラメータ生成法 実験的評価 まとめ 5/23 統計的パラメトリック音声合成の手順 特徴量 分析 音声 𝒀 𝒀 学習 テキスト or 音声 特徴量 分析 波形 生成 音声 特徴量 分析 テキスト or 音声 生成 𝑿 𝑿 𝝀 学習 – – 入力の言語/音声特徴量 𝑿 と出力の音声特徴量 𝒀 を抽出 HMM/GMMパラメータセット 𝝀 を 𝑿, 𝒀 から推定. 合成 – – 入力情報から特徴量 𝑿 を抽出 𝑿 に対応する 𝝀 から出力の音声特徴量 𝒀 を決定し,音声波形を生成 6/23 HMMによる特徴量のモデル化 [Tokuda et al., 2013.] テキスト “Sample” 𝝀 = argmax 𝑃 𝒀|𝑿, 𝝀 テキスト 解析 “s” “ae” … コンテキスト要因 𝑿 “s” 𝝁1, 𝜮1 音声特徴量 “Sample” 音声 音声 分析 “a” 𝝁2, 𝜮2 𝝁3, 𝜮3 𝒀 * 𝑁 ∙; 𝝁, 𝜮 は平均ベクトル 𝝁 と 共分散行列 𝜮 の正規分布 7/23 HMMからの音声パラメータ生成 [Tokuda et al., 2000.] 入力 𝑿 から、 静的・動的特徴量の制約 𝑾 の下でパラメータ 𝒚 を生成 𝒚 = argmax 𝑃 𝒀|𝒎, 𝑿, 𝝀 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 d-th Mel-cepstrum 𝑦𝑑 𝑡 ∗ 𝒀 = 𝑾𝒚 𝒎: 継続長 Natural speech Synthetic speech Time t 生成パラメータ系列の過剰な平滑化により、音質が劣化 8/23 系列内変動(GV) [Tokuda et al., 2000.][Toda et al., 2007.] 過剰な平滑化を定量化する特徴量: 系列内変動 (GV) – – パラメータ系列の2次モーメント(=スケール)として定義 生成パラメータ系列のGVは、自然音声のGVより小さくなる傾向 d-th Mel-cepstrum 𝑦𝑑 𝑡 Natural speech スケールが 小さい! w/o GV Time t 1 パラメータ系列のGV(スケール): 𝑣𝑑 𝒚 = 𝑇 𝑇 𝑡=1 𝑦𝑑 𝑡 − 𝑦𝑑 2 9/23 GV補償による音質改善法 [Toda et al., 2007a.][Toda et al., 2007b.] GVを考慮した音声パラメータ生成法 𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒗 𝒚 ; 𝝁v , 𝜮v d-th Mel-cepstrum 𝑦𝑑 𝑡 𝜔 𝜔:重み Natural w/o GV w/ GV Time t GVは補償されるが,自然/合成音声のパラメータは未だ異なる… 10/23 目次 研究背景 統計的パラメトリック音声合成 変調スペクトルを考慮したパラメータ生成法 実験的評価 まとめ 11/23 変調スペクトル(MS)の定義 [Takamichi et al., 2014.] MS (Modulation Spectrum): パラメータ系列のパワースペクトル – 2次 モーメント 𝑦𝑑 𝑡 – 時間的変動を表現可能 [Atlas et al., 2003.] GVの数学的拡張 パワー スペクトル Time 𝑡 GV (スカラ) MS (ベクトル) 0 … f … M-1 d次のパラメータ系列の,f 番目のMS (MはFFT長の半分) 𝑠𝑑,𝑓 𝒚 = −𝜋𝑓𝑡 𝑦𝑑 𝑡 cos 𝑀 𝑡 2 + −𝜋𝑓𝑡 𝑦𝑑 𝑡 sin 𝑀 𝑡 2 12/23 自然/合成音声の変調スペクトル Log MS of the d-th mel-cepstrum [Takamichi et al., 2014.] Natural w/o GV w/ GV Modulation frequency f [Hz] 合成音声の変調スペクトルを補償することで音質改善 13/23 提案法 MSを考慮した音声パラメータ生成 𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s 𝜔: 重み MS制約 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s の効果 – 𝜔 生成パラメータ系列のMSを補償(=自然音声のMSに近づける) 実装 – – – 初期化: 従来の生成 + MSを補償するフィルタ [Takamichi et al., 2014.] 生成: 最急降下法(目的関数の一次微分を利用)による反復的生成 • 重み: 𝑾𝒚 と 𝒔 𝒚 の次元数の比 後処理: 50Hzカットオフのローパスフィルタ • カットオフ周波数は,知覚実験により決定 14/23 目的関数の1次微分の導出 (1次元ベクトルを仮定) 目的関数の対数関数 log𝐿 を パラメータ系列 𝒚 で微分 𝜕 log𝐿 𝜕 = log𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s 𝜔 𝜕𝒚 𝜕𝒚 = −𝑾T 𝜮−1 𝑾𝒚 + 𝑾T 𝜮−1 𝑾𝝁 + 𝜔 𝑠1 , ⋯ , 𝑠𝑡 , ⋯ , 𝑠𝑇 時刻 t に 𝑠 = 𝒇T 𝜮−1 𝒔 𝒚 − 𝝁 𝑡 s s 𝑡 おける微分値 T 全変調周波数の項を 足す形で微分値を計算 𝒔 𝒚 の微分 GVの場合は・・・ 𝜕 log𝐿 𝜕 = log𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝑣 𝒚 ; 𝜇v , 𝛴v 𝜔 𝜕𝒚 𝜕𝒚 = −𝑾T 𝜮−1 𝑾𝒚 + 𝑾T 𝜮−1 𝑾𝝁 + 𝜔 𝑣1 , ⋯ , 𝑣𝑡 , ⋯ , 𝑣 𝑇 T 1 時刻 t に 𝑣𝑡 = 𝑔𝑡 𝑣 𝒚 − 𝜇v GVではスカラだった項が 𝛴 v おける微分値 MSではベクトル/行列へ 𝑣 𝒚 の微分 15/23 Log MS of the d-th mel-cepstrum 提案法の効果(変調スペクトル) w/ MS Natural w/o GV w/ GV Modulation frequency f [Hz] 提案法により変調スペクトルを補償! 16/23 d-th Mel-cepstrum 𝑦𝑑 𝑡 提案法の効果(パラメータ時系列) w/ GV Natural w/o GV w/ MS Time t 振動したパラメータ系列を生成! 17/23 Log GV 提案法の効果(GV) Natural Temporally-larger scale w/o GV Temporally-smaller scale w/ GV w/ MS Index of mel-cepstrum d GVを考慮していないが,GVを補償! 18/23 目次 研究背景 統計的パラメトリック音声合成 変調スペクトルを考慮したパラメータ生成法 実験的評価 まとめ 19/23 主観評価の条件 HMM音声合成 GMM声質変換 統計モデル 5状態 HSMM 64混合 GMM 話者 ARCTIC databaseの男性/女性英語話者,16 kHz 音声パラメータ 25次元のメルケプストラム (スペクトルパラメータ), 対数F0,5帯域の非周期成分 (音源パラメータ) 学習データ 593文 評価データ 学習データに含まれない100文 共分散行列 HMM/GMM,MSモデル共に対角共分散行列 提案法の適用 メルケプストラム & F0 比較手法 GV: GVを考慮したパラメータ生成 [Toda et al., 2007.] MS: MSを考慮したパラメータ生成 (提案法) 50文 メルケプストラム 音質に関するABテスト (HMM音声合成,GMM声質変換) を実施 話者性に関するXABテスト(GMM声質変換のみ) 20/23 評価結果 提案法による音質改善効果を確認 * エラーバーは95%信頼区間 21/23 目次 研究背景 統計的パラメトリック音声合成 変調スペクトルを考慮したパラメータ生成法 実験的評価 まとめ 22/23 まとめ 目的 – 提案法 – MSを考慮した音声パラメータ生成法 評価結果 – 音質を改善したい! & MSを音声合成に組み込みたい! 従来のGVを考慮したパラメータ生成法と比較して,音質を改善 今後の予定 – – MSを考慮した学習法 … SP研究会@石垣島で報告予定 MSを補償するフィルタ [Takamichi et al., 2014a-c] との音質比較 23/23