Comments
Description
Transcript
自然な音声合成実現に向けた音響的特徴の分析
日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月) Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016) 修士論文概要 自然な音声合成実現に向けた音響的特徴の分析† 吉田 幸平* (2016 年 03 月 17 日受理) Analyses of Acoustic Features for Realizing the Natural Speech Synthesis Kohei Yoshida (Received March 17,2016) 1 である.本節では,上述の特徴量の抽出方法及び本研究 はじめに で用いたパラメータの詳細について述べる. 近年,合成音声は多くの場所で使用されているが,そ フォルマント以外の特徴量の分析は音響的な特徴のた れはどれもいかにも合成した音声である.音声分析合成 め周波数分解能をよくしたい.よって窓長は 256ms で ソフトウェア STRAIGHT[1]では違和感なく自然なピッ 分析を行った. フレームシフトは分析結果を STRAIGHT チの変化が可能であるが,合成の元となった音声と聞き に反映させることを考え,STRAIGHT と同様に 1ms と 比べると違いがあるように感じる. した.インテンシティとスペクトルコントラストに関し そこで,本研究では個人性を保持した自然な音声合成 てはサブバンドのパワースペクトルの分割にオクターブ の実現に向けて,収録音声と STRAIGHT による合成音 スケールバンドを用い,詳細に分析するため 8 分割(n=8) 声の聞こえの違いに関係する特徴量を調査した.まず, にした.分割にはサンプリング周波数 fs を 16kHz とし 音声から個人性を知覚するための特徴量の一つと言われ 以下の式を用いた. ォルマントシフトを考慮した合成音声が自然な発話に感 fs fs fs fs fs 0, 2 n , 2 n , 2 n 1 , , 2 2 , 21 じるかの主観評価を行った.次に,同じ話者により発話 よってサブバンドは 0~62.5Hz,62.5~125Hz,125~ された同じ文音声であっても,発話したピッチが異なる 250Hz,250~500Hz,500~1000Hz,1~2kHz,2~4kHz, ことで別人として知覚されることがある.そして,別人 4~8kHz となる. ているフォルマントとピッチの関係について調査し,フ 以降の式で X(t , f)はパワースペクトル,t はフレーム番 と判断した要因としてトーンの違いが挙げられている. そこで,同一人物か別人かの弁別に関係するトーンの違 号,f は周波数を表す. いを生じさせる音響的特徴量を INDSCAL(INDividual 2.1 Differences SCALing)分析[2]により調査した. 2 フォルマント フォルマントは声道の共鳴特性のことで,主に第一, 第二フォルマントは母音の構成,第三から第五フォルマ 音響的特徴量 ントまでは個人性に関わると言われている.本研究では 音声分析用のフリーソフトウェア Praat の「Formant 本研究で調査対象とする音響的特徴は,音声から個人 性を知覚するための特徴量の一つと言われているフォル listing」を用いてフォルマントを抽出した. マント,音の高さを表す基本周波数,また,文献[3]を参 2.2 基本周波数 考に音量に関する特徴量であるインテンシティ,音色に 基 本周波 数は音 の高さ を表す 特徴 量で , Praat の 関する特徴量であるスペクトル重心,スペクトルロール 「Analyse periodicity」より「To Pitch」を用いて基本 オフ,スペクトルフラックス,スペクトルコントラスト 周波数を抽出した. 「To Pitch」の分析窓長は,抽出する 最低ピッチによって決まる.分析窓長を 256ms とする ため,抽出する最低ピッチは 2.9296875Hz とした. ________________________________ ________________________________ ________________________________ ________________________________ ___________ † * 本研究の一部は ,2015 年 3 月 17 日 日本音響学会 春季研 発表会,2015 年 9 月 18 日 日本音響学会 秋季研究発表会 において発表した 電子情報メディア工学専攻 2148014 神野研究室 2.3 スペクトル重心 スペクトル重心 fc(t)は,音の明るさに関する特徴量で 129 日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月) Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016) ある.明るい音はスペクトル重心が高くなり暗い音はス 数点数を表しており,k は 0 から始まる j 番目のサブバン ペクトル重心が低くなる.スペクトル重心は以下の式で ドに含まれる系列の要素番号を表す.α はサブバンドに 求まる. 含まれるサブバンドピークとサブバンドバレーの割合を 表している.文献[4]において α を 0.02 から 0.2 まで値を X t, f f fc t X t, f fs / 2 f 0 変更しても分析性能に差がないと述べているため,文献[3] fs / 2 f 0 2.4 と同様の α=0.2 とした. スペクトルロールオフ 3 スペクトルロールオフ frは,スペクトルの形状に関す ピッチ変化に伴うフォルマントシフトの 分析 る特徴量である.高次の倍音成分を多く含んでいると値 が大きくなり,逆に高次の倍音成分が少ないものは値が まず,合成音声と収録音声では,音声の個人性の弁別 小さくなる.数値的にはスペクトル分布の全帯域の 95% に違いがあると考え,音声の個人性知覚に関係するフォ を占める周波数のことで,以下の式で求まる. ルマントの違いを調査した.その結果をもとにフォルマ fr fs / 2 ントシフトを考慮した音声合成を行った.また,この合 f 0 f 0 成手法で作成した文音声について自然な発話と感じるか X t , f 0.95 X t , f 2.5 スペクトルフラックス 主観評価を行った[5]. 3.1 スペクトルフラックス F は音の変動に関する特徴量で ある.スペクトルフラックスが大きいと変動の大きい音 収録した音声は,日本語の母音 5 種類/a/,/i/,/u/,/e/,/o/ を表す.以下の式で求まる. F を A#2 の高さから A#3 の高さまで平均律の半音刻みの ピッチで発話させた計 65 種類である.ただし,A4 を fs / 2 2 X t , f X t 1, f 440Hz とする.収録条件はサンプリング周波数 16kHz, f 0 2.6 音声の収録 量子化ビット数 16bit とした.各ピッチの音声の収録時 間は 1 秒であるが,収録開始前から発話させ,ピッチが インテンシティ インテンシティは音量に関する特徴量である.パワー 安定した時点から収録を開始した.よって 1 秒の音声に の強い周波数成分を含んでいるサブバンドの値が大きく おいてピッチに変動は小さいと考えられる.話者は,成 なる.フレーム全体の音量 I(t)と,フレームを分割した 人男性 3 名である. 各サブバンドの音量の比 Dj(t)で以下の式で求まる. 3.2 I t X t, f した音声の第一フォルマント及び第二フォルマントを示 f 0 D j t 1 I t 収録音声のフォルマント Fig. 1 に話者 1 名が母音/o/を 13 種類のピッチで発話 fs / 2 す.Fig. 1 の横軸はフレーム番号であり,左端から順に Hj X t , f A#2,B2,…となり右端が A#3 のピッチに対応している. f Lj Fig. 1 より,ピッチの上昇に伴って第一,第二フォルマ ここで,j をサブバンド番号とし,Lj はサブバンドの下限 ントともに上昇していることがわかる.他の母音及び他 の周波数,Hj はサブバンドの上限の周波数を表す. の 2 人の話者についても同様の傾向が得られた. 2.7 3.3 スペクトルコントラスト フォルマントシフトを考慮せず合成した音声 スペクトルコントラスト Cj は声の明瞭性に関する特徴 STRAIGHT を用いて,基本周波数のみを操作するこ 量である.声がはっきりとしているとスペクトルコント とでピッチを変化させた音声を合成し,フォルマント周 ラストが高くなる.スペクトルコントラストはサブバン 波数が変化するか調査した.調査に用いた音声は,話者 ドピーク Pj とサブバンドバレーVj の比により求まる.サ が発話できた音声のうち最も低いピッチ A#2 の音声を基 ブバンドピークとサブバンドバレーは j 番目のサブバン 準として,STRAIGHT により平均律の半音ずつピッチ ド含まれるパワースペクトルの大きさに関して降順に並 を変化させ 1 オクターブ分の音声を合成した.合成した び替えた系列 X’を用い,それぞれ以下の式で求まる. 音声のうち母音/o/を Praat で分析した結果を Fig. 2 に示 1 Pj log N V j log N X' k 1 す.Fig. 1 と比較すると,STRAIGHT で合成した音声 j ,k はフォルマントがほぼ変化しなかった. N 3.4 1 X ' j, N k 1 N k 1 フォルマントシフトを考慮した合成方法 ピッチ変化に伴うフォルマントシフトは,STRAIGHT C j Pj V j により抽出されるストレイトスペクトル(n3sgram)と非 ここで,N は j 番目のサブバンドに含まれる離散周波 する.本研究では個人性知覚に関連するといわれている 周期性指標(ap)を周波数軸方向へ伸縮させることで実現 130 日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月) Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016) 判断した要因として,被験者からはトーンの違いなどが 挙げられた[6].この回答について,より具体的に同一人 物か別人かの弁別に重要な音響的特徴を調査するため主 観評価を行った. 4.1 刺激音 音声の収録条件はすべて量子化ビット数 16bit,サン Fig. 1 収録音声の/o/の第一,第二フォルマント プリング周波数 16kHz,A 特性で収録した.使用した文 は,ATR 音素バランス 503 文の C セット[7]の 5 番目の 文「あの坂を上れば海が見える」である. 本実験では成人男性 4 名の音声を収録した.時間的ピ ッチ変動のある文音声を用いて実験を行うと同一人物か 別人かの弁別の要因に音響的特徴以外の判断基準が生じ る可能性があるため,各話者には時間的なピッチ変動を Fig. 2 STRAIGHT によるピッチ変化音声/o/の第一, 消して一定のピッチで発話させる必要がある.そこでま ず,男性 1 名が普通に発話した音声をもとに,STRAIGHT 第二フォルマント により一定のピッチで発話した音声を作成する.そして, 作成した音声のピッチを平均律の半音刻みで変化させた. 話者 4 名にはこの合成音声を聴取させ,ピッチが一定の 合成音声の発話を再現させた.ピッチの範囲は,4 名の 話者が共通して発話できた範囲としたため,A#2 から A3 までの高さの 12 種類のピッチが得られた.また,各 Fig. 3 フォルマントシフトを考慮した合成音声/o/の第一, 話者の収録音声の最低ピッチの音声をもとに,収録音声 第二フォルマント と同じ範囲でピッチを変化させた合成音声も用意した. 結果として,収録音声は話者 4 人に対して 12 種類のピ 第四フォルマントまでを伸縮させた.ただし,第三,第 ッチ,合成音声は基準にした音声 4 つに対して 12 種類 四フォルマントは第一,第二フォルマントのように安定 のピッチとなり,刺激音は合計で 96 種類になった. して抽出できないため,変化のパターンを特定できない. 4.2 実験方法 被験者には 2 つの音声を聴取させ,それらの音声の話 そのため,第一から第四フォルマントはストレイトスペ 者が同一人物であるか別人であるかを 7 段階で評価させ クトルをもとに目視で求めた. 最も低いピッチの音声 A#2 を基準として, STRAIGHT た.聴取させる音声の組み合わせは,同じ話者の収録音 によりフォルマントシフトも考慮し平均律で半音ずつピ 声同士, 合成音声同士,及び収録音声と合成音声とした. ッチを変化させ 1 オクターブ分の音声を合成した.合成 被験者は男子大学生 20 名である.話者 4 人に対してこ した音声のうち母音/o/を Praat で分析した結果を Fig. 3 の実験を行うと主観評価にかかる時間が現実的ではない に示す.フォルマントシフトを考慮せず STRAIGHT で ので,被験者を 2 グループに分け話者 2 人ずつに対して 合成した音声とは異なり,フォルマントシフトを考慮し の評価をさせた.実験結果の信頼性のため全く同じ音声 た合成音声は Fig. 1 と同様にピッチの上昇に伴って第一, の対の回答が「同一人物の発話に聞こえる」 「似ている人 第二フォルマントともに上昇した.しかし,フォルマン の発話に感じる」 「やや似ている人の発話に感じる」を選 トシフトを考慮せず合成した音声とフォルマントシフト んでない被験者に関しては集計から排除した. を考慮した合成方法のそれぞれで作成した文音声につい 4.3 結果 てどちらが自然な発話に感じるかの評価をしたところ, 主観評価にて全く同じ音声の対の回答が「同一人物の フォルマントシフトだけでは合成音声の自然さを収録音 発話に聞こえる」「似ている人の発話に感じる」 「やや似 声に近づけることはできなかった. ている人の発話に感じる」を選んでない被験者が 1 つ目 4 のグループ(話者 A,B からなるグループ A)に 4 人,2 多次元尺度法を用いた収録音声と合成音声 における類似度の検討 つ目のグループ(話者 C,D からなるグループ B)に 2 人 いたため,この 6 人の評価は以降の分析に含まないもの 文音声に対する平均ピッチを半音刻みで変化させた同 とする. 一人物の音声を連続で聴取させたとき,ある半音数だけ 各グループごとに主観評価の評価値を用いて多次元尺 声の高さが変化したところで別人と知覚された.別人と 度法の一つである INDSCAL 分析を,プログラムソフト 131 日本工業大学研究報告 第 46巻 第 1号 (平成 28年6月) Report of Researches, Nippon Institute of Technology, Vol.46, No.1 (June 2016) R の smacof パッケージを用いて行った.INDSCAL は Table 1 INDSCAL 分析により得られた二次元平面の 個人差に着目した多次元尺度法で,複数の類似度に関す 各軸と音響的特徴との相関 るデータからパターンや構造を探るものであり,その構 造をできるだけ最小の次元の空間に配置する. 本研究では二次元の平面が得られ,平面の各軸の座標 と相関の高い音響的特徴を相関係数により求める.本研 究では,2 節で挙げた音響的特徴との関係を探るがフォ ルマントについては 3 節で述べた通り,基本周波数との 相関が高いため除外する.INDSCAL 分析により得られ た各話者に対する平面の各軸の座標と各音響的特徴との 相関係数を Table 1 に示す.太字は各話者の各軸と最も 相関が高い値を示している.第一軸に対しては全話者に 共通して基本周波数が最も高い相関値を示した.このこ とは,異なるピッチの 2 つの音声を聞き比べたときに, 別人と知覚されやすくなることを示している.ここで, Fig. 4 同一ピッチの収録音声と合成音声を聞き比べた Fig. 4 に同一ピッチの収録音声と合成音声を聞き比べた 全話者に対する評価値のヒストグラム ときの評価値のヒストグラムを示す.凡例の数値は評価 値であり,縦軸は各評価をつけた人数,横軸はピッチで ある.この図より,同一ピッチの音声であっても,ピッ チの高い収録音声と合成音声を聞き比べると別人と知覚 されやすくなることがわかる.つまり,同一ピッチの収 録音声と合成音声を聞き比べた場合,同一人物か別人か Fig. 5 収録音声と合成音声のスペクトルロールオフの差 の弁別に基本周波数以外の要因が関係している.そこで, Table 1 の第二軸と相関の高いスペクトルロールオフに 参 考 文 献 注目する.Fig. 5 に 4 人の話者の同一ピッチの収録音声 [1] と合成音声のスペクトルロールオフの差を示す.この図 Hideki Kawahara,“Restructuring speech representations using より,ピッチの上昇とともにスペクトルロールオフの差 a pitch adaptive time-frequency smoothing and an が大きくなっていることがわかる.つまり,同一ピッチ instantaneous –frequency-based F0 extraction: Possible role of の収録音声と合成音声を聞き比べたときに,ピッチが高 a repetitive structure in sounds”,Speech communication,27, くなるとともに別人と知覚されやすくなる要因としてス pp.187-207,1999 [2] ペクトルロールオフが関係すると考えられる. 5 亀川ら,“三味線の皮の素材の違いによる音響特徴の比較 ”, 音楽音響研究会資料 ,pp.19-24,2015.9 結論 [3] 平賀ら,“主観評価に基づく楽曲間類似度算出モデル ”,情報 処理学会研究報告 ,pp.1-6,2009.7 本研究では,自然な合成音声の実現に向けて収録音声 [4] と合成音声についてフォルマント及び聞こえの違いに関 Dan-Ning Jiang,“MUSIC TYPE CLASSIFICATION BY SPECTRAL CONTRAST FEATURE”,IEEE,pp.113-116,2002 係する音響的特徴量を調査した.フォルマントは,収録 [5] 音声の場合ピッチの上昇に伴って上昇するが, STRAIGHT で合成した音声は上昇しなかった.また, 吉田ら,“ピッチ変化に伴うフォルマントシフトを考慮した 音声合成 ”,音講論(春),pp.373-376,2015.3 [6] フォルマントに関して収録音声の特徴を再現した合成音 吉田ら,“収録音声と合成音声における話者特定可能な基本 周波数シフトの範囲 ”,音講論(秋),pp.343-344,2015.9 声を作成したが,フォルマントシフトだけでは,自然さ [7] は収録音声に近づかなかった. 磯ら,“音声データベース用文セットの設計 ”,音講論 (春),pp.89-90, 1988.3 同じ話者の発話した文音声が,ある半音数だけ声の高 さが変化したところで別人と知覚される要因について調 査したところ,収録音声と合成音声の個人性の違いに関 指導教授 する音響的特徴の一つはスペクトルロールオフであるこ とが明らかとなった.今後,収録音声のスペクトルロー ルオフを保持した合成音声を作成し,収録音声の個人性 を保持できているかを主観評価により明らかにしたい. 132 審査委員(主査)教授 神野 審査委員(副査)教授 吉野 審査委員(副査)准教授 木許 健哉 秀明 雅則