Comments
Description
Transcript
長時間位相特徴パラメータによる音声認識の検討
1-6-3 長時間位相特徴パラメータによる音声認識の検討∗ ◎末吉英一, 山本一公, 中川聖一 (豊橋技科大) 1 はじめに 従 来 の 音 声 認 識 で は ,特 徴 パ ラ メ ー タ と し て MFCC(Mel-frequency cepstral coefficients) が主とし て用いられており,音声に含まれている位相情報は一 切無視されている.しかし,聴覚に関する知覚実験 では,位相スペクトルはスペクトル分析を行う際の DFT の分析窓長を長くするほど音声の情報を多く含 むことが示唆されている.そこで、本稿では長時間の 分析窓長によって位相スペクトルから得られる音声 特徴パラメータを用いて音声認識を試みる. 2 長時間位相スペクトル 位相情報の長時間分析 2.1 Oppenheim と Lim[1],Liu ら [2] は振幅あるいは 位相が持つ音声の情報量が,スペクトル分析を行う DFT フレーム長に依存することを述べている.[2] で は上記の知見を振幅・位相分析合成実験で検証してい る.実験では,まず音声信号と白色雑音のそれぞれか ら DFT 分析によって振幅・位相スペクトルを導出す る. 次にそれらの振幅・位相スペクトルをそれぞれ音 声と白色雑音の間で入れ替えることによって合成信 号を作成する.音声の振幅と白色雑音の位相スペク トルの合成信号では,短時間の分析窓長のとき音声 の明瞭度は 80%以上あるが,分析窓長が長くなるほ ど,振幅・位相分析合成による音声の了解度は低下し ていく.一方,白色雑音の振幅と音声の位相スペクト ルの合成信号では,分析窓長が 128ms 以上という長 時間のとき,振幅・位相分析合成による音声の了解度 が 70%以上になると報告されている.このことから, 短時間振幅スペクトルだけでなく長時間分析した位 相スペクトルも音声を復元できるだけの情報を持って いることがわかる.これから,一般的に MFCC の特 徴パラメータ抽出を行うときは 25ms 程度の短時間の 分析窓長を用いるが,本研究では 100ms 以上の分析 窓長で長時間分析して特徴パラメータを抽出する。 位相特徴量 2.2 位相情報を含む特徴パラメータとして群遅延に基 づく特徴を用いる。群遅延特性は位相スペクトルの 周波数軸方向の微分である.群遅延は次式のように 定義される. dφ(f ) G(f ) = − (1) df ここで、φ(f) は信号 x(t) をフーリエ変換することで 得られる位相である。本稿では,上式の定義通りに周 ∗ 波数微分を計算するのではなく,以下に示す 2 種類 の方法を用いて群遅延の計算を行った. (a) 解析的手法 まず,解析的に求められる群遅延の定義に従い,群 遅延特徴量 τ (ω) を抽出した [3].この群遅延は位相の アンラッピングなしに直接音声信号から計算される. τω = XR (ω)YR (ω) + XI (ω)YI (ω) |X(ω)|2 (2) ここで、X(ω) は音声信号 x(n) をフーリエ変換し たもの、Y (ω) は nx(n) をフーリエ変換したものを表 す。また,R と I はそれぞれ実部と虚部を表す.次に, この群遅延のスペクトルに対して離散コサイン変換 をかけて群遅延ケプストラム (GDC) に変換したもの を特徴パラメータとして用いた. また,式 (2) の群遅延を高精度化した特徴として Modified Group Delay function がある [3]. τ (ω) )(|τ (ω)|)α τm (ω) = ( |τ (ω)| ( ) XR (ω)YR (ω) + XI (ω)YI (ω) τ (ω) = S(ω)2γ (3) (4) ここで,S(ω) は,振幅(|X(ω)|)をケプストラム 平滑化したものである.また,フォルマントのピーク は普通,突出しているので,パラメータ α と γ はこ れらの突出した部分の振幅を減少させるためと,音 声のスペクトルのダイナミックレンジを圧縮するた めにそれぞれ導入される.ただし,0 <γ, α< 1 であ る.今回は基礎検討として式 (2) を用いる. (b) デルタ位相パラメータ 次に,位相スペクトルの各点の差分をとるΔパラ メータで位相の周波数微分を簡易的に近似する方法 を用いて群遅延を計算した.音声信号を DFT して求 めた位相スペクトルは−π∼πの間の値となるので, 隣り合う点に 2 πの位相飛びがある場合には,2 πを 足したり引いたりして,まず位相を繋ぎ合わせる必要 がある.これを位相アンラップという.そして,位相 スペクトルの周波数軸方向の傾きをΔパラメータを 計算することによって求める.例えば,16kHz の音声 信号を 256 ms(4096 点)の長時間窓で DFT すると 周波数の範囲は 0∼8000Hz になる.これを均等に 30 等分し,その周波数の前後 33 点 (2048/31=66, オー バーラップなしで周波数全域の傾きを求めるため) で Δ係数の計算をして 30 次元の位相特徴パラメータと した.Δパラメータは以下の式で計算した.ここで, Investigation of long term phase spectrum for speech recognition. by SUEYOSHI, Eiichi, YAMAMOTO, Kazumasa, NAKAGAWA Seiichi (Toyohashi Univ. of Tech.) 日本音響学会講演論文集 -9- 2010年3月 結果,MFCC 単独の認識率と比べ向上し,99.7%の 単語認識率を得た. dω は周波数 ω でのΔパラメータを表す. dω = 3.1 (5) 認識実験 実験データ 本実験で使用したデータは,CIAIR-VCV 子供の 声データベースのコンテンツ A である.これは室内 (無響室ではない通常の生活環境下)での小学生 (6 歳 ∼12 歳) の声を収集している.コンテンツ A の内容 はカタカナ語を中心とした 30 個の単語である。テス トデータは 145 名の男子の各年齢から 2,3 人ずつ, 合計 20 人分の音声を選び,残りの 125 名を全て学習 データとした. 長時間位相スペクトルの特徴パラメータの分析条件 はサンプリング周波数 16kHz,フレーム周期 10ms と し,25ms,64ms,100ms,256ms,計 4 種類の分析窓 長を設定し,解析的手法で計算した群遅延では 10 次 元と 20 次元の特徴パラメータを抽出した.Δ位相特 徴パラメータの次元数は 30 である.さらにベースラ インとしての特徴パラメータには,MFCC も用いる. これの分析条件は,サンプリング周波数 16kHz,窓長 25ms,フレーム周期 10ms である.特徴パラメータの 次元数は 38 次元(MFCC+Δ MFCC+ΔΔ MFCC+ Δ Pow+ΔΔ Pow) である.音響モデルは状態数 23, 混合数 8 の単語単位 HMM を学習して用いた. 認識実験は東北大-松下データベース単語音声デー タベース [5] を用いても行った.このデータベースか ら日本語の単語を 200 語選び,5 人の男性話者をテス トセットに,15 人の男性話者を学習データとした.群 遅延特徴の分析条件はサンプリング周波数 12kHz,フ レーム周期 10ms とし,256ms の分析窓長を設定し, 10 次元の特徴パラメータを抽出した.特徴パラメー タには,MFCC も用いる.これの分析条件は,サンプ リング周波数 12kHz,窓長 25ms,フレーム周期 10ms である.特徴パラメータの次元数は 38 次元(MFCC+ Δ MFCC+ΔΔ MFCC+Δ Pow+ΔΔ Pow)である. 音響モデルは状態数 23,混合数 8 の単語単位 HMM を学習して用いた. 3.2 認識結果 まず,子供の声データベースでの単語認識結果につ いて述べる.MFCC の認識率は 99.5%だった.群遅 延の特徴パラメータを用いて認識を行った結果を図 1 に示す.これらの表より位相情報のみを用いても音声 認識が可能になることがわかる (最高 97.1%)。そし て,群遅延の特徴パラメータは分析窓長を長くするほ ど認識率が高くなっている.また,特徴パラメータの 次元数に関しては,群遅延の 10 次元と 20 次元の両 方とも同程度の認識性能であることがわかる.さら に,MFCC とΔ位相のモデルの認識尤度を併用した 日本音響学会講演論文集 - 10 - 認識率[%] 3 ΣK k=1 k(θω+k − θω−k ) 2 2ΣK k=1 k 100 90 80 70 60 50 40 30 20 10 0 群遅延(10次元) 群遅延(20次元) Δ位相 0 100 200 分析窓長[ms] 300 Fig. 1 群遅延特徴とΔ位相による単語認識率 [%] 次に,東北大-松下データベースでの単語認識結果 について述べる.MFCC の認識率は 96.2%だった. 256ms の分析窓長で得られた群遅延特徴の認識率は 76.1%だった.したがって,東北大-松下データベー スでの実験においても長時間位相に基づく特徴を用 いて音声認識が可能になることがわかった.さらに, MFCC と群遅延特徴のモデルの認識尤度を併用した 結果,MFCC 単独の認識率と比べ向上し,96.8%の 単語認識率を得た. 4 おわりに 本稿では位相情報を音声認識に利用するために長 時間分析により求めた群遅延特徴量を用いて音声認 識を行った.提案した特徴量を単独で用いて認識実験 を行った結果,長時間分析に基づく群遅延特徴量に音 声認識能力があることを確認できた. 参考文献 [1] A.V.Oppeheim and JS.Lim , ”The importance of phase in signals.”, Proc. IEEE, Vol. 69, No.5, pp.529-541, 1981. [2] L.Liu, et al., ”Effects of phase on the perception of intervocalic stop consonants.”, Speech Communication, Vol.22, pp.403-417, 1997. [3] Rajesh M. Hegde, Hema A. Murthy, Member, ”Significance of the Modified Group Delay Feature in Speech Recognition”, IEEE Transactions on Audio, Speech, and Language Processing, Vol.15, No.1, 2007 [4] 子供の声データベース CIAIR-VCV, http://db.ciair.coe.nagoya-u.ac.jp [5] 東北大-松下 単語音声データベース (TMW), http://research.nii.ac.jp/src/list/detail.html 2010年3月