Comments
Description
Transcript
多様な発声方法における話者識別の性能評価
多様な発声方法における話者識別の性能評価 Performance evaluation of the speaker recognition by various vocalization methods 吉田 蓉平*1 Yohei Yoshida 川上 雄太*1 Yuta Kawakami 王 龍標*1 Longbiao Wang *1 長岡技術科学大学 Nagaoka University of Technology 1. はじめに 近年のセキュリティには生体認証システムが用いられる 場合が多い。数ある手法の中でも、マイクがあれば利用で きる汎用性から、音声による識別システムが使用される事 が期待されている。しかし、人間の声は一定でなく、健康、 状況、感情等によって変動する。発話者の状態によって識 別システムが誤認する可能性も十分に考えられる。 本研究では、話者の発声方法を意図的に変化させて話者 識別を行い、識別結果がどのように変化するのかを調査す る。また、識別する際の特徴抽出には MFCC(Mel Frequency Cepstral Coefficient)、位相情報(以下、位相)[1]、LPC(Linear Predictive Coefficients)の 3 種類を用意し、発声方法の変化に 頑健な話者識別の特徴抽出方法を調査する。 2. 話者識別システムの概要 本 研 究 で 用 い る 話 者 識 別 シ ス テ ム は GMM(Gaussian Mixture Model)[2]を用いたテキスト独立型話者識別手法を 使用する。GMM による話者識別システムは、識別を行う 話者の音声から特徴パラメータを抽出しモデル化を行う。 特 徴 パラ メー タの 抽出 方 法に は いく つか 手法 があ る 。 MFCC はフーリエ変換した際の振幅情報を取り出す手法で、 現在の音声認識で一般的に用いられている。位相はフーリ エ変換した際の位相情報を取り出す手法で、音源情報を多 く有すると言われている。LPC は音声波形を音声の生成モ デルを全極モデルで再現する手法で、声道情報を線形予測 係数から導出されるケプストラム係数で表す。 3. 実験 3.1. 実験方法 20 歳前後の男子学生 20 名の音声を録音し、GMM を作 成した。音声は通常の発声 10 文に加えて、鼻つまみ声、 裏声、低い声、怒声、哀声、囁き声を 3 文ずつ録音した。 使用した録音機材を Table 1 に示す。 音声の特徴量抽出は MFCC、位相、LPC で行い、抽出 条件を Table 2 に示す。特徴抽出の際、音声のサンプリン グ周波数を 16kHz にダウンサンプリングした。GMM モ デルは混合数 128 で、通常の発声 5 文を使用して学習を 行った。GMM の評価には学習に使用しなかった通常の 発声と発声方法を変化させた音声で行った。 Table 1 録音機材 マイク ATH-770COM 録音機 Roland R-26 PORTABLE RECORDER サンプリング周波数 48 kHz 岩橋 政宏*1 Masahiro Iwahashi 中川 聖一*2 Seiichi Nakagawa *2 豊橋技術科学大学 Toyohashi University of Technology Table 2 話者識別の分析条件 MFCC 位相 LPC フレーム長 25ms 12.5ms 25ms フレームシフト 10ms 5ms 10ms 特徴量次元数 25 24 26 3.2. 実験結果 実験結果を Table 3 に示す。最も結果が良いのは MFCC ということがわかった。しかし、声質の著しい変化は総 じて識別率の低い結果となった。特に声質が極端に変化 する裏声や、声帯が振動しない囁き声はすべての識別方 法で認識結果が低下した。 位相情報に関して言えば、他の識別結果では 8 割の識 別率だった鼻つまみ声で識別率は 5 割程度だった。この 事から位相情報は話者の発声方法が外的な変化を受ける と識別率が下がるものと考えられる。 それぞれの識別率を向上させる方法を検討し、組み合 わせることによって発声方法の変化に頑健なシステムが 設計できると考えられる。 Table 3 話者識別の結果 発声方法 識別率[%] MFCC 位相 LPC 通常 100 92 97 鼻つまみ声 87 50 85 裏声 38 23 38 低い声 77 78 77 怒声 83 63 63 哀声 70 68 73 囁き声 23 15 27 全体 71 59 68 4. まとめ 今回の実験では、発声方法がどれほど話者識別システム に影響するかを調査し、各特徴量での性能評価を行った。 今後は、LPC 残差(音源情報)といった他の手法でも試し、 発声方法の変化に頑健なシステムを調査していく。 5. 参考文献 [2] S. Nakagawa, L. Wang, and S. Ohtsuka “Speaker identification and verification by combining MFCC and phase information”, IEEE TRANSACITIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 20, NO. 4, MAY 2012. [1] H. Beigi, “Fudamentals of speaker recognition”, Springer, 2011.