Comments
Description
Transcript
卒 業 論 文 - 田中英彦・坂井修一研究室へようこそ
卒 業 論 文 テンプレート切り出しによる不特定話者対応の ワードスポッティング 平成 12年 指導教官 2月 16日 提出 田 中 英 彦 教授 坂 井 修 一 助教授 東京大学 工学部 電子工学科 80534 下 萩 原 勉 内容梗概 本研究では,内容に関連するテキスト教材が付随する映像の音声データ中から,付随 テキストより抽出したキーワードを検出することを目的とする. 不特定話者に対応するため,従来手法では主に,音響的特性の異なる複数個のモデ ルを用意する,または,入力音声の先頭のデータでモデルを調整するという手法が用 いられていた. これに対し,本手法では,ワードスポッティングを 2 回に分けて行うことで精度向上を 図る.具体的には,最初は標準テンプレートを用いて,しきい値を高めに設定すること で候補を挙げ,その候補に対して別途検出した同一話者・同一単語区間と比較して 話者識別を行う.次に,話者ごとの同一単語の発声区間を切り出して話者に適応した テンプレートを改めて作成することにより,2 回目のワードスポッティングの精度向上を 図る. 人間による吹き込みにより作成した標準テンプレートを用いたワードスポッティングと提 案手法を比較した実験の結果,キーワードの検出性能は最大で約 50%,平均して約 20% 向上し,提案手法の有効性が示された. i 目次 1 . はじめに ・・・・・・・・・・・・・・・・・・・・・・・・ 1-1 研究の背景 1-2 研究の目的 1 2 . 関連研究 ・・・・・・・・・・・・・・・・・・・・・・・・ 2-1 動的計画法(DP マッチング法)による音声認識 2-2 隠れマルコフモデル(HMM)による音声認識 2-3 話者・発話環境の正規化・適応 3 3 . 本研究で用いる要素技術 ・・・・・・・・・・・・・・・・・ 3-1 音声特徴量抽出(ケプストラム) 3-2 動的計画法(DP マッチング法) 3-3 RIFCDP( Reference Interval-Free Continuous DP ) 6 4 . テンプレート切り出しによる不特定話者対応のワードスポッティング ・13 4-1 提案手法の概要:テンプレート切り出しによる不特定話者対応 4-2 処理の手順 4-2-1 標準テンプレート作成 4-2-2 テンプレート候補抽出のためのワードスポッティング 4-2-3 RIFCDP による同一話者・同一単語区間の検出 4-2-4 話者特定テンプレートの切り出し 4-2-5 話者特定テンプレートを用いたワードスポッティング 5 . 実験 ・・・・・・・・・・・・・・・・・・・・・・・・・・ 19 5-1 実験 1:音声を平均化する際の適切な時間長の決定 5-2 実験 2:標準テンプレート利用と話者特定テンプレート利用の比較 6 . おわりに ・・・・・・・・・・・・・・・・・・・・・・・・ 6-1 まとめ 6-2 今後の課題 25 謝辞 27 ・・・・・・・・・・・・・・・・・・・・・・・・・・・ 参考文献 ・・・・・・・・・・・・・・・・・・・・・・・・・ ii 28 1. はじめに 1 - 1 研究の背景 音声認識に関する研究は,近年大きく発展した.とりわけ,大語彙不特定話者連続音 声認識の進展には目覚しいものがあり,商用化の段階に達している( IBM 社の ViaVoice[8]など).最近では,この進展に伴い,実世界での使用を意識した研究に関 心が向けられている.しかし,進歩したとはいえ,究極的に望まれる水準とは隔たりが あり,多くの課題も残されている.例えば,学習データとテストデータの傾向が異なる場 合の認識率の極端な低下の克服や,話者や発話環境による変化を吸収したロバスト な認識は,依然大きな研究課題となっている. 一方,マルチメディアデータの発信は近年増加し続けており,その膨大なデータを利 用者の目的に合わせて選別したり,また,データを整理して蓄積する必要性が高まっ ている.これらの要請を満たすため,自動索引付けや分類,データベース化の研究が さかんに行われている.なかでも,1990 年代に入り,これまで個別に研究されてきた画 像・音声・テキストといったマルチメディアデータを構成する各メディアを統合的に処理 し,それぞれ単独のメディア処理からでは容易に得られない高度な処理を実現しようと する手法が研究されるようになっている. 1 - 2 研究の目的 統合メディア処理の研究の一つに,テキスト教材の付随する教養番組に着目し,映像 とテキスト教材の対応づけによるマルチメディアデータの統合的な再構成を目指した 研究がある[5].このような研究において,映像中の音声の内容は画像とともに,テキス ト教材との対応づけの際に大きな手がかりになる. 本研究では,このような手がかりを得るために,付随テキストより抽出したキーワードを 音声データ中から検出することを目的とする.具体的には,付随テキストが存在する教 養番組の中でも特に馴染みのある題材として料理番組を対象とする.既存の音声認 識手法の多くは,主に新聞記事から収集した統計情報を利用しており,料理のように 傾向の異なる話題では認識率が極端に悪くなるため,音声全体の認識は困難である. しかし,映像と付随テキストとの対応づけにおいては,キーワードのみの検出でも十分 1 に意義があるため,語彙を限定することによる精度の向上が期待できるワードスポッテ ィングの利用が適していると考えられる.また,一般の料理番組では,日々入れ替わる 司会者と料理人との会話で進行するものが多いため,スポッティングした音声に対す る話者の識別にも挑戦する. 本研究の大きな特徴は,(1)音声データよりテンプレートを切り出し,切り出したテンプ レートを用いて再度ワードスポッティングを行う点,(2)テンプレート切り出しのために話 者を識別する点,であり,これらにより,語彙限定・複数不特定話者に対するワードス ポッティングの精度の向上を試みる. 2 2. 関連研究 音声認識に関する研究は,近年大きく発展した.とりわけ,大語彙不特定話者連続音 声認識の進展には目覚しいものがある.最近では,この分野の研究の進展に伴って, 実世界での使用を意識した課題に研究の関心が向けられ,高騒音下の音声,自然会 話音声や放送音声の認識というような挑戦的な課題についても研究が行われ始めて いる. しかしながら,進歩したとはいえ,究極的に望まれる水準とは隔たりがあり,多くの課題 が残されている.米国では,6 万語彙の新聞記事の読み上げ不特定話者音声認識に おいて,90%を超える認識率を達成したとされているが[2],これは学習データとテスト データの傾向がかなり近い場合であり,傾向が変われば認識率は極端に低下する.ま た,音声信号は,話者や話し方,発話環境によって大きくばらつき,人間はこれらの変 化を吸収して認識することが可能であるが,現在の音声認識技術において,このような ロバストな認識は依然大きな研究課題である. こういった背景から,音声認識の実用化には,特定タスクへの限定的な応用例に多く 見られるように,現在の認識技術に他の知識や処理を加えることで,実用的なシステム を構築している. 既存の音声認識手法は大きく分けて,次に挙げる動的計画法(DP マッチング法)と隠 れマルコフモデル(HMM)の 2 つの技術を用いたものに分けられる. 一般的に,DP マッチング法は,語彙が限定されたワードスポッティングによく用いられ 会話を対象とする.一方,HMM は多語彙の文章を対象とした連続音声認識に用いら れることが多い.本研究の対象である料理番組は,話題が料理に限定されており,ま た,通常の料理番組は司会者と料理人との会話で進行するものが多いため,DP マッ チング法を用いたワードスポッティングを用いる. 2 - 1 動的計画法(D P マッチング法)による音声認識 音声特徴量の時系列で表される単語音声のパターンは,同じ話者が発声したもので あっても,発声のたびに継続時間などが変わる.子音部などでは,ある程度固有の長 さを保っているため変化が少ないが,母音部は大幅に伸縮する.したがって,音声の 時系列パターンの全区間で非線形の時間伸縮が起こる.このような変動を考慮した音 声認識手法として,動的計画法(Dynamic Programming matching:DP マッチング法) が用いられる.DP マッチング法とは,2 つのパターンを非線形に伸縮し,パターン同 3 士の最適なマッチングを行う手法である.DP マッチングは,単語レベルでの音声認識 であり,学習を特に必要としない点に特徴がある.そのため,ワードスポッティングには 比較的良く用いられている.(3-2 参照) 2 - 2 隠れマルコフモデル(H M M )による音声認識 音声特徴パラメータの時系列は,様々な原因によって一般に大きな音響的変動を含 む.このような変動のある時系列パターンの確率的な性質は,隠れマルコフモデル (Hidden Markov Model:HMM)と呼ばれる確率モデルによって精密に表現されると考 えられている.子音や母音を単位とした HMM では,時間によって変化するスペクトル を,3∼5 個程度の状態で表される時間的に定常なスペクトルをもつ確率的信号源の 遷移として捉える.HMM では,可能なスペクトル遷移を示す状態の個数とそれらの接 続関係,音声特徴量 x(t)に対して当該状態 i が代表するスペクトルとして観測される 確率 bi(x),および当該状態 i から他の状態 j への遷移確率 aij によって特徴づけられ る(図 1).HMM は,音素レベルでの音声認識であり,パラメータ aij や bi(x)などの学習 を必要とし,巨大なデータベースを構築することになる.しかし,日本音響学会,ATR, 東北大学などによる音声コーパスが存在する[9]ことから,現在,連続音声認識の分野 では主流の手法である. a11 初期 状態 状態 S1 a22 a12 状態 S2 a23 a33 状態 S3 a13 Si が代表する スペクトルとして 観測される確率 b1 (x) a34 a24 b2 (x) 図 1: 隠れマルコフモデル 4 b3 (x) 最終 状態 2 - 3 話者・発話環境の正規化・適応 音声特徴量には,認識したい発話内容のほか,話者の声音や話し方の違い,入力時 の環境雑音など,様々な情報が含まれる.これらの情報は,音声中の母音や子音とい った音声言語単位が示すスペクトルの種類を多様にするため,それらの同定を難しく する.従って,認識時には,このような多様性を何らかの形で吸収することが求められ る.この処理を「話者・発話環境の正規化・適応」と呼ぶ. この方法として,まず一つには,大量の話者による音声データを用い,音響特徴の似 た話者どうしを集めて複数の話者クラスタを作り,各話者クラスタごとに音響モデルを 作成する手法がある.認識時には,この手法による複数個の音響モデルを同時に使 用し,入力音声と音響的に最も良く照合する音響モデルが自動的に選択される.効率 よく話者クラスタとの照合を行うため,木状に話者クラスタを作成して用いる手法も提案 されている[7]. 以上のような工夫をしてもなお,話者を特定した場合に比べて不特定話者の音声認 識の性能は依然低く,入力話者の音声を直接,認識に反映する技術が考えられてい る[10].この技術は話者適応(Speaker Adaptation)と呼ばれ,入力された話者の音声 を利用して音響モデルを更新する.あらかじめ決められた内容の音声発声を用いるか 否かにより教師あり/なし(supervised/unsupervised)学習の別があり,入力音声を逐 一利用するか一括してまとめて扱うかによりオンライン型/バッチ型(online type / batch type)学習に分かれる. 教師あり学習では,発話内容が決まっているため,発声された音声と発話内容の対応 をとることにより,比較的容易にモデルの更新を行うことができる.一方,教師なし学習 では,モデルの更新に用いる音声の内容が規定されていないため,更新の前に発話 内容を認識する処理が必要になり,認識時の誤りが引き起こす副作用への対処が必 要となる. 本研究で対象とする料理番組において従来手法の適用を考えると,まず,複数個の 音響モデルを作成する手法では学習のための大量データを入手することが困難であ り,また,入力音声の先頭データで音響モデルを更新する手法は単一話者に適用す る手法であるため,複数人の会話で進行する料理番組には不向きである.そこで,テ ンプレートを入力音声から切り出すことによって不特定話者に対応する新しい手法を 提案する. 5 3. 本研究で用いる要素技術 3 - 1 音声特徴量抽出(ケプストラム) 音声波形そのものは,音声言語単位の特徴量としては非常に冗長である.このため, 音声認識では,音声の高能率伝送符号化のために考案されたスペクトル情報圧縮符 号化技術による,ケプストラム(cepstrum)という特徴量が広く用いられている.ケプスト ラムは音声の周波数特性を表し,認識したい音声言語単位のスペクトル特徴を含んで いる. 音源 共鳴 放射 図2: 音声の生成過程 音声の生成過程は,図 2 に示すように,音源,声道における共鳴,唇から空間への放 射の三段階に分けて考えることができる.音源は,音声の高さ・抑揚・強勢などの韻律 的特長を生成する.声道における共鳴は,話者が伝えようと意図した言語的な内容, すなわち,音韻的特徴を生成し,音声認識ではこの情報を必要とする.また,唇からの 放射特性はプリエンファシス(高域補正)などにより近似的に除去できるので,分析の 際には考えないこととする.プリエンファシスとは,伝送の過程で周波数が高いほどレ ベルが低下しやすいことから発生する信号の品質劣化を補うためのもので,古くから 使われてきた技術である. 音声 x(n) は,音源 g(n) と声道のインパルス応答 v(n) の畳み込み積分として表現 できる. x(n) = g(n) * v(n) ここで,x(n) を離散フーリエ変換(DFT)して,その絶対値の対数をとることにより,畳込 み積分の演算*を加法的な演算にすることができる.この変換を D とおくと, D( x(n) ) = D( g(n)*v(n) ) = D( g(n) ) + D( v(n) ) となる.変換 D を行った後は,線形システムによる種々の信号の処理が可能となり, 6 理論的にも実際的にも扱いが簡単になる.D( x(n) ) を離散フーリエ逆変換(IDFT)し たものをケプストラム(cepstrum)と呼ぶ.ケプストラムの独立変数は,その周波数に対 応した時間の次元をもち,ケフレンシ(quefrency)と呼ぶ.そして,ケフレンシの大小 (高低)によって信号を分離する操作をリフタ(lifter)と呼ぶ. D( g(n) )は基本周波数 f0 ごとに鋭いピークをもった激しい変化をし,D( v(n) )はスペ クトルのエンベロープ(マクロ特性)を表し,周波数に対して緩やかな変化をする.した がってケプストラム上では,D( g(n) )は主としてケフレンシ上の 1/f0 の近傍における成 分として,D( v(n) )は低ケフレンシ域の成分として現れる.つまり,ケフレンシの大小に よってリフタすることによりスペクトルエンベロープ成分を分離・抽出することができ,そ の低ケフレンシ成分をもう一度 DFT して,音韻的特徴を表す log V(w) を抽出するこ とができる(図 3). このように,音韻的特徴と韻律的特徴を分けられるために,ケプストラムは音声認識で 多用される. また,音声認識で必要とされる音韻性の違いは,音声スペクトルの周波数 1,000 ∼ 2,000Hz 付近を中心に顕著に現れる.したがって,この周波数帯域を重視することに よって音韻識別性能の向上が考えられる.次式で示すメル周波数軸目盛によって周 波数軸を非線形に伸縮して,音声スペクトルの違いが大きい周波数領域を重要視す ることにより,周波数特徴をパターン識別に反映する方法が有効であることが知られて いる[6]. f Mel ( f ) = 2595 log 10 1 + 700 7 音声 x(n) = g(n) * v(n) X(w) = G(w) × V(w) 波形の切り出し 1フレーム DFT FFT で実行 パワースペクトル化 log G(w) + log V(w) log g(n) + log v(n) log | | IDFT IFFT で実行 log v(n) ケプストラム 窓掛け リフタリング log V(w) DFT FFT で実行 スペクトル エンベロープ x(n) g(n) v(n) * X(w),G(w),V(w) : 音声信号 : 音源の成分 : 声道による共鳴の成分 : 畳み込み積分演算 : それぞれ x(n),g(n),v(n) の離散的フーリエ変換 図 3 : ケプストラム 分 析 の 手 順 8 3-2 動的計画法 ( D P マッチング法 ) 動的計画法(DP マッチング法)とは,2 つのパターンを非線形に伸縮し,パターン同士 の最適なマッチングを行う手法である.2 つのパターン A, B の距離尺度が最小にな るマッチングを考え,DP マッチング法の役割について図 4 を用いて簡単に説明する. 図 4 (a)は A と B とに何の操作も施さずに比較した場合,図 4 (b)は B を時間軸方 向に線形に縮小して,A と B の時間長をそろえた場合,図 4 (c)は B の時間軸を非 線形に縮小して,A に最も近い形になるようにした場合である.(a), (b), (c) の三者を 比較すると,この順に距離尺度は小さくなっている.つまり,(c)が最も距離尺度が小さ くなるマッチング手法であり,これを実現する方法として動的計画法( Dynamic Programming matching :DP マッチング法)がある. 音声では,子音部はある程度固有の長さを保っているため変化は小さいが,母音部は 大幅に伸縮する.このような性質をもった 2 つの不等長パターンを比較する場合,図 4 にみたように時間長の差異によって生ずる本質的でない距離の差を極力排除する尺 度が望ましい. A A A B B1 ≒ B を線形に縮小 (a) (b) B2 ≒ B を非線形に縮小 (c) 図4: 不等長パターン間の距離 DP マッチングの具体的な実現方法について,図 5 を用いて説明する.2 つのパター ン A と B を特徴ベクトルの時系列として表現する,つまり, A = a1 a2 ・・・ aI B = b1 b2 ・・・ bJ とする.図 4 (c)に相当する場合を 2 次元的に図示すれば図 5 (a)のようになる. 9 パターンBの特徴 ベクトルの時系列 c(K) = ( I, J ) bJ c(K-1) bj c(k) = ( i, j ) B c(3) c(4) c(2) c(1) = ( 1, 1 ) b1 a1 ai aI パターンAの特徴 ベクトルの時系列 A (a) パターン A,B の時間の対応図 j (1) j-1 g (i − 2, j − 1) + 2d (i − 1, j ) + d (i , j ) ・・・① (1) ・・・② g (i , j ) = min g ( i − 1, j − 1) + 3d (i , j ) (2) g (i − 1, j − 2) + 3d (i , j − 1) + 3d (i , j ) ・・・③ (3) (2) (3) j-2 i-2 i-1 i (b) 点( i, j ) における部分和 g( i, j ) の計算 図 5 : 動 的 計 画 法 (D Pマッチング法) ここで A,B 両パターンの時間の対応,すなわち時間変換関数は,図 5(a) の平面上 の格子点 c(k) = (i, j) の系列 F で表現することができる. F = c(1) c(2) ・・・ c(K) 点列 F に沿ってとった距離の荷重平均を考え,その値を最小とするように F を変化 させ,2 つのパターン A と B のマッチングを行う.ここで F の変化には,あまり極端 な時間軸の伸縮は許されないように制限をつけ,図 5 (b) に示す 3 通りのみを考える 10 ことにする.2 つの特徴ベクトル ai と bj との距離を d(c) = d(i, j) で表し,部分点 列 c(1) c(2) ・・・ c(k) に対する部分和を g(c(k)) = g(i, j) とすると,最適性の原理 (最適政策の部分系列はやはり最適政策になっている)により,次式のような漸化的な 表現となる. (1) g (i − 2, j − 1) + 2d (i − 1, j ) + d ( i, j ) g ( i, j ) = min g (i − 1, j − 1) + 3d (i , j ) (2) g (i − 1, j − 2) + 3d (i , j − 1) + 3d (i , j ) (3) このようにして計算していき,最終的に求められた g(I, J) が 2 つのパターン A と B との距離の最小値であり,その時の F が最適なマッチングを表す時間変換関数とい える. 3 - 3 R I F C D P ( R e f e r e n c e I n t e r v a l- F r e e C o n t i n u o u s DP ) DP マッチングは 2 つの不等長パターンを比較して最適なマッチングを行う手法であ ったが,その時間長は共に固定長でなければならなかった.これに対し,一方のパタ ーンを任意長にし,その中から他方の固定長パターンと類似する区間を検出する手法 を連続 DP マッチング(Continuous DP matching)と呼ぶ.前者を入力パターン,後者 を標準パターン(テンプレート)と呼ぶ(図 6).一般にワードスポッティングでは,検出し たい語を標準パターンに,連続音声を入力パターンにして,連続 DP マッチングを行 っている. 連続 DP マッチングの実現方法について簡単に説明する.まず,入力パターンの先頭 と標準パターンとを DP マッチングにより対応させ,距離の最小値を求める.そして,入 力パターンをずらし,同じく標準パターンと DP マッチングにより対応させ,距離の最小 値を求める.このようにして,入力パターンをずらしながら最後まで入力パターンの各 区間における標準パターンとの距離の最小値を求めていく.次に,適当なしきい値を 設定し,求めた距離がしきい値以下ならば,その区間が標準パターンとの類似区間と して検出されることになる. ここで,連続 DP マッチングにおけるしきい値は 2 つのパターンの類似度の距離値で あり,しきい値が小さいほど検出の条件が厳しくなる. 11 reference reference と類似する区間 reference と類似する区間 input 図 6 : 連 続 D P マッチング reference と類似する区間を input から検出 次に RIFCDP とは,標準パターンの方も任意長に拡張したもので,2 つの時系列デ ータ間で,任意の長さをもち,かつ互いに類似した区間対を検出する手法である(図 7).この手法により,切り出しや認識を行っていない音声などの時系列事例データベ ースから直接同一内容区間の検出が行える.また,入力パターンを標準パターンに逐 次コピーしながら類似区間を検出する Incremental RIFCDP(IRIFCDP)に拡張され, reference 実時間の音声要約や話題境界検出が実現されている[4]. B A input A と類似する区間 B と類似する区間 図 7: RIF CDP (R eference Interval-Free Co ntin uous D P) reference の任意の区間と類似する区間を input から検出 12 4. テンプレート切り出しによる 不特定話者対応のワードスポッティング 4 - 1 提案手法の概要: テンプレート切り出しによる不特定話者対応 一般に,複数話者に対応するためには,何らかの形で各話者固有の差異を吸収する ことが必要であるが,従来は,あらかじめ大量の話者によるデータを用いて,複数個の テンプレートを用意する,または,入力音声の先頭のデータを用いて,認識システムが もつテンプレートを個人の特性を反映したものに変形する手法が用いられていた. これに対し,本手法では,ワードスポッティングを 2 回に分けて行うことで精度向上を 図る.具体的には,最初は標準テンプレートを用いて,しきい値を高めに設定すること で候補を挙げ,その候補に対して RIFCDP から導かれた情報と比較して話者識別を 行う.次に,その結果入力音声から検出された話者ごとの同一の単語発声区間を切り 出してテンプレートを改めて作成することにより,2 回目のワードスポッティングの精度 向上を図る. 提案手法の全体像を図 8 に示す.以下に処理の流れを順に説明する. (1) テキスト教材からキーワードを抽出し,標準テンプレートを用意する. (2) 1 回目のワードスポッティング:しきい値を高く設定し,最終的に検出すべき単語 の候補を挙げる. (3) (2)と並行して RIFCDP により同一話者・同一単語の区間を検出しておく. (4) (2)と(3)の区間を比較することにより,話者ごとに同一単語の区間を切り出して, それぞれを平均化して,2 回目のワードスポッティングのための話者特定テンプ レートとして用意する. (5) 2 回目のワードスポッティング:話者特定テンプレートを用い,最終結果を得る. この手法により,番組音声中より,テキスト教材から抽出したキーワードを,話者ごとに 区別して検出されることが期待される. 13 テキスト教材 番組音声 標準 テンプレート (1) キーワード 抽出 (2) (3) 第1回ワード スポッティング RIFCDP 検出語 比較 同一話者 同一単語 (4) 話者特定 テンプレート テンプレート 切出し・平均 化 (5) 第2回ワード スポッティング 結果出力 図 8: テンプレート切 り 出 し に よ る 不 特 定 話 者 対 応 の ワ ー ドスポッティング手法の全体像 14 4 - 2 処理の手順 本節では,提案手法の処理の各手順の詳細について説明する. 4 - 2 - 1 標準テンプレート作成 まず,付随テキストからキーワードを抽出する.キーワード抽出については様々な研究 が行われているが[5],本研究の主題ではないので特に取り上げないこととし,あらか じめ抽出されているものとする.次に,抽出されたキーワードを基に標準テンプレート を作成する.将来は音声合成による自動化も考えられるが,本研究では,人間による 吹き込みで事前に作成しておく.この際,同一単語の複数人による吹き込みを行い, それを DP マッチングにより男女別に平均したものを用いる. 4 - 2 - 2 テンプレート候補抽出のためのワードスポッティング 作成した標準テンプレートを標準パターンに,番組内の音声を入力パターンにして, ワードスポッティングを行う.ワードスポッティングには連続 DP マッチングを用いる.こ こでは,テンプレートの単語と番組音声内の該当する単語との間の,話者及び発話環 境等が異なるため,しきい値をやや高めに設定し,検出の条件を緩める. 例: 図 9 に,1つの標準テンプレートから,Word 1,Word 2,Word 3 の 3 つの語 が検出された例を示す.話者及び発話環境が異なるため,全ての検出は困難であり, Standard Template ここでは,Word 4 が検出されなかった場合を示してある. input Speakers Word 1 Word 2 Word 3 Word 4 \/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\ 図 9: テンプレート候補抽出のためのワードスポッティング 標準テンプレートを用いてワードスポッティングを行う. 話者及び発話環境が異なり,全ての検出は困難. ここでは,テンプレートとして切り出す候補の検出を期待する. 15 4 - 2 - 3 R I F C D P による同一話者・同一単語区間の検出 標準パターン及び入力パターンの両方を番組内の音声から得ることにより,番組音声 中の類似区間を検出することができる.ここでは,同一話者による同一単語の発話区 間が検出されることを期待する. 例: 図 10 に,4-3-2 の例で検出された Word 1,Word 2,Word 3 の場合を示す. 図 10 の (1) 及び (9) にみるように,Word 1 と Word 3 が互いに検出されているの で,これら 2 つの単語は同一の話者(この者を Aとおく.他者を Bとおく)の発声したも (1) (2) (3) (3) (5) (7): 同一話者・同一単語であ り,さらに同一箇所のため 必然的に検出 Word 2 (4) (5) (6) (2) (4) (6) (8): 同一単語であるが,話者 が異なるため検出されず Word 1 Word 3 \/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/ のであると認識される. (7) (8) (9) Word 1 Word 2 Word 3 (1) (9): 同一話者・同一単語のた め,発声箇所は異なるが 検出 \/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/ 図 10: RIF CDP による同一話者・同 一 単 語 区 間 の 検 出 同一話者・同一単語の検出を行う. ここでは,Word 1 と Word 3 が同一話者の 発声した単語と認識された. 16 4 - 2 - 4 特定話者のテンプレート切り出し まず,テンプレート候補抽出のためのワードスポッティングで検出された発話区間と, RIFCDP で検出された同一話者による同一単語の発話区間を比較する.ここで,一致 するものがあった場合は,最初にテキストから抽出したキーワードを同一人が 2 回以 上発言したことを意味する.つまり,テンプレート候補抽出のためのワードスポッティン グで検出された発話区間の話者を識別したことになる. 次に,切り出したテンプレートを用いた 2 回目のワードスポッティングに用いるテンプレ ートを作成する.まず,テンプレート候補抽出のためのワードスポッティングで検出され た全ての発話区間を切り出し,そのうち,同一話者の発話であると識別されたものにつ いて,DP マッチングにより正規化して平均をとり,話者特定テンプレートを作成する. 例: 図 11 に,4-3-2 及び 4-3-3 で得られた情報を基に,Word 1,Word 2, Word 3 を切り出し,話者特定テンプレートを作成する様子の例を示す.Word 1 及び Word 3 は同一話者 A の発声した語であると認識されたので,平均化して話者 A の テンプレートとする.Word 2 については,切り出した語をそのまま話者 B のテンプレ ートとする. 切り出して平均化 Word 1 Word 3 Template for A Word 2 Template for B 切り出してそのまま 図 11: テンプレート切り出し及び平均化 Word 1 とWord 3 は同一話者と認識されたので 平均化し,話者Aのテンプレートとする. Word 2 はそのまま話者Bのテンプレートとする. 17 4 - 2 - 5 話者特定テンプレートを用いたワードスポッティング 前項で作成したテンプレートを標準パターンに,番組中の音声を入力パターンにして, 話者特定テンプレートを用いたワードスポッティングを行う.ここでは,テンプレートと番 組音声中の該当する発話区間は類似しているはずなので,しきい値をきつめに設定し, 話者以外の者の発言を検出しないように注意する. ここでの出力が最終結果であり,番組音声中より,付随テキストから抽出したキーワー ドを,話者ごとに区別して検出したことになる. 例: 図 12 に,4-3-4 の例で作成したテンプレートを用いた 2 回目のワードスポッ ティングの例を示す.話者 A 用のテンプレートを用いたワードスポッティングでは,話 者及び発話環境が同一のため,1 回目では検出されなかった Word 4 も検出されて Template for A いる. Template for B input input Speaker A Speaker B Word 1 \/\/\/\/\/\/\/\/ Word 3 Word 4 \/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\ Word 2 \/\/\/\/\/\/\/\/\/\/\/\/ \ / \ / \ / \ / \ / \ / \ / \ / \/\/\ 図 12: 第 2回ワードスポッティング 話者特定のテンプレートを用いて ワードスポッティングを行う. ここでは,新たに Word 4 が検出された. 18 5. 実験 本章では,提案するワードスポッティング手法の有効性を確認する評価実験とその結 果の考察を行う.実験の対象とする音声は,テレビで放送された料理番組 7 番組から 約 7 分を録音した.出演者の性別,人数,対象とする単語(のべ 80 単語)を表 1 に示 す.一方,付随テキストについては WWW で公開されているものを用いた. 表 1 :実験に用いた料理番組 番組 出演者の性別・人数 対象とする単語 番組 1 女性 2 人 しょうゆ 番組 2 女性 2 人 しょうゆ,カリフラワー 番組 3 女性 2 人 ドライフルーツ 番組 4 女性 2 人 しょうゆ 番組 5 女性 2 人 しょうゆ 番組 6 女性 2 人 ほたて,ホワイトソース,マッシュルーム 番組 7 男性 1 人,女性 1 人 牛すじ肉,レンズ豆 以下に, ・ 実験 1:音声を平均化する際の適切な時間長の検討 ・ 実験 2:標準テンプレートと話者特定テンプレートを用いたワードスポッティング 性能の比較 の実験手順,実験結果及び考察を述べる. 19 5 - 1 実験 1 :音声を平均化する際の適切な時間長の決定 DP マッチングにより平均化をする際には,平均化をする複数の単語から 1 つの単語 を選択し,その単語の時間長に合わせて行う.この際,選択された単語の時間長の長 短によりワードスポッティングの結果にどのような影響が現れるのかを実験した. 表 1 中の番組 1 から「しょうゆ」を取り上げる.番組音声より 4 つの同一話者の同一単 語を人手で切り出し,それぞれの単語の時間長に合わせて平均化した音声をテンプ レートとしてワードスポッティングを行った. 実験結果及び考察 実験結果を図 13 に示す.結果の評価には,次式で表される適合率及び再現率を指 標として用いた. 適合率 = 正答数 正答数 再現率 = 検出できた区間数 検出すべき区間数 図 13 より,テンプレートの時間長が長い順に,適合率・再現率が良いことが分かる.こ れは,短い単語に時間長を合わせて平均化する場合には,長い単語がもつ音韻情報 が縮退してしまうのに対し,長い単語に合わせる場合には,これを維持できるためと思 再現率(%) われる. 100 90 80 70 60 50 40 30 20 10 0 時間長(フレーム数) 0 2 4 適合率(%) 30 28 25 22 6 8 図 1 3 :テンプレートの時間長によるワードスポッティング性能の差 20 10 5 - 2 実験 2 :標準テンプレート利用と話者特定テンプレート利 用の比較 入力音声から切り出した発話区間を平均化して話者特定テンプレートを作成する効果 を検討するため,表 1 中の各単語について,(1)標準テンプレートを用いた場合,(2) 理想的な話者特定テンプレートを用いた場合,及び,(3)実際に作成した話者特定テ ンプレートを用いた場合,の 3 種類のワードスポッティングを行い,それぞれの認識の 精度を比較した.以下に各テンプレートの作成方法を説明し,次に実験結果及び考 察を述べる. 標準テンプレートの作成 まず,異なる話者による発声の差異を除くため,男性 6 人,女性 5 人の発声を吹き込 んだ.また,発声ごとの変動による差を吸収するため,それぞれの話者による同一の 単語の発声について 3 回吹き込みを行った.これらの単語を男女別に,実験 5-1 の 結果を反映させて最も長い単語の時間長に合わせて DP マッチングにより平均化し, 標準テンプレートとした. 理想的な話者特定テンプレートの作成 理想的な話者特定テンプレートについては,まず,テンプレート候補抽出のためのワ ードスポッティング及び同一話者・同一単語区間の検出から正しい結果が得られたこ とを仮定して,番組音声を人手で切り出した.そして,話者ごとに発話された全ての同 一単語を,2 回以上発声された単語については最も長い単語の時間長に合わせて DP マッチングにより平均化し,発声が 1 回のみの単語については切り出した単語をそ のまま,話者特定テンプレートとした. 理想的な話者特定テンプレートを作成したのは,入力音声から切り出した発話区間を 平均化して話者特定テンプレートを作成する効果を検討するためであり,実際のシス テムでは,必ずしも理想的な話者特定テンプレートが作成できるとは限らない. 現実的な話者特定テンプレートの作成 理想的な話者特定テンプレートは,同一話者が発声した全ての同一単語を平均化し て作成した.しかし,実際のシステムにおいては,標準テンプレートを用いた 1 回目の ワードスポッティングで検出された単語のみを平均化して話者特定テンプレートを作成 することになる.そのため,1 回目に検出された単語を平均化して作成した話者特定テ 21 ンプレートを用いて,検出されなかった同一話者による同一単語の発声区間を検出す る必要がある.そこで,この点を検討するため,実際の話者特定テンプレートを作成し た. 具体的には,上述の方法で作成した標準テンプレートを用いてワードスポッティングを 実際に行い,その結果得られた各発話区間の正否を人が判断し,正答した発話区間 を人手で切り出して話者識別を行った.そして,話者ごとに切り出した発話区間を,2 回以上発声された単語については最も長い発話区間の時間長に合わせて DP マッチ ングにより平均化し,発声が 1 回のみの単語については切り出した発話区間をそのま ま,話者特定テンプレートとした. 例として,表 1 中の番組 6 における「ホワイトソース」を取り上げる.「ホワイトソース」は 番組内で 6 回出現し,そのうち,同一話者の発声する単語が 3 つある(それぞれ W1 ∼W3 とおく).これら W1∼W3 を全て平均化し作成するのが理想的な話者特定テンプ レートである(図 14:Template 1).しかし,標準テンプレートを用いたワードスポッティ ングでは,これら 3 つの単語のうち,W2,W3 の 2 つのみが検出され,W1 は検出されな い.そこで,この W2,W3 のみを平均化して作成するのが実際の話者特定テンプレート である(図 14:Template 2). Speaker W1 W2 W3 \/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/ Template 1 Template 2 図 14 : テンプレートの切り出し及び平均化 Template 1 :W1,W2,W3 を平均化 Template 2 :W2,W3 を平均化 実験結果及び考察 まず,しきい値を一定にした場合の各単語の認識の再現率を図 15 に示す. 図 15 において,話者特定テンプレートを用いたワードスポッティングでは,標準テンプ レートを用いた場合と比較して,理想的な場合で約 50%,現実的な場合で約 20%, 再現率が向上していることが分かる.また,理想的な場合には,13 種の単語のうち 9 種の単語の再現率が 100%に達している. これらの結果は,入力音声よりテンプレートを切り出すことにより,話者及び発話環境 22 の適応が行われ,また,平均化することにより同一話者・同一単語の特徴が洗練され たためと思われる. 次に,図 15 において,先ほど例に取り上げた「ホワイトソース」に注目すると,標準テン プレートでは,3 つの単語のうち 2 つしか検出できないので 66%となっているのに対し, 話者特定テンプレートでは,理想的な場合に 100%となるだけでなく,現実的な場合 にも 100%に達している. すなわち,W1 を含めず,W2 , W3 のみを平均化した話者特定テンプレートが,W1 を検 出するのに成功している.これは,平均化により同一話者・同一単語の特徴が洗練さ れたためと思われる.言い換えれば,1 回目のスポッティングで W1 を検出できなかっ た場合でも,W2, W3 を検出できていれば,W2と W3 の平均の音声をテンプレートとした 第 2 回目のスポッティングで W1 を検出できることを意味する. 同様に,図 15 の 13 種の単語のうち,8 種の単語で再現率の向上,すなわち,1 回目 のワードスポッティングで未検出の単語を 2 回目のワードスポッティングで検出できて いることが分かる. 標準テンプレート 現実的な話者特定テンプレート 理想的な話者特定テンプレート 100 90 80 70 再現率(%) 60 50 40 30 20 10 ) (女 ) レ ン ズ 豆 (男 ) 豆 (女 ズ ン レ す じ 肉 (男 ) (女 じ 肉 ス す ト ソ ー ム イ ワ ホ シ ュ ル ー て (女 ) (女 ) ) ) ) (女 た ほ ッ マ ド ラ イ フ ル ー ー ワ ラ フ ツ (女 ) 女 ) 5( リ カ し ょ う ゆ 4( 女 ) 女 し ょ う ゆ 2( ゆ う ょ し し ょ う ゆ 1( 女 ) 0 図 1 5 : しきい値を一定にした場合の各単語の認識の再現率 しょうゆ 1,しょうゆ 2 ・・・ はそれぞれ, 表 1 中の番組 1 のしょうゆ,番組 2 のしょうゆ ・・・ を表す. 23 次に,他の例として表 1 中の番組 2 における「カリフラワー」を取り上げ,各テンプレー トを用いた認識の適合率・再現率を図 16 に示す. 図 16 より,話者特定テンプレートを用いたワードスポッティングでは,適合率・再現率 ともに,標準テンプレートを用いた場合よりも高い値が得られた.同じ適合率で比較し た場合,約 2 倍の再現率が得られている. これは,入力音声よりテンプレートを切り出すことにより,話者及び発話環境の適応が 行われ,また,平均化することにより同一話者・同一単語の特徴が洗練されたためと思 われる. また,図 16 において同じ再現率で比較した場合,各再現率の値で適合率は飛躍的 に(最高約 90%)向上している.すなわち,人間の吹き込んだ音声を平均化して作成 した標準テンプレートでは雑音を多く拾ってしまうのに対し,番組音声より切り出した音 声を話者ごとに平均化して作成した話者特定テンプレートでは,話者及び発話環境の 適応が行われたために,雑音を拾いにくくなったと言える. 標準テンプレート 実際の話者特定テンプレート 理想的な話者特定テンプレート 100 90 80 再現率(%) 70 60 50 40 30 20 10 0 0 20 40 60 80 適合率(%) 図 1 6 : 標準テンプレート及び話者特定テンプレートを用いた認識の比較 (「カリフラワー」の例) 24 100 6. おわりに 6 - 1 まとめ 本研究では,テキスト教材中のキーワードを入力音声中から検出する手法を提案した. 実験で明らかになったように,話者特定テンプレートを用いたワードスポッティングでは, 適合率・再現率ともに向上することが分かった.また,標準テンプレートを用いた 1 回 目のワードスポッティングで完全に検出ができなくとも,同一話者の他の発話区間を用 いることにより,目標とする単語を検出できることが分かった. 前章での実験より,話者特定テンプレートを用いたワードスポッティングでの認識の再 現率は,理想的な場合で約 50%,現実的な場合で約 20%の向上が見込まれる.これ は,入力音声からテンプレートを切り出すことにより話者及び発話環境の適応が行わ れ,また,切り出した単語音声を平均化することにより同一話者・同一単語の特徴が洗 練されるためであると思われる.また,適合率については,最高で約 90%の向上が見 込まれる.これは,特に発話環境が等しくなったために,切り出したテンプレートが入 力音声と等しい雑音をもつこととなり,認識時に互いの雑音がキャンセルされるためで あると思われる. また,実際のシステムでは,同一話者の発声した同一単語の全てを平均化し,理想的 な話者特定テンプレートを作成できるとは限らないが,図 15 でみたように,標準テンプ レートを用いた 1 回目のワードスポッティングで検出された単語のみを平均化して作 成した話者特定テンプレートを用いて,検出されなかった同一話者の同一単語を検出 できることが示された.これも,入力音声から単語音声を切り出して平均化することで, 話者及び発話環境に適応させ,同一話者・同一単語の特徴を洗練したためである. 以上より,入力音声よりテンプレートを切り出して平均化することで作成した話者特定 テンプレートを用いてワードスポッティングを行う効果は明らかであり,ここに提案手法 の有効性が示された. 25 6 - 2 今後の課題 本研究では,標準テンプレートの作成及び話者識別に課題が残り,認識システムの完 全自動化には至らなかった.標準テンプレートの作成については,将来は音声合成に よる自動化なども考えられるが,本研究の対象である料理番組では語彙が限定されて いるので,あらかじめ吹き込みにより作成しておくことが可能と思われる.また,話者識 別については,同一話者・同一単語区間の検出が必要となるが,これは RIFCDP など で実現したいと考えている. 今後の発展的な課題としては,認識システムの精度向上のため,話者の人数(映像中 の顔領域検出などで実現)や,番組の構成(料理人が番組の最初に料理名を言う,司 会者が最後に材料を読み上げる,料理の手順など)といった音声以外の情報の活用 も有効であると思われる. また,音声認識では一般に音韻情報のみを抽出し韻律情報は除去するが,提案手法 の話者特定テンプレートでは話者固有の特徴を利用するため,韻律情報を用いた認 識も検討する価値があると思われる. 26 謝辞 本研究にあたっては,数多くの指針となる御意見を田中英彦教授から頂きました.また, 坂井修一助教授には,研究の進め方について基礎から丁寧に御指導頂きました.心 から感謝の意を表します. 大学院博士課程の井手一郎氏には,ワードスポッティングやシステム全般についての 解説,及び研究を進めるにあたり必要なことを多岐にわたり直接指導して頂きました. 大学院修士課程の浜田玲子氏には,料理番組に関する様々なデータの提供や多く の助言・励ましをいただきました.深く感謝致します. また,DP マッチングによるワードスポッティング及び RIFCDP のプログラムは,技術研 究組合新情報処理開発機構(RWC)のご好意により提供して頂きました.特に,RWC の岡隆一氏,西村拓一氏には,ワードスポッティングをはじめ音声認識全般にわたり 基礎から丁寧に教えて頂き,多くの有益な助言を頂きました.深く感謝致します. そして,田中・坂井研究室の大学院生・研究生・卒論生・留学生の皆さんには,研究の さまざまな点で助言をいただき,また,友人として筆者を力づけていただき,公私共に 大変お世話になりました.助手の清水修さん,秘書の田丸あやさん,小林美智さんに は,研究生活全般にわたりお世話になりました.どうもありがとうございました.また,実 験に用いる音声を吹き込んで頂いた皆さんには,お忙しい中お時間を割いてご協力 して頂き,誠にありがとうございました. 最後に,筆者が生まれてこのかた,常に,学問への機会と精神的・経済的援助を惜し まず与えてくれた両親と,互いに元気付け合う最愛なる弟に感謝の意を表したいと思 います. 27 参考文献 [1] 情報処理学会編:“新版 情報処理ハンドブック”,pp.1102-1108,オーム社,1995. [2] 工藤 育男,白井 克彦,小林 哲則,守谷 健弘,間野 一則,広瀬 啓吉,匂坂 芳典,中村 哲,鹿野 清宏,杉山 雅英,板橋 秀一:“特集 音声処理技術とその応 用”,情報処理 Vol.38, No.11,pp.970-1018,1997. [3] 今井 聖:“情報・電子入門シリーズ 16 音声認識”,共立出版,1995. [4] 西村 拓一,古川 清,向井 理朗,岡 隆一:“時系列パターン検索のための重み 減衰型 Reference Interval-Free 連続 DP について”,電子情報通信学会論文誌 Vol.J81-D-II, No.3, 1998. [5] 浜田玲子,井手一郎,坂井修一,田中英彦:“料理番組とテキスト教材の対応付 け”,第 5 回知能情報メディアシンポジウム(IIM'99)論文集 pp.69-74,1999. [6] 長尾 真,宇津呂 武仁,島津 明,匂坂 芳典,井口 征士,片寄 晴弘:“岩波講 座マルチメディア情報学 4 文字と音の情報処理”,岩波書店,2000. [7] 小坂 哲夫,松永 昭一,嵯峨山 茂樹:“木構造話者クラスタリングを用いた話者 適応”,電子情報通信学会論文誌 Vol. J78 D II,No.1,pp.1-9,1995. [8] 日本アイ・ビー・エム株式会社:“ViaVoice Pro ミレニアム 日本語版 for Windows 98, Windows 95, Windows NT”,1999. (http://www.jp.ibm.com/voiceland/) [9] 竹澤 寿幸,末松 博:“音声テキストコーパスとその構築技術,標準化動向”,人 工知能学会誌,Vol.10,No.2,pp.168-180,1995. [10] 大倉計美,杉山雅英,嵯峨山茂樹:“混合連続分布移動ベクトル場平滑化話 者適応法”,電子情報通信学会論文誌,Vol.J76 D II,No.12,pp.2469-2476,1993. 28