Comments
Description
Transcript
授業資料
音情報処理 第6回 音声認識理論と音声認識システム 2015/11/12 環境知能学研究室 川波弘道 1 第1回 音情報基礎 第2回 音声の特徴抽出 第3回 音声符号化基礎 第4回 音響信号処理基礎 第5回 音声合成理論と音声合成システム 第6回 11/12 音声認識理論と音声認識システム:川波 Speech recognition theory and system 第7回 11/19 音声対話システム理論と音声対話システム 第8回 11/26 試験 2 第6回 内容 音声認識概要 テンプレートマッチングによる認識* DTWマッチング 統計モデルによる認識 HMM音響モデル、N-グラム 頑健な実環境システム 必要となる技術 演習:Level Building法による2語彙2単語認識 3 音声認識の意義 発話をテキストに変換するメリット 特別な訓練が不要なテキスト入力手段 ユーザの姿勢を拘束しない ユーザは安価な機材で利用できる (将来的には高次言語情報、非言語情報の利用) ただし、本質的に認識誤りはゼロにはならない 辞書にない未知語 • 確率的アプローチの限界 • 背景にある文脈や知識が与える影響 ※音声だけで「BS」「ENTER」のような確実なメタ入力は不可能 それを踏まえたうえで利点を活かしたアプリケーションを設計する • 4 分類 音声認識 単語音声認識 Speech recognition (ASR; Automatic Speech recognition) 孤立単語音声認識 ワードスポッティング (長時間発話から特定の単語を抽出) 連続音声認識 大語彙連続音声認識 (ディクテーション=口述筆記) Large vocabulary continuous speech recognition (LVCSR) 言語認識 話者識別 (誰かを判断) 話者認識 話者照合・認証 (申告者本人かどうか判断) 5 アプリケーション ディクテーション(口述筆記) 電子秘書,議事録自動作成,テレビ字幕自動生成 負担の少ないインタフェイス 対話ロボット,音声情報検索、音声リモコン、自動翻訳 バイオメトリクス 話者認証 CALL (Computer Aided Language Learning) 発音評価 超低ビットレートデータ通信 テキストにして送信、受信側で音声合成 *下線は特にリアルタイム性が要求されるもの 6 音声認識 音響特徴量の時系列を音響的類似性と想定 される発話内容に基づき、単語列に変換 音響モデル、言語モデル、デコーダ 音響特徴量 振幅スペクトル包絡を表すもの(音韻性) 分析区間(フレーム)が重なるようシフトさせて抽出 デファクトスタンダードは、MFCC(メル周波数にも とづくフィルタバンクによる係数)、そのΔ(中心+前 後2フレーム)、ΔΔ、パワーのΔ、ΔΔなど 韻律は基本的に使用されていない F0パターン(音のあがりさがり)、発話速度 7 「今日読む本は」 波形 スぺクトロ グラム (振幅スペ クトル包絡 を利用) 音素列 単語列 ky o y o 今日 読む mu h 本 o N w a は 8 構成 音素の物理的特徴モデル 入力の物理的特徴を評価する 認識結果の言語的制約 探索空間を絞り込み評価する 音響モデル 単語辞書 (音素列) 言語モデル 入力音声 特徴量 抽出 デコーダ 振幅スペクトル包絡 時系列データ 言語的制約と音響的マッチング を用いて単語列を推測 9 認識結果 パラダイムの変遷 1960s 音素認識 1970s テンプレートマッチングによる単語認識 1980s HMM(隠れマルコフモデル)の普及 1990s HMMとN-グラムによる連続音声認識 2010s RNNによるモデルパラメータ推定 WFSTによる統一的フレームワーク 10 テンプレートマッチングと確率モデル 【小語彙定型発声の認識に向くパターンマッチング】 単語テンプレート 特徴量 抽出 単語辞書 記述文法 テンプレートとのスペクトル距離の 累積距離が最小となる単語列を選択 認識結果 【大語彙連続音声の認識に向く確率モデル】 音素HMM 特徴量 抽出 単語辞書 音響尤度,単語列生起確率の積が 最大となる単語列を探索する. 単語3-gram 認識結果 11 テンプレートマッチングによる音声認識 基本方針 入力とテンプレートの特徴量間距離を対応す るフレーム毎に求め、総和をフレーム数で正 規化 一般に音響スコアのみでの評価可能な用途で用 いる。(言語スコアは均一) DTW(Dynamic Time Warping)マッチング 対応づけるべきフレーム同士を動的に探索し ながら特徴量の比較を行うパターンマッチング 12 DTWマッチングの意義 持続長が異なる同一発話内 容の音声 線形伸縮で持続長を揃えたも の 発話長の局所的ゆらぎを抑圧し、対応 する音素同士(音響特徴量の類似し た箇所同志)を比較することが必要 時系列データの“対応する区間”同士を比較しながら発話全体 の距離(相違)のスコアを求める. 13 DTWマッチング (Dynamic Time Warping, 時間軸伸縮マッチング) 時系列データの“対応する区間”同士を比較しな がら全体の類似度のスコアを求める. 音声認識では 入力音声の分析フレームのスペクトルデータ時系列と 単語テンプレートのデータの時系列距離の比較 距離が小さい(似たスペクトルを持っている)フレーム 同士を対応付けながら距離の総和を求める. スペクトル距離の総和の最小値をそのテンプレートの 距離とする. 14 マッチングパス 単語テンプレートB 入力音声と単語テンプレートの分析フレーム系列を軸 とした平面上で、対応づけて分析フレームの座標(= 格子点)を結んだもの. ・・・ ・ ・・ フレーム間隔 入力音声A 15 単語テンプレートB (フレーム数:J) マッチングパスは, k番(番目の格子点)に対して格子点の座標を 返す時間伸縮関数(Warping function)として記述できる. Cn bJ J bj Ck j Ck-1 C4 C2 b2 2 C3 b1 1 C1 1 2 a1 a2 C5 入力フレーム系列 A a1 , a2 , , a I テンプレートフレーム系列 B b1 , b2 , , bJ マッチングパス Warp {C1 , C2, , Ck , , Cn } , Ck (ik , jk ) i ai I aI 入力音声A (フレーム数I) 16 格子点間に与える制約 {ik 1 , jk 1} {ik 1, jk 1}or{ik 1, jk }or{ik , or, jk 1} • フレーム時系列を逆行しない • フレームをスキップしない. ただし,入力音声かテンプレートか少なくとも一方のフレー ムは進行させる. 17 テンプレートマッチング単語認識のながれ 時間 単語テンプレート 3.いやし フ入 レ力 ー音 ム声 間と 距単 離語 マテ トン リプ ッレ ク スー をト 準の 備 正 規 化 累 積 距 離 の 比 較 非 線 形 伸 縮 マ ッ チ ン グ 単語テンプレート 入 力 音 声 ( ス音 ペ声 ク分 ト析 ル 系 列 抽 出 ) 10 8 9 4 2 0 9 7 8 3 0 2 5 6 4 0 3 4 4 3 4 1 5 6 2 3 0 2 8 9 1.こんにちは 入力音声 4.ああ 2.いたい 0 0 2 2 1 1 4 4 9 9 10 10 認 識 結 果 パターン間距離の算出 基本方針 格子点スペクトル距離の総和(累積距離)が小さい単語テン プレートを認識結果とする パス、テンプレートフレーム数の違いによる加算回数の差 の正規化を行う必要がある パス重み wk を導入.パス重み和で累積距離を正規化. 正規化累積距離 D( A : B) n k 1 d (ik , jk ) wk n k 1 wk d (ik , jk ) : 格子点Ckでの スペクトル距離 市街地距離(city block distance)を用いたパス重み パス重み wk を次式で与える どのパスを通っても,最終格子点での重みの総和は同じ wk ik ik 1 jk jk 1 19 累積距離の最小値の求め方 動的計画法(dynamic programming) 格子点 Ck までの累積距離の最小値は(候補が複数ある) 直前の格子点Ck-1での累積距離から求めることができる. 漸化式: g (Ck ) d (ik , jk ) wk min{g (Ck 1 )} {C k 1 } g (Ck :格子点 ) Ck (ik , jk )までの累積距離の最小値 最後の格子点まで g(Ck) を順次求める. 20 単語テンプレートB (フレーム数: J =6) 格子点のスペクトル距離 d (i, j )マトリックス作成 J=6 j 2 1 5 6 4 5 6 5 4 2 5 5 8 1 1 2 5 4 3 4 5 3 5 8 5 1 6 5 7 5 5 2 2 5 6 5 6 3 1 5 2 2 5 8 1 2 i I=7 入力音声A (フレーム数 I =7) 21 累積距離の算出 入力とテンプレートのフレームのいずれかまたは 両方を1つ進めるパス.パス重みに市街地距離 g (ik , jk ) min{2 d (ik , jk ) g (ik 1, jk 1), 1 d (ik , jk ) min{ g (ik 1, jk ), g (ik , jk 1)}} 初期条件: g(1,1) = 2d(1,1) jk 1 g(ik-1,jk) 2 g(ik,jk) d(ik,jk) 1 jk-1 g(ik-1,jk-1) ik-1 g(ik,jk-1) ik 22 処理の流れ 格子点のスペクトル距離マトリックスを作成する. 漸化式にもとづいて、格子点までの最小の累積距離 (次図右肩の数字)を求める. 終端の累積距離に対しパス重み和で正規化し, 単語テンプレートの正規化累積距離 D(A:B)を求める. 終端からパスをバックトレースするとマッチングパス が得られる. 23 1 1 5 2 26 5 24 8 19 5 11 3 6 6 29 5 23 4 18 5 14 2 9 1 7 4 23 5 19 3 14 1 11 2 11 5 12 5 28 26 6 8 26 20 1 4 18 23 5 6 17 22 5 5 16 22 6 2 14 16 2 問題点 このパスではまだ,右のような極端な対応 付けを回避できない. 5 26 4 27 1 21 2 23 3 26 5 31 7 29 5 34 5 26 6 32 5 21 8 29 お や ま 2 31 お お お か や ま 24 傾斜制限つきパス 局所的な制限により極端な対応を避ける パス傾斜が 0.5 から 2 の間に制限できる. g (ik , jk ) min{2 d (ik , jk ) g (ik 1, jk 1), 1 d (ik , jk ) min{2 d (ik 1, jk ) g (ik 2, jk 1), 2 d (ik , jk 1) g (ik 1, jk 2)} 初期条件: g(1,1) = 2d(1,1) g(ik-1,jk) jk jk-1 2 g(ik-2,jk-1) d(ik-1,jk) g(ik-1,jk-1) 1 g(ik-1,jk-2) jk-2 ik-2 ik-1 1 g(ik,jk) d(ik,jk) 1 g(ik,jk-1) d(ik,jk-1) 2 ik 25 1 2 2 1 5 - 6 - - 5 36 28 6 5 26 8 28 3 15 4 1 12 6 2 12 4 5 31 22 1 20 25 5 18 29 5 - - 6 - - 2 4 31 1 23 2 29 3 31 5 40 2 傾斜制限の 範囲外なので 格子点に なり得ない 2 5 8 5 × - - - 6 × 3 - 5 4 - - 5 15 2 10 1 - 5 - 5 2 7 5 5 - - - 5 6 8 - - - 26 テンプレートマッチングの改良 整合窓 極端なパスになる領域を大局的に除外する. 計算量も削減できる. 端点フリー 入力音声の認識対象区間を自由にする. 発話前後の雑音を無視することができる. 非対称パス 入力音声のフレーム数のみで決まるパス重み フレーム同期音声認識 テンプレートのフレーム数のみで決まるパス重み 端点フリーと併用してワードスポッティング 27 整合窓 累積距離の漸化式を計算する領域を制限する. 極端な対応付けを大局的に防ぎ,計算量も削減できる. 単語テンプレートB (フレーム数:J) 計算不要領域 bJ Cn J 時間伸縮関数 (Warp) j=i+r bj j d(i,j):スペクトル距離 C4 b2 b1 整合窓 2 1 j=i-r C5 C2 計算不要領域 C3 C1= (1,1) 1 a1 i ai a2 入力音声A (フレーム数I) 2 I aI i 28 端点フリー 入力の開始フレームや終端フレームを自由にする 単語テンプレートB (フレーム数:J) 入力音声の発話前後の不要箇所を無視できる. I-M J Cn 終端フリー領域 この領域で累積距離の 最小値を探す。つまり、 入力音声の途中で終 わってもよい。 時間伸縮関数 (Warp) j d(i,j):スペクトル距離 C3 2 1 g(i, 1)= d(i, 1) C4 C2 始端フリー領域 C1 1 2 N i I 入力音声A (フレーム数I) ※テンプレートの端点フリーを導入すると,発話の文頭落ちや語末落ちに対応できる. 29 非対称パス 一方のデータに同期した距離計算に有効 パス重み和は注目する側のフレーム数だけで決まるパス 重みを設定 累積距離の正規化が不要となる 使用例 ワードスポッティング 長時間データの中からキーワード音声を探索する フレーム同期認識 ある時間までの認識結果が逐次得られる 30 ワードスポッティング 探索したいキーワード音声 B J ② 途中で閾値を超えたら 探索は中止 × g(i, 1)= d(i, 1) 1 1 1 ③ テンプレートの最終フレーム までの距離加算加算回数は同じ. 閾値以下の累積距離が検出 されたらパスをバックトレース. ① 入力音声は始端,終端とも端点フリー. (入力音声の任意の区間でテンプレートと似た 区間を探す.) ④この区間にテンプレートの単語があると推定 I 探索対象となる音声コーパス A (フレーム数I) 31 d(ik, jk) g(ik,jk)=d(ik,jk)+min{g(ik-2,jk-1), g(ik-1,jk-1), g(ik,jk-1) } jk 1 単 語 テ ン プ レ ー ト 4 5 8 0 1 jk-1 g(ik, jk-1) ik-2 ik-1 ik 閾値を4(=正規化累積距離1)と設定 8 1 3 2 5 4 2 5 1 4 6 5 1 3 5 3 5 4 4 5 3 5 24 13 46 46 45 23 3 4 1 6 46 46 4 6 3 5 1 2 3 4 1 2 3 3 4 4 1 1 4 6 4 8 3 6 2 2 5 5 4 4 2 2 1 1 4 4 5 5 0 0 2 2 4 4 5 5 6 6 3 3 音声データ(検索対象のデータベース) この例では2箇所で単語が検出されたこととなる. 32 フレーム同期音声認識 入力データのあるフレームまでの認識結果の 比較が容易 初期条件: g(1,1) = d(1,1) g (ik , jk ) 1 d (ik , jk ) min{ g (ik 1, jk ), g (ik 1, jk 1), g (ik 1, jk 2)} 単 語 テ ン プ レ ー ト 始点からここまでの距離重みは 評価した単語テンプレートに依存 せず同一(k). 1 入力音声 ik 33 テンプレートマッチングによる連続単語認識 解くべき問題 入力パターンともっともよくマッチする単語列を見つけ出 す.ただし,入力フレームの単語境界は与えられない. x 単語認識の素朴なアプローチ 語彙数 N のとき N x 個の単語列テンプレートに対して順に すべてに対してDPマッチング → 非効率的 単 語 テ ン プ レ ー ト を 連 結 単 語 3 単 語 2 単 語 1 入力音声 34 基本方針 1. 入力フレーム基準の非対称パスDTW • 2. 単語テンプレートの長さの影響を受けず,入力の任意 のフレームまでの累積距離を比較できる. 単語境界での処理 • 入力フレームまでの累積距離の最小値とその単語を 記録し,それを初期値とし次単語のマッチングを開始 アルゴリズム (a) 2段DP法 (b) Level Building法 単語数既知の場合に効果的 (c) One Pass DP法 単語数未知の場合に効果的 35 (a) 2段DP法 DPを2段階で行う 第1段階 入力音声の始点 m から単語テンプレート n について非対象パスによる終端フ リー マッチング. 1≦ m < i ≦ I (I:入力フレーム数,i はマッチング終端フレーム) あらゆる (n, m, i) の組み合わせに対して累積距離 D (n) (m:i) を計算. D (m:i) の最小値とその単語 n を記録. 第2段階 入力フレームの累積距離が最小になる単語の系列を探索する。 第1段階 単 語 3 第2段階 単 語 2 単 語 1 単 語 n m 入力フレーム i I 入力フレーム I 36 (b) Level Building 法 単語数が分かっている音声の認識で効果的. 記憶容量小 何単語目を認識しているか明示的にしたマッチングを行う(電 話番号等) 処理のながれ 1段目 各テンプレートと入力終端フリーDPマッチングを行う テンプレート終端で,その入力フレームまでの累積距離と単語を記録. 2段目(second level)以降 前段の最小の累積距離をその入力フレームの累積距離とする. 各テンプレートと端点フリーDPマッチング 同様に,その段での累積距離と単語を記録. 最終段の終端でパスをバックトレース,認識単語列を得る. 37 語彙数2(A,B),3単語音声を認識する場合 単 語 テ ン プ レ ー ト A 単 語 テ ン プ レ ー ト B 単 語 テ ン プ レ ー ト A 単 語 テ ン プ レ ー ト B 単 語 テ ン プ レ ー ト A 単 語 テ ン プ レ ー ト B DTW A 最終段での 累積距離最小値 DTW B 3段目 DTW A 2段目 DTW B DTW A DTW B フレームごとに,テンプレート終端までの 累積距離最小値とそれを与えた単語を 記録する. それを初期値として2段目のパスを開始 1段目 入力フレーム 38 (3) One Pass DP 法 Level Building法の入力フレームのループを一番外側にしたもの. 入力フレームごとにすべての単語テンプレートについてパス計算を進める. 終端に到達したテンプレートがあれば,そのフレームまでの累積距離最小 の単語とその値を記録し,次の語のDPマッチングを始める. 単語数を決めておく必要がない 単語数制御機構がない. 単 語 E 単 語 D 単 語 C 単 語 B 単 語 A 1 入力フレーム I 39 テンプレートマッチングを用いた 実用システム 口座照会システム (NTTdata) (ANSER: Automatic answer Network System for Electrical Request) 1981年~ 電話音声で利用可 16単語認識(数字+コマンド) その他の要素技術 SPLIT (Strings of phoneme-like templates) 物理的観点で分類した,音素に準ずるテンプレート Staggered Array DP マッチング マルチテンプレート (KNN) http://www.nttdata.com/jp/ja/lineup/anser/ 40 統計モデルによる音声認識 基本方針 スペクトル系列 X が得られたとき,P(W|X) を 最大にする単語列 W を求める問題 生成モデル、識別モデル 音響モデル、言語モデルともに確率的モデルを用 いることで確率モデルによる統一的な処理 生成モデルのアプローチ ベイズ則で解きやすい形に変形 P( X | W ) P(W ) P(W | X ) P( X ) 41 入力音声 音響モデル 単語辞書 言語モデル X 音響スコア 言語スコア (事前確率) P( X | W ) P (W ) Wˆ arg max P (W | X ) デコーダ W arg max W P ( X | W ) P (W ) arg max P ( X | W ) P (W ) P( X ) W P(W | X ) を直接モデル化するは容易ではないが, P (W ) や P ( X | W ) のモデル化は比較的容易. arg max P( X | W ) P(W ) W 認識結果 Ŵ を解く 42 総合スコア 対数尤度で処理 和演算にして桁落ちを回避 スコア重み,単語挿入ペナルティの利用 言語重み 認識結果 音響スコア 言語スコア 単語数 Wˆ arg min ( log P( X | W ) αlog P(W ) βN ) W 単語の過剰な挿入を抑制( β < 0 ) 43 HMM音響モデル 統計的音声認識の標準的な音響モデル 音素HMM(Hidden Markov Model,隠れマル コフモデル)を接続して単語HMMとする 音素HMM 単純マルコフ過程 Left-to-Right HMM 3状態HMMが主流 前音素からのわたり,定常部,後音素へのわたり 出力確率はGMM(Gaussian Mixture Models) で表現することが一般的 8~16混合程度 (言語識別などでは64混合以上) 44 音素モデルセット 日本語音声認識の標準的な音素セット 40音素, 無音区間3種 (sp: short pause, silB: 始端, silE: 終端) a i u e o a: i: u: e: o: N w y j p t k h f r q b d g z m n s dy ts ch my ky by gy ny hy ry py sh sp silB silE モノフォン(mono-phone)モデル コンテキスト非依存モデル(音素環境を考慮しないモデル) トライフォン(tri-phone)モデル コンテキスト依存モデル(音素環境ごとに異なるモデル) 音素モデルだが実質的に単音(物理的区別)モデルを実現 40音素の場合単純に64000種類.グループ化して運用 45 例 3状態HMM 状態遷移確率 aij: 状態 i から j に遷移する確率 出力確率 bi (X) : 状態 i が X を出力する確率 a ij 1 j b (X ) 1 i X ここでは以下、時刻 tから t+1に進むときに出力すると定義する a11 a22 a33 初期状態 q1 q2 q3 実際の出力信号 X は任意の値で定義 b1(A) b1(B) b1(C) a12 a23 b2(A) b2(B) b2(C) 最終状態 a34 q4 b3(A) b3(B) b3(C) 46 モデル尤度の算出 取りうるすべての状態遷移系列の出力確率を個 別に算出して総和を取るのは非効率 Forward アルゴリズム 観測信号系列を出力しうる状態遷移系列すべての 確率の総和を用いてモデルの尤度とする t (i ) t 1 ( j ) a ji b j ( X (t 1)) j Viterbi(ビタビ,ビテルビ)アルゴリズム 観測信号系列を出力する状態遷移系列のうち,最も 高い確率で出力する遷移系列のみを用いる. 「音素境界」「単語境界」の推定にも利用できる. t (i) max t 1 ( j ) a ji b j ( X (t 1)) 47 例 2状態HMMの尤度計算 2状態音素HMM /ア/, /イ/ がある.出力信号A,Bの出力確率 , 遷移確率は下の 通り.スペクトル系列「ABB」が観測されたとき Forwardアルゴリズム,Viterbiアル ゴリズムそれぞれで音素認識をせよ. a11=0.3 /ア/ 初期状態 q1 a22= 0.2 q2 a12= 0.7 b2(A) 0.3 b2(B) 0.7 b1(A) 0.8 b1(B) 0.2 a11=0.5 /イ/ 初期状態 q1 b1(A) 0.3 b1(B) 0.7 q3 a23= 0.8 (最終状態) a22= 0.4 a12= 0.5 q2 b2(A) 0.6 b2(B) 0.4 q3 a23= 0.6 (最終状態) 48 Forwardアルゴリズムによる尤度計算 A /ア/ B B 観測系列 初期状態 0.3×0.8 q1 q2 a12 b1 A 1.0 0.24 0.7×0.2 0.7×0.8 0.2×0.7 =0.0336 0.112 0.56 =0.0784 0.8×0.7 q3 0.0627 状態 t (i ) t 1 ( j ) a ji b j ( X (t 1)) □内は「時刻 t で状態 qiに存在している確率」: j 同様に /イ/ について計算すると尤度は 0.0184 → 認識結果: /ア/ Vitertbiアルゴリズムによる尤度計算 A /ア/ B B 観測系列 初期状態 0.3×0.8 q1 1.0 0.24 0.7×0.2 0.7×0.8 0.2×0.7 q2 0.56 =0.0336 0.0784 =0.0784 q3 0.8×0.7 0.0439 状態 □内は「そこまでの最大確率を出すパスの確率: t (i) max t 1 ( j ) a ji b j ( X (t 1)) 同様に /イ/ について計算すると尤度は 0.0126 → 認識結果: /ア/ 言語モデル 認識候補への言語的制約を与え,探索空間をしぼる. ネットワーク文法 作成 認識対象を設定し,文法 と辞書を作成 長所 定型文や単語認識むき 文法修正や単語追加が 容易 短所 文法外発話は正確に認 識できない (人手で複雑な文法の作 成は困難) N-グラム テキストコーパスの単語ヒスト グラムに基づいて統計的に作 成 大語彙連続音声認識むき 任意の発話を認識対象 Nが小さすぎると無意味な発 話も許容 テキストコーパス収集コスト 51 N-グラム 単語出現確率は直前N-1単語に依存すると仮 定した,単語系列生起確率に基づいた言語モ n デル P( w1...wn ) P( wi | wi N 1...wi 1 ) N=1:ユニグラム: N=2:バイグラム: N=3:トライグラム: i 1 単語コンテキストを考慮しない 直前1単語を考慮 直前2単語を考慮 P(<s>/学校/に/行/く/</s>)= P(学校|<s>) ・ P(に|<s>,学校) ・ P(行|学校,に) ・ P(く|に,行) ・ P(</s>|行,く) 学習コーパスに存在しない N-グラム バックオフスムージングで出現確率を設定 52 ネットワーク文法例 文法 単語辞書 変換規則カテゴリ関係を 記述 カテゴリーの単語と音素を記述 S : SNT1 SNT2 % FRUIT SNT1 : FRUIT みかん m i k a N SNT1 : FRUIT NUM KO りんご r i N g o SNT2 : WO KUDASAI ぶどう SNT2 : NISHITE KUDASAI % NUM SNT2 : DESU 1 i ch i 2 ni budo % NISHITE にして n i sh i t e ・ ・ ・ 53 FRUIT みかん りんご ぶどう WO KUDASAI を ください KUDASAI NISHITE ・ ・ ・ にして FRUIT NUM みかん りんご ぶどう 1 2 ください KO 個 DESU です ・ ・ ・ 生成される文例 「みかんをください」 「ぶどう7個です」 「りんご3個にしてください」 54 頑健な実環運用のために クリーン(静音)&接話マイクではない環境 定常雑音 →スペクトル減算、雑音重畳音響 モデル 非定常雑音 →音源分離 ハンズフリー →残響抑圧、残響重畳モデル 話者の多様性 特定話者 →UD(User Dependent)モデル、 話者適応 不特定話者 →UI(User Independent)モデ ル、リアルタイム話者適応、Gender Dependent モデル、年齢層別モデル 55 必要となる認識精度、忠実性の設定 議事録、自動字幕付与 →フィラーや文法誤 りを言語モデルで修正? 対話システム →認識精度そのものよりタスク 達成度、エンタテインメント性で評価? 実時間性と認識精度のバランス PTM(GMMのグループ化) ビームサーチ(探索範囲の削減) マルチパス探索 56