授業資料

by user

on 28 марта 2017

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download 授業資料

Transcript

授業資料

音情報処理第６回
音声認識理論と音声認識システム
2015/11/12
環境知能学研究室川波弘道
1
第１回音情報基礎
第２回音声の特徴抽出
第３回音声符号化基礎
第４回音響信号処理基礎
第５回音声合成理論と音声合成システム
第６回 11/12 音声認識理論と音声認識システム：川波
Speech recognition theory and system
第７回 11/19 音声対話システム理論と音声対話システム
第８回 11/26 試験
2
第６回内容
音声認識概要
テンプレートマッチングによる認識*
DTWマッチング
統計モデルによる認識
HMM音響モデル、N-グラム
頑健な実環境システム
必要となる技術
演習：Level Building法による２語彙２単語認識
3
音声認識の意義
発話をテキストに変換するメリット
特別な訓練が不要なテキスト入力手段
ユーザの姿勢を拘束しない
ユーザは安価な機材で利用できる
（将来的には高次言語情報、非言語情報の利用）
ただし、本質的に認識誤りはゼロにはならない
辞書にない未知語
• 確率的アプローチの限界
• 背景にある文脈や知識が与える影響
※音声だけで「BS」「ENTER」のような確実なメタ入力は不可能
それを踏まえたうえで利点を活かしたアプリケーションを設計する
•
4
分類
音声認識
単語音声認識
Speech
recognition
(ASR; Automatic
Speech recognition)
孤立単語音声認識
ワードスポッティング
（長時間発話から特定の単語を抽出）
連続音声認識
大語彙連続音声認識
（ディクテーション＝口述筆記）
Large vocabulary continuous
speech recognition (LVCSR)
言語認識
話者識別
（誰かを判断）
話者認識
話者照合・認証
（申告者本人かどうか判断）
5
アプリケーション
ディクテーション（口述筆記）
電子秘書，議事録自動作成，テレビ字幕自動生成
負担の少ないインタフェイス
対話ロボット，音声情報検索、音声リモコン、自動翻訳
バイオメトリクス
話者認証
CALL （Computer Aided Language Learning）
発音評価
超低ビットレートデータ通信
テキストにして送信、受信側で音声合成
*下線は特にリアルタイム性が要求されるもの
6
音声認識
音響特徴量の時系列を音響的類似性と想定
される発話内容に基づき、単語列に変換
音響モデル、言語モデル、デコーダ
音響特徴量
振幅スペクトル包絡を表すもの（音韻性）
分析区間（フレーム）が重なるようシフトさせて抽出
デファクトスタンダードは、MFCC（メル周波数にも
とづくフィルタバンクによる係数）、そのΔ（中心＋前
後2フレーム）、ΔΔ、パワーのΔ、ΔΔなど
韻律は基本的に使用されていない
F0パターン（音のあがりさがり）、発話速度
7
「今日読む本は」
波形
スぺクトロ
グラム
（振幅スペ
クトル包絡
を利用）
音素列
単語列
ky o
y o
今日
読む
mu h
本
o
N
w a
は
8
構成
音素の物理的特徴モデル
入力の物理的特徴を評価する
認識結果の言語的制約
探索空間を絞り込み評価する
音響モデル
単語辞書
（音素列）
言語モデル
入力音声
特徴量
抽出
デコーダ
振幅スペクトル包絡
時系列データ
言語的制約と音響的マッチング
を用いて単語列を推測
9
認識結果
パラダイムの変遷
1960s
音素認識
1970s
テンプレートマッチングによる単語認識
1980s
HMM（隠れマルコフモデル）の普及
1990s
HMMとN-グラムによる連続音声認識
2010s
RNNによるモデルパラメータ推定
WFSTによる統一的フレームワーク
10
テンプレートマッチングと確率モデル
【小語彙定型発声の認識に向くパターンマッチング】
単語テンプレート
特徴量
抽出
単語辞書
記述文法
テンプレートとのスペクトル距離の
累積距離が最小となる単語列を選択
認識結果
【大語彙連続音声の認識に向く確率モデル】
音素HMM
特徴量
抽出
単語辞書
音響尤度，単語列生起確率の積が
最大となる単語列を探索する．
単語3-gram
認識結果
11
テンプレートマッチングによる音声認識
基本方針
入力とテンプレートの特徴量間距離を対応す
るフレーム毎に求め、総和をフレーム数で正
規化
一般に音響スコアのみでの評価可能な用途で用
いる。（言語スコアは均一）
DTW（Dynamic Time Warping）マッチング
対応づけるべきフレーム同士を動的に探索し
ながら特徴量の比較を行うパターンマッチング
12
DTWマッチングの意義
持続長が異なる同一発話内
容の音声
線形伸縮で持続長を揃えたも
の
発話長の局所的ゆらぎを抑圧し、対応
する音素同士（音響特徴量の類似し
た箇所同志）を比較することが必要
時系列データの“対応する区間”同士を比較しながら発話全体
の距離（相違）のスコアを求める．
13
DTWマッチング
（Dynamic Time Warping, 時間軸伸縮マッチング）
時系列データの“対応する区間”同士を比較しな
がら全体の類似度のスコアを求める．
音声認識では
入力音声の分析フレームのスペクトルデータ時系列と
単語テンプレートのデータの時系列距離の比較
距離が小さい（似たスペクトルを持っている）フレーム
同士を対応付けながら距離の総和を求める．
スペクトル距離の総和の最小値をそのテンプレートの
距離とする．
14
マッチングパス
単語テンプレートB
入力音声と単語テンプレートの分析フレーム系列を軸
とした平面上で、対応づけて分析フレームの座標（＝
格子点）を結んだもの．
・・・
・
・・
フレーム間隔
入力音声A
15
単語テンプレートB （フレーム数：Ｊ）
マッチングパスは， k番（番目の格子点）に対して格子点の座標を
返す時間伸縮関数（Warping function）として記述できる．
Cn
bJ J
bj
Ck
j
Ck-1
C4
C2
b2 2
C3
b1 1 C1
1
2
a1 a2
C5
入力フレーム系列　A  a1 , a2 ,  , a I テンプレートフレーム系列　B  b1 , b2 ,  , bJ
マッチングパス　Warp  {C1 , C2,  , Ck ,  , Cn }　, Ck  (ik , jk ) i
ai
I
aI
入力音声A （フレーム数Ｉ）
16
格子点間に与える制約
{ik 1 , jk 1}  {ik  1, jk  1}or{ik  1, jk }or{ik , or, jk  1}
• フレーム時系列を逆行しない
• フレームをスキップしない．
ただし，入力音声かテンプレートか少なくとも一方のフレー
ムは進行させる．
17
テンプレートマッチング単語認識のながれ
時間
単語テンプレート
３．いやし
フ入
レ力
ー音
ム声
間と
距単
離語
マテ
トン
リプ
ッレ
ク
スー
をト
準の
備
正
規
化
累
積
距
離
の
比
較
非
線
形
伸
縮
マ
ッ
チ
ン
グ
単語テンプレート
入
力
音
声
（
ス音
ペ声
ク分
ト析
ル
系
列
抽
出
）
10
8
9
4
2
0
9
7
8
3
0
2
5
6
4
0
3
4
4
3
4
1
5
6
2
3
0
2
8
9
１．こんにちは
入力音声
４．ああ
２．いたい
0 0
2 2
1 1
4 4
9 9
10 10
認
識
結
果
パターン間距離の算出
基本方針
格子点スペクトル距離の総和（累積距離）が小さい単語テン
プレートを認識結果とする
パス、テンプレートフレーム数の違いによる加算回数の差
の正規化を行う必要がある
パス重み wk を導入．パス重み和で累積距離を正規化．

正規化累積距離　D( A : B) 
n
k 1
d (ik , jk )  wk

n
k 1
wk
d (ik , jk ) : 格子点Ckでの
スペクトル距離
市街地距離（city block distance）を用いたパス重み
パス重み wk を次式で与える
どのパスを通っても，最終格子点での重みの総和は同じ
wk  ik  ik 1  jk  jk 1
19
累積距離の最小値の求め方
動的計画法（dynamic programming）
格子点 Ck までの累積距離の最小値は（候補が複数ある）
直前の格子点Ck-1での累積距離から求めることができる．
漸化式：
g (Ck )  d (ik , jk )  wk  min{g (Ck 1 )}
{C k 1 }
g (Ck ：格子点
)
Ck  (ik , jk )までの累積距離の最小値
最後の格子点まで g(Ck) を順次求める．
20
単語テンプレートB （フレーム数： J =6）
格子点のスペクトル距離 d (i, j )マトリックス作成
J=6
j
2
1
5
6
4
5
6
5
4
2
5
5
8
1
1
2
5
4
3
4
5
3
5
8
5
1
6
5
7
5
5
2
2
5
6
5
6
3
1
5
2
2
5
8
1
2
i
I=7
入力音声A （フレーム数 I =7）
21
累積距離の算出
入力とテンプレートのフレームのいずれかまたは
両方を１つ進めるパス．パス重みに市街地距離
g (ik , jk )  min{2  d (ik , jk )  g (ik  1, jk  1),
1  d (ik , jk )  min{ g (ik  1, jk ), g (ik , jk  1)}}
初期条件:
g(1,1) = 2d(1,1)
jk
1
g(ik-1,jk)
2
g(ik,jk)
d(ik,jk)
1
jk-1
g(ik-1,jk-1)
ik-1
g(ik,jk-1)
ik
22
処理の流れ
格子点のスペクトル距離マトリックスを作成する．
漸化式にもとづいて、格子点までの最小の累積距離
（次図右肩の数字）を求める．
終端の累積距離に対しパス重み和で正規化し，
単語テンプレートの正規化累積距離 D(A:B)を求める．
終端からパスをバックトレースするとマッチングパス
が得られる．
23
1
1
5
2
26
5
24
8
19
5
11
3
6
6
29
5
23
4
18
5
14
2
9
1
7
4
23
5
19
3
14
1
11
2
11
5
12
5
28
26
6
8
26
20
1
4
18
23
5
6
17
22
5
5
16
22
6
2
14
16
2
問題点
このパスではまだ，右のような極端な対応
付けを回避できない．
5
26
4
27
1
21
2
23
3
26
5
31
7
29
5
34
5
26
6
32
5
21
8
29
おやま
2
31
おおおかやま
24
傾斜制限つきパス
局所的な制限により極端な対応を避ける
パス傾斜が 0.5 から 2 の間に制限できる．
g (ik , jk )  min{2  d (ik , jk )  g (ik  1, jk  1),
1 d (ik , jk )  min{2  d (ik  1, jk )  g (ik  2, jk  1),
2  d (ik , jk  1)  g (ik  1, jk  2)}
初期条件:
g(1,1) = 2d(1,1)
g(ik-1,jk)
jk
jk-1
2
g(ik-2,jk-1)
d(ik-1,jk)
g(ik-1,jk-1) 1
g(ik-1,jk-2)
jk-2
ik-2
ik-1
1
g(ik,jk)
d(ik,jk)
1 g(ik,jk-1)
d(ik,jk-1)
2
ik
25
1
2
2
1
5
－
6
－
－
5
36
28
6
5
26
8
28
3
15
4
1
12
6
2
12
4
5
31
22
1
20
25
5
18
29
5
－
－
6
－
－
2
4
31
1
23
2
29
3
31
5
40
2
傾斜制限の
範囲外なので
格子点に
なり得ない
2
5
8
5
×
－
－
－
6
×
3
－
5
4
－
－
5
15
2
10
1
－
5
－
5
2
7
5
5
－
－
－
5
6
8
－
－
－
26
テンプレートマッチングの改良
整合窓
極端なパスになる領域を大局的に除外する．
計算量も削減できる．
端点フリー
入力音声の認識対象区間を自由にする．
発話前後の雑音を無視することができる．
非対称パス
入力音声のフレーム数のみで決まるパス重み
フレーム同期音声認識
テンプレートのフレーム数のみで決まるパス重み
端点フリーと併用してワードスポッティング
27
整合窓
累積距離の漸化式を計算する領域を制限する．
極端な対応付けを大局的に防ぎ，計算量も削減できる．
単語テンプレートB （フレーム数：Ｊ）
計算不要領域
bJ
Cn
J
時間伸縮関数
（Warp）
j=i+r
bj
j
d(i,j)：スペクトル距離
C4
b2
b1
整合窓
2
1
j=i-r
C5
C2
計算不要領域
C3
C1= (1,1)
1
a1
i
ai
a2
入力音声A （フレーム数Ｉ）
2
I
aI
i
28
端点フリー
入力の開始フレームや終端フレームを自由にする
単語テンプレートB （フレーム数：Ｊ）
入力音声の発話前後の不要箇所を無視できる．
I-M
J
Cn
終端フリー領域
この領域で累積距離の
最小値を探す。つまり、
入力音声の途中で終
わってもよい。
時間伸縮関数
（Warp）
j
d(i,j)：スペクトル距離
C3
2
1
g(i, 1)= d(i, 1)
C4
C2
始端フリー領域
C1
1
2
N
i
I
入力音声A （フレーム数Ｉ）
※テンプレートの端点フリーを導入すると，発話の文頭落ちや語末落ちに対応できる．
29
非対称パス
一方のデータに同期した距離計算に有効
パス重み和は注目する側のフレーム数だけで決まるパス
重みを設定
累積距離の正規化が不要となる
使用例
ワードスポッティング
長時間データの中からキーワード音声を探索する
フレーム同期認識
ある時間までの認識結果が逐次得られる
30
ワードスポッティング
探索したいキーワード音声 B
J
② 途中で閾値を超えたら
探索は中止
×
g(i, 1)= d(i, 1)
１
１
１
③ テンプレートの最終フレーム
までの距離加算加算回数は同じ．
閾値以下の累積距離が検出
されたらパスをバックトレース．
① 入力音声は始端，終端とも端点フリー．
（入力音声の任意の区間でテンプレートと似た
区間を探す．）
④この区間にテンプレートの単語があると推定
I
探索対象となる音声コーパス A （フレーム数Ｉ）
31
d(ik, jk)
g(ik,jk)=d(ik,jk)+min{g(ik-2,jk-1),
g(ik-1,jk-1),
g(ik,jk-1) }
jk
１
単
語
テ
ン
プ
レ
ー
ト
4
5
8
0
１
jk-1
g(ik, jk-1)
ik-2 ik-1 ik
閾値を4（=正規化累積距離1）と設定
8
１
3
2
5
4
2
5
1
4
6
5
1
3
5
3
5
4
4
5
3 5 24 13 46 46 45 23 3 4 1
6
46 46 4 6 3 5 1 2 3 4 1 2 3 3 4 4 1 1 4 6 4 8 3 6
2
2
5
5
4
4
2
2
1
1
4
4
5
5
0
0
2
2
4
4
5
5
6
6
3
3
音声データ（検索対象のデータベース）
この例では2箇所で単語が検出されたこととなる．
32
フレーム同期音声認識
入力データのあるフレームまでの認識結果の
比較が容易
初期条件: g(1,1) = d(1,1)
g (ik , jk )  1 d (ik , jk )  min{ g (ik  1, jk ), g (ik  1, jk  1), g (ik  1, jk  2)}
単
語
テ
ン
プ
レ
ー
ト
始点からここまでの距離重みは
評価した単語テンプレートに依存
せず同一（k）．
１
入力音声
ik
33
テンプレートマッチングによる連続単語認識
解くべき問題
入力パターンともっともよくマッチする単語列を見つけ出
す．ただし，入力フレームの単語境界は与えられない．
x 単語認識の素朴なアプローチ
語彙数 N のとき N x 個の単語列テンプレートに対して順に
すべてに対してDPマッチング → 非効率的
単
語
テ
ン
プ
レ
ー
ト
を
連
結
単
語
3
単
語
2
単
語
1
入力音声
34
基本方針
1.
入力フレーム基準の非対称パスDTW
•
2.
単語テンプレートの長さの影響を受けず，入力の任意
のフレームまでの累積距離を比較できる．
単語境界での処理
•
入力フレームまでの累積距離の最小値とその単語を
記録し，それを初期値とし次単語のマッチングを開始
アルゴリズム
(a) 2段DP法
(b) Level Building法
単語数既知の場合に効果的
(c) One Pass DP法
単語数未知の場合に効果的
35
(a) ２段DP法
DPを2段階で行う
第１段階
入力音声の始点 m から単語テンプレート n について非対象パスによる終端フ
リーマッチング．
1≦ m ＜ i ≦ I （I:入力フレーム数，i はマッチング終端フレーム）
あらゆる (n, m, i) の組み合わせに対して累積距離 D (n) (m：i) を計算．
D (m:i) の最小値とその単語 n を記録．
第２段階
入力フレームの累積距離が最小になる単語の系列を探索する。
第１段階
単
語
3
第２段階
単
語
2
単
語
1
単
語
n
m
入力フレーム
i
I
入力フレーム
I
36
(b) Level Building 法
単語数が分かっている音声の認識で効果的．
記憶容量小
何単語目を認識しているか明示的にしたマッチングを行う（電
話番号等）
処理のながれ
１段目
各テンプレートと入力終端フリーDPマッチングを行う
テンプレート終端で，その入力フレームまでの累積距離と単語を記録．
２段目（second level）以降
前段の最小の累積距離をその入力フレームの累積距離とする．
各テンプレートと端点フリーDPマッチング
同様に，その段での累積距離と単語を記録．
最終段の終端でパスをバックトレース，認識単語列を得る．
37
語彙数２（A,B），３単語音声を認識する場合
単
語
テ
ン
プ
レ
ー
ト
Ａ
単
語
テ
ン
プ
レ
ー
ト
Ｂ
単
語
テ
ン
プ
レ
ー
ト
Ａ
単
語
テ
ン
プ
レ
ー
ト
Ｂ
単
語
テ
ン
プ
レ
ー
ト
Ａ
単
語
テ
ン
プ
レ
ー
ト
Ｂ
DTW A
最終段での
累積距離最小値
DTW B
３段目
DTW A
２段目
DTW B
DTW A
DTW B
フレームごとに，テンプレート終端までの
累積距離最小値とそれを与えた単語を
記録する．
それを初期値として２段目のパスを開始
１段目
入力フレーム
38
(3) One Pass DP 法
Level Building法の入力フレームのループを一番外側にしたもの．
入力フレームごとにすべての単語テンプレートについてパス計算を進める．
終端に到達したテンプレートがあれば，そのフレームまでの累積距離最小
の単語とその値を記録し，次の語のＤＰマッチングを始める．
単語数を決めておく必要がない
単語数制御機構がない．
単
語
E
単
語
D
単
語
C
単
語
B
単
語
A
1
入力フレーム
I
39
テンプレートマッチングを用いた
実用システム
口座照会システム (NTTdata)
（ANSER: Automatic answer Network System for Electrical Request）
1981年～
電話音声で利用可
１６単語認識（数字＋コマンド）
その他の要素技術
SPLIT (Strings of phoneme-like templates)
物理的観点で分類した，音素に準ずるテンプレート
Staggered Array DP マッチング
マルチテンプレート (KNN）
http://www.nttdata.com/jp/ja/lineup/anser/
40
統計モデルによる音声認識
基本方針
スペクトル系列 X が得られたとき，P(W|X) を
最大にする単語列 W を求める問題
生成モデル、識別モデル
音響モデル、言語モデルともに確率的モデルを用
いることで確率モデルによる統一的な処理
生成モデルのアプローチ
ベイズ則で解きやすい形に変形
P( X | W )  P(W )
P(W | X ) 
P( X )
41
入力音声
音響モデル
単語辞書
言語モデル
X
音響スコア
言語スコア
（事前確率）
P( X | W )
P (W )
Wˆ  arg max P (W | X )
デコーダ
W
 arg max
W
P ( X | W ) P (W )
 arg max P ( X | W ) P (W )
P( X )
W
P(W | X ) を直接モデル化するは容易ではないが，
P (W ) や P ( X | W ) のモデル化は比較的容易．
arg max P( X | W ) P(W )
W
認識結果
Ŵ
を解く
42
総合スコア
対数尤度で処理
和演算にして桁落ちを回避
スコア重み，単語挿入ペナルティの利用
言語重み
認識結果
音響スコア
言語スコア
単語数
Wˆ  arg min ( log P( X | W ) αlog P(W ) βN )
W
単語の過剰な挿入を抑制（ β < 0 ）
43
HMM音響モデル
統計的音声認識の標準的な音響モデル
音素HMM（Hidden Markov Model，隠れマル
コフモデル）を接続して単語HMMとする
音素HMM
単純マルコフ過程
Left-to-Right HMM
3状態HMMが主流
前音素からのわたり，定常部，後音素へのわたり
出力確率はGMM（Gaussian Mixture Models）
で表現することが一般的
8～16混合程度（言語識別などでは64混合以上）
44
音素モデルセット
日本語音声認識の標準的な音素セット
40音素, 無音区間3種
（sp: short pause, silB: 始端, silE: 終端）
a i u e o a: i: u: e: o: N w y j p t k h f r q b d g z m n s
dy ts ch my ky by gy ny hy ry py sh sp silB silE
モノフォン（mono-phone）モデル
コンテキスト非依存モデル（音素環境を考慮しないモデル）
トライフォン（tri-phone）モデル
コンテキスト依存モデル（音素環境ごとに異なるモデル）
音素モデルだが実質的に単音（物理的区別）モデルを実現
40音素の場合単純に64000種類．グループ化して運用
45
例 3状態HMM
状態遷移確率 aij: 状態 i から j に遷移する確率
出力確率 bi (X) ：状態 i が X を出力する確率
a
ij
1
j
b (X ) 1
i
X
ここでは以下、時刻 tから t+1に進むときに出力すると定義する
a11
a22
a33
初期状態
q1
q2
q3
実際の出力信号 X
は任意の値で定義
b1(A)
b1(B)
b1(C)
a12
a23
b2(A)
b2(B)
b2(C)
最終状態
a34
q4
b3(A)
b3(B)
b3(C)
46
モデル尤度の算出
取りうるすべての状態遷移系列の出力確率を個
別に算出して総和を取るのは非効率
Forward アルゴリズム
観測信号系列を出力しうる状態遷移系列すべての
確率の総和を用いてモデルの尤度とする
 t (i )    t 1 ( j )  a ji  b j ( X (t  1))
j
Viterbi（ビタビ，ビテルビ）アルゴリズム
観測信号系列を出力する状態遷移系列のうち，最も
高い確率で出力する遷移系列のみを用いる．
「音素境界」「単語境界」の推定にも利用できる．
 t (i)  max  t 1 ( j )  a ji  b j ( X (t  1))
47
例 2状態HMMの尤度計算
2状態音素ＨＭＭ /ア/, /イ/ がある．出力信号A,Bの出力確率 , 遷移確率は下の
通り．スペクトル系列「ABB」が観測されたとき Forwardアルゴリズム，Viterbiアル
ゴリズムそれぞれで音素認識をせよ．
a11=0.3
/ア/
初期状態
q1
a22= 0.2
q2
a12= 0.7
b2(A) 0.3
b2(B) 0.7
b1(A) 0.8
b1(B) 0.2
a11=0.5
/イ/
初期状態
q1
b1(A) 0.3
b1(B) 0.7
q3
a23= 0.8
（最終状態）
a22= 0.4
a12= 0.5
q2
b2(A) 0.6
b2(B) 0.4
q3
a23= 0.6
（最終状態）
48
Forwardアルゴリズムによる尤度計算
A
/ア/
B
B
観測系列
初期状態
0.3×0.8
q1
q2
a12  b1  A
1.0
0.24
0.7×0.2
0.7×0.8
0.2×0.7
=0.0336
0.112
0.56
=0.0784
0.8×0.7
q3
0.0627
状態
 t (i )    t 1 ( j )  a ji  b j ( X (t  1))
□内は「時刻 t で状態 qiに存在している確率」：
j
同様に /イ/ について計算すると尤度は 0.0184 → 認識結果： /ア/
Vitertbiアルゴリズムによる尤度計算
A
/ア/
B
B
観測系列
初期状態
0.3×0.8
q1
1.0
0.24
0.7×0.2
0.7×0.8
0.2×0.7
q2
0.56
=0.0336
0.0784
=0.0784
q3
0.8×0.7
0.0439
状態
□内は「そこまでの最大確率を出すパスの確率：
 t (i)  max  t 1 ( j )  a ji  b j ( X (t  1))
同様に /イ/ について計算すると尤度は 0.0126 → 認識結果： /ア/
言語モデル
認識候補への言語的制約を与え，探索空間をしぼる．
ネットワーク文法
作成
認識対象を設定し，文法
と辞書を作成
長所
定型文や単語認識むき
文法修正や単語追加が
容易
短所
文法外発話は正確に認
識できない
（人手で複雑な文法の作
成は困難）
N-グラム
テキストコーパスの単語ヒスト
グラムに基づいて統計的に作
成
大語彙連続音声認識むき
任意の発話を認識対象
Nが小さすぎると無意味な発
話も許容
テキストコーパス収集コスト
51
N-グラム
単語出現確率は直前N-1単語に依存すると仮
定した，単語系列生起確率に基づいた言語モ
n
デル
P( w1...wn )   P( wi | wi  N 1...wi 1 )
N=1:ユニグラム：
N=2:バイグラム：
N=3:トライグラム：
i 1
単語コンテキストを考慮しない
直前1単語を考慮
直前2単語を考慮
P（<s>/学校/に/行/く/</s>）=
P（学校｜<s>）・ P（に｜<s>,学校）・ P（行｜学校,に）・ P(く|に，行) ・ P（</s>｜行,く）
学習コーパスに存在しない N-グラム
バックオフスムージングで出現確率を設定
52
ネットワーク文法例
文法
単語辞書
変換規則カテゴリ関係を
記述
カテゴリーの単語と音素を記述
S
: SNT1 SNT2
% FRUIT
SNT1 : FRUIT
みかん m i k a N
SNT1 : FRUIT NUM KO
りんご r i N g o
SNT2 : WO KUDASAI
ぶどう
SNT2 : NISHITE KUDASAI
% NUM
SNT2 : DESU
1
i ch i
2
ni
budo
% NISHITE
にして n i sh i t e
・
・
・
53
FRUIT
みかん
りんご
ぶどう
WO
KUDASAI
を
ください
KUDASAI
NISHITE
・
・
・
にして
FRUIT
NUM
みかん
りんご
ぶどう
１
２
ください
KO
個
DESU
です
・
・
・
生成される文例
「みかんをください」
「ぶどう７個です」
「りんご３個にしてください」
54
頑健な実環運用のために
クリーン（静音）＆接話マイクではない環境
定常雑音 →スペクトル減算、雑音重畳音響
モデル
非定常雑音 →音源分離
ハンズフリー →残響抑圧、残響重畳モデル
話者の多様性
特定話者 →UD（User Dependent）モデル、
話者適応
不特定話者 →UI（User Independent）モデ
ル、リアルタイム話者適応、Gender
Dependent モデル、年齢層別モデル
55
必要となる認識精度、忠実性の設定
議事録、自動字幕付与 →フィラーや文法誤
りを言語モデルで修正？
対話システム →認識精度そのものよりタスク
達成度、エンタテインメント性で評価？
実時間性と認識精度のバランス
PTM（GMMのグループ化）
ビームサーチ（探索範囲の削減）
マルチパス探索
56