...

授業資料

by user

on
Category: Documents
26

views

Report

Comments

Transcript

授業資料
音情報処理 第6回
音声認識理論と音声認識システム
2015/11/12
環境知能学研究室 川波弘道
1
第1回 音情報基礎
第2回 音声の特徴抽出
第3回 音声符号化基礎
第4回 音響信号処理基礎
第5回 音声合成理論と音声合成システム
第6回 11/12 音声認識理論と音声認識システム:川波
Speech recognition theory and system
第7回 11/19 音声対話システム理論と音声対話システム
第8回 11/26 試験
2
第6回 内容
音声認識概要
テンプレートマッチングによる認識*
DTWマッチング
統計モデルによる認識
HMM音響モデル、N-グラム
頑健な実環境システム
必要となる技術
演習:Level Building法による2語彙2単語認識
3
音声認識の意義
発話をテキストに変換するメリット
特別な訓練が不要なテキスト入力手段
ユーザの姿勢を拘束しない
ユーザは安価な機材で利用できる
(将来的には高次言語情報、非言語情報の利用)
ただし、本質的に認識誤りはゼロにはならない
辞書にない未知語
• 確率的アプローチの限界
• 背景にある文脈や知識が与える影響
※音声だけで「BS」「ENTER」のような確実なメタ入力は不可能
それを踏まえたうえで利点を活かしたアプリケーションを設計する
•
4
分類
音声認識
単語音声認識
Speech
recognition
(ASR; Automatic
Speech recognition)
孤立単語音声認識
ワードスポッティング
(長時間発話から特定の単語を抽出)
連続音声認識
大語彙連続音声認識
(ディクテーション=口述筆記)
Large vocabulary continuous
speech recognition (LVCSR)
言語認識
話者識別
(誰かを判断)
話者認識
話者照合・認証
(申告者本人かどうか判断)
5
アプリケーション
ディクテーション(口述筆記)
電子秘書,議事録自動作成,テレビ字幕自動生成
負担の少ないインタフェイス
対話ロボット,音声情報検索、音声リモコン、自動翻訳
バイオメトリクス
話者認証
CALL (Computer Aided Language Learning)
発音評価
超低ビットレートデータ通信
テキストにして送信、受信側で音声合成
*下線は特にリアルタイム性が要求されるもの
6
音声認識
音響特徴量の時系列を音響的類似性と想定
される発話内容に基づき、単語列に変換
音響モデル、言語モデル、デコーダ
音響特徴量
振幅スペクトル包絡を表すもの(音韻性)
分析区間(フレーム)が重なるようシフトさせて抽出
デファクトスタンダードは、MFCC(メル周波数にも
とづくフィルタバンクによる係数)、そのΔ(中心+前
後2フレーム)、ΔΔ、パワーのΔ、ΔΔなど
韻律は基本的に使用されていない
F0パターン(音のあがりさがり)、発話速度
7
「今日読む本は」
波形
スぺクトロ
グラム
(振幅スペ
クトル包絡
を利用)
音素列
単語列
ky o
y o
今日
読む
mu h
本
o
N
w a
は
8
構成
音素の物理的特徴モデル
入力の物理的特徴を評価する
認識結果の言語的制約
探索空間を絞り込み評価する
音響モデル
単語辞書
(音素列)
言語モデル
入力音声
特徴量
抽出
デコーダ
振幅スペクトル包絡
時系列データ
言語的制約と音響的マッチング
を用いて単語列を推測
9
認識結果
パラダイムの変遷
1960s
音素認識
1970s
テンプレートマッチングによる単語認識
1980s
HMM(隠れマルコフモデル)の普及
1990s
HMMとN-グラムによる連続音声認識
2010s
RNNによるモデルパラメータ推定
WFSTによる統一的フレームワーク
10
テンプレートマッチングと確率モデル
【小語彙定型発声の認識に向くパターンマッチング】
単語テンプレート
特徴量
抽出
単語辞書
記述文法
テンプレートとのスペクトル距離の
累積距離が最小となる単語列を選択
認識結果
【大語彙連続音声の認識に向く確率モデル】
音素HMM
特徴量
抽出
単語辞書
音響尤度,単語列生起確率の積が
最大となる単語列を探索する.
単語3-gram
認識結果
11
テンプレートマッチングによる音声認識
基本方針
入力とテンプレートの特徴量間距離を対応す
るフレーム毎に求め、総和をフレーム数で正
規化
一般に音響スコアのみでの評価可能な用途で用
いる。(言語スコアは均一)
DTW(Dynamic Time Warping)マッチング
対応づけるべきフレーム同士を動的に探索し
ながら特徴量の比較を行うパターンマッチング
12
DTWマッチングの意義
持続長が異なる同一発話内
容の音声
線形伸縮で持続長を揃えたも
の
発話長の局所的ゆらぎを抑圧し、対応
する音素同士(音響特徴量の類似し
た箇所同志)を比較することが必要
時系列データの“対応する区間”同士を比較しながら発話全体
の距離(相違)のスコアを求める.
13
DTWマッチング
(Dynamic Time Warping, 時間軸伸縮マッチング)
時系列データの“対応する区間”同士を比較しな
がら全体の類似度のスコアを求める.
音声認識では
入力音声の分析フレームのスペクトルデータ時系列と
単語テンプレートのデータの時系列距離の比較
距離が小さい(似たスペクトルを持っている)フレーム
同士を対応付けながら距離の総和を求める.
スペクトル距離の総和の最小値をそのテンプレートの
距離とする.
14
マッチングパス
単語テンプレートB
入力音声と単語テンプレートの分析フレーム系列を軸
とした平面上で、対応づけて分析フレームの座標(=
格子点)を結んだもの.
・・・
・
・・
フレーム間隔
入力音声A
15
単語テンプレートB (フレーム数:J)
マッチングパスは, k番(番目の格子点)に対して格子点の座標を
返す時間伸縮関数(Warping function)として記述できる.
Cn
bJ J
bj
Ck
j
Ck-1
C4
C2
b2 2
C3
b1 1 C1
1
2
a1 a2
C5
入力フレーム系列 A  a1 , a2 ,  , a I テンプレートフレーム系列 B  b1 , b2 ,  , bJ
マッチングパス Warp  {C1 , C2,  , Ck ,  , Cn } , Ck  (ik , jk ) i
ai
I
aI
入力音声A (フレーム数I)
16
格子点間に与える制約
{ik 1 , jk 1}  {ik  1, jk  1}or{ik  1, jk }or{ik , or, jk  1}
• フレーム時系列を逆行しない
• フレームをスキップしない.
ただし,入力音声かテンプレートか少なくとも一方のフレー
ムは進行させる.
17
テンプレートマッチング単語認識のながれ
時間
単語テンプレート
3.いやし
フ入
レ力
ー音
ム声
間と
距単
離語
マテ
トン
リプ
ッレ
ク
スー
をト
準の
備
正
規
化
累
積
距
離
の
比
較
非
線
形
伸
縮
マ
ッ
チ
ン
グ
単語テンプレート
入
力
音
声
(
ス音
ペ声
ク分
ト析
ル
系
列
抽
出
)
10
8
9
4
2
0
9
7
8
3
0
2
5
6
4
0
3
4
4
3
4
1
5
6
2
3
0
2
8
9
1.こんにちは
入力音声
4.ああ
2.いたい
0 0
2 2
1 1
4 4
9 9
10 10
認
識
結
果
パターン間距離の算出
基本方針
格子点スペクトル距離の総和(累積距離)が小さい単語テン
プレートを認識結果とする
パス、テンプレートフレーム数の違いによる加算回数の差
の正規化を行う必要がある
パス重み wk を導入.パス重み和で累積距離を正規化.

正規化累積距離 D( A : B) 
n
k 1
d (ik , jk )  wk

n
k 1
wk
d (ik , jk ) : 格子点Ckでの
スペクトル距離
市街地距離(city block distance)を用いたパス重み
パス重み wk を次式で与える
どのパスを通っても,最終格子点での重みの総和は同じ
wk  ik  ik 1  jk  jk 1
19
累積距離の最小値の求め方
動的計画法(dynamic programming)
格子点 Ck までの累積距離の最小値は(候補が複数ある)
直前の格子点Ck-1での累積距離から求めることができる.
漸化式:
g (Ck )  d (ik , jk )  wk  min{g (Ck 1 )}
{C k 1 }
g (Ck :格子点
)
Ck  (ik , jk )までの累積距離の最小値
最後の格子点まで g(Ck) を順次求める.
20
単語テンプレートB (フレーム数: J =6)
格子点のスペクトル距離 d (i, j )マトリックス作成
J=6
j
2
1
5
6
4
5
6
5
4
2
5
5
8
1
1
2
5
4
3
4
5
3
5
8
5
1
6
5
7
5
5
2
2
5
6
5
6
3
1
5
2
2
5
8
1
2
i
I=7
入力音声A (フレーム数 I =7)
21
累積距離の算出
入力とテンプレートのフレームのいずれかまたは
両方を1つ進めるパス.パス重みに市街地距離
g (ik , jk )  min{2  d (ik , jk )  g (ik  1, jk  1),
1  d (ik , jk )  min{ g (ik  1, jk ), g (ik , jk  1)}}
初期条件:
g(1,1) = 2d(1,1)
jk
1
g(ik-1,jk)
2
g(ik,jk)
d(ik,jk)
1
jk-1
g(ik-1,jk-1)
ik-1
g(ik,jk-1)
ik
22
処理の流れ
格子点のスペクトル距離マトリックスを作成する.
漸化式にもとづいて、格子点までの最小の累積距離
(次図右肩の数字)を求める.
終端の累積距離に対しパス重み和で正規化し,
単語テンプレートの正規化累積距離 D(A:B)を求める.
終端からパスをバックトレースするとマッチングパス
が得られる.
23
1
1
5
2
26
5
24
8
19
5
11
3
6
6
29
5
23
4
18
5
14
2
9
1
7
4
23
5
19
3
14
1
11
2
11
5
12
5
28
26
6
8
26
20
1
4
18
23
5
6
17
22
5
5
16
22
6
2
14
16
2
問題点
このパスではまだ,右のような極端な対応
付けを回避できない.
5
26
4
27
1
21
2
23
3
26
5
31
7
29
5
34
5
26
6
32
5
21
8
29
お や ま
2
31
お お お か や ま
24
傾斜制限つきパス
局所的な制限により極端な対応を避ける
パス傾斜が 0.5 から 2 の間に制限できる.
g (ik , jk )  min{2  d (ik , jk )  g (ik  1, jk  1),
1 d (ik , jk )  min{2  d (ik  1, jk )  g (ik  2, jk  1),
2  d (ik , jk  1)  g (ik  1, jk  2)}
初期条件:
g(1,1) = 2d(1,1)
g(ik-1,jk)
jk
jk-1
2
g(ik-2,jk-1)
d(ik-1,jk)
g(ik-1,jk-1) 1
g(ik-1,jk-2)
jk-2
ik-2
ik-1
1
g(ik,jk)
d(ik,jk)
1 g(ik,jk-1)
d(ik,jk-1)
2
ik
25
1
2
2
1
5
-
6
-
-
5
36
28
6
5
26
8
28
3
15
4
1
12
6
2
12
4
5
31
22
1
20
25
5
18
29
5
-
-
6
-
-
2
4
31
1
23
2
29
3
31
5
40
2
傾斜制限の
範囲外なので
格子点に
なり得ない
2
5
8
5
×
-
-
-
6
×
3
-
5
4
-
-
5
15
2
10
1
-
5
-
5
2
7
5
5
-
-
-
5
6
8
-
-
-
26
テンプレートマッチングの改良
整合窓
極端なパスになる領域を大局的に除外する.
計算量も削減できる.
端点フリー
入力音声の認識対象区間を自由にする.
発話前後の雑音を無視することができる.
非対称パス
入力音声のフレーム数のみで決まるパス重み
フレーム同期音声認識
テンプレートのフレーム数のみで決まるパス重み
端点フリーと併用してワードスポッティング
27
整合窓
累積距離の漸化式を計算する領域を制限する.
極端な対応付けを大局的に防ぎ,計算量も削減できる.
単語テンプレートB (フレーム数:J)
計算不要領域
bJ
Cn
J
時間伸縮関数
(Warp)
j=i+r
bj
j
d(i,j):スペクトル距離
C4
b2
b1
整合窓
2
1
j=i-r
C5
C2
計算不要領域
C3
C1= (1,1)
1
a1
i
ai
a2
入力音声A (フレーム数I)
2
I
aI
i
28
端点フリー
入力の開始フレームや終端フレームを自由にする
単語テンプレートB (フレーム数:J)
入力音声の発話前後の不要箇所を無視できる.
I-M
J
Cn
終端フリー領域
この領域で累積距離の
最小値を探す。つまり、
入力音声の途中で終
わってもよい。
時間伸縮関数
(Warp)
j
d(i,j):スペクトル距離
C3
2
1
g(i, 1)= d(i, 1)
C4
C2
始端フリー領域
C1
1
2
N
i
I
入力音声A (フレーム数I)
※テンプレートの端点フリーを導入すると,発話の文頭落ちや語末落ちに対応できる.
29
非対称パス
一方のデータに同期した距離計算に有効
パス重み和は注目する側のフレーム数だけで決まるパス
重みを設定
累積距離の正規化が不要となる
使用例
ワードスポッティング
長時間データの中からキーワード音声を探索する
フレーム同期認識
ある時間までの認識結果が逐次得られる
30
ワードスポッティング
探索したいキーワード音声 B
J
② 途中で閾値を超えたら
探索は中止
×
g(i, 1)= d(i, 1)
1
1
1
③ テンプレートの最終フレーム
までの距離加算加算回数は同じ.
閾値以下の累積距離が検出
されたらパスをバックトレース.
① 入力音声は始端,終端とも端点フリー.
(入力音声の任意の区間でテンプレートと似た
区間を探す.)
④この区間にテンプレートの単語があると推定
I
探索対象となる音声コーパス A (フレーム数I)
31
d(ik, jk)
g(ik,jk)=d(ik,jk)+min{g(ik-2,jk-1),
g(ik-1,jk-1),
g(ik,jk-1) }
jk
1
単
語
テ
ン
プ
レ
ー
ト
4
5
8
0
1
jk-1
g(ik, jk-1)
ik-2 ik-1 ik
閾値を4(=正規化累積距離1)と設定
8
1
3
2
5
4
2
5
1
4
6
5
1
3
5
3
5
4
4
5
3 5 24 13 46 46 45 23 3 4 1
6
46 46 4 6 3 5 1 2 3 4 1 2 3 3 4 4 1 1 4 6 4 8 3 6
2
2
5
5
4
4
2
2
1
1
4
4
5
5
0
0
2
2
4
4
5
5
6
6
3
3
音声データ(検索対象のデータベース)
この例では2箇所で単語が検出されたこととなる.
32
フレーム同期音声認識
入力データのあるフレームまでの認識結果の
比較が容易
初期条件: g(1,1) = d(1,1)
g (ik , jk )  1 d (ik , jk )  min{ g (ik  1, jk ), g (ik  1, jk  1), g (ik  1, jk  2)}
単
語
テ
ン
プ
レ
ー
ト
始点からここまでの距離重みは
評価した単語テンプレートに依存
せず同一(k).
1
入力音声
ik
33
テンプレートマッチングによる連続単語認識
解くべき問題
入力パターンともっともよくマッチする単語列を見つけ出
す.ただし,入力フレームの単語境界は与えられない.
x 単語認識の素朴なアプローチ
語彙数 N のとき N x 個の単語列テンプレートに対して順に
すべてに対してDPマッチング → 非効率的
単
語
テ
ン
プ
レ
ー
ト
を
連
結
単
語
3
単
語
2
単
語
1
入力音声
34
基本方針
1.
入力フレーム基準の非対称パスDTW
•
2.
単語テンプレートの長さの影響を受けず,入力の任意
のフレームまでの累積距離を比較できる.
単語境界での処理
•
入力フレームまでの累積距離の最小値とその単語を
記録し,それを初期値とし次単語のマッチングを開始
アルゴリズム
(a) 2段DP法
(b) Level Building法
単語数既知の場合に効果的
(c) One Pass DP法
単語数未知の場合に効果的
35
(a) 2段DP法
DPを2段階で行う
第1段階
入力音声の始点 m から単語テンプレート n について非対象パスによる終端フ
リー マッチング.
1≦ m < i ≦ I (I:入力フレーム数,i はマッチング終端フレーム)
あらゆる (n, m, i) の組み合わせに対して累積距離 D (n) (m:i) を計算.
D (m:i) の最小値とその単語 n を記録.
第2段階
入力フレームの累積距離が最小になる単語の系列を探索する。
第1段階
単
語
3
第2段階
単
語
2
単
語
1
単
語
n
m
入力フレーム
i
I
入力フレーム
I
36
(b) Level Building 法
単語数が分かっている音声の認識で効果的.
記憶容量小
何単語目を認識しているか明示的にしたマッチングを行う(電
話番号等)
処理のながれ
1段目
各テンプレートと入力終端フリーDPマッチングを行う
テンプレート終端で,その入力フレームまでの累積距離と単語を記録.
2段目(second level)以降
前段の最小の累積距離をその入力フレームの累積距離とする.
各テンプレートと端点フリーDPマッチング
同様に,その段での累積距離と単語を記録.
最終段の終端でパスをバックトレース,認識単語列を得る.
37
語彙数2(A,B),3単語音声を認識する場合
単
語
テ
ン
プ
レ
ー
ト
A
単
語
テ
ン
プ
レ
ー
ト
B
単
語
テ
ン
プ
レ
ー
ト
A
単
語
テ
ン
プ
レ
ー
ト
B
単
語
テ
ン
プ
レ
ー
ト
A
単
語
テ
ン
プ
レ
ー
ト
B
DTW A
最終段での
累積距離最小値
DTW B
3段目
DTW A
2段目
DTW B
DTW A
DTW B
フレームごとに,テンプレート終端までの
累積距離最小値とそれを与えた単語を
記録する.
それを初期値として2段目のパスを開始
1段目
入力フレーム
38
(3) One Pass DP 法
Level Building法の入力フレームのループを一番外側にしたもの.
入力フレームごとにすべての単語テンプレートについてパス計算を進める.
終端に到達したテンプレートがあれば,そのフレームまでの累積距離最小
の単語とその値を記録し,次の語のDPマッチングを始める.
単語数を決めておく必要がない
単語数制御機構がない.
単
語
E
単
語
D
単
語
C
単
語
B
単
語
A
1
入力フレーム
I
39
テンプレートマッチングを用いた
実用システム
口座照会システム (NTTdata)
(ANSER: Automatic answer Network System for Electrical Request)
1981年~
電話音声で利用可
16単語認識(数字+コマンド)
その他の要素技術
SPLIT (Strings of phoneme-like templates)
物理的観点で分類した,音素に準ずるテンプレート
Staggered Array DP マッチング
マルチテンプレート (KNN)
http://www.nttdata.com/jp/ja/lineup/anser/
40
統計モデルによる音声認識
基本方針
スペクトル系列 X が得られたとき,P(W|X) を
最大にする単語列 W を求める問題
生成モデル、識別モデル
音響モデル、言語モデルともに確率的モデルを用
いることで確率モデルによる統一的な処理
生成モデルのアプローチ
ベイズ則で解きやすい形に変形
P( X | W )  P(W )
P(W | X ) 
P( X )
41
入力音声
音響モデル
単語辞書
言語モデル
X
音響スコア
言語スコア
(事前確率)
P( X | W )
P (W )
Wˆ  arg max P (W | X )
デコーダ
W
 arg max
W
P ( X | W ) P (W )
 arg max P ( X | W ) P (W )
P( X )
W
P(W | X ) を直接モデル化するは容易ではないが,
P (W ) や P ( X | W ) のモデル化は比較的容易.
arg max P( X | W ) P(W )
W
認識結果
Ŵ
を解く
42
総合スコア
対数尤度で処理
和演算にして桁落ちを回避
スコア重み,単語挿入ペナルティの利用
言語重み
認識結果
音響スコア
言語スコア
単語数
Wˆ  arg min ( log P( X | W ) αlog P(W ) βN )
W
単語の過剰な挿入を抑制( β < 0 )
43
HMM音響モデル
統計的音声認識の標準的な音響モデル
音素HMM(Hidden Markov Model,隠れマル
コフモデル)を接続して単語HMMとする
音素HMM
単純マルコフ過程
Left-to-Right HMM
3状態HMMが主流
前音素からのわたり,定常部,後音素へのわたり
出力確率はGMM(Gaussian Mixture Models)
で表現することが一般的
8~16混合程度 (言語識別などでは64混合以上)
44
音素モデルセット
日本語音声認識の標準的な音素セット
40音素, 無音区間3種
(sp: short pause, silB: 始端, silE: 終端)
a i u e o a: i: u: e: o: N w y j p t k h f r q b d g z m n s
dy ts ch my ky by gy ny hy ry py sh sp silB silE
モノフォン(mono-phone)モデル
コンテキスト非依存モデル(音素環境を考慮しないモデル)
トライフォン(tri-phone)モデル
コンテキスト依存モデル(音素環境ごとに異なるモデル)
音素モデルだが実質的に単音(物理的区別)モデルを実現
40音素の場合単純に64000種類.グループ化して運用
45
例 3状態HMM
状態遷移確率 aij: 状態 i から j に遷移する確率
出力確率 bi (X) : 状態 i が X を出力する確率
a
ij
1
j
b (X ) 1
i
X
ここでは以下、時刻 tから t+1に進むときに出力すると定義する
a11
a22
a33
初期状態
q1
q2
q3
実際の出力信号 X
は任意の値で定義
b1(A)
b1(B)
b1(C)
a12
a23
b2(A)
b2(B)
b2(C)
最終状態
a34
q4
b3(A)
b3(B)
b3(C)
46
モデル尤度の算出
取りうるすべての状態遷移系列の出力確率を個
別に算出して総和を取るのは非効率
Forward アルゴリズム
観測信号系列を出力しうる状態遷移系列すべての
確率の総和を用いてモデルの尤度とする
 t (i )    t 1 ( j )  a ji  b j ( X (t  1))
j
Viterbi(ビタビ,ビテルビ)アルゴリズム
観測信号系列を出力する状態遷移系列のうち,最も
高い確率で出力する遷移系列のみを用いる.
「音素境界」「単語境界」の推定にも利用できる.
 t (i)  max  t 1 ( j )  a ji  b j ( X (t  1))
47
例 2状態HMMの尤度計算
2状態音素HMM /ア/, /イ/ がある.出力信号A,Bの出力確率 , 遷移確率は下の
通り.スペクトル系列「ABB」が観測されたとき Forwardアルゴリズム,Viterbiアル
ゴリズムそれぞれで音素認識をせよ.
a11=0.3
/ア/
初期状態
q1
a22= 0.2
q2
a12= 0.7
b2(A) 0.3
b2(B) 0.7
b1(A) 0.8
b1(B) 0.2
a11=0.5
/イ/
初期状態
q1
b1(A) 0.3
b1(B) 0.7
q3
a23= 0.8
(最終状態)
a22= 0.4
a12= 0.5
q2
b2(A) 0.6
b2(B) 0.4
q3
a23= 0.6
(最終状態)
48
Forwardアルゴリズムによる尤度計算
A
/ア/
B
B
観測系列
初期状態
0.3×0.8
q1
q2
a12  b1  A
1.0
0.24
0.7×0.2
0.7×0.8
0.2×0.7
=0.0336
0.112
0.56
=0.0784
0.8×0.7
q3
0.0627
状態
 t (i )    t 1 ( j )  a ji  b j ( X (t  1))
□内は「時刻 t で状態 qiに存在している確率」:
j
同様に /イ/ について計算すると尤度は 0.0184 → 認識結果: /ア/
Vitertbiアルゴリズムによる尤度計算
A
/ア/
B
B
観測系列
初期状態
0.3×0.8
q1
1.0
0.24
0.7×0.2
0.7×0.8
0.2×0.7
q2
0.56
=0.0336
0.0784
=0.0784
q3
0.8×0.7
0.0439
状態
□内は「そこまでの最大確率を出すパスの確率:
 t (i)  max  t 1 ( j )  a ji  b j ( X (t  1))
同様に /イ/ について計算すると尤度は 0.0126 → 認識結果: /ア/
言語モデル
認識候補への言語的制約を与え,探索空間をしぼる.
ネットワーク文法
作成
認識対象を設定し,文法
と辞書を作成
長所
定型文や単語認識むき
文法修正や単語追加が
容易
短所
文法外発話は正確に認
識できない
(人手で複雑な文法の作
成は困難)
N-グラム
テキストコーパスの単語ヒスト
グラムに基づいて統計的に作
成
大語彙連続音声認識むき
任意の発話を認識対象
Nが小さすぎると無意味な発
話も許容
テキストコーパス収集コスト
51
N-グラム
単語出現確率は直前N-1単語に依存すると仮
定した,単語系列生起確率に基づいた言語モ
n
デル
P( w1...wn )   P( wi | wi  N 1...wi 1 )
N=1:ユニグラム:
N=2:バイグラム:
N=3:トライグラム:
i 1
単語コンテキストを考慮しない
直前1単語を考慮
直前2単語を考慮
P(<s>/学校/に/行/く/</s>)=
P(学校|<s>) ・ P(に|<s>,学校) ・ P(行|学校,に) ・ P(く|に,行) ・ P(</s>|行,く)
学習コーパスに存在しない N-グラム
バックオフスムージングで出現確率を設定
52
ネットワーク文法例
文法
単語辞書
変換規則カテゴリ関係を
記述
カテゴリーの単語と音素を記述
S
: SNT1 SNT2
% FRUIT
SNT1 : FRUIT
みかん m i k a N
SNT1 : FRUIT NUM KO
りんご r i N g o
SNT2 : WO KUDASAI
ぶどう
SNT2 : NISHITE KUDASAI
% NUM
SNT2 : DESU
1
i ch i
2
ni
budo
% NISHITE
にして n i sh i t e
・
・
・
53
FRUIT
みかん
りんご
ぶどう
WO
KUDASAI
を
ください
KUDASAI
NISHITE
・
・
・
にして
FRUIT
NUM
みかん
りんご
ぶどう
1
2
ください
KO
個
DESU
です
・
・
・
生成される文例
「みかんをください」
「ぶどう7個です」
「りんご3個にしてください」
54
頑健な実環運用のために
クリーン(静音)&接話マイクではない環境
定常雑音 →スペクトル減算、雑音重畳音響
モデル
非定常雑音 →音源分離
ハンズフリー →残響抑圧、残響重畳モデル
話者の多様性
特定話者 →UD(User Dependent)モデル、
話者適応
不特定話者 →UI(User Independent)モデ
ル、リアルタイム話者適応、Gender
Dependent モデル、年齢層別モデル
55
必要となる認識精度、忠実性の設定
議事録、自動字幕付与 →フィラーや文法誤
りを言語モデルで修正?
対話システム →認識精度そのものよりタスク
達成度、エンタテインメント性で評価?
実時間性と認識精度のバランス
PTM(GMMのグループ化)
ビームサーチ(探索範囲の削減)
マルチパス探索
56
Fly UP