Comments
Description
Transcript
印刷用PDF (318KB)
音声認識 探索アルゴリズム 重 音声認識 探索 音声認識 探索アルゴリズム 重み付き有限状態 重み付き有限状態 有限状態トランスデューサ 超大語彙音声認識技術 NTTコミュニケーション科学基礎研究所 音声認識は、人とコンピュータのコミュニケーションや、音声アーカイブの検索などを実現するための基本技術です。一般に音声 認識では登録された個々の単語の発音とその単語同士の接続性を表す情報を利用しますが、未登録の単語が話されると別の単語に 誤って認識してしまいます。従って、登録単語の数は音声認識の精度に大きく影響します。しかし、登録単語を増やすと単語列を探索 する計算量は著しく増加するため、従来の音声認識方法では大語彙化に限界がありました。NTT研究所では、従来水準をはるかに 上回る200万単語を登録した連続音声認識を実時間で動作させるアルゴリズムを開発しました。 200万語という語彙の大きさは世界的にも例がなく、市販の音声認識エンジンはせいぜい10万語程度です。また、一般的な国語 辞典の収録語数は5∼8万語、広辞苑でも約23万語です。このような超大語彙を扱う音声認識を可能にしたのが、今回開発した高速 on-the-fly合成法です。この手法は、重み付き有限状態トランスデューサ(WFST*)と呼ばれる計算モデルをもとに探索空間を効率的 に表現し、 計算の共通化による高速な処理を実現します。具体的には、 全体の探索空間を表すWFSTを、最適化できるWFSTと最適化 できないWFSTの2つに分解し、音声認識の処理中に必要に応じて合成します。この際、同一の部分WFSTが複数の場所に冗長に 埋め込まれることに着目し、 これらの部分WFSTに対する探索計算を共通化しました。これにより、大幅な処理時間の短縮を実現しま した。 この技術は、住所・団体名など多種多様な固有語を含む音声認識を要するサービスにおいて、有効な差異化技術と期待されます。 今後は、 この手法に基づいて、 日常会話などの話し言葉に対する認識精度の向上を目指します。 * WFST: Weighted Finite-State Transducer 高速on-the-fly合成法の流れと認識処理時間の比較 全探索空間WFST 大語彙化 に限界 WFST-1 A B A B A 男女各25名、計500文 使用計算機 IBM互換機 Pentium4 (2.8GHz) 比較方法 認識率が90%と94%の場合の 音声認識に要した処理時間を比較 B 16 A A C 14 B 12 実 時 間 比 探索空間を認識中に部分的に合成 A 評価音声データ * on-the-fly 合成 C 約200万単語 WFST-2 分解 A 登録単語数 C 高速on-the-fly合成法 従来型(非WFST) 10 8 6 4 A、B、C: 単語や音素に 相当する記号 仮説評価計算の共通化による高速探索 2 0 認識率90% 認識率94% *実時間比:話された時間を1とするときの相対的な認識処理時間 H-CT-6 copyright(C)2005NTT