Comments
Description
Transcript
音声コミュニケーション研究室
3. 5 ユニバーサルコミュニケーション研究所 3. 5. 1 ユニバーサルコミュニケーション研究所 音声コミュニケーション研究室 室長 柏岡秀紀 ほか 2 3名 音声コミュニケーション技術の研究開発を目指して 【概 要】 真に人との親和性が高いコミュニケーション技術の創造を目指し、誰が、いつ、どこで、どのような表現で、 何語で話そうとも、息の合ったコミュニケーションを実現する多言語コミュニケーションの構成技術として、 音声処理技術、対話処理技術の研究開発を推進している。具体的には、音声処理技術として、日本語とアジア を中心とした 3つ程度の言語を対象とした音声コーパスの大規模化、音声認識・音声合成処理技術の高度化を 進めると共に、対話処理技術において文化的な背景を踏まえて補足情報を自動的に追加提示するための基本技 術の確立を目指す。本年度は、音声コーパス(音声言語データ)の大規模化として、音声処理技術の研究の基 盤となる講演・ニュース等の音声コーパスの整備に着手するとともに、基本要素技術となる大語彙音声認識の プロトタイプシステムを構築した。また、音声合成の多言語化とともに話者の特徴を捉えて合成音を出力する 仕組みを試作した。さらに、これまでの成果をとりまとめた統合システムとして、音声翻訳システム、音声対 話システムを試作し、実証実験として公開した。 【平成 23年度の成果】 音声処理の研究基盤となる音声コーパスの拡充 ・講演・ニュース等のビジネスの会議等に利用できる音声データの収集 従来の対話形式の 5 、6単語からなる短い発話のインタラクションではなく、一定の内容を連続して話し 続ける発話を音声認識するために、インターネット上に公開されている講演、講義のデータ(約 1 , 0 0 0時 間)をクローリングし、音声の書き起こし等のデータ整備を行った(図 1 )。 ㅮ₇䜔ㅮ⩏䛾 䜽䝻䞊䝸䞁䜾 㡢ኌ䝕䞊䝍 䜲䞁䝍䞊䝛䝑䝖 ⣙䠍,䠌䠌䠌㛫 図1 インターネットからの音声コーパスの収集 ・利用ログを用いた会話音声のコーパス整備 昨年度から公開している多言語音声翻訳アプリケーション Voi c e Tr a 、Cha Tr a 、及び、本年度から公開 している音声対話システム As s i s Tr aで収集された大量の実利用音声データ(利用ログ)から音声コーパ スとしての整備(図 2 )を進め、約 5 , 0 0 0時間(約 6 0 0万発話)の音声コーパスを獲得した。 ᐇ⏝㡢ኌ䝁䞊䝟䝇 ⣙䠑,䠌䠌䠌㛫 ᩚഛ䠄䝍䜾➼䠅 ୍⯡⏝⪅䛾 ᐇ⏝㡢ኌ䝕䞊䝍 㡢ኌ䜢⮬ື㞟 䠄⣙䠒䠌䠌Ⓨヰ䠅 図 2 実利用データによるコーパス整備 音声処理技術の要素技術の研究開発 ・大語彙音声認識システム Spr i nTr aの試作・改善 統計的なモデルとして重み付き有限状態トランスデューサ(We i ght e dFi ni t eSt a t eTr a ns duc e r : WFST) を基礎とした音声認識エンジンを試作した。音声認識に利用する音響的な適合条件を示す音響モデル、単 4 0 3. 5 ユニバーサルコミュニケーション研究所 語のつながり等の言語的な適合条件を示す言語モデル、単語を登録した辞書モデルなどの各モデルを WFSTにより表現し、WFSTを合成、最適化を行うことで、高速かつ高精度な音声認識が可能となった。 また、先に述べた実際に利用されている会話音声のコーパスを用いて、音響モデル、言語モデルを改善 することにより、単語正解精度において、日本語で 6 6 . 6 %から 7 1 . 1 %へ、中国語で 5 6 . 4 %から 6 7 . 5 %へ性 能向上(図 3 )した。 3 活 動 状 況 図 3 モデル改善による音声認識精度(単語正解率)の向上 ・音声合成システム“NX”の多言語対応 隠れマルコフモデル(HMM)に基づくテキスト音声合成を試作、7カ国語に対応(日本語、英語、中国 語、韓国語、インドネシア語、ベトナム語、マレー語)した。また、収録音声を処理するフィルタを高度 化し合成音声の自然性を改善、主観評価により従来法に比べ 4 0 %の改善を確認した。さらに、異なる言語 間で類似した声質を選択するボイス・セレクター(図 4 )を開発した。 ከゝㄒ䚸」ᩘ䛾ኌ㉁䞉 䝇䝍䜲䝹䛾㡢㡪䝰䝕䝹 䝪䜲䝇䞉䝉䝺䜽䝍䞊 ᪥ᮏㄒ ⏨ኌ䠍 ᮁㄞㄪ ᮁ ᪥ᮏㄒ ዪኌ䠍 ᮁㄞㄪ ଐஜᛖᴾ ڡ٣ᾀᴾ ݣᛅᛦᴾ ⱥㄒ ⏨ኌ䠍 ᮁㄞㄪ ୰ᅜㄒ ዪኌ䠎 ᮁㄞㄪ 䞉䞉䞉 䞉䞉䞉 䞉䞉䞉 㡢㡪䝰䝕䝹䛾 㑅ᢥ䞉ษ᭰䛘 䛂䛒䜚䛜䛸䛖䛤䛦䛔䜎䛩䚹䛃 㡢 㡢ኌㄆ㆑䠈 ᶵᲔ⩻ヂ ᶵ ⩻ヂඖ䛾㡢ኌ 䠄ⱥㄒ䠅 ከゝㄒ䝔䜻䝇䝖 ゎᯒ 䠤䠩䠩㡢ኌྜᡂ 䝔䜻䝇䝖㡢ኌྜᡂ䝅䝇䝔䝮䇾䠪䠴䇿 ⩻ヂඖ㡢ኌ䛻ఝ䛯 ኌ㉁䛾㡢ኌ䠄᪥ᮏㄒ䠅 図 4 異なる言語間で類似した声質を選択するボイス・セレクターの概念図 音声処理技術を活用した統合システムの研究開発 ・音声翻訳システムの公開 昨年度 i Pho ne用に公開した多言語音声翻訳アプリケーション“Vo i c e Tr a ”の Andr o i d版を 2 0 1 1年 4月 に全世界に無料公開し、2 0 1 0年 7月に i Pho ne版を公開して以来のダウンロード数が 2 0 1 2年 3月末時点で 6 0万件を記録した。また、日本語において 5万語彙から 6 5万語彙へ、英語、中国語、韓国語においても 5万語彙から 2 0万語彙へと語彙の増強を図った。 ・音声対話システム(日本語版、英語版)の公開 音声対話コーパスより統計的対話制御モデル(重み付き有限状態トランスデューサ)を学習し、これを 用いて対話制御を行うアプリケーションとして、京都観光をサポートする音声対話システム“As s i s Tr a ” を公開した。 ・音声翻訳 SDK NI CT内に共有の音声翻訳サーバを構築し、音声翻訳サーバを用いたクライアントソフトの開発をサ ポートする SDK(ソフトウェア開発キット)を公開した。 4 1