Comments
Description
Transcript
ユーザ負担のない話者・環境適応性 を実現する自然な音声対話処理技術
ユーザ負担のない話者・環境適応性 を実現する自然な音声対話処理技術 H19 -Society 最終報告会 H19 ee-Society 鹿野清宏(奈良先端科学技術大学院大学) 河原達也、猿渡洋、武田一哉、 河原英紀、徳田恵一、西浦敬信 H20.3.27 研究開発の目標 雑音がある中,マイク距離が1m離れた場所からでも,1文程度 雑音がある中,マイク距離が1m離れた場所からでも,1文程度 の発声だけでコンピュータが人間の正確な言葉を認識 の発声だけでコンピュータが人間の正確な言葉を認識 ●街中等,雑音がある現実的な状況で,人間の言葉だけをコン ●街中等,雑音がある現実的な状況で,人間の言葉だけをコン ピュータに識別・理解させる技術 ピュータに識別・理解させる技術 ●誰でもが廉価に使える音声認識・合成 ●誰でもが廉価に使える音声認識・合成 ● ● ITの普及,ディジタルディバイド問題の軽減 ITの普及,ディジタルディバイド問題の軽減 ○教師なし話者・環境適応技術 ○教師なし話者・環境適応技術 (高精度・頑健な認識) (高精度・頑健な認識) ○大語彙連続音声認識技術 ○大語彙連続音声認識技術 (フリーソフトウェア) (フリーソフトウェア) ○マイクロフォンアレーによるハンズフリー音声認識技術(マイク ○マイクロフォンアレーによるハンズフリー音声認識技術(マイク を意識しない使い易い音声インタフェース) を意識しない使い易い音声インタフェース) ○多様な音声合成(声質の変換,感情表現が可能な合成) ○多様な音声合成(声質の変換,感情表現が可能な合成) 社会基盤としての音声認識・合成プログラム 音声認識・合成により、誰もが気軽に情報機器の利用できる社会へ! 大語彙連続音声認識 フリーソフトウェア ユーザ負担のない 話者・環境適応 誰もが使える 子どもからお年寄りまで どのような環境でも、 高精度に認識。 マイコン上でも。 マイクなしで、 DSPチップで廉価。 ハンズフリー 音声認識 実環境の 音声対話システム 実証開発、 評価 多様な自然な 応答音声。 ヒューマンインタフェース、 構築ガイドライン 多様な声質の 音声合成 奈良先端大、京都大学、和歌山大学、名古屋大学、名古屋工業大学、立命館大学 日立製作所、旭化成、松下電器、松下電工、オムロン、ASTEM 開発成果(中間目標(H18.3)、最終目標(H20.3)) 中間目標 大語彙連続音声認識 フリーソフトウェア ユーザ負担のない 話者・環境適応 ハンズフリー 音声認識 実環境の 音声対話システム 多様な声質の 音声合成 丁寧な話し言葉認識、 マイコン上に実装 最終目標 話し言葉認識ソフトの 完成と普及 マイコンで実時間動作 ハンズフリー環境・話者 雑音環境下での教師なし 適応プログラムパッケージ オンライン話者適応 つぶやき認識(静かな音声メディア) ハンズフリー音声 ハンズフリー 音声収録DSP 収録プログラム ブラインド音源分離 各種実環境音声 対話システムの構築 多様な音声合成 プログラム 実環境音声対話システム の運用と評価 多様で高品質な音声合成 プログラムの完成と普及 無音声電話(つぶやき声で電話) 成果の概要 音声対話システム: 実環境で使われる音声対話システム Julius v4.0、マイコンへの実装 たけまるくん、キタちゃん、キタロボ、メイちゃんなど 非可聴つぶやき(NAM): 静かな音声メディアの発見 無音声認識/電話 発話障害者補助 ブラインド音源分離(BSS): 歪なし分離原理(SIMO-ICA) ハンズフリー音声対話システム(ロボット対話の実現) 音声規則合成: やかましい中でのハンズフリー 世界をリードする音声合成技術 高品質音声分析合成 STRAIGHT HMMベース音声規則合成 HTS 音声対話システム 大語彙連続音声認識ソフト Julius を利用 奈良先端大 H18 情報処理学会 山下記念研究賞 たけまるくん(5年以上運用) 生駒市北コミュニティセンター キタちゃん と キタロボ (2年間運用) 近鉄学研北生駒駅 京都大学 H16 情報処理学会 山下記念研究賞 バス運行案内システム(5年以上運用) 京都観光案内システム 京都大学総合博物館 名古屋工業大学 H19 情報処理学会 山下記念研究賞 学内案内システム めいちゃん 名古屋大学 楽曲検索システム Webベース 和歌山大学 Webベース対話システム構築ツール W3voice 「たけまるくん」 生駒市北コミュニティセンター たけまるくん 生駒市 北コミュニティセンター たけまるくんの月別の入力数の推移 月あたりの入力数 35000 30000 音声 笑い声、咳払い 雑音 25000 20000 15000 10000 5000 20 02 年 20 11月 03 年 20 2月 03 年 20 5月 03 20 年8 03 月 年 20 11 月 04 年 20 2月 04 年 20 5月 04 2 0 年8 04 月 年 20 11月 05 年 20 2月 05 年 2 0 5月 05 20 年8 05 月 年 20 11月 06 年 2 0 2月 06 年 20 5月 06 年 8月 0 長期にわたる音声データ収集 フィールドミュージ 高精度モデルの作成 子供/大人の識別 書き起こし アム 構築コストの削減 雑音の識別 終了(2004.10) Julian(2005.08) (2003.3) 構築のノウハウ 収集データによる音韻モデルの改善 大人 2年間の書き起こし収集データを利用 JNAS(新聞記事 たけまるくん データ ベース 読み上げ音声) (対話音声) 14,809 14,800 音声データ量 84.9% 単語認識率 88.5% 子ども データ ベース 音声デ ータ量 単語 認識率 CSRC (単語発声) 40,000 たけまるくん (対話音声) 78,626 子ども 幼児 子ども 幼児 78.8% 41.3% 84.2% 60.8% 「たけまるくん」の利用状況 2006.8.1 から 8.20 までの1日あたりの平均入力数 総入力数: 1166 雑音 451 56 大人 54 605 子ども 笑い声 大人 子ども 笑い声 雑音 雑音の 1/2 は,800msec以下の短い入力(short reject) たけまるパッケージ 10個所以上の機関に配布 近鉄「北生駒駅」の音声情報案内システム 「キタちゃん」(左)と「キタロボ」 (右) 2006.3.27設置 ○ ○ ○ ロボット型の人気 厳しい環境(60dBA)での実証実験とデータ収録 システムのポータビリティ 設置風景 「キタちゃんロボット」と「キタちゃん」 近鉄学研北生駒駅 (2006.3.27開業) 20 0 20 3年 0 04 20 3年 月 0 0 20 3年 6月 0 0 20 3年 8月 0 1 20 3年 0月 0 1 20 4年 2月 0 02 20 4年 月 0 04 20 4年 月 0 0 20 4年 6月 0 0 20 4年 8月 0 1 20 4年 0月 0 1 20 5年 2月 0 0 20 5年 2月 0 04 20 5年 月 0 0 20 5年 6月 0 0 20 5年 8月 0 1 20 5年 0月 0 12 20 6年 月 0 02 20 6年 月 0 0 20 6年 4月 0 0 20 6年 6月 0 0 20 6年 8月 0 1 20 6年 0月 0 12 20 7年 月 0 0 20 7年 2月 0 0 20 7年 4月 0 0 20 7年 6月 0 08 20 7年 月 07 10 年 月 12 月 Julius v3.5 から v4.0 Julius #Downloads per month 5000 4500 4000 1500 4. 3500 3.5 3000 3.5 2500 3.5 2000 3.4 3.5 1000 500 0 Julius ダウンロード数(月毎) SH-4Aマイコン上へのJuliusの高精度版の実装 大語彙連続音声認識ソフトJuliusのマイコンへの移植 日立との共同研究 開発プラットフォーム 日立「T-engine」 SH−4、SH-4A TRONアーキテクチャに対応した共通開発ボード アルゴリズムの高速化Î実時間動作の達成 マイコンSH-4A マイコンSH-4 新しい音声メディアによる ユニバーサルコミュニケーション どのような環境でも NAM 音源分離 静かな場所でも通話 (会議、授業、電車内) 非可聴つぶやき 音環境 騒音下でも明瞭に通話 ハンズフリーでも SIMOICA 音声によるユニバーサル コミュニケーション 誰でもが 幼児 子ども 幼児音声の認識 音声対話システム ネットワークとも 成人 高齢者 障害者 ハンズフリー NAM・音声モーフィング 音声認識 BSSA発話障害者補助 ロボット ロボット ネットワーク BSS 補聴器 非可聴つぶやき(NAM)の 無音声認識と無音声電話の研究 H17 電子情報通信学会 論文賞 猪瀬賞 無音声認識・無音声電話 Non-Audible Murmur (NAM) つぶやき声(NAM)は、話し手の近くでも聞こえない声。 この声を認識(無音声認識)したり、電話で送る(無音声電話)ことができる。 NAM マイクロフォン NAM 無音声認識 無音声電話 私は名義を貸しただけで株購入をしていない。たとえ逮捕されても裁判で徹底的に闘う 発話障害者補助のための変換代用音声技術 声質変換 変換音声 (ささやき声に変換) NAMマイクロフォン (微弱な音声を集音) 増幅器 音源ユニット 音源信号 (微弱な信号) 声帯を手術で除去 固有声に基づく声質変換 male female dark deep cheerful thin 有線型/無線型NAM収録装置の開発 従来の有線型収録装置 有線型NAMマイク (ネックバンド固定式) 増幅器 試作した無線型収録装置 肉伝導センサ付き Bluetooth無線送信機 (増幅器内臓) 裏側: 5cm 肉伝導センサ ウレタンシ ート Bluetooth無線受信機 2 Single-Input Multiple-Outputモデルに基づく独立成分分析 を用いたバイノーラル混合信号のブラインド音源分離 SIMO−ICA 日本音響学会、独創研究奨励賞板倉記念 干渉音 目的音 Earphone Microphone 信号処理 信号処理 両耳介入り口付近の音を収音 目的音のバイノーラル信号のみを再現 SIMO-Model Accuracy [dB] SIMO−ICAでの音源分離の結果 FDICA-PB MS-SIMO-ICA Proposed SG Proposed SIMO-ICA-SG 25 60° 音源1の方位:-15度 音源2の方位: 45度 20 15 Input 10 5 0 0 15 30 45 60 75 Direction of source 2 θ 2 [deg] 90 従来法 1 FDICA-PB Output 1 Output 2 従来法 2 MS-SIMO-ICA Output 1 Output 2 提案法 Output 1 Output 2 ブラインド音源分離(BSS)の実時間処理 アルゴリズムのDSP実装 SIMO-ICA IEEE/RSJ (IROS2005) Best Application Paper Award ロボット対話 歪みなしでの音源分離の原理 IEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation DSP実装と商用 (協力:神戸製鋼所) BSSA(Blind Spectral Subtraction Array) SSA(空間減算アレー)とBSSの融合 音声強調 User’s Speech Phase Compensation F X j ( f ,τ ) F T Noise 雑音の減算 Primary Path m (l ,τ ) YDS ( f ,τ ) θU ∑ Mel-Scale + Spectral Filter Subtract Bank X J ( f ,τ ) 0 E j ( f ,τ ) FD- Noise θU PB ICA Transform and MFCC ( n,τ ) DCT m (L , τ ) User Log Z ICA ( f ,τ ) ∑ E J ( f ,τ ) Reference Path BSSによる雑音の推定 Mel-Scale Filter Bank ハンズフリー ロボット対話 各種モジュールを統合した実環境動作可能な音声対話システム 駅環境雑音 の再現 指向性マイク キタロボ ディスプレー 90%以上 の単語認識率を達成! 8チャネル マイクアレー リアルタイム ブラインド空間 サブトラクションアレー BSSA 典型的な駅騒音の中で 遠隔発話した場合でも 音声発話検出& 音声認識デコーダ 対話管理処理 応答音声生成 各種情報提示 (今後) ロボット動作との連携 ハンズフリー音声対話システムの要素技術 ハンズフリー音声収録技術 指向性マイクロフォン 10数dB程度の効果 4∼5 dBの効果 遅延和アレー(8チャンネル) 4 dB程度の効果 BSSAによる雑音減算 4∼5 dBの効果 音声認識技術 デコーダーVAD: 雑音環境下での音声切り出し 音韻モデル: 雑音重畳25dB + 残響マッチド モデル 言語モデル、質問応答データベース 音声合成: 目標感情間のモーフィング 平静と各感情 驚き 喜び 心理的距離の離れた感情間 心理的距離の近い感情間 モーフィング率 -0.2 から 1.2 平静 恐れ 音声:「こんにちは」 悲しみ 母音によるモーフィング 原音声:平静 怒り 朗らか 怒り STRAIGHT 約350の機関で利用 原音声:怒り 音声規則合成:Blizzard Challenge 2005, 06, 07, 08 HTS: HMMベースの音声規則合成 合成音声の品質は音声デ ータベースに依存 音声合成技術自体の比 較・評価は困難 組織委員長: Alan Black(CMU)、徳田(名工大) “Blizzard Challenge” Challenge Evaluating corpus-based speech synthesis on common data sets The Blizzard Challenge - 2005 名工大 自然音声 Speech experts 自然音声 Volunteers 名工大 自然音声 US undergraduates HTS (名工大) STRAIGHT(和歌山大) Global Variance(奈良先端大) 名工大 Blizzard Challenge 2005用システムの評価結果 日本音響学会、独創研究奨励賞板倉記念 研究成果の普及 フリーソフトウェアサイト(H19) Julius ダウンロード数 http://julius.sourceforge.jp 大語彙連続音声認識プログラムv4.0 Google PageRank:☆☆☆☆☆ HTS Festival http://hts.ics.nitech.ac.jp http://www.cstr.ed.ac.uk/ projects/festival/ 30,000 (14,000) HMM音声規則合成 V2.0 Google PageRank:☆☆☆☆☆☆ 25,000 世界標準音声合成フレームワーク HTS, 音声モーフィングが採用 Google PageRank:☆☆☆☆☆☆ - (4,000) ()は、H17のダウンロード数 マイコン/DSP実装によるコストダウン Julius SH-4A (日立) Juliusのマイコンへの実装(H19.3) SSA DSP (旭化成) ハンズフリー音声収録(SSA)の実装(H19.3) 学術活動(研究論文、受賞) 学術論文 国際会議 研究会など 受賞 合計 108 352 620 43 H19 18 77 166 12 H18 19 82 125 12 H17 23 47 116 6 H16 30 81 95 6 H15 18 65 118 7 学術活動(おもな受賞リスト) 日付 受賞 分野 04.3 情報処理学会フェロー 全般(鹿野) 04.3 情報処理学会 対話(バス運行システム) 04.9 電子情報通信学会フェロー 全般(鹿野) 05.5 電子情報通信学会論文賞、 猪瀬賞 NAM 06.3 日本音響学会 独創研究奨励賞板倉記念 BSS 06.3 日本音響学会 粟屋潔学術奨励賞 HMM音韻モデル 06.5 電子情報通信学会論文賞 残響回復 山下記念研究賞 06.10 IEEE/RSJ Best Application Paper Award BSS 07.1 IEEE 全般(鹿野) 07.1 暗号と情報セキュリティシンポジュームSCIS2006論文賞 NAM個人認証 07.3 情報処理学会 対話(たけまるくん) 07.8 IEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation BSS 08.3 電気通信普及財団賞(テレコムシステム技術賞) 音声合成(HTS) 08.3 情報処理学会 対話(京都観光案内) 08.3 日本音響学会 独創研究奨励賞板倉記念 Fellow 山下記念研究賞 山下記念研究賞 音声合成(HTS) まとめ (1) (1) 当初計画以上の成果 当初計画以上の成果 音声認識 音声認識 実環境音声対話システムを5年間運用。 実環境音声対話システムを5年間運用。 Julius Juliusv4.0、たけまるパッケージ、高精度音韻/言語モデル。 v4.0、たけまるパッケージ、高精度音韻/言語モデル。 マイコンSH-4AにJuliusの実時間認識を実装。 マイコンSH-4AにJuliusの実時間認識を実装。 ハンズフリー音声対話システムを実現。 ハンズフリー音声対話システムを実現。 音声合成 音声合成 高品質音声モーフィング(STRAIGHT)。 高品質音声モーフィング(STRAIGHT)。 高品質音声規則合成(HTS)。 高品質音声規則合成(HTS)。 (2) (2) 新しい手法の発見 新しい手法の発見 非可聴つぶやき声による静かな音声メディア(NAM)。 非可聴つぶやき声による静かな音声メディア(NAM)。 ハンズフリーにおける歪なし音源分離原理(SIMO-ICA)。 ハンズフリーにおける歪なし音源分離原理(SIMO-ICA)。 (3)多くの論文、国際会議発表。表彰(論文賞、猪瀬賞など)。 (3)多くの論文、国際会議発表。表彰(論文賞、猪瀬賞など)。 世界でトップの音声合成技術を実証(STRAIGHT、HTS)。 世界でトップの音声合成技術を実証(STRAIGHT、HTS)。 EUのプロジェクトEMIMEに招聘参加。 EUのプロジェクトEMIMEに招聘参加。 (4)フリーソフトウェアサイトの運用 (4)フリーソフトウェアサイトの運用 Julius, Julius, HTS HTS 講習会、展示会などで普及活動。 講習会、展示会などで普及活動。 共同研究などによる産業界への技術移転も活発化。 共同研究などによる産業界への技術移転も活発化。