ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術

Transcript

ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術

ユーザ負担のない話者・環境適応性
を実現する自然な音声対話処理技術
H19
-Society 最終報告会
H19 ee-Society
鹿野清宏（奈良先端科学技術大学院大学）
河原達也、猿渡洋、武田一哉、
河原英紀、徳田恵一、西浦敬信
H20.3.27
研究開発の目標
雑音がある中，マイク距離が１ｍ離れた場所からでも，1文程度
雑音がある中，マイク距離が１ｍ離れた場所からでも，1文程度
の発声だけでコンピュータが人間の正確な言葉を認識
の発声だけでコンピュータが人間の正確な言葉を認識
●街中等，雑音がある現実的な状況で，人間の言葉だけをコン
●街中等，雑音がある現実的な状況で，人間の言葉だけをコン
ピュータに識別・理解させる技術
ピュータに識別・理解させる技術
●誰でもが廉価に使える音声認識・合成
●誰でもが廉価に使える音声認識・合成
●
● ITの普及，ディジタルディバイド問題の軽減
ITの普及，ディジタルディバイド問題の軽減
○教師なし話者・環境適応技術
○教師なし話者・環境適応技術（高精度・頑健な認識）
（高精度・頑健な認識）
○大語彙連続音声認識技術
○大語彙連続音声認識技術（フリーソフトウェア）
（フリーソフトウェア）
○マイクロフォンアレーによるハンズフリー音声認識技術（マイク
○マイクロフォンアレーによるハンズフリー音声認識技術（マイク
を意識しない使い易い音声インタフェース）
を意識しない使い易い音声インタフェース）
○多様な音声合成（声質の変換，感情表現が可能な合成）
○多様な音声合成（声質の変換，感情表現が可能な合成）
社会基盤としての音声認識・合成プログラム
音声認識・合成により、誰もが気軽に情報機器の利用できる社会へ！
大語彙連続音声認識
フリーソフトウェア
ユーザ負担のない
話者・環境適応
誰もが使える
子どもからお年寄りまで
どのような環境でも、
高精度に認識。
マイコン上でも。
マイクなしで、
DSPチップで廉価。
ハンズフリー
音声認識
実環境の
音声対話システム
実証開発、
評価
多様な自然な
応答音声。
ヒューマンインタフェース、
構築ガイドライン多様な声質の
音声合成
奈良先端大、京都大学、和歌山大学、名古屋大学、名古屋工業大学、立命館大学
日立製作所、旭化成、松下電器、松下電工、オムロン、ＡＳＴＥＭ
開発成果（中間目標(H18.3)、最終目標(H20.3)）
中間目標
大語彙連続音声認識
フリーソフトウェア
ユーザ負担のない
話者・環境適応
ハンズフリー
音声認識
実環境の
音声対話システム
多様な声質の
音声合成
丁寧な話し言葉認識、
マイコン上に実装
最終目標
話し言葉認識ソフトの
完成と普及
マイコンで実時間動作
ハンズフリー環境・話者
雑音環境下での教師なし
適応プログラムパッケージ
オンライン話者適応
つぶやき認識（静かな音声メディア）
ハンズフリー音声
ハンズフリー
音声収録DSP
収録プログラム
ブラインド音源分離
各種実環境音声
対話システムの構築
多様な音声合成
プログラム
実環境音声対話システム
の運用と評価
多様で高品質な音声合成
プログラムの完成と普及
無音声電話（つぶやき声で電話）
成果の概要
音声対話システム：

実環境で使われる音声対話システム
Julius v4.0、マイコンへの実装
たけまるくん、キタちゃん、キタロボ、メイちゃんなど
非可聴つぶやき（NAM)：

静かな音声メディアの発見
無音声認識/電話
発話障害者補助
ブラインド音源分離（BSS)：

歪なし分離原理（SIMO-ICA)
ハンズフリー音声対話システム（ロボット対話の実現）
音声規則合成：

やかましい中でのハンズフリー
世界をリードする音声合成技術
高品質音声分析合成 STRAIGHT
HMMベース音声規則合成ＨＴＳ
音声対話システム
大語彙連続音声認識ソフト Julius を利用
奈良先端大
H18 情報処理学会山下記念研究賞
たけまるくん（５年以上運用）生駒市北コミュニティセンター
キタちゃんとキタロボ（２年間運用）近鉄学研北生駒駅
京都大学
H16 情報処理学会山下記念研究賞
バス運行案内システム（５年以上運用）
京都観光案内システム京都大学総合博物館
名古屋工業大学
H19 情報処理学会山下記念研究賞
学内案内システムめいちゃん
名古屋大学
楽曲検索システム Webベース
和歌山大学
Ｗｅｂベース対話システム構築ツール W3voice
「たけまるくん」
生駒市北コミュニティセンター
たけまるくん
生駒市
北コミュニティセンター
たけまるくんの月別の入力数の推移
月あたりの入力数
35000
30000
音声
笑い声、咳払い
雑音
25000
20000
15000
10000
5000
20
02
年
20 11月
03
年
20 2月
03
年
20 5月
03
20 年8
03
月
年
20 11 月
04
年
20 2月
04
年
20 5月
04
2 0 年8
04
月
年
20 11月
05
年
20 2月
05
年
2 0 5月
05
20 年8
05
月
年
20 11月
06
年
2 0 2月
06
年
20 5月
06
年
8月
0
長期にわたる音声データ収集
フィールドミュージ
高精度モデルの作成
子供/大人の識別
書き起こし
アム
構築コストの削減
雑音の識別
終了(2004.10) Julian(2005.08)
(2003.3)
構築のノウハウ
収集データによる音韻モデルの改善
大人
２年間の書き起こし収集データを利用
JNAS（新聞記事
たけまるくん
データ
ベース
読み上げ音声）
（対話音声）
１４,８０９
１４,８００
音声データ量
８４.９％
単語認識率
８８.５％
子ども
データ
ベース
音声デ
ータ量
単語
認識率
CSRC
（単語発声）
４０,０００
たけまるくん
（対話音声）
７８,６２６
子ども
幼児
子ども
幼児
７８.８％
４１.３％
８４.２％
６０.８％
「たけまるくん」の利用状況
2006．8．1 から 8．20 までの1日あたりの平均入力数
総入力数： 1166
雑音
451
56
大人
54
605
子ども
笑い声
大人
子ども
笑い声
雑音
雑音の１/2 は,800msec以下の短い入力（short reject）
たけまるパッケージ１０個所以上の機関に配布
近鉄「北生駒駅」の音声情報案内システム
「キタちゃん」（左）と「キタロボ」（右）
2006.3.27設置
○
○
○
ロボット型の人気
厳しい環境（６０ｄＢＡ）での実証実験とデータ収録
システムのポータビリティ
設置風景
「キタちゃんロボット」と「キタちゃん」
近鉄学研北生駒駅
（２００６．３．２７開業）
20
0
20 3年
0 04
20 3年月
0 0
20 3年 6月
0 0
20 3年 8月
0 1
20 3年 0月
0 1
20 4年 2月
0 02
20 4年月
0 04
20 4年月
0 0
20 4年 6月
0 0
20 4年 8月
0 1
20 4年 0月
0 1
20 5年 2月
0 0
20 5年 2月
0 04
20 5年月
0 0
20 5年 6月
0 0
20 5年 8月
0 1
20 5年 0月
0 12
20 6年月
0 02
20 6年月
0 0
20 6年 4月
0 0
20 6年 6月
0 0
20 6年 8月
0 1
20 6年 0月
0 12
20 7年月
0 0
20 7年 2月
0 0
20 7年 4月
0 0
20 7年 6月
0 08
20 7年月
07 10
年月
12
月
Julius v3.5 からｖ4.0
Julius #Downloads per month
5000
4500
4000
1500
4.
3500
3.5
3000
3.5
2500
3.5
2000
3.4
3.5
1000
500
0
Julius ダウンロード数（月毎）
SH-4Aマイコン上へのJuliusの高精度版の実装
大語彙連続音声認識ソフトJuliusのマイコンへの移植
日立との共同研究
開発プラットフォーム日立「T-engine」ＳＨ−４、SH-4A
TRONアーキテクチャに対応した共通開発ボード
アルゴリズムの高速化Î実時間動作の達成
マイコンSH-4A
マイコンSH-4
新しい音声メディアによる
ユニバーサルコミュニケーション
どのような環境でも
ＮＡＭ
音源分離
静かな場所でも通話
（会議、授業、電車内）
非可聴つぶやき
音環境
騒音下でも明瞭に通話
ハンズフリーでも
SIMOICA
音声によるユニバーサル
コミュニケーション
誰でもが
幼児
子ども
幼児音声の認識
音声対話システム
ネットワークとも
成人
高齢者
障害者
ハンズフリー NAM・音声モーフィング
音声認識 BSSA発話障害者補助
ロボット
ロボット
ネットワーク
ＢＳＳ
補聴器
非可聴つぶやき（NAM）の
無音声認識と無音声電話の研究
H17 電子情報通信学会論文賞猪瀬賞
無音声認識・無音声電話
Non-Audible Murmur (NAM)
つぶやき声(NAM)は、話し手の近くでも聞こえない声。
この声を認識（無音声認識）したり、電話で送る（無音声電話）ことができる。
NAM マイクロフォン
NAM
無音声認識
無音声電話
私は名義を貸しただけで株購入をしていない。たとえ逮捕されても裁判で徹底的に闘う
発話障害者補助のための変換代用音声技術
声質変換
変換音声
（ささやき声に変換）
NAMマイクロフォン
（微弱な音声を集音）
増幅器
音源ユニット
音源信号
（微弱な信号）
声帯を手術で除去
固有声に基づく声質変換
male
female
dark
deep
cheerful
thin
有線型／無線型ＮＡＭ収録装置の開発
従来の有線型収録装置
有線型ＮＡＭマイク
（ネックバンド固定式）
増幅器
試作した無線型収録装置
肉伝導センサ付き
Bluetooth無線送信機
（増幅器内臓）
裏側：
５ｃｍ
肉伝導センサ
ウレタンシ
ート
Bluetooth無線受信機
2
Single-Input Multiple-Outputモデルに基づく独立成分分析
を用いたバイノーラル混合信号のブラインド音源分離
ＳＩＭＯ−ＩＣＡ
日本音響学会、独創研究奨励賞板倉記念
干渉音
目的音
Earphone
Microphone
信号処理
信号処理
両耳介入り口付近の音を収音
目的音のバイノーラル信号のみを再現
SIMO-Model Accuracy [dB]
ＳＩＭＯ−ＩＣＡでの音源分離の結果
FDICA-PB
MS-SIMO-ICA
Proposed SG
Proposed SIMO-ICA-SG
25
60°
音源1の方位：-15度
音源2の方位： 45度
20
15
Input
10
5
0
0
15
30
45
60
75
Direction of source 2 θ 2 [deg]
90
従来法 1
FDICA-PB
Output
1
Output
2
従来法２
MS-SIMO-ICA
Output
1
Output
2
提案法
Output
1
Output
2
ブラインド音源分離（BSS）の実時間処理
アルゴリズムのDSP実装
SIMO-ICA
IEEE/RSJ (IROS2005)
Best Application Paper Award
ロボット対話
歪みなしでの音源分離の原理
IEEE MLSP2007 Data Analysis Competition
Winner on Nonlinear Separation
DSP実装と商用
（協力：神戸製鋼所）
BSSA（Blind Spectral Subtraction Array)
SSA(空間減算アレー）とBSSの融合
音声強調
User’s
Speech
Phase
Compensation
F X j ( f ,τ )
F
T
Noise
雑音の減算
Primary Path
m (l ,τ )
YDS ( f ,τ )
θU
∑
Mel-Scale
+ Spectral
Filter
Subtract
Bank
X J ( f ,τ )
0
E j ( f ,τ )
FD- Noise
θU
PB
ICA
Transform
and
MFCC ( n,τ )
DCT
m (L , τ )
User
Log
Z ICA ( f ,τ )
∑
E J ( f ,τ )
Reference Path
BSSによる雑音の推定
Mel-Scale
Filter
Bank
ハンズフリーロボット対話
各種モジュールを統合した実環境動作可能な音声対話システム
駅環境雑音
の再現
指向性マイク
キタロボ
ディスプレー
9０%以上
の単語認識率を達成！
8チャネル
マイクアレー
リアルタイム
ブラインド空間
サブトラクションアレー
BSSA
典型的な駅騒音の中で
遠隔発話した場合でも
音声発話検出＆
音声認識デコーダ
対話管理処理
応答音声生成
各種情報提示
（今後）
ロボット動作との連携
ハンズフリー音声対話システムの要素技術
ハンズフリー音声収録技術
指向性マイクロフォン
10数dB程度の効果
4∼5 dBの効果
遅延和アレー（８チャンネル）
4 dB程度の効果
BSSAによる雑音減算
4∼5 dBの効果
音声認識技術
デコーダーVAD：雑音環境下での音声切り出し
音韻モデル：雑音重畳25dB + 残響マッチドモデル
言語モデル、質問応答データベース
音声合成：目標感情間のモーフィング
平静と各感情
驚き
喜び
心理的距離の離れた感情間
心理的距離の近い感情間
モーフィング率 -0.2 から 1.2
平静
恐れ
音声：「こんにちは」
悲しみ
母音によるモーフィング
原音声：平静
怒り
朗らか
怒り
ＳＴＲＡＩＧＨＴ
約350の機関で利用
原音声：怒り
音声規則合成：Blizzard Challenge 2005, 06, 07, 08
ＨＴＳ： HMMベースの音声規則合成

合成音声の品質は音声デ
ータベースに依存
音声合成技術自体の比
較・評価は困難
組織委員長：
Alan Black（CMU)、徳田（名工大）
“Blizzard Challenge”
Challenge
Evaluating corpus-based speech synthesis
on common data sets
The Blizzard Challenge - 2005
名工大
自然音声
Speech
experts
自然音声
Volunteers
名工大
自然音声
US undergraduates
HTS （名工大）
STRAIGHT（和歌山大）
Global Variance（奈良先端大）
名工大
Blizzard Challenge 2005用システムの評価結果
日本音響学会、独創研究奨励賞板倉記念
研究成果の普及
フリーソフトウェアサイト（Ｈ１９）
Ｊｕｌｉｕｓ
ダウンロード数
http://julius.sourceforge.jp 大語彙連続音声認識プログラムv4.0
Google PageRank:☆☆☆☆☆
ＨＴＳ
Festival
http://hts.ics.nitech.ac.jp
http://www.cstr.ed.ac.uk/
projects/festival/
30,000
(14,000)
ＨＭＭ音声規則合成 V2.0
Google PageRank:☆☆☆☆☆☆
25,000
世界標準音声合成フレームワーク
HTS, 音声モーフィングが採用
Google PageRank:☆☆☆☆☆☆
-
(4,000)
（）は、Ｈ１７のダウンロード数
マイコン/DSP実装によるコストダウン
Ｊｕｌｉｕｓ
SH-4A (日立）
Juliusのマイコンへの実装（Ｈ１９．３）
SSA
DSP （旭化成）
ハンズフリー音声収録（SSA)の実装（Ｈ１９．３）
学術活動（研究論文、受賞）
学術論文
国際会議
研究会など
受賞
合計
108
352
620
43
H19
18
77
166
12
H18
19
82
125
12
H17
23
47
116
6
H16
30
81
95
6
H15
18
65
118
7
学術活動（おもな受賞リスト）
日付
受賞
分野
04.3
情報処理学会フェロー
全般（鹿野）
04.3
情報処理学会
対話(バス運行システム)
04.9
電子情報通信学会フェロー
全般（鹿野）
05.5
電子情報通信学会論文賞、猪瀬賞
NAM
06.3
日本音響学会独創研究奨励賞板倉記念
BSS
06.3
日本音響学会粟屋潔学術奨励賞
HMM音韻モデル
06.5
電子情報通信学会論文賞
残響回復
山下記念研究賞
06.10 IEEE/RSJ Best Application Paper Award
ＢＳＳ
07.1
ＩＥＥＥ
全般（鹿野）
07.1
暗号と情報セキュリティシンポジュームSCIS2006論文賞
NAM個人認証
07.3
情報処理学会
対話(たけまるくん)
07.8
IEEE MLSP2007 Data Analysis Competition Winner on
Nonlinear Separation
ＢＳＳ
08.3
電気通信普及財団賞（テレコムシステム技術賞）
音声合成（HTS）
08.3
情報処理学会
対話(京都観光案内)
08.3
日本音響学会独創研究奨励賞板倉記念
Fellow
山下記念研究賞
山下記念研究賞
音声合成（HTS）
まとめ
（１）
（１）当初計画以上の成果
当初計画以上の成果
音声認識
音声認識実環境音声対話システムを５年間運用。
実環境音声対話システムを５年間運用。
Julius
Juliusv4.0、たけまるパッケージ、高精度音韻/言語モデル。
v4.0、たけまるパッケージ、高精度音韻/言語モデル。
マイコンSH-4AにJuliusの実時間認識を実装。
マイコンSH-4AにJuliusの実時間認識を実装。
ハンズフリー音声対話システムを実現。
ハンズフリー音声対話システムを実現。
音声合成
音声合成高品質音声モーフィング（STRAIGHT)。
高品質音声モーフィング（STRAIGHT)。
高品質音声規則合成（ＨＴＳ）。
高品質音声規則合成（ＨＴＳ）。
（２）
（２）新しい手法の発見
新しい手法の発見
非可聴つぶやき声による静かな音声メディア（NAM)。
非可聴つぶやき声による静かな音声メディア（NAM)。
ハンズフリーにおける歪なし音源分離原理（SIMO-ICA)。
ハンズフリーにおける歪なし音源分離原理（SIMO-ICA)。
（３）多くの論文、国際会議発表。表彰（論文賞、猪瀬賞など）。
（３）多くの論文、国際会議発表。表彰（論文賞、猪瀬賞など）。
世界でトップの音声合成技術を実証（STRAIGHT、ＨＴＳ）。
世界でトップの音声合成技術を実証（STRAIGHT、ＨＴＳ）。
ＥＵのプロジェクトEMIMEに招聘参加。
ＥＵのプロジェクトEMIMEに招聘参加。
（４）フリーソフトウェアサイトの運用
（４）フリーソフトウェアサイトの運用 Julius,
Julius, HTS
HTS
講習会、展示会などで普及活動。
講習会、展示会などで普及活動。
共同研究などによる産業界への技術移転も活発化。
共同研究などによる産業界への技術移転も活発化。

ユーザ負担のない話者・環境適応性 を実現する自然な音声対話処理技術

Comments

Description

Transcript

ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術