...

FinalLectureItakura

by user

on
Category: Documents
16

views

Report

Comments

Transcript

FinalLectureItakura
概要
音声情報処理の研究と実用化を振り返る
• 経歴:教育・研究の歩み
• 研究の発端と発展
-統計的手法と音声信号処理を巡って-
工学研究科 電子情報学専攻 情報変換工学講座
–
–
–
–
板倉文忠
最尤スペクトル推定法
音声認識への応用
偏自己相関関数法
線スペクトル法
• 高能率音声符号化:研究と実用化
• 創造的研究者を養成するには?
1970
1950
理科少年
1972
1973
中学校
ラジオ少年
1975
高校
1960
1965
名古屋大学
電子工学科
空電研:ホイッスラ
大学院修士課程
文字認識
不整脈心電図
1980
1990
工博学位
LPC単語認識
LSR
APC/AB
LSP
音声合成LSI
NTT研究所
1995
1999
2000
基礎第四研究室
室長
2004
1984
音声・
音響COE
化学クラブ
PARCOR
電子情報学専攻・
情報変換工学
豊川海軍工廠空襲、終戦
小学校
1984
1985
博士課程
最尤スペク トル
推定法
1965
電電 公社通研(
ベル研)
1945
愛知県豊川市に
農家・教員の長男
として生まれる。
名古屋大学工学部・研究科教授
経歴
1940
情報メディア教
育センター
専門メディア系
1965
理科少年
中学校
ラジオ少年
高校
化学クラブ
名古屋大学
電子工学科
空電研:ホイッスラ
大学院修士課程
文字認識
不整脈心電図
1966 ICの国産化
1968 電話1000万台突破
1969 マイクロプロセッサ,UNIX
PARCOR
工博学位
1970 ARPANET
1972 DP音声認識(NEC)
1973 イーサネット(Xerox)
1974 TCPの提案
LPC単語認識
LSR
1975 Beta VTR(Sony)
APC/AB
LSP
音声合成LSI
1977 64kbit MOS DRAM
1976 VHS VTR(日本ビクタ-)
1978 放送衛星ゆり(NHK)
1944 Mark-I(ハーバード大)
1946
1948
1950
1951
1953
1954
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
VHF多重電話中継
トランジスタ発明
接合TR(Shockley)
民間ラジオ放送開始
テレビ放送開始
東名阪4GHz回線開通
カラーテレビ実験放送
米国防省ARPA設置
ICの発明(TI, Kilby)
Tr計算機の開発, NEAC2203
安保闘争、所得倍増計画
パケット通信
IC計算機の開発
日米衛星中継,JFK暗殺
IBM360シリーズ
音楽PCM録音機(NHK)
ICME 東京
1979 大学共通1次試験
NTT研究所
基礎第四研究室
室長
1982 ワープロ普及へ
1984
1980 ジョセフソン論理素子(ETL)
1981 音声認識情報案内ANSER
1982 TCP/IPの利用始まる
1984 INS実験(NTT)
研究の統合化
音 声・
音響COE
1980
1985 株式会社NTT発足
1986 JUNET大学間接続
1987 WIDEプロジェクト開始
1988 インターネット 5万台突破
1989 インターネット 10万台突破
1990 ディジタル携帯電話(VSELP)
1991 ARPANET終了
1992 日本でも商用インターネット
1993 東京サミット、Mosaicブラウザ
1994 Netscape登場
1995 ディジタル携帯電話(PSI-Celp)
1996 インターネット1000万台突破
1997 NTT ADSL実験開始
1998 長野オリンピック
1979 自動車電話開始
1977 日本平均寿命世界一
名古屋大学工学部・研究科教授
1975
1976 蒸気機関車廃止
1984 日米貿易摩擦激化
1960
1964 東海道新幹線
東京オリンピック
小学校
電子情報学専攻・
情報変換工学
1973
1975 山陽新幹線開通
1978 成田空港開通
公害問題多発
1940 Vocoder、(Dudley、BL)
豊川海軍工廠空襲、終戦 1945 広島-長崎、敗戦
ロバスト音声認識
3次元音響 VR
1972
1973 石油ショック
1974
1945
教育基本法
NTT通信研究所発足
朝鮮戦争、特需、警察予備隊
1950
サンフランシスコ講和条約
テレビ放送開始
自衛隊
日本 国連加盟
ソ連 人工衛星
伊勢湾台風
安保闘争、所得倍増計画
室内音響信号処理
1970
電電 公社通研(
ベル研)
1968 大学紛争激化
1972 沖縄、日本復帰
1947
1948
1950
1951
1953
1954
1956
1957
1959
1960
1962
音声符号化
博士課程
最尤スペク トル
推定法
(クーラ、カー、カラーTV)
1970 大阪万博
1945 広島-長崎、敗戦
愛知県豊川市に
農家・教員の長男
として生まれる。
教師期
1965
1966 三種の神器
1969 東名高速開通
1940
1941 太平洋戦争勃発
情報メディア教
育センター長
活動期
1965 ベトナム戦争勃発
準備期
情報メディア教
育センター
専門メディア系
情報メディア
教育セン
ターセンター
長
1999 Docomo 携帯電話I-mode
2000 IT戦略本部、アナログ携帯停止
2001 第3世代携帯電話 IMT-2000
2002 インターネット人口 6億人
2003 W-CDMA ACELP
2004
携帯電話と音声処理
音声情報圧縮技術
PARCOR
LSP
VSELP
PSI-CELP
ACELP
アナログ自動車電話
携帯電話
第1世代(1980~2000)
音声分析合成系
„音声信号Æ音声のパラメタを分析抽出
低ビットレートで符号化伝送
再びもとの音声を合成する技術
音声帯域圧縮伝送, 音声合成,音声認識の前処理など、
ディジタル自動車電話
携帯電話
第2世代(1990~)
LSI技術
DSP、メモリ
低消費電力
音声処理の基本技術になっている.
ディジタル携帯電話
第3世代(2000~)
„
PARCOR, LSP方式の誕生の経緯
„
出発点(1966年):
最尤スペクトル推定法による音声分析合成方式
無線通信技術
SS、CDMA
(ML方式と略す)
確率・統計的モデルの年表
と 音声分析への応用
低ビットレート音声符号化の原理
1920
1940
1960
1980
2000
Wiener
情報理論
-Levinson Lee,Y
HMM
Kolmogorov
Baum-Welch 1972
Cramer Wold Whittle
Grenander
Robinson
音声分析合成
Dudley Vocoder
Chiba-Kajiyama
音声生成理論
時系列解析における確率・統計的手法
分野
人名
Kolmogorov, Gnedenko
数学
(確率過程) Cramer, Grenander, Wold
Wiener, Levinson, Doob ,
統計学,
Whittle, Grenander,
地球物理, Robinson,
応用統計 Akaike,
音声技術 板倉ー斉藤,
Atal &Schroeder
Markel, Makhoul, Gray{A,R}
国
ロシア
スウェーデン
合衆国
音声処理(LPC)
Itakura/Saito/Kitawaki/
Sugamura/Sagayama
MLE PARCOR LSP
CMS
SGD
1. 研究の発端
„ 1965年3月:名大大学院修士課程を修了
統計的パターン認識や確率過程・時系列解析の勉強
„ 同年4月に博士課程に進学、指導教授の宇田川先生が急逝
専門を音声・音響分野に変更
スウェーデン
„ 福村晃夫先生の指導(特別輪講)
合衆国
日本
„ 音声認識を統計的パターン認識の立場から追及
日本
合衆国
Atal/
Schroeder
Fant, G.:”Acoustic Theory of Speech Production”
„ 1966年4月に, NTTの通研実習生として音声の研究開始
通研に基礎研究部が新たに設置
斎藤収三第四研究室長のもとに, 音声聴覚・画像・映像に
関する新進気鋭の研究者が集まり, 活気に満ちていた.
現代の音声認識
数学
Szegö
はじめの挑戦と失敗
<転回>
„ 初仕事: 自分の声をサウンドスペクトログラムで分析
通研4研に音声研究用計算機(FACOM 270-20)が導入
„ きれいなフォルマント構造を示すスペクトルパタンが表れない!?
Æディジタル信号処理を意識
その時に音声は想像以上に複雑な信号で多くのランダムさを
含んでいるに違いないと考えた. Æ
„ 時間的に離散的なp次の全極型定常時系列モデル
„ 確率過程の時系列解析の手法による音声分析
„ 時間的に連続な p次の全極型定常確率過程としてモデル化
„ そのパラメタの違いを最適判別する問題を考察
„ この問題は母集団確率過程の十分統計量を求める事に帰着
„
連続波形モデル:十分統計量が波形の1~p(=10)階までの微
係数の電力で与えられる
実際に 電子回路を製作して母音のスペクトルを分類する実験を
始めた. 当然の事ながら, 波形の高階(10階!)の微係数は, わず
かな雑音によっても大きく乱され, 見事に失敗に終わった.
モデルの最適判別に必要な十分統計量: 初めのp(~10)個の自己相
関係数値である.
この研究の副産物として, 全極型モデルの最尤推定法と音声スペクト
ルの合成法が発見され,最尤(ML)音声分析合成方式と言う概念が生ま
れた. これは, 後に線形予測符号化(LPC)と呼ばれる事になったものと
数学的に等価である.
この理論によれば, 音声合成に必要なパラメタが, 入力波形の自己
相関を係数とするp元連立方程式(正規方程式)の求解により推定でき
る. またフォルマント周波数の推定は, こうして求めたパラメタを係数と
するp次代数方程式の求根に帰着される.
内容
理論のまとめ(1966/12)
成果報告
第3107号
「音声スペクトル密度の統計的
最適識別法に関する理論的考
察」
第四研究室
齋藤収三
板倉文忠(名古屋大学)
1966年12月20日
1967年12月 1日
発行
公開
日本電信電話公社 電気通信研究所
音声分析合成方式に挑戦
斎藤収三室長に相談:「ピッチ問題」を指摘される。
Æ最尤法:スペクトル包絡を逆フィルタの形で抽出
基本周期情報が抽出 シミュレーション
ケプストラム法に比べて遜色のない方法
(これを変形相関法と名付けた. )
最尤音声分析合成方式+変形相関法=ML方式 完成 1967年夏
分析合成音は予想以上に自然・明瞭性
„ 1968年8月 第6回国際音響学会議(6th ICA)で発表
同じセッションで,音声の適応線形予測符号化(APC)の発表
(Atal,Schroeder)
---Æ線形予測音声符号化の先駆的な論文
母音/a/,子音/s/の波形と
FFTスペクトルとMLスペクル
6th ICA, Tokyo, 1968, Tokyo by Itakura and Saito (1)
6th ICA, Tokyo, 1968, Tokyo by Itakura and Saito (2)
自己回帰モデルの尤度関数
音声信号の統計的解析
Whittle (1951)
• 音声信号の自己回帰モデル
時 間 領 域:
σ ⋅ ε t = x t + α 1 x t −1 + α 2 x t − 2 + " + + α p x t − p
自己回帰モデルの尤度関数:
X = { x1 , x2 ," xn } の対数尤度関数は
周 波 数 領 域:
H (z) =
外部駆動信号
決定論的
確率論的
σ
1 + α 1 z −1 + α 2 z −2 + " + α p z − p
線形システム
音声信号
フーリエ解析
最大尤度基準によ
る推定
自己回帰モデルの最尤推定
(正規方程式, 線形予測分析)
入力信号 X
自己相関の計算:
φi − j =
1
N
N − i− j
∑
n =1
xn xn + i − j
( i − j = 0,1, " , m )
m
1
⎡
⎤
2
⎢⎣ log(2πσ ) + σ 2 ∑ i , j =0 α iφi − jα i ⎥⎦
ただし Θ = {α1 , α 2 ,"α m , σ } はパラメータ、
φ は短時間自己相関 L( X, Θ) = −
自己回帰係数(LPC)の計算:
⎡φ1 ⎤
⎡ φ0 φ1 " φm −1 ⎤ ⎡α1 ⎤
⎢ ⎥
⎢ ⎥
⎢
⎥
φ
# ⎥ ⎢α 2 ⎥
⎢ φ1 φ0 %
= − ⎢⎢ 2 ⎥⎥
⎢ # % % φ1 ⎥ ⎢ # ⎥
#
⎢ ⎥
⎢
⎥⎢ ⎥
α
φ
φ
φ
"
⎥ ⎣⎢ m ⎦⎥
1
0 ⎦
⎣⎢ m −1
⎣⎢φ m ⎦⎥
強度(残差パワー)
: σ 2 = ∑ i = 0 α iφi
m
N
2
i− j
φi − j =
1
N
N − i− j
∑
n =1
xn xn + i − j
( i − j = 0,1," , m).
周波数領域における解釈
合成による分析(A-b-S)との比較
尤度関数
の最大化
L( X, Θ)
板倉 -斉藤距離の最小化
1 π
[ exp( − d (ω )) + d (ω ) − 1] dω
2π ∫−π
d (ω ) = log [ S (ω ) / S N (ω ) ] ,
DIS ( S (ω ) : S N (ω )) =
ただし
S (ω ) は AR スペクトル S N (ω ) は入力信号 Xの DFT
最尤推定バラメータ Θ = {α1 , α 2 ," ,α m , σ }
for N 1
S N (ω ) =
1
N
∑
N
n =1
xn exp( −iω n )
2
スペクトル距離尺度の対称性
短時間パワースペクトル(DFT)
の統計的性質
ST-pdf
過大推定
過小推定
スペクトルの穴
の埋め合わせ
存在するスペク
トルの無視
ML方式からPARCOR方式への発展
„ ML方式を使って, 低ビットレート符号化の詳細な実験
αパラメタ(LPC係数)Æ10ビット以下に量子化すると, 時々著しい
異音が発生する問題に遭遇
原因:パラメタ量子化により合成用帰還形(IIR)フィルタが発振する
1969年3月, Szegö著 Orthogonal Polynomials(AMS 1956)に遭遇.
音声合成フィルタ伝達関数の分母の多項式:
„ 直交多項式により展開出来る事に気が付いた.
„ 直交多項式の漸化式によって, p元の連立線形方程式がいわ
ゆるLevinsonの再帰法によって解ける事
„ 直交多項式の漸化式Æ前向き予測誤差, 後ろ向き予測誤差を
格子型フィルタによって構成できる事
PARCOR係数の定義
PARCORの導入
„ 音声波形の偏自己相関係数:2つの予測誤差の相関係数
(PARCOR;Partial Correlation)
„ PARCOR係数の絶対値が全て1未満であれば, 分析フィルタの逆フィル
タである合成用格子型フィルタは安定である事を理論的に示す事ができ
た.
1969年7月21日に開催された日本音響
学会の音声研究会で発表
(A4版20ページの詳細な資料)
当日が月ロケット・アポロ11号の乗組
員の人類初の月面着陸
研究会参加者はわずか数名、 何の反
響なし.
図4 格子形ディジタルフィルタ
PARCOR音声分析合成系
7th ICA
7th ICA
1971, Budapest
PARCOR Lattice Filter(1971)
„ 第7回国際音響学会議(出席不可)
格子型音声分析合成フィルタの理論
„ 音声通信と処理に関する会議
(1972年, Boston, 初の海外渡航)
PARCOR係数の最適量子化の論文 国際的にも認知
PARCOR方式が誕生した1969年当時は, LSI技術は未熟, そ
のハードウェアによる実現は簡単ではなかった.
例えば, 1970年に試作したPARCOR音声合成器は, 汎用プリ
ント基板約400枚からなり, 5V・50Aの直流電源を消費する巨
大な代物であった. しかし, この装置の実演に促され, 通研
の基礎研究部と宅内研究部の協力により開発され, PARCOR
方式は, パラメタ編集方式の音声応答装置として, 1971年に
実用化され, その後, 各種の電話データサービスに供された.
DOD標準方式
世界初のディジタル音声合成器
1970年
PARCOR音声合成器
(試作NEC)
を操作する伊藤憲三さん
(現岩手県立大教授)
また, 米国国防省は, 1976年LPC10-eと呼ばれるFederal
Standard 1015を制定し, 軍用秘話通信方式を実用化した.
この方式の原理はPARCOR方式そのものであり, 音声を
2400bpsで符号化する方式である. この方式を実行するた
めに必要な計算速度は約7Mipsであり, 比較的少ないが,
実用的な騒音環境での音声品質は, MOS値で2.3程度であ
り, 一般の商用通信用の音声符号化方式としては, 不十分
であったと言わざるを得ない.
その後, 1996年になって, 音源情報として混合駆動を用いた
LPC(MELP)が新しい軍用通信の標準として採択された. こ
の改良によって, 計算量はLPC-10eの6倍くらいに増加する
が, 2400bpsにおけるMOS値は, 3. 2に向上した.
図5最小予測残差原理の音声認識への応用
2.最尤スペクトル推定法の音声認識への応用
PARCOR方式の基礎的検討が一段落した後, 1973年8月から2年
間, ベル研究所音響研究室の客員研究員として過ごすことになった.
ベル研は, 当時は, 世界の電子情報通信のメッカとも呼ばれていた.
音声分野においても, Fletcher, Dudleyほか多数の聴覚・音声・音響分
野のパイオニアがうまれた事は周知の通りである.
Flanagan氏から与えられたテーマは, ”Digital Processing of
Speech”ということで, ほとんど何の拘束もないようなテーマであった.
ベル研での滞在期間は限られていたので, 手っ取り早く 最尤スペクト
ル推定法で求めたスペクトル距離尺度とDTW(Dynamic Time Warping)
を統合した単語音声認識システムを試作した..
(from IEEE Trans.ASSP-23,No.1, 1975)
3.LSP方式の誕生
3-modeシステム
ベル研での滞在の2年目には, Rosenberg氏と協力して, 音声認識, 話者認
識, 音声応答よりなる3-modeシステムを作成し, 航空座席予約システムとし
て実験公開し, 好評を博した. これらの研究開発が端緒になり, しばらく停滞し
ていたベル研究所の音声認識の研究が息を吹き返し盛んになった
ベル研滞在中の1974年の暮れ頃, 図書室に行って数学書を漁っ
て い た と こ ろ , た ま た ま 発 行 さ れ た ば か り の Gesammelte
Abhandlungen von Issai Schur という本があり Toeplitz行列
のスペクトル分解に関するものを見つけた.この理論をPARCOR合
成フィルタと結びつけると, 全極型のフィルタの線スペクトル表現が
可能であることがわかった.
(残念ながら,それも2002年
までのことのようである.:
最近Lucent Bell研は音声
処理グループをほぼ完全
に解散した. またATT
Labs.においても音声グ
ループは著しく縮小した。)
声道断面積関数をp個の等長音響管でモデル化し, PARCOR係数
は, 断面積の不連続点における波動の反射係数であると見なされ
る. 唇端は体積流に対して完全開放のため反射係数= -1と見なし,
声門端は, 開放時には反射係数=1, 閉鎖時 -1とモデル化する. 音
響管の両端の反射係数を±1にすると, 波動エネルギーが閉じこ
められ, 声道共振系は無損失系になる. 従って、音響管の伝達関
数は線スペクトル状になる。
PARCORからLSP(1)
PARCORからLSP(2)
LSPの特徴
即ち、条件
{0 < ω1 < ω 2 < ω3 < "ω p −1 < ω p }
満たされる限り、フィルター
−1
−1
−1
1/ Ap ( z ) = 2 /[ P ( z ) + Q( z )]
(5)
で表される音声合成フィルタは安
定であることが示されている.
この原理に基づいて, 音声分析
合成系を構成し, その性能を把
握する努力が, 1976年から1981
年にかけて精力的に行われ, そ
の成果に基づいて, LSP音声合成
用LSIの開発も行われた.
図6 LSP音声合成フィルタの構造
LSPの長所
①PARCOR係数に比べて, パラメ
タ量子化誤差の影響が少ない。
②パラメタを補間したときのスペク
トル再現精度が高い。
この特徴により, LSPパラメタは,
現在も多くのディジタル携帯電話
の線形予測を利用した音声符号
化方式に利用されている.
音声分析合成システム
各種LPCパラメータ間の相互関係
音声分析合成の実例
Speak&Spell
原音声
音声分析合成
1978年6月に, 米国TI社からSpeak&Spellという商品名の形で,
PARCOR合成の機能を組み込んだ音声合成LSIが民生用に
作られ, 広く実用化されるようになった.
合成音声
Wrong!Try again.
携帯電話と音声処理
音声情報圧縮技術
PARCOR
LSP
VSELP
PSI-CELP
ACELP
アナログ自動車電話
携帯電話
第1世代(1980~2000)
ディジタル自動車電話
携帯電話
第2世代(1990~)
LSI技術
DSP、メモリ
低消費電力
無線通信技術
SS、CDMA
ディジタル携帯電話
第3世代(2000~)
音声符号化方式の分類
電話用音声符号化の分類
携帯電話の主な音声符号化方式
日本の携帯電話の状況
符号化方式と音声品質
日本の携帯電話
PDC方式
CDMA方式(cdmaOne, W-CDMA, CDMA-2000)
‹PDC, CDMAとも音声符号化はハイブリッド符号化であ
り、スペクトルパラメータはすべてPARCORまたはLSPパラ
メータを用いている。
‹したがって日本のすべての携帯電話端末および無線基
地局には、必ずPARCORもしくはLSP分析/合成技術が
搭載されていることになる。
‹日本の携帯電話端末数
約 8000万台
テーマ名:多元音響信号の統合的理解
拠点名:
多元音響情報研究拠点
CIAIR
Center for Integrated Acoustic
Information Research
拠点形成の背景
• 情報科学の学術レベルが国際的に立ち遅れる
中、唯一パターン処理は高いレベルを維持
– マルチメディア符号化世界標準(MPEG)での主導権
• 特に音声処理は研究リーダが世界をリード
– 音声圧縮方式(携帯電話)、音声認識、
MPEGオーディオ
• 優位性を確保しつつ新たな領域を開拓
研究リーダー:
板倉文忠(名古屋大学)
音声信号処理⇒多元音響信号の統合的理解
研究の目的
多元音響信号の統合的理解
• 音声・音響信号による便利で快適・安全な
コミュニケーション手段の実現
音
声
– 高能率音声通信
– 人間ー機械間 音声対話インターフェイス
言語情報
言語理解
パターン認識
音
脳情報処理
環境情報
– 情報伝達と感性のモデル
– 言語と思考の計算モデル
感性情報
実験心理学 聴覚モデル
環境音
• 人間情報学の新たな研究領域を開拓
信号処理
音楽
研究組織
研究拠点
CIAIR
空間物理G
(大西)
外部COEとの連携の実績
拠点リーダー
板倉
信号構造G
(板倉)
施設共同利用
大学院生研究指導
情報変換G
(武田)
事務・管理
工学研究科
言語論G
(外山)
外部COE
認知論G
(筧)
研究者交流 共同研究員
評価基盤共用 応用システム共同開発
学内組織
連携COE
COEとメンバーの関係
板倉
2年間滞在
武田
板倉
大西
武田
板倉,筧
客員研究員
研究協力
チームリーダ
研究員
音声音響研究室長
共同研究企業
研究推進の方策
本研究の5つの視座
音声対話 インタラクティブ
音響システム システム
システム
空間物理学的視座
信号構造的視座
情報変換的視座
言語論的視座
認知論的視座
• 空間物理学的視座(どこに音があるか?)
– 音源位置の定位、混合音の分離
• 信号構造的視座(どんな音か?)
工学的
応用システム
– 音響分析・合成
対話音声データ
心理計測データ
• 情報変換論的視座(音⇔文字言語の相互関係
は?)
– 音声認識・テキスト音声合成
• 言語論的視座(何を言いたいのか?)
– 対話理解、談話処理
• 認知論的視座(人は音をどう解釈しているのか?)
– ヒューマンインタフェース
人間情報学的
実環境音データ
データベース
基盤
研究
ベル研究所
(ATT研究所)
MIT
Rutgers CAIP
理化学研究所
ATR
NTT研究所
メンバー
3.むすび
現在の研究と今後の展望
• 情報圧縮音声の品質向上
より快適な通話(大声の通話不必要)
• 音声認識
雑音に強い音声分析
音声による人間ー機械間通信
• 話者認識
情報アクセスの安全性の向上
• 3次元音響
超高品質ホームシアター
による快適な
人間ー機械
人間ー人間
通信
蛇足2
座右の格言
盡信書則不如無書
(孟子)
(礼記)
盡く書を信ずれば則ち書なきに如(し)かず
学然後知不足、教然後知困
困(くる)しむを知る
学びて然る後に足らざるを知り、教えて然る後に
„大学院
パイオニア精神、徹底した追求
„企業/大学の研究所
考える、模倣の排除、人の和
コンピュータに従属しない
後輩のみなさまに
„大学
視野の拡大、論理的思考法の涵養
(論語)
„少年期
体験と観察、好奇心・集中力の養成
後生(こうせい)畏(おそ)るべし
創造的研究者を養成するに
は?
現在, 精力的に研究開発が進められている音声対話シス
テム等は, 巨大なソフトウエアシステムである. それ故、その
構成要素の中に数理的に脆弱なものが多々見受けられる. こ
うした弱点を取り除き, 理論的にも強化してこそ, 信頼できる
人間・機械間の対話が実現されると考える.
後生可畏
蛇足1
音声・音響
音声情報処理の研究は, 音声生理, 知覚, 音声学など
の基礎的研究と関連しながら, 最近のマイクロエレクトロニク
スとソフトウエア技術をベースにして, 過去40年の間に長足
の進歩を遂げてきた. 音声情報処理の目標は, 人類の夢で
ある人間とシステムの自然な対話(人間相互間と同様な)を実
現することであろう. ここで紹介した音声分析合成技術は, 「千
里の道の一里塚」にすぎないが, 数理的な基礎が強固である
ため安心して応用でき, 実用性も高いものと言えよう.
謝辞
ここでお話したことは, 筆者の過去38年の音
声処理に関する研究開発経験の初期で行われた
ものである. この間, 音声情報処理の分野にお
導き頂いた 池谷和夫、福村晃夫、本多波
雄 名古屋大学名誉教授、電電公社通研基礎研
究部 第4研究室に在任中の斎藤収三博士は
じめ, 橋本新一郎, 橋本清, 脇田寿,博士
ほかの、厳しいくも暖かいご指導と, 山本啓,
ご静聴ありがとうございました。
筧一彦, 好田正紀, 佐藤大和, 古井貞煕,
鹿野清宏, 北脇信彦, 中津良平, 村上憲
也, 東倉洋一, 嵯峨山茂樹, 小林勉, 箱
田和雄, 河原英紀, 誉田雅彰, 匂坂芳典,
長渕裕実, 管村昇, 林伸二, 相川清明,
守谷健弘, 伊藤憲三, 杉山雅英氏 ほか
の優秀な同僚のご協力により達成できたもので
あり, ここに厚く御礼申し上げる.
木曾
御嶽山
Fly UP