FinalLectureItakura

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download FinalLectureItakura

Transcript

FinalLectureItakura

概要
音声情報処理の研究と実用化を振り返る
• 経歴：教育・研究の歩み
• 研究の発端と発展
－統計的手法と音声信号処理を巡って－
工学研究科電子情報学専攻情報変換工学講座
–
–
–
–
板倉文忠
最尤スペクトル推定法
音声認識への応用
偏自己相関関数法
線スペクトル法
• 高能率音声符号化：研究と実用化
• 創造的研究者を養成するには？
１９７０
１９５０
理科少年
1972
１９７３
中学校
ラジオ少年
１９７５
高校
１９６０
１９６５
名古屋大学
電子工学科
空電研：ﾎｲｯｽﾗ
大学院修士課程
文字認識
不整脈心電図
１９８０
１９９０
工博学位
LPC単語認識
LSR
APC/AB
LSP
音声合成LSI
NTT研究所
１９９５
１９９９
２０００
基礎第四研究室
室長
２００４
１９８４
音声・
音響ＣＯＥ
化学クラブ
PARCOR
電子情報学専攻・
情報変換工学
豊川海軍工廠空襲、終戦
小学校
１９８４
１９８５
博士課程
最尤スペクトル
推定法
１９６５
電電公社通研（
ベル研）
１９４５
愛知県豊川市に
農家・教員の長男
として生まれる。
名古屋大学工学部・研究科教授
経歴
１９４０
情報メディア教
育センター
専門メディア系
１９６５
理科少年
中学校
ラジオ少年
高校
化学クラブ
名古屋大学
電子工学科
空電研：ﾎｲｯｽﾗ
大学院修士課程
文字認識
不整脈心電図
１９６６ ICの国産化
１９６８電話1000万台突破
１９６９マイクロプロセッサ,UNIX
PARCOR
工博学位
１９７０ ARPANET
１９７２ DP音声認識(NEC)
１９７３イーサネット（Xerox)
１９７４ TCPの提案
LPC単語認識
LSR
１９７５ Beta VTR（Sony)
APC/AB
LSP
音声合成LSI
１９７７６４kbit MOS DRAM
１９７６ VHS VTR（日本ビクタ-)
１９７８放送衛星ゆり(NHK)
１９４４ Mark-I（ハーバード大）
１９４６
１９４８
１９５０
１９５１
１９５３
１９５４
１９５６
１９５７
１９５８
１９５９
１９６０
１９６１
１９６２
１９６３
１９６４
１９６５
VHF多重電話中継
トランジスタ発明
接合TR（Shockley)
民間ラジオ放送開始
テレビ放送開始
東名阪４GHz回線開通
カラーテレビ実験放送
米国防省ARPA設置
ICの発明（TI, Kilby)
Tr計算機の開発, NEAC2203
安保闘争、所得倍増計画
パケット通信
IC計算機の開発
日米衛星中継,JFK暗殺
IBM３６０シリーズ
音楽PCM録音機(NHK)
ICME 東京
１９７９大学共通１次試験
NTT研究所
基礎第四研究室
室長
１９８２ワープロ普及へ
１９８４
１９８０ジョセフソン論理素子（ETL)
１９８１音声認識情報案内ANSER
１９８２ TCP/IPの利用始まる
１９８４ INS実験（NTT)
研究の統合化
音声・
音響ＣＯＥ
１９８０
１９８５株式会社NTT発足
１９８６ JUNET大学間接続
１９８７ WIDEプロジェクト開始
１９８８インターネット５万台突破
１９８９インターネット１０万台突破
１９９０ディジタル携帯電話(VSELP)
１９９１ ARPANET終了
１９９２日本でも商用インターネット
１９９３東京サミット、Mosaicブラウザ
１９９４ Netscape登場
１９９５ディジタル携帯電話(PSI-Celp)
１９９６インターネット１０００万台突破
１９９７ NTT ADSL実験開始
１９９８長野オリンピック
１９７９自動車電話開始
１９７７日本平均寿命世界一
名古屋大学工学部・研究科教授
１９７５
１９７６蒸気機関車廃止
１９８４日米貿易摩擦激化
１９６０
１９６４東海道新幹線
東京オリンピック
小学校
電子情報学専攻・
情報変換工学
１９７３
１９７５山陽新幹線開通
１９７８成田空港開通
公害問題多発
１９４０ Vocoder、（Dudley、BL)
豊川海軍工廠空襲、終戦１９４５広島-長崎、敗戦
ロバスト音声認識
３次元音響 VR
1972
１９７３石油ショック
１９７４
１９４５
教育基本法
NTT通信研究所発足
朝鮮戦争、特需、警察予備隊
１９５０
サンフランシスコ講和条約
テレビ放送開始
自衛隊
日本国連加盟
ソ連人工衛星
伊勢湾台風
安保闘争、所得倍増計画
室内音響信号処理
１９７０
電電公社通研（
ベル研）
１９６８大学紛争激化
１９７２沖縄、日本復帰
１９４７
１９４８
１９５０
１９５１
１９５３
１９５４
１９５６
１９５７
１９５９
１９６０
１９６２
音声符号化
博士課程
最尤スペクトル
推定法
（ｸｰﾗ、カー、カラーTV）
１９７０大阪万博
１９４５広島-長崎、敗戦
愛知県豊川市に
農家・教員の長男
として生まれる。
教師期
１９６５
１９６６三種の神器
１９６９東名高速開通
１９４０
１９４１太平洋戦争勃発
情報メディア教
育センター長
活動期
１９６５ベトナム戦争勃発
準備期
情報メディア教
育センター
専門メディア系
情報メディア
教育セン
ターセンター
長
１９９９ Docomo 携帯電話I-mode
２０００ IT戦略本部、アナログ携帯停止
２００１第３世代携帯電話 IMT-2000
２００２インターネット人口６億人
２００３ W-CDMA ACELP
２００４
携帯電話と音声処理
音声情報圧縮技術
PARCOR
LSP
VSELP
PSI-CELP
ACELP
アナログ自動車電話
携帯電話
第１世代(1980～2000）
音声分析合成系
音声信号Æ音声のパラメタを分析抽出
低ビットレートで符号化伝送
再びもとの音声を合成する技術
音声帯域圧縮伝送, 音声合成,音声認識の前処理など、
ディジタル自動車電話
携帯電話
第２世代（1990～）
LSI技術
DSP、メモリ
低消費電力
音声処理の基本技術になっている.
ディジタル携帯電話
第３世代(2000～）

PARCOR, LSP方式の誕生の経緯

出発点（１９６６年）：
最尤スペクトル推定法による音声分析合成方式
無線通信技術
SS、CDMA
（ＭＬ方式と略す）
確率・統計的モデルの年表
と音声分析への応用
低ビットレート音声符号化の原理
1920
1940
1960
1980
2000
Wiener
情報理論
-Levinson Lee,Y
HMM
Kolmogorov
Baum-Welch １９７２
Cramer Wold Whittle
Grenander
Robinson
音声分析合成
Dudley Vocoder
Chiba-Kajiyama
音声生成理論
時系列解析における確率・統計的手法
分野
人名
Kolmogorov, Gnedenko
数学
(確率過程) Cramer, Grenander, Wold
Wiener, Levinson, Doob ,
統計学,
Whittle, Grenander,
地球物理, Robinson,
応用統計 Akaike,
音声技術板倉ー斉藤,
Atal &Schroeder
Markel, Makhoul, Gray{A,R}
国
ロシア
スウェーデン
合衆国
音声処理（LPC)
Itakura/Saito/Kitawaki/
Sugamura/Sagayama
MLE PARCOR LSP
CMS
SGD
1. 研究の発端
1965年3月：名大大学院修士課程を修了
統計的パターン認識や確率過程・時系列解析の勉強
同年4月に博士課程に進学、指導教授の宇田川先生が急逝
専門を音声・音響分野に変更
スウェーデン
福村晃夫先生の指導（特別輪講）
合衆国
日本
音声認識を統計的パターン認識の立場から追及
日本
合衆国
Atal/
Schroeder
Fant, G.：”Acoustic Theory of Speech Production”
1966年4月に, NTTの通研実習生として音声の研究開始
通研に基礎研究部が新たに設置
斎藤収三第四研究室長のもとに, 音声聴覚・画像・映像に
関する新進気鋭の研究者が集まり, 活気に満ちていた.
現代の音声認識
数学
Szegö
はじめの挑戦と失敗
＜転回＞
初仕事：自分の声をサウンドスペクトログラムで分析
通研４研に音声研究用計算機(FACOM 270-20)が導入
きれいなフォルマント構造を示すスペクトルパタンが表れない!?
Æディジタル信号処理を意識
その時に音声は想像以上に複雑な信号で多くのランダムさを
含んでいるに違いないと考えた. Æ
時間的に離散的なｐ次の全極型定常時系列モデル
確率過程の時系列解析の手法による音声分析
時間的に連続なｐ次の全極型定常確率過程としてモデル化
そのパラメタの違いを最適判別する問題を考察
この問題は母集団確率過程の十分統計量を求める事に帰着

連続波形モデル：十分統計量が波形の１～ｐ(=10)階までの微
係数の電力で与えられる
実際に電子回路を製作して母音のスペクトルを分類する実験を
始めた. 当然の事ながら, 波形の高階（１０階！）の微係数は, わず
かな雑音によっても大きく乱され, 見事に失敗に終わった.
モデルの最適判別に必要な十分統計量：初めのｐ（～１０）個の自己相
関係数値である.
この研究の副産物として, 全極型モデルの最尤推定法と音声スペクト
ルの合成法が発見され,最尤（ML）音声分析合成方式と言う概念が生ま
れた. これは, 後に線形予測符号化(LPC)と呼ばれる事になったものと
数学的に等価である.
この理論によれば, 音声合成に必要なパラメタが, 入力波形の自己
相関を係数とするｐ元連立方程式（正規方程式）の求解により推定でき
る. またフォルマント周波数の推定は, こうして求めたパラメタを係数と
するｐ次代数方程式の求根に帰着される.
内容
理論のまとめ(1966/12)
成果報告
第３１０７号
「音声スペクトル密度の統計的
最適識別法に関する理論的考
察」
第四研究室
齋藤収三
板倉文忠（名古屋大学）
１９６６年１２月２０日
１９６７年１２月１日
発行
公開
日本電信電話公社電気通信研究所
音声分析合成方式に挑戦
斎藤収三室長に相談：「ピッチ問題」を指摘される。
Æ最尤法：スペクトル包絡を逆フィルタの形で抽出
基本周期情報が抽出シミュレーション
ケプストラム法に比べて遜色のない方法
（これを変形相関法と名付けた. ）
最尤音声分析合成方式＋変形相関法＝ＭＬ方式完成 1967年夏
分析合成音は予想以上に自然・明瞭性
1968年8月第６回国際音響学会議(6th ICA)で発表
同じセッションで,音声の適応線形予測符号化（APC）の発表
（Atal，Schroeder）
---Æ線形予測音声符号化の先駆的な論文
母音/a/,子音/s/の波形と
FFTスペクトルとMLスペクル
6th ICA, Tokyo, 1968, Tokyo by Itakura and Saito (1)
6th ICA, Tokyo, 1968, Tokyo by Itakura and Saito (2)
自己回帰モデルの尤度関数
音声信号の統計的解析
Whittle (1951)
• 音声信号の自己回帰モデル
時間領域:
σ ⋅ ε t = x t + α 1 x t −1 + α 2 x t − 2 + " + + α p x t − p
自己回帰モデルの尤度関数:
X = { x1 , x2 ," xn } の対数尤度関数は
周波数領域:
H (z) =
外部駆動信号
決定論的
確率論的
σ
1 + α 1 z −1 + α 2 z −2 + " + α p z − p
線形システム
音声信号
フーリエ解析
最大尤度基準によ
る推定
自己回帰モデルの最尤推定
(正規方程式, 線形予測分析)
入力信号 X
自己相関の計算:
φi − j =
1
N
N − i− j
∑
n =1
xn xn + i − j
( i − j = 0,1, " , m )
m
1
⎡
⎤
2
⎢⎣ log(2πσ ) + σ 2 ∑ i , j =0 α iφi − jα i ⎥⎦
ただし Θ = {α1 , α 2 ,"α m , σ } はパラメータ、
φ は短時間自己相関　L( X, Θ) = −
自己回帰係数（ＬＰＣ）の計算:
⎡φ1 ⎤
⎡ φ0 φ1 " φm −1 ⎤ ⎡α1 ⎤
⎢ ⎥
⎢ ⎥
⎢
⎥
φ
# ⎥ ⎢α 2 ⎥
⎢ φ1 φ0 %
= − ⎢⎢ 2 ⎥⎥
⎢ # % % φ1 ⎥ ⎢ # ⎥
#
⎢ ⎥
⎢
⎥⎢ ⎥
α
φ
φ
φ
"
⎥ ⎣⎢ m ⎦⎥
1
0 ⎦
⎣⎢ m −1
⎣⎢φ m ⎦⎥
強度（残差パワー）
: σ 2 = ∑ i = 0 α iφi
m
N
2
i− j
φi − j =
1
N
N − i− j
∑
n =1
xn xn + i − j
( i − j = 0,1," , m).
周波数領域における解釈
合成による分析(A-b-S)との比較
尤度関数
の最大化
L( X, Θ)
板倉 -斉藤距離の最小化
1 π
[ exp( − d (ω )) + d (ω ) − 1] dω
2π ∫−π
d (ω ) = log [ S (ω ) / S N (ω ) ] ,
DIS ( S (ω ) : S N (ω )) =
ただし
S (ω ) は AR スペクトル S N (ω ) は入力信号 Xの DFT
最尤推定バラメータ Θ = {α1 , α 2 ," ,α m , σ }
for N 1
S N (ω ) =
1
N
∑
N
n =1
xn exp( −iω n )
2
スペクトル距離尺度の対称性
短時間パワースペクトル（ＤＦＴ）
の統計的性質
ST-pdf
過大推定
過小推定
スペクトルの穴
の埋め合わせ
存在するスペク
トルの無視
ML方式からPARCOR方式への発展
ML方式を使って, 低ビットレート符号化の詳細な実験
αパラメタ（LPC係数）Æ10ビット以下に量子化すると, 時々著しい
異音が発生する問題に遭遇
原因：パラメタ量子化により合成用帰還形(IIR)フィルタが発振する
1969年3月, Szegö著 Orthogonal Polynomials(AMS 1956)に遭遇.
音声合成フィルタ伝達関数の分母の多項式：
直交多項式により展開出来る事に気が付いた.
直交多項式の漸化式によって, ｐ元の連立線形方程式がいわ
ゆるLevinsonの再帰法によって解ける事
直交多項式の漸化式Æ前向き予測誤差, 後ろ向き予測誤差を
格子型フィルタによって構成できる事
PARCOR係数の定義
PARCORの導入
音声波形の偏自己相関係数：２つの予測誤差の相関係数
(PARCOR；Partial Correlation)
PARCOR係数の絶対値が全て１未満であれば, 分析フィルタの逆フィル
タである合成用格子型フィルタは安定である事を理論的に示す事ができ
た.
1969年7月21日に開催された日本音響
学会の音声研究会で発表
（A4版20ページの詳細な資料）
当日が月ロケット・アポロ11号の乗組
員の人類初の月面着陸
研究会参加者はわずか数名、何の反
響なし.
図４格子形ディジタルフィルタ
PARCOR音声分析合成系
7th ICA
７ｔｈ ICA
1971, Budapest
PARCOR Lattice Filter(1971)
第7回国際音響学会議（出席不可）
格子型音声分析合成フィルタの理論
音声通信と処理に関する会議
（1972年, Boston, 初の海外渡航）
PARCOR係数の最適量子化の論文国際的にも認知
PARCOR方式が誕生した1969年当時は, LSI技術は未熟, そ
のハードウェアによる実現は簡単ではなかった.
例えば, 1970年に試作したPARCOR音声合成器は, 汎用プリ
ント基板約400枚からなり, 5V・50Aの直流電源を消費する巨
大な代物であった. しかし, この装置の実演に促され, 通研
の基礎研究部と宅内研究部の協力により開発され, PARCOR
方式は, パラメタ編集方式の音声応答装置として, １９７１年に
実用化され, その後, 各種の電話データサービスに供された.
DOD標準方式
世界初のディジタル音声合成器
１９７０年
PARCOR音声合成器
（試作NEC）
を操作する伊藤憲三さん
（現岩手県立大教授）
また, 米国国防省は, 1976年LPC10-eと呼ばれるFederal
Standard 1015を制定し, 軍用秘話通信方式を実用化した.
この方式の原理はPARCOR方式そのものであり, 音声を
2400bpsで符号化する方式である. この方式を実行するた
めに必要な計算速度は約7Mipsであり, 比較的少ないが,
実用的な騒音環境での音声品質は, MOS値で2.3程度であ
り, 一般の商用通信用の音声符号化方式としては, 不十分
であったと言わざるを得ない.
その後, 1996年になって, 音源情報として混合駆動を用いた
LPC（MELP）が新しい軍用通信の標準として採択された. こ
の改良によって, 計算量はLPC-10eの６倍くらいに増加する
が, 2400bpsにおけるMOS値は, 3. 2に向上した.
図５最小予測残差原理の音声認識への応用
2.最尤スペクトル推定法の音声認識への応用
PARCOR方式の基礎的検討が一段落した後, 1973年8月から2年
間, ベル研究所音響研究室の客員研究員として過ごすことになった.
ベル研は, 当時は, 世界の電子情報通信のメッカとも呼ばれていた.
音声分野においても, Fletcher, Dudleyほか多数の聴覚・音声・音響分
野のパイオニアがうまれた事は周知の通りである.
Flanagan氏から与えられたテーマは, ”Digital Processing of
Speech”ということで, ほとんど何の拘束もないようなテーマであった.
ベル研での滞在期間は限られていたので, 手っ取り早く最尤スペクト
ル推定法で求めたスペクトル距離尺度とDTW（Dynamic Time Warping）
を統合した単語音声認識システムを試作した..
(from IEEE Trans.ASSP-23,No.1, 1975)
３．LSP方式の誕生
3-modeシステム
ベル研での滞在の2年目には, Rosenberg氏と協力して, 音声認識, 話者認
識, 音声応答よりなる3-modeシステムを作成し, 航空座席予約システムとし
て実験公開し, 好評を博した. これらの研究開発が端緒になり, しばらく停滞し
ていたベル研究所の音声認識の研究が息を吹き返し盛んになった
ベル研滞在中の1974年の暮れ頃, 図書室に行って数学書を漁っ
ていたところ , たまたま発行されたばかりの Gesammelte
Abhandlungen von Issai Schur という本があり Toeplitz行列
のスペクトル分解に関するものを見つけた.この理論をPARCOR合
成フィルタと結びつけると, 全極型のフィルタの線スペクトル表現が
可能であることがわかった.
（残念ながら,それも2002年
までのことのようである.：
最近Lucent Bell研は音声
処理グループをほぼ完全
に解散した. またATT
Labs.においても音声グ
ループは著しく縮小した。）
声道断面積関数をp個の等長音響管でモデル化し, PARCOR係数
は, 断面積の不連続点における波動の反射係数であると見なされ
る. 唇端は体積流に対して完全開放のため反射係数= -1と見なし,
声門端は, 開放時には反射係数=1, 閉鎖時 -1とモデル化する. 音
響管の両端の反射係数を±1にすると, 波動エネルギーが閉じこ
められ, 声道共振系は無損失系になる. 従って、音響管の伝達関
数は線スペクトル状になる。
PARCORからLSP(1)
PARCORからLSP(2)
LSPの特徴
即ち、条件
{0 < ω1 < ω 2 < ω3 < "ω p −1 < ω p }
満たされる限り、フィルター
−1
−1
−1
1/ Ap ( z ) = 2 /[ P ( z ) + Q( z )]
(5)
で表される音声合成フィルタは安
定であることが示されている.
この原理に基づいて, 音声分析
合成系を構成し, その性能を把
握する努力が, 1976年から1981
年にかけて精力的に行われ, そ
の成果に基づいて, LSP音声合成
用LSIの開発も行われた.
図６ LSP音声合成フィルタの構造
LSPの長所
①PARCOR係数に比べて, パラメ
タ量子化誤差の影響が少ない。
②パラメタを補間したときのスペク
トル再現精度が高い。
この特徴により, LSPパラメタは,
現在も多くのディジタル携帯電話
の線形予測を利用した音声符号
化方式に利用されている.
音声分析合成システム
各種LPCパラメータ間の相互関係
音声分析合成の実例
Speak&Spell
原音声
音声分析合成
1978年６月に, 米国TI社からSpeak&Spellという商品名の形で,
PARCOR合成の機能を組み込んだ音声合成LSIが民生用に
作られ, 広く実用化されるようになった.
合成音声
Wrong！Try again.
携帯電話と音声処理
音声情報圧縮技術
PARCOR
LSP
VSELP
PSI-CELP
ACELP
アナログ自動車電話
携帯電話
第１世代(1980～2000）
ディジタル自動車電話
携帯電話
第２世代（1990～）
LSI技術
DSP、メモリ
低消費電力
無線通信技術
SS、CDMA
ディジタル携帯電話
第３世代(2000～）
音声符号化方式の分類
電話用音声符号化の分類
携帯電話の主な音声符号化方式
日本の携帯電話の状況
符号化方式と音声品質
日本の携帯電話
PDC方式
CDMA方式（cdmaOne, W-CDMA, CDMA-2000)
PDC, CDMAとも音声符号化はハイブリッド符号化であ
り、スペクトルパラメータはすべてPARCORまたはLSPパラ
メータを用いている。
したがって日本のすべての携帯電話端末および無線基
地局には、必ずＰＡＲＣＯＲもしくはＬＳＰ分析／合成技術が
搭載されていることになる。
日本の携帯電話端末数
約８０００万台
テーマ名：多元音響信号の統合的理解
拠点名：
多元音響情報研究拠点
CIAIR
Center for Integrated Acoustic
Information Research
拠点形成の背景
• 情報科学の学術レベルが国際的に立ち遅れる
中、唯一パターン処理は高いレベルを維持
– マルチメディア符号化世界標準（MPEG）での主導権
• 特に音声処理は研究リーダが世界をリード
– 音声圧縮方式（携帯電話）、音声認識、
MPEGオーディオ
• 優位性を確保しつつ新たな領域を開拓
研究リーダー：
板倉文忠（名古屋大学）
音声信号処理⇒多元音響信号の統合的理解
研究の目的
多元音響信号の統合的理解
• 音声・音響信号による便利で快適・安全な
コミュニケーション手段の実現
音
声
– 高能率音声通信
– 人間ー機械間音声対話インターフェイス
言語情報
言語理解
パターン認識
音
脳情報処理
環境情報
– 情報伝達と感性のモデル
– 言語と思考の計算モデル
感性情報
実験心理学聴覚モデル
環境音
• 人間情報学の新たな研究領域を開拓
信号処理
音楽
研究組織
研究拠点
CIAIR
空間物理G
（大西）
外部COEとの連携の実績
拠点リーダー
板倉
信号構造Ｇ
（板倉）
施設共同利用
大学院生研究指導
情報変換Ｇ
（武田）
事務・管理
工学研究科
言語論Ｇ
（外山）
外部COE
認知論Ｇ
（筧）
研究者交流共同研究員
評価基盤共用応用システム共同開発
学内組織
連携ＣＯＥ
COEとメンバーの関係
板倉
２年間滞在
武田
板倉
大西
武田
板倉,筧
客員研究員
研究協力
チームリーダ
研究員
音声音響研究室長
共同研究企業
研究推進の方策
本研究の５つの視座
音声対話インタラクティブ
音響システムシステム
システム
空間物理学的視座
信号構造的視座
情報変換的視座
言語論的視座
認知論的視座
• 空間物理学的視座（どこに音があるか？）
– 音源位置の定位、混合音の分離
• 信号構造的視座（どんな音か？）
工学的
応用システム
– 音響分析・合成
対話音声データ
心理計測データ
• 情報変換論的視座（音⇔文字言語の相互関係
は？）
– 音声認識・テキスト音声合成
• 言語論的視座（何を言いたいのか？）
– 対話理解、談話処理
• 認知論的視座（人は音をどう解釈しているのか？）
– ヒューマンインタフェース
人間情報学的
実環境音データ
データベース
基盤
研究
ベル研究所
（ATT研究所）
MIT
Rutgers CAIP
理化学研究所
ATR
NTT研究所
メンバー
3.むすび
現在の研究と今後の展望
• 情報圧縮音声の品質向上
より快適な通話（大声の通話不必要）
• 音声認識
雑音に強い音声分析
音声による人間ー機械間通信
• 話者認識
情報アクセスの安全性の向上
• ３次元音響
超高品質ホームシアター
による快適な
人間ー機械
人間ー人間
通信
蛇足２
座右の格言
盡信書則不如無書
（孟子）
（礼記）
盡く書を信ずれば則ち書なきに如（し）かず
学然後知不足、教然後知困
困（くる）しむを知る
学びて然る後に足らざるを知り、教えて然る後に
大学院
パイオニア精神、徹底した追求
企業/大学の研究所
考える、模倣の排除、人の和
コンピュータに従属しない
後輩のみなさまに
大学
視野の拡大、論理的思考法の涵養
（論語）
少年期
体験と観察、好奇心・集中力の養成
後生（こうせい）畏（おそ）るべし
創造的研究者を養成するに
は？
現在, 精力的に研究開発が進められている音声対話シス
テム等は, 巨大なソフトウエアシステムである. それ故、その
構成要素の中に数理的に脆弱なものが多々見受けられる. こ
うした弱点を取り除き, 理論的にも強化してこそ, 信頼できる
人間・機械間の対話が実現されると考える.
後生可畏
蛇足１
音声・音響
音声情報処理の研究は, 音声生理, 知覚, 音声学など
の基礎的研究と関連しながら, 最近のマイクロエレクトロニク
スとソフトウエア技術をベースにして, 過去４０年の間に長足
の進歩を遂げてきた. 音声情報処理の目標は, 人類の夢で
ある人間とシステムの自然な対話（人間相互間と同様な）を実
現することであろう. ここで紹介した音声分析合成技術は, 「千
里の道の一里塚」にすぎないが, 数理的な基礎が強固である
ため安心して応用でき, 実用性も高いものと言えよう.
謝辞
ここでお話したことは, 筆者の過去３８年の音
声処理に関する研究開発経験の初期で行われた
ものである. この間, 音声情報処理の分野にお
導き頂いた池谷和夫、福村晃夫、本多波
雄名古屋大学名誉教授、電電公社通研基礎研
究部第４研究室に在任中の斎藤収三博士は
じめ, 橋本新一郎, 橋本清, 脇田寿,博士
ほかの、厳しいくも暖かいご指導と, 山本啓,
ご静聴ありがとうございました。
筧一彦, 好田正紀, 佐藤大和, 古井貞煕,
鹿野清宏, 北脇信彦, 中津良平, 村上憲
也, 東倉洋一, 嵯峨山茂樹, 小林勉, 箱
田和雄, 河原英紀, 誉田雅彰, 匂坂芳典,
長渕裕実, 管村昇, 林伸二, 相川清明,
守谷健弘, 伊藤憲三, 杉山雅英氏ほか
の優秀な同僚のご協力により達成できたもので
あり, ここに厚く御礼申し上げる.
木曾
御嶽山