...

講義資料PDFファイル

by user

on
Category: Documents
6

views

Report

Comments

Transcript

講義資料PDFファイル
言語情報処理論
2007-11-14
峯松 信明
東京大学大学院新領域創成科学研究科
前回のおさらい
音素列とその音的実体(波形)
離散的な心的表象と連続的な物理的表象 ∼調音結合∼
モーラの区切りはどこにある? ∼リズム,拍の役割∼
音が無いのに音が感じられる? ∼促音の不思議∼
カテゴリー知覚(範疇知覚)
有声開始時刻(Voice Onset Time)
VOTの分布とカテゴリー知覚
アクセント型の違いと単語同定
分節的特徴と韻律的特徴とそれに基づく単語同定
両者の相互作用はどのようにモデル化されるのか?
音声知覚の運動理論
音声知覚の発達
波形を眺めてみよう
鼻音+あ ∼[ma] [na]∼
[ma]
[na]
波形を眺めてみよう
モーラの区分はどこにある? ∼おおおかやま∼
長さの情報を使って,積極的に音の区切りをつける日本人
この技を使うのに苦労するアメリカ人
カテゴリー知覚(範疇知覚)
pigとbigの違いについて再考
/pig/ = 無声破裂音+母音+有声閉鎖音
/big/ = 有声破裂音+母音+有声閉鎖音
第一子音が有声か無声かの違いだけ
つまり,調音器官の制御としては両者は同じ
調音器官の制御と声帯の制御を独立に考えてみる
pig と big の違いは,声帯振動の開始時刻の違いだけ
p であっても,後続の母音によっていずれ声帯は振動し始める
pig
調音器官の制御
big
カテゴリー知覚(範疇知覚)
有声開始時刻(Voice Onset Time)
音声が始まった時刻を基準に有声区間が開始するまでの時間
有声開始時刻の制御が pig と big の違いであると解釈する。
/p/のVOTと/b/のVOT
後続母音の声帯振
動開始時刻の違い
カテゴリー知覚(範疇知覚)
物理量の連続変化と二者択一同定(A or B)
Aと判定される率とBと判定される率は連続的に変化する?
VOT = -73 --> 0 では如何なる値でも/d/
しかし,0 --> 22 で一気に変化する(/d/ --> /t/)
VOTカテゴリー内では刺激音の違いに殆ど気付かない
カテゴリー間:非常に敏感,カテゴリー内:極端に鈍感
音声知覚の基礎
宿題
課題
第一回「音声の生成 ∼その生成メカニズムと波∼」
第二回「音声学と音韻論」
第三回「音声の知覚」
の三回の授業に対して
本講義を通して新しく知ったことについて記しなさい。
本講義に対して自主的に調査したことがあれば,それを記しなさい。
既に学んだ授業などとの関連があれば,それを記しなさい。
本講義で理解できなかったことなどあれば,それを記しなさい。
感想,来年度&後半戦に向けた改善点などあれば,それを記しなさい。
提出日
11月14日の授業の開始時に提出してもらいます。
A4一枚は最低限書いて欲しいところ。
次回から工学的な話になるので,気を引き締めて聞いて下さい。
凡そのシラバス
第一部(10/24, 10/31, 11/7)
音声の生成
音声はどのようにして生まれるのか
母音の生成と楽器音の生成の類似性
子音の生成と楽器音の生成の類似性
音声の既述
文字(音シンボル)による音声の記載
単音と音韻,音声学と音韻論
調音的記述と音響的記述
調音音声学と音響音声学
音声の本質は「口を動かす」ことにある
音声の本質は「空気を振動させる」ことにある
音声の知覚
様々な知覚現象,単音の知覚から錯覚まで,成人と幼児,ヒトとサル
凡そのシラバス
第二部(11/14, 11/21, 11/28)
音声の音響分析
音響分析技術の概要
音声の自動認識
音声認識技術の概要
音声の自動生成
音声合成技術の概要
本日のメニュー
波の復習からスタート
重ね合わせと波→波の分解と合成
波の二つの見方 「横軸=場所」「横軸=時間」
「横軸=時間」方式の波の分解手段
サイン君とコサイン君による分解
波→要素波の重ね合わせ/個々の要素波の強さとは?
対数パワースペクトルと基本周波数(ピッチ)
母音の音響特性と対数パワースペクトル
基本周波数(ピッチ)と倍音構造
声道形状の変化と共鳴周波数(フォルマント周波数)の変化
楽器としての人間の喉
まとめ
これも,もう分かるかな?
音声波形からスペクトルへ
窓掛け+サイン強度計算+対数パワースペクトル包絡
フォルマント周波数
重ね合わせ(足し合わせ)と波
白波=青波+緑波 ∼波の裏には隠れた波がある!∼
重ね合わせ(足し合わせ)と波
白波=青波+緑波
個々の場所における粒の位置
各波におけるその場所の粒の位置の和
各波の本数は当然2本以上とれるはず
白波=青波+緑波+赤波+黄波+・・・・
沢山の波の足し合わせとして最終的に見える波(白波)がある
但し定常波となるかどうかは不明
波の合成と分解
青波+緑波+赤波+黄波+・・・・→白波(見えている波)
では,ある波が与えられて(白波),その分解は可能か?
そりゃ,できるでしょう。
でも,要素波の組み合わせはゴマンとあるでしょう・・・
与えられた白波に対して,テキトーに青波を書く。
で,白­青=緑という形で緑波を決めれば,白=青+緑となる!
2通りの波の見方
縦軸=波の高さ(振幅),じゃあ,横軸=??
2通りの波の見方
縦軸=ある場所における粒の位置,横軸=時間
とするとどんな図形になりますか?
2通りの波の見方
縦軸=ある場所における粒の位置,横軸=時間
とするとどんな図形になりますか?
2通りの波の見方
同じ波が違う「意味」で見えるまで睨めっこします!
個々の場所の粒が,ある時刻において,どこにあるのか?
ある場所の粒が,個々の時刻において,どこにあるのか?
時間
場所
2通りの波の見方
じゃ,こいつの横軸は何だろう?
2通りの波の見方
我々が日常目にする波は,横軸=場所
波が左から右に押し寄せてきた・・・・
でも,波=粒の振動が伝わる,そういう現象
ある粒の振動が,すぐ横の粒に(時間差付きで)コピーされる
結局,時間差がついているだけで・・・・
どの粒も同じような動き(振動)をしているだけ
ってことは,一個の粒の動きを見ればよい
あとは,それがどのくらいの速度で隣にコピーされるか,だけ
時間
重ね合わせ(足し合わせ)と波
白波=青波+緑波 ∼波の裏には隠れた波がある!∼
重ね合わせ(足し合わせ)と波
白波=青波+緑波
個々の場所における粒の位置
各波におけるその場所の粒の位置の和
各波の本数は当然2本以上とれるはず
白波=青波+緑波+赤波+黄波+・・・・
沢山の波の足し合わせとして最終的に見える波(白波)がある
但し定常波となるかどうかは不明
波の合成と分解
青波+緑波+赤波+黄波+・・・・→白波(見えている波)
では,ある波が与えられて(白波),その分解は可能か?
そりゃ,できるでしょう。
でも,要素波の組み合わせはゴマンとあるでしょう・・・
与えられた白波に対して,テキトーに青波を書く。
で,白­青=緑という形で緑波を決めれば,白=青+緑となる!
重ね合わせ(足し合わせ)と波
白波=青波+緑波 ∼波の裏には隠れた波がある!∼
時間
重ね合わせ(足し合わせ)と波
白波=青波+緑波
個々の時刻における粒の位置
各波におけるその時刻の粒の位置の和
各波の本数は当然2本以上とれるはず
白波=青波+緑波+赤波+黄波+・・・・
沢山の波の足し合わせとして最終的に見える波(白波)がある
但し定常波となるかどうかは不明
波の合成と分解
青波+緑波+赤波+黄波+・・・・→白波(見えている波)
では,ある波が与えられて(白波),その分解は可能か?
そりゃ,できるでしょう。
でも,要素波の組み合わせはゴマンとあるでしょう・・・
与えられた白波に対して,テキトーに青波を書く。
で,白­青=緑という形で緑波を決めれば,白=青+緑となる!
一つ質問
波の分解
ある任意の波が与えられました。横軸時間です。
これを要素波に分解することを考えます。
白波=青波+緑波+赤波+黄波・・・・
「でも,分解の仕方は無限通りあるじゃないですか」
そうですね。じゃ,沢山の要素波のセットを考えます。
青波,緑波,赤波,黄波,,,,,これをまず fix しちゃいます。
で,次のような分解・合成を考えます。
ω1
ω2
ω4
ω3
白波= 青波+ 緑波+ 赤波+ 黄波・・・・
質問
任意の白波が与えられた時に,十分高い精度で近似できる重み
のセットは確実に求まるのか?
そもそもそんな,要素波のセットなんてあるのか?
それが・・・実は・・・
sin θ
cos θ
式は出さずに形だけ・・・
便利そうな青波,緑波,赤波,黄波はどんな波?
1Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
1 sec
1.5
1
1 sec
1.5
1
1 sec
1.5
-0.5
1.25
y = sin(2πt)
-1
2Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
-0.5
1.25
y = sin(2π 2t)
-1
3Hz
1
0.5
-0.5
-0.25
0
-0.5
-1
0.25
0.5
0.75
1.25
y = sin(2π 3t)
式は出さずに形だけ・・・
便利そうな青波,緑波,赤波,黄波はどんな波?
1Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
1 sec
1.5
1
1.25
1 sec
1.5
1.25
1.5
-0.5
1.25
y = cos(2π t)
-1
2Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
-0.5
y = cos(2π 2t)
-1
3Hz
1
0.5
-0.5
-0.25
0
-0.5
-1
0.25
0.5
0.75
1
1 sec
y = cos(2π 3t)
片ちんばのサイン君とコサイン君
サイン君だけでできる波・コサイン君だけでできる波
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
1.25
1.5
-0.5
f (−t) = −f (t)
-1
y = ω1 sin(2π t) + ω2 sin(2π 2t) + ω3 sin(2π3t) + ω4 sin(2π4x) + ω5 sin(2π 5t)
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
1.25
1.5
f (−t) = f (t)
-0.5
-1
y = 0.5 cos(2π t) − 0.3 cos(2π 2t) + 0.1 cos(2π3t) − 0.2(2π4x) + 0.1 cos(2π 5t)
手を結べば怖いもの無し!
サイン君+コサイン君=最強
ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t)
yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t)
1Hz
2Hz
3Hz
4Hz
5Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
0.25
0.5
0.75
1
-0.5
1 sec
1.25
1.5
-1
1
0.5
-0.5
-0.25
0
1 sec
1.25
1.5
-0.5
-1
i Hz の要素波の強さ=
!
s2i + c2i
何 Hz まで測る必要があるのか?
音声って複雑な波ですね・・・
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
1.25
1.5
i = 1 ... 5
-0.5
-1
i = 1 ... 5000
22050
一つ質問
波の分解
ある任意の波が与えられました。横軸時間です。
これを要素波に分解することを考えます。
白波=青波+緑波+赤波+黄波・・・・
「でも,分解の仕方は無限通りあるじゃないですか」
そうですね。じゃ,沢山の要素波のセットを考えます。
青波,緑波,赤波,黄波,,,,,これをまず fix しちゃいます。
で,次のような分解・合成を考えます。
ω1
ω2
ω4
ω3
白波= 青波+ 緑波+ 赤波+ 黄波・・・・
質問
任意の白波が与えられた時に,十分高い精度で近似できる重み
のセットは確実に求まるのか?
そもそもそんな,要素波のセットなんてあるのか?
手を結べば怖いもの無し!
サイン君+コサイン君=最強
ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t)
yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t)
1Hz
2Hz
3Hz
4Hz
5Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
0.25
0.5
0.75
1
-0.5
1 sec
1.25
1.5
-1
1
0.5
-0.5
-0.25
0
1 sec
1.25
1.5
-0.5
-1
i Hz の要素波の強さ=
!
s2i + c2i
i Hz の要素波の強さ
i Hz の強さ
の対数
i Hz の強さ
こんな感じになります ∼あれ?5000本もない?∼
た,たいすうぅぅっすか?
そうです。「対数」です。y = log(x) です。
4
3
2
1
-100
0
100
200
300
400
500
600
700
800
900
1000
-1
-2
何故,対数なのか?
幅広いレンジを押え込む効果あり。人間の感覚は基本的に対数
y
y
=
log(x)
x
=
10
というのは と同じ
log(1000)=log(10x10x10)=log(10)+log(10)+log(10)
log(a x b) = log(a) + log(b) つまり掛け算を足し算にできる
i Hz の要素波の強さ
i Hz の強さ
の対数
i Hz の強さ
こんな感じになります ∼あれ?5000本もない?∼
対数パワースペクトル
音の高さと対数パワースペクトル
あ(低)→あ(中)→あ(高)
音の高さと波形
あ(低)→あ(中)→あ(高)
1
0.5
-0.5
-0.25
0
-0.5
-1
T0
基本周期
F0 = 1/T0
基本周波数 [Hz]
0.25
0.5
0.75
1
1.25
1.5
音の高さと対数パワースペクトル
あ(低)→あ(中)→あ(高)
F0, 2xF0, 3xF0, 4xF0,....
i Hz の要素波の強さ
i Hz の強さ
の対数
i Hz の強さ
こんな感じになります ∼あれ?5000本もない?∼
対数パワースペクトル
音の「高さ」をもっと詳しく
波形に見る高さと対数スペクトルに見る高さ
ギター音の波形に見る高さと線形スペクトルに見る高さ
倍音構造
音の「高さ」をもっと詳しく
基本周波数=1/基本周期
440 Hz
1
0.5
-0.5
-0.25
0
-0.5
-1
0.25
0.5
0.75
1
1.25
1/440 sec
1.5
音の「高さ」をもっと詳しく
これがパルス列的な波形になると・・・
1/440 sec
パルス列=440, 440x2, 440x3.... Hz のサイン波の重ね合わせ
倍音構造は誰が作っているのか?
パルス列→管→あ∼
完全なパルス列は,スペクトルでも完全なパルス列になる
スペクトルのパルス列=n Hz, 2n Hz, 3n Hz.... のサイン列の和
完全なサイン列は,スペクトルでは完全な1パルスになる
音の「高さ」をもっと詳しく
波形に見る高さと対数スペクトルに見る高さ
ギター音の波形に見る高さと線形スペクトルに見る高さ
倍音構造
倍音構造を作らない楽器はあるのか?
音叉
440Hz のサイン波を出す。だから倍音は無い。
他には?
他は?口を使って出す音で・・・
手を結べば怖いもの無し!
サイン君+コサイン君=最強
ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t)
yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t)
1Hz
2Hz
3Hz
4Hz
5Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
0.25
0.5
0.75
1
-0.5
1 sec
1.25
1.5
-1
1
0.5
-0.5
-0.25
0
1 sec
1.25
1.5
-0.5
-1
i Hz の要素波の強さ=
!
s2i + c2i
i Hz の要素波の強さ
i Hz の強さ
の対数
i Hz の強さ
こんな感じになります ∼あれ?5000本もない?∼
対数パワースペクトル
音の高さと対数パワースペクトル
あ(低)→あ(中)→あ(高)
対数パワースペクトル包絡
定常波の再確認
進行波と反射波が重なり合ってできる動かない波
これが口の中で起こる=母音
母音=定常波
管の形が生き残れる定常波の周波数を決める
母音=定常波の「漏れ」
共鳴周波数=フォルマント周波数
Central
beat
bit
Lo
w
bet
Back
boot
put
bird
d
Mi
Hig
h
Front
bought
about
bat
but pot
c
Fn = (2n + 1)
4l
母音=定常波
複雑な管になっても原理は同じ
定常波の共鳴周波数を求めて
c
fn =
n
2l1
!
A2
c
c
fn =
n f=
2π A1 l1 l2
2l2
"1/2
母音=定常波
フォルマント周波数
母音=定常波
形の違い=長さの違い=共鳴周波数の違い
「あ」の一部=「お」の一部
H
Central
diM
い
い
Back
う
d
Mi
え
wo
L
お
あ
お
Lo
w
え
う
kcaB
lartneC
h
Hig tnorF
Front
hgi
あ
全体のおさらい
サイン君+コサイン君=最強
ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t)
yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t)
1Hz
2Hz
3Hz
4Hz
5Hz
1
0.5
-0.5
-0.25
0
0.25
0.5
0.75
1
0.25
0.5
0.75
1
-0.5
1 sec
1.25
1.5
-1
1
0.5
-0.5
-0.25
0
1 sec
1.25
1.5
-0.5
-1
i Hz の要素波の強さ=
!
!
数
の対
s2i + c2i
全体のおさらい
パルス列→管→あ∼
100Hz, 200Hz, 300Hz,,,に等しい強さでサイン波群ができる。
見た目にごまかされてはいけない!
それが管の形が要求する周波数のみ生き残り,他は息絶える。
これも,もう分かるかな?
音声波形からスペクトルへ
窓掛け+サイン強度計算+対数パワースペクトル包絡
フォルマント周波数
楽器のスペクトル包絡
サイン・コサインとは別れられない?
貴方の耳はサイン・コサインに取り憑かれている!
対数とは別れられない?
貴方の耳は対数に取り憑かれている!
1
2. . . . 3. . . ..
4 .. 5
.. .. .. .. ..
C D E F G A B C D E F G A BC D E F G A B
C→C#→D→D#→E→F→F#→G→G#→A→A#→B→C
×1.059
×1.059
×1.059
×1.059
1.059 = 2
×2.0
4
3
2
1
-100
0
-1
-2
100
200
300
400
500
600
700
800
900
1000
1
12
全体のおさらい
波の復習からスタート
重ね合わせと波→波の分解と合成
波の二つの見方 「横軸=場所」「横軸=時間」
「横軸=時間」方式の波の分解手段
サイン君とコサイン君による分解
波→要素波の重ね合わせ/個々の要素波の強さとは?
対数パワースペクトルと基本周波数(ピッチ)
母音の音響特性と対数パワースペクトル
基本周波数(ピッチ)と倍音構造
声道形状の変化と共鳴周波数(フォルマント周波数)の変化
楽器としての人間の喉
まとめ
Fly UP