Comments
Description
Transcript
講義資料PDFファイル
言語情報処理論 2007-11-14 峯松 信明 東京大学大学院新領域創成科学研究科 前回のおさらい 音素列とその音的実体(波形) 離散的な心的表象と連続的な物理的表象 ∼調音結合∼ モーラの区切りはどこにある? ∼リズム,拍の役割∼ 音が無いのに音が感じられる? ∼促音の不思議∼ カテゴリー知覚(範疇知覚) 有声開始時刻(Voice Onset Time) VOTの分布とカテゴリー知覚 アクセント型の違いと単語同定 分節的特徴と韻律的特徴とそれに基づく単語同定 両者の相互作用はどのようにモデル化されるのか? 音声知覚の運動理論 音声知覚の発達 波形を眺めてみよう 鼻音+あ ∼[ma] [na]∼ [ma] [na] 波形を眺めてみよう モーラの区分はどこにある? ∼おおおかやま∼ 長さの情報を使って,積極的に音の区切りをつける日本人 この技を使うのに苦労するアメリカ人 カテゴリー知覚(範疇知覚) pigとbigの違いについて再考 /pig/ = 無声破裂音+母音+有声閉鎖音 /big/ = 有声破裂音+母音+有声閉鎖音 第一子音が有声か無声かの違いだけ つまり,調音器官の制御としては両者は同じ 調音器官の制御と声帯の制御を独立に考えてみる pig と big の違いは,声帯振動の開始時刻の違いだけ p であっても,後続の母音によっていずれ声帯は振動し始める pig 調音器官の制御 big カテゴリー知覚(範疇知覚) 有声開始時刻(Voice Onset Time) 音声が始まった時刻を基準に有声区間が開始するまでの時間 有声開始時刻の制御が pig と big の違いであると解釈する。 /p/のVOTと/b/のVOT 後続母音の声帯振 動開始時刻の違い カテゴリー知覚(範疇知覚) 物理量の連続変化と二者択一同定(A or B) Aと判定される率とBと判定される率は連続的に変化する? VOT = -73 --> 0 では如何なる値でも/d/ しかし,0 --> 22 で一気に変化する(/d/ --> /t/) VOTカテゴリー内では刺激音の違いに殆ど気付かない カテゴリー間:非常に敏感,カテゴリー内:極端に鈍感 音声知覚の基礎 宿題 課題 第一回「音声の生成 ∼その生成メカニズムと波∼」 第二回「音声学と音韻論」 第三回「音声の知覚」 の三回の授業に対して 本講義を通して新しく知ったことについて記しなさい。 本講義に対して自主的に調査したことがあれば,それを記しなさい。 既に学んだ授業などとの関連があれば,それを記しなさい。 本講義で理解できなかったことなどあれば,それを記しなさい。 感想,来年度&後半戦に向けた改善点などあれば,それを記しなさい。 提出日 11月14日の授業の開始時に提出してもらいます。 A4一枚は最低限書いて欲しいところ。 次回から工学的な話になるので,気を引き締めて聞いて下さい。 凡そのシラバス 第一部(10/24, 10/31, 11/7) 音声の生成 音声はどのようにして生まれるのか 母音の生成と楽器音の生成の類似性 子音の生成と楽器音の生成の類似性 音声の既述 文字(音シンボル)による音声の記載 単音と音韻,音声学と音韻論 調音的記述と音響的記述 調音音声学と音響音声学 音声の本質は「口を動かす」ことにある 音声の本質は「空気を振動させる」ことにある 音声の知覚 様々な知覚現象,単音の知覚から錯覚まで,成人と幼児,ヒトとサル 凡そのシラバス 第二部(11/14, 11/21, 11/28) 音声の音響分析 音響分析技術の概要 音声の自動認識 音声認識技術の概要 音声の自動生成 音声合成技術の概要 本日のメニュー 波の復習からスタート 重ね合わせと波→波の分解と合成 波の二つの見方 「横軸=場所」「横軸=時間」 「横軸=時間」方式の波の分解手段 サイン君とコサイン君による分解 波→要素波の重ね合わせ/個々の要素波の強さとは? 対数パワースペクトルと基本周波数(ピッチ) 母音の音響特性と対数パワースペクトル 基本周波数(ピッチ)と倍音構造 声道形状の変化と共鳴周波数(フォルマント周波数)の変化 楽器としての人間の喉 まとめ これも,もう分かるかな? 音声波形からスペクトルへ 窓掛け+サイン強度計算+対数パワースペクトル包絡 フォルマント周波数 重ね合わせ(足し合わせ)と波 白波=青波+緑波 ∼波の裏には隠れた波がある!∼ 重ね合わせ(足し合わせ)と波 白波=青波+緑波 個々の場所における粒の位置 各波におけるその場所の粒の位置の和 各波の本数は当然2本以上とれるはず 白波=青波+緑波+赤波+黄波+・・・・ 沢山の波の足し合わせとして最終的に見える波(白波)がある 但し定常波となるかどうかは不明 波の合成と分解 青波+緑波+赤波+黄波+・・・・→白波(見えている波) では,ある波が与えられて(白波),その分解は可能か? そりゃ,できるでしょう。 でも,要素波の組み合わせはゴマンとあるでしょう・・・ 与えられた白波に対して,テキトーに青波を書く。 で,白青=緑という形で緑波を決めれば,白=青+緑となる! 2通りの波の見方 縦軸=波の高さ(振幅),じゃあ,横軸=?? 2通りの波の見方 縦軸=ある場所における粒の位置,横軸=時間 とするとどんな図形になりますか? 2通りの波の見方 縦軸=ある場所における粒の位置,横軸=時間 とするとどんな図形になりますか? 2通りの波の見方 同じ波が違う「意味」で見えるまで睨めっこします! 個々の場所の粒が,ある時刻において,どこにあるのか? ある場所の粒が,個々の時刻において,どこにあるのか? 時間 場所 2通りの波の見方 じゃ,こいつの横軸は何だろう? 2通りの波の見方 我々が日常目にする波は,横軸=場所 波が左から右に押し寄せてきた・・・・ でも,波=粒の振動が伝わる,そういう現象 ある粒の振動が,すぐ横の粒に(時間差付きで)コピーされる 結局,時間差がついているだけで・・・・ どの粒も同じような動き(振動)をしているだけ ってことは,一個の粒の動きを見ればよい あとは,それがどのくらいの速度で隣にコピーされるか,だけ 時間 重ね合わせ(足し合わせ)と波 白波=青波+緑波 ∼波の裏には隠れた波がある!∼ 重ね合わせ(足し合わせ)と波 白波=青波+緑波 個々の場所における粒の位置 各波におけるその場所の粒の位置の和 各波の本数は当然2本以上とれるはず 白波=青波+緑波+赤波+黄波+・・・・ 沢山の波の足し合わせとして最終的に見える波(白波)がある 但し定常波となるかどうかは不明 波の合成と分解 青波+緑波+赤波+黄波+・・・・→白波(見えている波) では,ある波が与えられて(白波),その分解は可能か? そりゃ,できるでしょう。 でも,要素波の組み合わせはゴマンとあるでしょう・・・ 与えられた白波に対して,テキトーに青波を書く。 で,白青=緑という形で緑波を決めれば,白=青+緑となる! 重ね合わせ(足し合わせ)と波 白波=青波+緑波 ∼波の裏には隠れた波がある!∼ 時間 重ね合わせ(足し合わせ)と波 白波=青波+緑波 個々の時刻における粒の位置 各波におけるその時刻の粒の位置の和 各波の本数は当然2本以上とれるはず 白波=青波+緑波+赤波+黄波+・・・・ 沢山の波の足し合わせとして最終的に見える波(白波)がある 但し定常波となるかどうかは不明 波の合成と分解 青波+緑波+赤波+黄波+・・・・→白波(見えている波) では,ある波が与えられて(白波),その分解は可能か? そりゃ,できるでしょう。 でも,要素波の組み合わせはゴマンとあるでしょう・・・ 与えられた白波に対して,テキトーに青波を書く。 で,白青=緑という形で緑波を決めれば,白=青+緑となる! 一つ質問 波の分解 ある任意の波が与えられました。横軸時間です。 これを要素波に分解することを考えます。 白波=青波+緑波+赤波+黄波・・・・ 「でも,分解の仕方は無限通りあるじゃないですか」 そうですね。じゃ,沢山の要素波のセットを考えます。 青波,緑波,赤波,黄波,,,,,これをまず fix しちゃいます。 で,次のような分解・合成を考えます。 ω1 ω2 ω4 ω3 白波= 青波+ 緑波+ 赤波+ 黄波・・・・ 質問 任意の白波が与えられた時に,十分高い精度で近似できる重み のセットは確実に求まるのか? そもそもそんな,要素波のセットなんてあるのか? それが・・・実は・・・ sin θ cos θ 式は出さずに形だけ・・・ 便利そうな青波,緑波,赤波,黄波はどんな波? 1Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 1 sec 1.5 1 1 sec 1.5 1 1 sec 1.5 -0.5 1.25 y = sin(2πt) -1 2Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 -0.5 1.25 y = sin(2π 2t) -1 3Hz 1 0.5 -0.5 -0.25 0 -0.5 -1 0.25 0.5 0.75 1.25 y = sin(2π 3t) 式は出さずに形だけ・・・ 便利そうな青波,緑波,赤波,黄波はどんな波? 1Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 1 sec 1.5 1 1.25 1 sec 1.5 1.25 1.5 -0.5 1.25 y = cos(2π t) -1 2Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 -0.5 y = cos(2π 2t) -1 3Hz 1 0.5 -0.5 -0.25 0 -0.5 -1 0.25 0.5 0.75 1 1 sec y = cos(2π 3t) 片ちんばのサイン君とコサイン君 サイン君だけでできる波・コサイン君だけでできる波 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 -0.5 f (−t) = −f (t) -1 y = ω1 sin(2π t) + ω2 sin(2π 2t) + ω3 sin(2π3t) + ω4 sin(2π4x) + ω5 sin(2π 5t) 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 f (−t) = f (t) -0.5 -1 y = 0.5 cos(2π t) − 0.3 cos(2π 2t) + 0.1 cos(2π3t) − 0.2(2π4x) + 0.1 cos(2π 5t) 手を結べば怖いもの無し! サイン君+コサイン君=最強 ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t) yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t) 1Hz 2Hz 3Hz 4Hz 5Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 0.25 0.5 0.75 1 -0.5 1 sec 1.25 1.5 -1 1 0.5 -0.5 -0.25 0 1 sec 1.25 1.5 -0.5 -1 i Hz の要素波の強さ= ! s2i + c2i 何 Hz まで測る必要があるのか? 音声って複雑な波ですね・・・ 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 i = 1 ... 5 -0.5 -1 i = 1 ... 5000 22050 一つ質問 波の分解 ある任意の波が与えられました。横軸時間です。 これを要素波に分解することを考えます。 白波=青波+緑波+赤波+黄波・・・・ 「でも,分解の仕方は無限通りあるじゃないですか」 そうですね。じゃ,沢山の要素波のセットを考えます。 青波,緑波,赤波,黄波,,,,,これをまず fix しちゃいます。 で,次のような分解・合成を考えます。 ω1 ω2 ω4 ω3 白波= 青波+ 緑波+ 赤波+ 黄波・・・・ 質問 任意の白波が与えられた時に,十分高い精度で近似できる重み のセットは確実に求まるのか? そもそもそんな,要素波のセットなんてあるのか? 手を結べば怖いもの無し! サイン君+コサイン君=最強 ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t) yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t) 1Hz 2Hz 3Hz 4Hz 5Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 0.25 0.5 0.75 1 -0.5 1 sec 1.25 1.5 -1 1 0.5 -0.5 -0.25 0 1 sec 1.25 1.5 -0.5 -1 i Hz の要素波の強さ= ! s2i + c2i i Hz の要素波の強さ i Hz の強さ の対数 i Hz の強さ こんな感じになります ∼あれ?5000本もない?∼ た,たいすうぅぅっすか? そうです。「対数」です。y = log(x) です。 4 3 2 1 -100 0 100 200 300 400 500 600 700 800 900 1000 -1 -2 何故,対数なのか? 幅広いレンジを押え込む効果あり。人間の感覚は基本的に対数 y y = log(x) x = 10 というのは と同じ log(1000)=log(10x10x10)=log(10)+log(10)+log(10) log(a x b) = log(a) + log(b) つまり掛け算を足し算にできる i Hz の要素波の強さ i Hz の強さ の対数 i Hz の強さ こんな感じになります ∼あれ?5000本もない?∼ 対数パワースペクトル 音の高さと対数パワースペクトル あ(低)→あ(中)→あ(高) 音の高さと波形 あ(低)→あ(中)→あ(高) 1 0.5 -0.5 -0.25 0 -0.5 -1 T0 基本周期 F0 = 1/T0 基本周波数 [Hz] 0.25 0.5 0.75 1 1.25 1.5 音の高さと対数パワースペクトル あ(低)→あ(中)→あ(高) F0, 2xF0, 3xF0, 4xF0,.... i Hz の要素波の強さ i Hz の強さ の対数 i Hz の強さ こんな感じになります ∼あれ?5000本もない?∼ 対数パワースペクトル 音の「高さ」をもっと詳しく 波形に見る高さと対数スペクトルに見る高さ ギター音の波形に見る高さと線形スペクトルに見る高さ 倍音構造 音の「高さ」をもっと詳しく 基本周波数=1/基本周期 440 Hz 1 0.5 -0.5 -0.25 0 -0.5 -1 0.25 0.5 0.75 1 1.25 1/440 sec 1.5 音の「高さ」をもっと詳しく これがパルス列的な波形になると・・・ 1/440 sec パルス列=440, 440x2, 440x3.... Hz のサイン波の重ね合わせ 倍音構造は誰が作っているのか? パルス列→管→あ∼ 完全なパルス列は,スペクトルでも完全なパルス列になる スペクトルのパルス列=n Hz, 2n Hz, 3n Hz.... のサイン列の和 完全なサイン列は,スペクトルでは完全な1パルスになる 音の「高さ」をもっと詳しく 波形に見る高さと対数スペクトルに見る高さ ギター音の波形に見る高さと線形スペクトルに見る高さ 倍音構造 倍音構造を作らない楽器はあるのか? 音叉 440Hz のサイン波を出す。だから倍音は無い。 他には? 他は?口を使って出す音で・・・ 手を結べば怖いもの無し! サイン君+コサイン君=最強 ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t) yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t) 1Hz 2Hz 3Hz 4Hz 5Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 0.25 0.5 0.75 1 -0.5 1 sec 1.25 1.5 -1 1 0.5 -0.5 -0.25 0 1 sec 1.25 1.5 -0.5 -1 i Hz の要素波の強さ= ! s2i + c2i i Hz の要素波の強さ i Hz の強さ の対数 i Hz の強さ こんな感じになります ∼あれ?5000本もない?∼ 対数パワースペクトル 音の高さと対数パワースペクトル あ(低)→あ(中)→あ(高) 対数パワースペクトル包絡 定常波の再確認 進行波と反射波が重なり合ってできる動かない波 これが口の中で起こる=母音 母音=定常波 管の形が生き残れる定常波の周波数を決める 母音=定常波の「漏れ」 共鳴周波数=フォルマント周波数 Central beat bit Lo w bet Back boot put bird d Mi Hig h Front bought about bat but pot c Fn = (2n + 1) 4l 母音=定常波 複雑な管になっても原理は同じ 定常波の共鳴周波数を求めて c fn = n 2l1 ! A2 c c fn = n f= 2π A1 l1 l2 2l2 "1/2 母音=定常波 フォルマント周波数 母音=定常波 形の違い=長さの違い=共鳴周波数の違い 「あ」の一部=「お」の一部 H Central diM い い Back う d Mi え wo L お あ お Lo w え う kcaB lartneC h Hig tnorF Front hgi あ 全体のおさらい サイン君+コサイン君=最強 ys = s1 sin(2π t) + s2 sin(2π 2t) + s3 sin(2π 3t) + s4 sin(2π 4t) + s5 sin(2π 5t) yc = c1 cos(2π t) + c2 cos(2π 2t) + c3 cos(2π 3t) + c4 cos(2π 4t) + c5 cos(2π 5t) 1Hz 2Hz 3Hz 4Hz 5Hz 1 0.5 -0.5 -0.25 0 0.25 0.5 0.75 1 0.25 0.5 0.75 1 -0.5 1 sec 1.25 1.5 -1 1 0.5 -0.5 -0.25 0 1 sec 1.25 1.5 -0.5 -1 i Hz の要素波の強さ= ! ! 数 の対 s2i + c2i 全体のおさらい パルス列→管→あ∼ 100Hz, 200Hz, 300Hz,,,に等しい強さでサイン波群ができる。 見た目にごまかされてはいけない! それが管の形が要求する周波数のみ生き残り,他は息絶える。 これも,もう分かるかな? 音声波形からスペクトルへ 窓掛け+サイン強度計算+対数パワースペクトル包絡 フォルマント周波数 楽器のスペクトル包絡 サイン・コサインとは別れられない? 貴方の耳はサイン・コサインに取り憑かれている! 対数とは別れられない? 貴方の耳は対数に取り憑かれている! 1 2. . . . 3. . . .. 4 .. 5 .. .. .. .. .. C D E F G A B C D E F G A BC D E F G A B C→C#→D→D#→E→F→F#→G→G#→A→A#→B→C ×1.059 ×1.059 ×1.059 ×1.059 1.059 = 2 ×2.0 4 3 2 1 -100 0 -1 -2 100 200 300 400 500 600 700 800 900 1000 1 12 全体のおさらい 波の復習からスタート 重ね合わせと波→波の分解と合成 波の二つの見方 「横軸=場所」「横軸=時間」 「横軸=時間」方式の波の分解手段 サイン君とコサイン君による分解 波→要素波の重ね合わせ/個々の要素波の強さとは? 対数パワースペクトルと基本周波数(ピッチ) 母音の音響特性と対数パワースペクトル 基本周波数(ピッチ)と倍音構造 声道形状の変化と共鳴周波数(フォルマント周波数)の変化 楽器としての人間の喉 まとめ