Comments
Description
Transcript
filled pause
高次対称性に基づく基本周波数 推定法のモデル化と filled pause の分析への応用について 河原 英紀, 西村 竜一, 入野 俊夫 和歌山大学システム工学部 まとめ •基本波成分の選択に基づくF0抽出法を提案 •LPF出力の対称性からの逸脱を評価 •シミュレーションにより観測モデルを構築 •チャンネル内に基本波成分が存在する『確率』を 『事後推定』 •状態遷移確率と確率の局所化による『事後推定』 •Filled pauseの軌跡を頑健に推定(できたらしい) 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 どんな問題が解きたいか •「え∼」「あ∼」などの言い淀み(filled pause) を、物理特性に基づいて特徴付けたい どんな問題が解きたいか •「え∼」「あ∼」などの言い淀み(filled pause) を、物理特性に基づいて特徴付けたい filled pauseの例 軋み発声(creaky phonation) CSJ 日本語話し言葉コーパス より どんな問題が解きたいか •「え∼」「あ∼」などの言い淀み(filled pause) を、物理特性に基づいて特徴付けたい filled pauseの例 息漏れ発声(breathy phonation) CSJ 日本語話し言葉コーパス より どんな問題が解きたいか •「え∼」「あ∼」などの言い淀み(filled pause) を、物理特性に基づいて特徴付けたい F0の変動を手掛かりにしたい しかし 既存のF0抽出器 × 周期ごとの変動 正解?が無い この画像は、公開できないため省きました 動画で見る音声障害 ver 1.0, 日本音声医学会,2005 EGG is not almighty 1 0.8 0.6 EGG 0.4 speech 0.2 0 −0.2 −0.4 0.25 0.3 0.35 time (s) 0.4 0.45 Mismatch is not rare 0 amount ofmismatch mismatch relative 10 840 utterances were tested (30 sentences 28 speakers) −1 10% −2 1% 10 10 −3 10 only 77 (in 840) utterances do not have mismatch −4 10 0 100 200 300 400 500 record count 600 sorted utterance ID 700 800 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 どんな問題が解きたいか •「え∼」「あ∼」などの言い淀み(filled pause) を、物理特性に基づいて特徴付けたい 基本波らしい成分を取り出し 正弦波からの逸脱の程度を定量化 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 正弦波の対称性 正弦波の対称性 逸脱量の定義 時間 振幅 回転 逸脱量の定義 基本周波数 区間の代表値 統合された指標 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 41 candidate LPFs from 14 Hz to 1000 Hz LPF1 input signal LPF2 LPFN Architecture Interval measure Interval measure Interval measure model-based distribution estimation posterior distribution How to select the fundamental component? 0 −20 LPF gain (dB) −40 −60 −80 −100 −120 −300 −200 BPF −100 0 100 frequency (Hz) 200 300 LPFとしての窓関数 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 試験用信号 一様分布 [0, 2π) SNR設定用係数 指標と誤差(真値)との相関 LPF出力の指標と誤差 指標 誤差 LPF出力の指標と誤差 指標 誤差 指標 チャンネルは1octaveに6個配置 誤差 LPF出力の指標と誤差 指標 誤差 指標から確率への変換:捏造? 指標から確率への変換:捏造? 指標から確率への変換:捏造? 観測から状態推定へ シミュレーションから求めた事前確率 推定された状態(事後確率) 意味:どのチャンネルに基本波が含まれているか 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 状態遷移 k番目のチャンネルに基本波が存在するという状態 チャンネル番号 遷移のし易さを 調整するパラメタ 確率の局所化 基本波以外の周期成分 一つの成分が占める 領域の幅を仮定 フォルマントの共振 二重発声:サブハーモニック 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 指標の疑似カラー表示 指標の疑似カラー表示 指標の疑似カラー表示 推定された状態 推定された状態 観測値 推定された 状態 遷移と局所化 推定された状態 状態推定値 無情報 事前分布 観測値 状態推定値 状態遷移と 局所化 概要 •長い前振り:背景:どんな問題を解きたいのか? •原点に還る:基本波成分の選択と計測 •対称性からの逸脱: •LPF群による基本波成分の選択 •シミュレーションによるモデル構築 •状態遷移と確率の局所化 •実音声の分析 •Filled pauseの分析 filled pause filled pause filled pause まとめ •基本波成分の選択に基づくF0抽出法を提案 •LPF出力の対称性からの逸脱を評価 •シミュレーションにより観測モデルを構築 •チャンネル内に基本波成分が存在する『確率』を 『事後推定』 •状態遷移確率と確率の局所化による『事後推定』 •Filled pauseの軌跡を頑健に推定(できたらしい)