...

歌声と朗読音声の 識別システム構築のための 人間の識別能力の調査

by user

on
Category: Documents
12

views

Report

Comments

Transcript

歌声と朗読音声の 識別システム構築のための 人間の識別能力の調査
歌声と朗読音声の
識別システム構築のための
人間の識別能力の調査
大石 康智1, 後藤 真孝2
伊藤 克亘1, 武田 一哉1
1名古屋大学大学院情報科学研究科
2産業技術総合研究所
はじめに
• 歌声と朗読音声の自動識別手法の提案
– 歌声とその歌詞を朗読した音声の識別
歌声
朗読音声
特徴量
• 音色の違い
• 音高の変化の違い
MFCC
DF0
人間は,
• どの程度の音声信号長があれば識別可能か?
• どのような特徴を手がかりとして識別を行うのか?
さてここで問題です
みなさんは歌声と朗読音声の識別ができますか?
問題1
1秒の音声
問題2
500msの音声
問題3
250msの音声
歌声データベース
• AISTハミングデータベース
(歌声研究用音楽データベース)
– 被験者がある曲の出だしとサビの部分を歌う
– またその歌詞を朗読する
収録被験者1名あたり計100サンプル (日本人75名)
(歌声: 25曲 x 2パート, 朗読音声: 25曲 x 2パート)
– 収録音声サンプルの長さ
• 歌声:
平均12.0秒
• 朗読音声: 平均7.0秒
識別に必要な音声信号長の調査
100
95
総合的な正答率
朗読音声の正答率
歌声の正答率
90
正答率 [%]
85
80
75
70
65
60
• 音声信号長1秒の聴取により, 識別が可能
• 短時間(200ms)の場合でも正答率 は70.0%
55
50
0
500
1000
聴取音声信号長 [ms]
1500
2000
識別に影響する音声信号の特徴の調査
• Random Splicing手法
– 音声サンプルをある長さの断片に分割し,
ランダムに接合する
メロディのパターン,テンポ,リズムをマスク
音声サンプル
(1秒)
分割長250ms
分割長200ms
ランダムに
並べ替え
分割長125ms
①
②
③
④
③
①
④
②
識別に影響する音声信号の特徴の調査
• Filtering手法
– ローパスフィルタにより
音声信号の高調波成分を除去
音色,音質の低下
Low-pass フィルタ
カットオフ周波数
800Hz
音声サンプル
(1秒)
聴取実験
• 識別に必要な音声信号長の調査より
– 1秒の音声信号長があれば約100%識別可
1秒の音声信号に対して
• Random Splicing手法
– 分割長(250ms,200ms,125ms)
• Filtering手法
• 被験者 10名
– 聴取した音声が歌声か朗読音声か?
各音声を聴取したときの正答率 [%]
95
85
80
75
70
65
• 分割長125msでは音高の変化,発声速度は「崩壊」
• 正答率は70.6% → 音声の音色による識別
朗読音声
歌声
Random Splicing
(125ms) 70.6%
60
原音
99.3%
Random Splicing手法
(250ms) 94.9%
Random Splicing手法
(200ms) 90.0%
Random Splicing手法
(125ms) 95.0%
90
Random Splicing手法
(250ms) 84.3%
Random Splicing
(200ms) 76.9%
100
原音
100%
加工音声の聴取実験結果
90
Filtering手法
86.9%
95
原音
99.3%
各音声を聴取したときの正答率 [%]
100
原音
100%
Filtering手法
98.9%
加工音声の聴取実験結果
85
80
75
70
65
60
• 分割長125msでは音高の変化,発声速度は「崩壊」
音質は低下するが1秒の音声の音高の変化や発声速度の違いから
• 正答率は70.6% → 音声の音色による識別
識別が可能なのではないか?
朗読音声
歌声
歌声の正答率低下に対する考察
• 音素(母音)の継続長の変化
N
d
ne
Na m a n
Na
ed m ea N m
a
140ms
180ms
a
n
120ms
母音の平均継続長
それでも7割程度の正答率である理由
歌声: 146.7ms → 73.3ms
[仮説]
母音の平均継続長
146.7ms
歌声の母音はスペクトルの高域が強いのではないか?
(朗読音声: 70ms→60ms)
1.9
2
2.1
2.2
2.3
2.4
2.5
時刻 [s]
2.6
2.7
2.8
2.9
自動音声識別手法との比較
• 特徴量
音声の音色の違い: MFCC(12次)+DMFCC(12次)
音高の変化の違い: DF0
(D算出は50msの窓幅)
• 識別方法
16混合ガウス分布の事後確率による識別
音声の音色の違いによる識別
Random Splicing手法
MFCC+DMFCC
音高の変化の違いによる識別
Filtering手法
DF0
正答率 [%]
95
90
80
75
70
65
60
朗読音声
音声認識 → MFCC(12次の係数)
次数の増加,LPCの使用,さらにスペクトル構造を表現する尺度
MFCC+DMFCC
70.2%
Random Splicing
(250ms) 84.3%
原音 99.3%
Random Splicing (250ms) 94.9%
85
MFCC+DMFCC 87.7%
100
原音 100%
自動音声識別手法との比較
歌声
正答率 [%]
95
90
80
75
70
65
60
Filtering 98.9%
朗読音声
Dの算出窓幅 → 50msと非常に短い
無声音でのF0の補間を考慮した長時間のD算出方法の検討
歌声
DF0 76.8%
MFCC+DMFCC
70.2%
Random Splicing
(250ms) 84.3%
Filtering 86.9%
DF0 82.2%
原音 99.3%
Random Splicing (250ms) 94.9%
85
MFCC+DMFCC 87.7%
100
原音 100%
自動音声識別手法との比較
正答率 [%]
95
90
80
75
70
65
60
Filtering 98.9%
細部にわたるスペクトル構造の抽出方法
朗読音声
Random Splicing
(250ms) 84.3%
Filtering 86.9%
DF0 82.2%
歌声
DF0 76.8%
MFCC+DMFCC+DF0
73.6%
MFCC+DMFCC
70.2%
Dの算出方法
MFCC+DMFCC 87.7%
原音 99.3%
Random Splicing (250ms) 94.9%
85
MFCC+DMFCC+DF0 89.8%
100
原音 100%
自動音声識別手法との比較
まとめ
• 人間による音声信号の識別能力の調査
– 識別に必要な音声信号長の調査
• 250msの音声信号: 78.3%
• 1sの音声信号:
99.7%
– 識別に影響する音声信号の特徴の調査
• Random Splicing手法
• Filtering手法
• 歌声の正答率の低下
– 聴取結果とシステムの性能との比較
• 聴取能力と自動識別手法の正答率の差は20%
今後の展開
• 聴取実験で誤識別されたサンプルの解析
• 特徴量の改善
– 細部にわたるスペクトル構造の抽出方法
– 無声音を考慮した長時間におけるDの算出方法
歌声データベース
• AISTハミングデータベース
(歌声研究用音楽データベース)
– 日本人歌唱者75名分(男性37名, 女性38名)
– ‘RWC Music Database: Popular Music’から抜粋した
合計25曲の
– 歌の出だしの部分とサビの部分を歌う,
またその歌詞を朗読
– 1名あたり計100サンプル
(歌声: 25曲 x 2パート, 朗読音声: 25曲 x 2パート)
– 音声サンプルの長さは歌声で約8秒, 朗読音声で約5秒
識別に必要な音声信号長の調査
• 評価セットの構成
時間長
歌声
朗読音声
100, 150, 200, 250,
500, 750, 1000ms
25サンプル
25サンプル
1250ms
20サンプル
20サンプル
1500, 2000ms
10サンプル
10サンプル
合計
215サンプル 215サンプル
識別に必要な音声信号長の特徴の調査
• 加工した音声の評価セットの構成
Random Splicing 手法
分割する長さ
歌声
朗読音声
125ms
40サンプル
40サンプル
200ms
40サンプル
40サンプル
250ms
20サンプル
20サンプル
合計
100サンプル
100サンプル
Filtering 手法
合計
歌声
朗読音声
100サンプル
100サンプル
Random Splicingした音声に対する感想
• 歌声の伸ばす発声に着目
• 声の大きさの変動が大きければ歌声
• 女性音声の方が朗読音声と歌声の音高差が
大きく識別しやすい
• 音声信号内のF0の変動が大きければ歌声
Filteringした音声に対する感想
• 発声速度,リズムの有無に着目
• 音高が持続する箇所がみられれば歌声
• イントネーションの違いに着目
朗読音声の場合
• 音素(母音)の継続長の変化
t
n
a
a
N d e m
a
t
a a
n a e m s a g N d a m a
s a g
a s
母音の平均継続長 70ms → 60ms
0.8
0.9
1
1.1
1.2
1.3
1.4
時刻 [s]
1.5
1.6
1.7
1.8
Filtering手法による不正答の考察
歌声
加工音声
8000
7000
6000
Frequency
5000
4000
3000
2000
1000
0
Filtering
朗読音声
[%]
各音声を聴取したときの正答率 [%]
各音声を聴取したときの正答率
90
85
80
65
60
原音 (歌声) 100%
女性音声
女性と男性による歌声,朗読音声の絶対的な音高の違い
男性音声
Filtering (歌声) 83.8%
Random Splicing (朗読音声) 92.6%
Filtering (朗読音声) 99.6%
原音 (歌声) 98.6%
原音 (朗読音声) 100%
Filtering (歌声) 90%
Random Splicing (朗読音声) 94.0%
70
Filtering (朗読音声) 98.2%
75
Random Splicing
(歌声) 74.0%
95
Random Splicing
(歌声) 80.5%
100
原音 (朗読音声) 100%
性別ごとの音声からみた聴取実験結果
本研究の目的
識別方法
– 言語情報の利用
音声認識により発声内容から音声を識別
– 非言語情報の利用
イントネーション, テンポ, 音色などから音声を識別
歌の歌い方,話し方というような
発声のスタイルの違いに着目
歌声とは
• 歌声の典型的な特徴
– 基本周波数(以下, F0と呼ぶ)と強度が幅広く変化
– Singing Formant
• オペラ歌手の歌声
• 喉頭の部分で共鳴を起こし, 深い響きを作り出す歌唱法
• 必ずしも素人の歌声に観測できるとは限らない
人間はたとえ素人の歌声であったとしても,
少しの聴取により話し声との識別が可能
• 発声の長さの違い
• テンポの違い
• 音高の変化の違い
従来研究
• 音楽と音声のカテゴリの識別手法
– 周波数領域の特徴量
Spectral Centroid, MFCC, Harmonic Coefficient
– 時間領域の特徴量
ゼロ交差回数
– 周波数・時間の両者に着目した特徴量
Spectral Flux, 4-Hz Modulation Energy
混合音の音響特徴量の検討
– 楽器の混合音や伴奏付きの歌声
歌声そのものの特徴は, まだ十分に議論されてい
ない
本研究の目的
• 歌声と朗読音声の自動識別手法の提案
– 発声機構による歌声の物理的な声質の明確化
– 歌い方, 話し方という長時間に観測できる
発声のスタイルの違い
応用例
•
•
•
•
音声対話システムにおける発話検出
音声合成の精度の向上
自律型ロボットの聴覚的情景分析
歌声,話し声による楽曲検索システム
自動音声識別器をもつ楽曲検索システム
話し声
“イブズの「恋のver.2.4」を聞かせてください”
検索システム
「恋のver.2.4」
歌声
“~線路は続くよ,どこまでも~”
「線路は続くよ」
自動音声識別器をもつ楽曲検索システム
入力方法
歌声
話し声
歌声
音声識別器
話し声
単語辞書
RWC 100曲
シンボル列パターン
連続DPマッチング
音声認識
曲名
アーティスト
ハミング検索
曲名(+アーティスト)
視聴♪♪
シンボル列
パターン
RWC 100曲
識別特徴量
Singing Voice Spectrogram
Frequency [Hz]
4000
大局的な特徴
2000
1000
0
0
4000
Frequency [Hz]
局所的な特徴
3000
2
4
Speaking Voice Spectrogram
8
局所的な特徴
3000
Difference
2000
大局的な特徴
1000
0
0
6
1
2
3
Time [sec]
• スペクトル包絡
• 高調波構造
• 韻律の動的変化
局所的な特徴による尺度
• スペクトル包絡の違い
Mel-Frequency Cepstrum Coefficients (MFCCs)
– 100-msハミング窓を利用
– 10 msごとに算出
• 母音の長さの違い
– 歌声:
伸ばす発声
– 朗読音声: 音素が次々と変化
DMFCCs (MFCC derivatives)
– 5点の回帰係数
a
w a
a sh i
t
a sh i
t a w a
大局的な特徴による尺度
• F0 推定
– 優勢休止検出のためのF0推定手法(後藤ら)
– メディアンフィルタによる平滑化
F0
• 韻律の変化の違い
朗読音声
DF0 (five-point regression)
– 朗読音声のF0は下降
– 歌声は曲のメロディの制約を受ける
歌声
歌声,朗読音声の識別方法
• 16混合ガウス分布(GMM)による識別
入力ベクトル系列
x
識別器
(MFCC, DMFCC, DF0)
x t x t 1
朗読音声
歌声
 log f (xt ;  d )
or
歌声
dˆ  arg max
N
d 歌声,朗読音声 t 1
 d (d  歌声, 朗読音声) は
MFCC, DMFCC, DF0ベクトルの
分布に対するGMMのパラメータ
朗読音声
Fly UP