歌声と朗読音声の識別システム構築のための人間の識別能力の調査

by user

on 28-03-2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 歌声と朗読音声の識別システム構築のための人間の識別能力の調査

Transcript

歌声と朗読音声の識別システム構築のための人間の識別能力の調査

歌声と朗読音声の
識別システム構築のための
人間の識別能力の調査
大石康智1, 後藤真孝2
伊藤克亘1, 武田一哉1
1名古屋大学大学院情報科学研究科
2産業技術総合研究所
はじめに
• 歌声と朗読音声の自動識別手法の提案
– 歌声とその歌詞を朗読した音声の識別
歌声
朗読音声
特徴量
• 音色の違い
• 音高の変化の違い
MFCC
DF0
人間は,
• どの程度の音声信号長があれば識別可能か?
• どのような特徴を手がかりとして識別を行うのか?
さてここで問題です
みなさんは歌声と朗読音声の識別ができますか?
問題1
1秒の音声
問題2
500msの音声
問題3
250msの音声
歌声データベース
• AISTハミングデータベース
(歌声研究用音楽データベース)
– 被験者がある曲の出だしとサビの部分を歌う
– またその歌詞を朗読する
収録被験者1名あたり計100サンプル (日本人75名)
(歌声: 25曲 x 2パート, 朗読音声: 25曲 x 2パート)
– 収録音声サンプルの長さ
• 歌声:
平均12.0秒
• 朗読音声: 平均7.0秒
識別に必要な音声信号長の調査
100
95
総合的な正答率
朗読音声の正答率
歌声の正答率
90
正答率 [%]
85
80
75
70
65
60
• 音声信号長1秒の聴取により, 識別が可能
• 短時間(200ms)の場合でも正答率は70.0%
55
50
0
500
1000
聴取音声信号長 [ms]
1500
2000
識別に影響する音声信号の特徴の調査
• Random Splicing手法
– 音声サンプルをある長さの断片に分割し，
ランダムに接合する
メロディのパターン，テンポ，リズムをマスク
音声サンプル
(1秒)
分割長250ms
分割長200ms
ランダムに
並べ替え
分割長125ms
①
②
③
④
③
①
④
②
識別に影響する音声信号の特徴の調査
• Filtering手法
– ローパスフィルタにより
音声信号の高調波成分を除去
音色，音質の低下
Low-pass フィルタ
カットオフ周波数
800Hz
音声サンプル
(1秒)
聴取実験
• 識別に必要な音声信号長の調査より
– 1秒の音声信号長があれば約100%識別可
1秒の音声信号に対して
• Random Splicing手法
– 分割長(250ms，200ms，125ms)
• Filtering手法
• 被験者 10名
– 聴取した音声が歌声か朗読音声か?
各音声を聴取したときの正答率 [%]
95
85
80
75
70
65
• 分割長125msでは音高の変化，発声速度は「崩壊」
• 正答率は70.6% → 音声の音色による識別
朗読音声
歌声
Random Splicing
(125ms) 70.6%
60
原音
99.3%
Random Splicing手法
(250ms) 94.9%
Random Splicing手法
(200ms) 90.0%
Random Splicing手法
(125ms) 95.0%
90
Random Splicing手法
(250ms) 84.3%
Random Splicing
(200ms) 76.9%
100
原音
100%
加工音声の聴取実験結果
90
Filtering手法
86.9%
95
原音
99.3%
各音声を聴取したときの正答率 [%]
100
原音
100%
Filtering手法
98.9%
加工音声の聴取実験結果
85
80
75
70
65
60
• 分割長125msでは音高の変化，発声速度は「崩壊」
音質は低下するが1秒の音声の音高の変化や発声速度の違いから
• 正答率は70.6% → 音声の音色による識別
識別が可能なのではないか?
朗読音声
歌声
歌声の正答率低下に対する考察
• 音素(母音)の継続長の変化
N
d
ne
Na m a n
Na
ed m ea N m
a
140ms
180ms
a
n
120ms
母音の平均継続長
それでも7割程度の正答率である理由
歌声: 146.7ms → 73.3ms
[仮説]
母音の平均継続長
146.7ms
歌声の母音はスペクトルの高域が強いのではないか?
(朗読音声: 70ms→60ms)
1.9
2
2.1
2.2
2.3
2.4
2.5
時刻 [s]
2.6
2.7
2.8
2.9
自動音声識別手法との比較
• 特徴量
音声の音色の違い: MFCC(12次)+DMFCC(12次)
音高の変化の違い: DF0
(D算出は50msの窓幅)
• 識別方法
16混合ガウス分布の事後確率による識別
音声の音色の違いによる識別
Random Splicing手法
MFCC+DMFCC
音高の変化の違いによる識別
Filtering手法
DF0
正答率 [%]
95
90
80
75
70
65
60
朗読音声
音声認識 → MFCC(12次の係数)
次数の増加，LPCの使用，さらにスペクトル構造を表現する尺度
MFCC+DMFCC
70.2%
Random Splicing
(250ms) 84.3%
原音 99.3%
Random Splicing (250ms) 94.9%
85
MFCC+DMFCC 87.7%
100
原音 100%
自動音声識別手法との比較
歌声
正答率 [%]
95
90
80
75
70
65
60
Filtering 98.9%
朗読音声
Dの算出窓幅 → 50msと非常に短い
無声音でのF0の補間を考慮した長時間のD算出方法の検討
歌声
DF0 76.8%
MFCC+DMFCC
70.2%
Random Splicing
(250ms) 84.3%
Filtering 86.9%
DF0 82.2%
原音 99.3%
Random Splicing (250ms) 94.9%
85
MFCC+DMFCC 87.7%
100
原音 100%
自動音声識別手法との比較
正答率 [%]
95
90
80
75
70
65
60
Filtering 98.9%
細部にわたるスペクトル構造の抽出方法
朗読音声
Random Splicing
(250ms) 84.3%
Filtering 86.9%
DF0 82.2%
歌声
DF0 76.8%
MFCC+DMFCC+DF0
73.6%
MFCC+DMFCC
70.2%
Dの算出方法
MFCC+DMFCC 87.7%
原音 99.3%
Random Splicing (250ms) 94.9%
85
MFCC+DMFCC+DF0 89.8%
100
原音 100%
自動音声識別手法との比較
まとめ
• 人間による音声信号の識別能力の調査
– 識別に必要な音声信号長の調査
• 250msの音声信号: 78.3%
• 1sの音声信号:
99.7%
– 識別に影響する音声信号の特徴の調査
• Random Splicing手法
• Filtering手法
• 歌声の正答率の低下
– 聴取結果とシステムの性能との比較
• 聴取能力と自動識別手法の正答率の差は20%
今後の展開
• 聴取実験で誤識別されたサンプルの解析
• 特徴量の改善
– 細部にわたるスペクトル構造の抽出方法
– 無声音を考慮した長時間におけるDの算出方法
歌声データベース
• AISTハミングデータベース
(歌声研究用音楽データベース)
– 日本人歌唱者75名分（男性37名, 女性38名）
– ‘RWC Music Database: Popular Music’から抜粋した
合計25曲の
– 歌の出だしの部分とサビの部分を歌う，
またその歌詞を朗読
– 1名あたり計100サンプル
(歌声: 25曲 x 2パート, 朗読音声: 25曲 x 2パート)
– 音声サンプルの長さは歌声で約8秒, 朗読音声で約5秒
識別に必要な音声信号長の調査
• 評価セットの構成
時間長
歌声
朗読音声
100, 150, 200, 250,
500, 750, 1000ms
25サンプル
25サンプル
1250ms
20サンプル
20サンプル
1500, 2000ms
10サンプル
10サンプル
合計
215サンプル 215サンプル
識別に必要な音声信号長の特徴の調査
• 加工した音声の評価セットの構成
Random Splicing 手法
分割する長さ
歌声
朗読音声
125ms
40サンプル
40サンプル
200ms
40サンプル
40サンプル
250ms
20サンプル
20サンプル
合計
100サンプル
100サンプル
Filtering 手法
合計
歌声
朗読音声
100サンプル
100サンプル
Random Splicingした音声に対する感想
• 歌声の伸ばす発声に着目
• 声の大きさの変動が大きければ歌声
• 女性音声の方が朗読音声と歌声の音高差が
大きく識別しやすい
• 音声信号内のF0の変動が大きければ歌声
Filteringした音声に対する感想
• 発声速度，リズムの有無に着目
• 音高が持続する箇所がみられれば歌声
• イントネーションの違いに着目
朗読音声の場合
• 音素(母音)の継続長の変化
t
n
a
a
N d e m
a
t
a a
n a e m s a g N d a m a
s a g
a s
母音の平均継続長 70ms → 60ms
0.8
0.9
1
1.1
1.2
1.3
1.4
時刻 [s]
1.5
1.6
1.7
1.8
Filtering手法による不正答の考察
歌声
加工音声
8000
7000
6000
Frequency
5000
4000
3000
2000
1000
0
Filtering
朗読音声
[%]
各音声を聴取したときの正答率 [%]
各音声を聴取したときの正答率
90
85
80
65
60
原音 (歌声) 100%
女性音声
女性と男性による歌声，朗読音声の絶対的な音高の違い
男性音声
Filtering (歌声) 83.8%
Random Splicing (朗読音声) 92.6%
Filtering (朗読音声) 99.6%
原音 (歌声) 98.6%
原音 (朗読音声) 100%
Filtering (歌声) 90%
Random Splicing (朗読音声) 94.0%
70
Filtering (朗読音声) 98.2%
75
Random Splicing
(歌声) 74.0%
95
Random Splicing
(歌声) 80.5%
100
原音 (朗読音声) 100%
性別ごとの音声からみた聴取実験結果
本研究の目的
識別方法
– 言語情報の利用
音声認識により発声内容から音声を識別
– 非言語情報の利用
イントネーション, テンポ, 音色などから音声を識別
歌の歌い方，話し方というような
発声のスタイルの違いに着目
歌声とは
• 歌声の典型的な特徴
– 基本周波数(以下, F0と呼ぶ)と強度が幅広く変化
– Singing Formant
• オペラ歌手の歌声
• 喉頭の部分で共鳴を起こし, 深い響きを作り出す歌唱法
• 必ずしも素人の歌声に観測できるとは限らない
人間はたとえ素人の歌声であったとしても,
少しの聴取により話し声との識別が可能
• 発声の長さの違い
• テンポの違い
• 音高の変化の違い
従来研究
• 音楽と音声のカテゴリの識別手法
– 周波数領域の特徴量
Spectral Centroid, MFCC, Harmonic Coefficient
– 時間領域の特徴量
ゼロ交差回数
– 周波数・時間の両者に着目した特徴量
Spectral Flux, 4-Hz Modulation Energy
混合音の音響特徴量の検討
– 楽器の混合音や伴奏付きの歌声
歌声そのものの特徴は, まだ十分に議論されてい
ない
本研究の目的
• 歌声と朗読音声の自動識別手法の提案
– 発声機構による歌声の物理的な声質の明確化
– 歌い方, 話し方という長時間に観測できる
発声のスタイルの違い
応用例
•
•
•
•
音声対話システムにおける発話検出
音声合成の精度の向上
自律型ロボットの聴覚的情景分析
歌声，話し声による楽曲検索システム
自動音声識別器をもつ楽曲検索システム
話し声
“イブズの「恋のver.2.4」を聞かせてください”
検索システム
「恋のver.2.4」
歌声
“～線路は続くよ，どこまでも～”
「線路は続くよ」
自動音声識別器をもつ楽曲検索システム
入力方法
歌声
話し声
歌声
音声識別器
話し声
単語辞書
RWC 100曲
シンボル列パターン
連続DPマッチング
音声認識
曲名
アーティスト
ハミング検索
曲名(+アーティスト)
視聴♪♪
シンボル列
パターン
RWC 100曲
識別特徴量
Singing Voice Spectrogram
Frequency [Hz]
4000
大局的な特徴
2000
1000
0
0
4000
Frequency [Hz]
局所的な特徴
3000
2
4
Speaking Voice Spectrogram
8
局所的な特徴
3000
Difference
2000
大局的な特徴
1000
0
0
6
1
2
3
Time [sec]
• スペクトル包絡
• 高調波構造
• 韻律の動的変化
局所的な特徴による尺度
• スペクトル包絡の違い
Mel-Frequency Cepstrum Coefficients (MFCCs)
– 100-msハミング窓を利用
– 10 msごとに算出
• 母音の長さの違い
– 歌声：
伸ばす発声
– 朗読音声：音素が次々と変化
DMFCCs (MFCC derivatives)
– 5点の回帰係数
a
w a
a sh i
t
a sh i
t a w a
大局的な特徴による尺度
• F0 推定
– 優勢休止検出のためのF0推定手法(後藤ら)
– メディアンフィルタによる平滑化
F0
• 韻律の変化の違い
朗読音声
DF0 (five-point regression)
– 朗読音声のF0は下降
– 歌声は曲のメロディの制約を受ける
歌声
歌声，朗読音声の識別方法
• 16混合ガウス分布(GMM)による識別
入力ベクトル系列
x
識別器
(MFCC, DMFCC, DF0)
x t x t 1
朗読音声
歌声
 log f (xt ;  d )
or
歌声
dˆ  arg max
N
d 歌声,朗読音声 t 1
 d (d  歌声, 朗読音声) は
MFCC, DMFCC, DF0ベクトルの
分布に対するGMMのパラメータ
朗読音声

歌声と朗読音声の 識別システム構築のための 人間の識別能力の調査

Comments

Description

Transcript

歌声と朗読音声の識別システム構築のための人間の識別能力の調査