音声情報を用いたエンターテインメント動画のシーン分析と評価

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 音声情報を用いたエンターテインメント動画のシーン分析と評価

Transcript

音声情報を用いたエンターテインメント動画のシーン分析と評価

情報処理学会第 73 回全国大会
6ZD-6
音声情報を用いたエンターテインメント動画のシーン分析と評価
漆畑龍典†
神奈川工科大学情報学部
山内俊明‡
納富一宏†
神奈川工科大学情報学部情報メディア学科‡
情報工学科†
1 はじめに
3.1.3 シーン分類
近年，インターネット上の動画配信サイトでは，膨大
な数の動画が配信されている．動画には動画タイトルや
タグなどの情報が付加されているが，実際に動画を視聴
しなければ，動画内容や興味深さを把握するのは難しい．
多く配信されている動画のカテゴリのひとつとして，
エンターテインメント関連の動画があげられる．
本研究では，人を笑わせることを目的としたエンター
テインメント動画の「笑いが発生している」部分に着目
し，自己組織化マップによるシーン分析と評価を，漫才
の動画を例に行った．その後，複数の人にアンケート調
査を行い，シーン分析による評価と比較した結果を報告
する．
シーン分類は，マップに投入された分類確認用データ
から，学習ノードまでの平均ユークリッド距離をシーン
毎に求め，設定した閾値以内ならば，そのシーンに該当
すると判断した．
3.2
実験結果
評価には，非該当データ受容率（FAR：False Accept
Rate）と該当データ拒否率（FRR：False Reject Rate）
を用いた．FAR，FRR の定義式を以下に示す．
非該当データ受容回数
確認データ数
該当データ拒否回数
FRR 
確認データ数
FAR 
2 自己組織化マップ
自己組織化マップ（SOM：Self-Organizing Maps）とは，
Kohonen によって提唱された，教師なし学習のニューラ
ルネットワークモデルのひとつである．特徴として，高
次元データの類似度を平面上で表すことが可能である [1]．
本研究では，SOM の一種であるトーラス型 SOM を分析
に用いた．トーラス型 SOM とは，マップの上下左右のノ
ードが相互に結合した SOM である．
FAR および FRR が等しくなる値を等誤り率（ EER:
Equal Error Rate）と呼び，これを 1 から引いた値が識
別精度となる．
3.2.1
第一実験結果
第一実験で作成されたマップを図 1.1 に，実験結果を
図 1.2 に，詳細な EER の値を表１に示す．
3 シーン分析実験
3.1 実験方法
本研究では，男性漫才コンビの動画を対象に実験を行
った．
3.1.1
第一実験
第一実験では，現在活躍している男性漫才コンビ 5 組
を選び，1 組につき 2 本，合計で 10 本の動画を分析した．
それぞれの動画から，観客が笑い声を上げているシーン
（シーン A）を 2 箇所，漫才師が喋っているシーン（シ
ーン B）を 2 箇所手動で選び，各シーンの音声の周波数
成分を高速フーリエ変換（FFT）によって抽出した．窓関
数は，Hanning 窓を使用した．なお，使用した周波数成
分は， 187～6000Hz までの成分である[2]．また，抽出し
たシーンはすべて 1 秒間とした．以上の条件で取り出し
たデータを，トーラス型 SOM で分析し，シーン別に正し
く分類されるか確認した．マップサイズは 60×60，学習
回数は 100,000 回とした．取り出したデータ 20 個のうち
10 個を学習用に，残りの 10 個を分類確認用として用い
た．
3.1.2
図 1.1 第一実験で作成されたマップ
100%
80%
60%
第二実験では，第一実験の学習用データを用いて再び
マップを作成し，第一実験でデータを採取した漫才師と
は異なる漫才師 5 組のデータをマップに投入し，正しく
分類されるかどうかを確認した．確認用のデータは，漫
才コンビ一組につき動画 1 本，シーン A とシーン B を 2
箇所ずつデータ採取した．
Scene analysis and evaluation of audio track for entertainment
video
†Ryusuke Urushibata, ‡Toshiaki Yamanouchi
†Notomi Kazuhiro
†Dept. of Information and Computer Science,
Kanagawa Institute of Technology
‡Dept. of Information Media,
Kanagawa Institute of Technology
表 1 第一実験 EER
誤
40%
り
率 20%
第二実験
0%
0 10 20 30 40 50
閾値
FAR
FRR
22.5
0
0
23.0
0.05
0
閾値
FAR
FRR
図 1.2 第一実験結果
3.2.2 第二実験結果
第二実験における FAR 及び FRR を示したグラフを図２
に示す．
4-603
Copyright 2011 Information Processing Society of Japan.
All Rights Reserved.
情報処理学会第 73 回全国大会
被験者は,本学学生で 21～24 歳までの男性 9 名である．
100%
80%
4.3
60%
シーン分析による評価と人間による評価の比較方法と
して，シーン分析による評価と人間による評価の平均値
を元に散布図を作成し、相関関係を調べた．なお人間に
よる評価値は，アンケート項目のうち総合的な採点によ
る得点を使用した．
表 2 第二実験 EER
誤 40%
り
率 20%
0%
0 10 20 30 40 50
FAR
閾値
閾値
FAR
FRR
22.5
0.2
0.2
23.0
0.2
0.2
4.4
FRR
1.5
シーン分析実験により，80%程度の精度で観客が笑い声
を上げているシーンと漫才師が喋っているシーンを分類
できることが確認できた．そこで，この分析方法を応用
して漫才動画の面白さを評価し，人間によるアンケート
調査と比較した．
評価対象となる動画は，それぞれ異なる男性漫才コン
ビの動画 4 本である．
シーン分析実験で用いた学習用データに微調整を加え
たデータ用い，再び SOM マップを作成し，マップに判定
区間の周波数成分を投入して判定を行った．シーン A の
学習ノードとシーン B の学習ノード双方からの平均ユー
クリッド距離を求め，より距離が近い方のシーンである
と判定した．判定区間数に対してのシーン A が含まれる
割合によって，得点を決定した．
シーンの音量の比による評価
まず各判定区間の音量を取得した後に正規化し，シー
ン別に音量の平均値を求める．次いで，シーン B に対す
るシーン A の比率を求めた．その比率を元に，シーン数
評価の得点にかける係数を決定した．係数を決定する式
は以下のとおりである.
係数
(
シーンの平均音量
シーンの平均音量
)
なお，音量のバランスが録音時に調整される可能性も
考慮に入れ，係数の下限は 0.75，上限は 1.25 とした．
4.2
人間による評価
評価対象の動画を被験者が視聴後，アンケート用紙の
設問に回答する形で評価をしてもらった．アンケート項
目は 11 項目である．アンケート項目をリスト 1 に示す．
リスト 1 アンケート項目
被験者に関する設問
・年齢・性別
・漫才を普段から見ますか？
（よく見る・たまに見る・あまり見ない）
・漫才を見るのは好きですか？
（好き・どちらでもない・嫌い）
動画の評価（+2～-2 までの 5 段階評価）
・ネタの面白さ（笑えるか）・漫才のテンポや間
・動画全体の雰囲気
・上記の 3 つを踏まえた上での総合評価
漫才コンビ等に関する設問（はい・いいえの 2 択）
・このネタを見たことがありますか？
・この漫才コンビを知っていますか？
・この漫才コンビは嫌いですか？
動画 1
0
-0.5
0.2
0.3
0.4
0.5
0.6
動画 2
-1
シーン分析評価
笑い声のシーン数による評価
動画 4
0.5
図 3 シーン分析による評価と人間による評価の散布図
シーン分析による評価では，評価対象の動画の音声ト
ラックを先頭から 1 秒間隔で自動分割したものを判定区
間とした．
4.1.2
動画 3
1
4 シーン分析評価と人間による評価との比較
4.1.1
比較結果
シーン分析による評価と人間による評価の関係を示す
ための散布図を図 3 に示す．
図 2 第二実験結果
4.1
比較
図 3 における相関係数は 0.88 であった．
5 分析・考察
シーン分析による評価と人間による評価の比較をした
結果，正の相関関係が確認された．アンケート結果を分
析すると，漫才を見るのが好きだと答えた被験者は 9 人
中 6 人であった．動画の漫才コンビが嫌いだと答えた被
験者は，動画 1 に 2 人，動画 2 に 2 人，動画 3 に 1 人と，
少数であった．極端な評価をする被験者が少なかったた
め，正の相関関係が得られたと考えられる．
しかし，動画 1 と動画 2 の評価は，シーン分析による
評価と人間による評価が逆転している．そのため，シー
ン分析評価方法は，完璧に人間の感性と一致していない
ものの，ある程度人間の感性と適合していることが示唆
される．
6 おわりに
音声情報を用いたエンターテインメント動画のシーン
分析手法を提案し評価したところ，人間による評価と相
関を示したため，提案手法は，エンターテインメント動
画の評価に関して，ある程度有効であることがわかった．
しかし，今回は漫才動画に限定して評価を行ったので，
「笑い」が含まれるその他のエンターテインメント動画
に対して，提案手法が有効であるか，検証を行う必要が
ある．今後は，「笑い」だけでなく分析できる種類のシ
ーンを増やし，感性検索などに応用できるよう検証して
いく予定である．また，画像情報によるシーン分析も検
証する予定である．
参考文献
[1] T.Kohonen：Self-Organizing Maps, Springer(2000).
[2] 吉川昴，石田秀春，納富一宏，斎藤恵一：”自己組織化マ
ップを用いた音声認証における学習条件の比較”,HCG シンポジ
ウム論文集 ,B8-1(2009).
4-604
Copyright 2011 Information Processing Society of Japan.
All Rights Reserved.