Comments
Description
Transcript
独立した音楽と映像に対する印象評価からの音楽動画の印象推定手法
DEIM Forum 2016 E3-5 独立した音楽と映像に対する印象評価からの音楽動画の印象推定手法 大野直紀†1 土屋駿貴†1 中村聡史†1 山本岳洋 †2 †1 明治大学総合数理学部 〒164-8525 東京都中野区中野 4-21-1 †2 京都大学大学院情報学研究科 〒606-8501 京都府京都市左京区吉田本町 4-5-6 E-mail: †1 {ev30508,ev30616}@meiji.ac.jp, [email protected] †2 [email protected] あらまし 音楽動画の印象に基づく検索や推薦,音楽動画の類似判定のためには,音楽動画の印象推定に関する 技術が必須となる.ここで,音楽に対する印象評価や映像に対する印象評価に関する研究は多数なされている一方 で,音楽動画に対する印象評価の研究は十分になされていない.我々は,音楽と映像がどのように音楽動画の印象 に影響するのかを調べるため, 「音楽のみ」 「映像のみ」 「音楽動画」に対する 500 件の印象評価データセットから音 楽と映像を任意に合成した音楽動画を生成し,印象評価を行ってもらうことで音楽動画から受ける印象は音楽に影 響を受けやすいことなどを明らかにした.また,回帰分析を用いることで「音楽のみ」 「映像のみ」の印象評価を組 み合わせによる音楽動画の印象推定を行った. キーワード 音楽動画,印象推定,音楽,映像 1. はじめに コンテンツ制作支援システムの普及や発展により, ルといったキーワードを思いつくことができない場合 や,またユーザが求める気分にあった未知の音楽動画 だれでも楽曲や動画を創作することが容易になった. を検索する際, 「泣きたい気分なので悲しい音楽を探し また,大規模動画共有サイトの普及により,多くのア たい」や「気分を昂ぶらせたいのでかっこいい音楽を マチュア作曲者や動画製作者が 創作したコンテンツを 探したい」といったようにユーザは求める音楽動画を 発表する場ができ,他者が容易に閲覧することが可能 雰囲気や印象といった曖昧な情報で表現することにな となった.これにより,人々が 接することのできる音 る . し か し ,「 悲 し い 音 楽 」「 か っ こ い い 音 楽 」 と キ ー 楽動画が非常に増加したといえる.なお,本研究では ワードを絞ったとしても,音楽動画の説明文自体に雰 音楽が主としてありながらも,その音楽と時間的に同 囲気や印象などの情報がテキストとして含まれている 期して映像が提示されるものを「音楽動画」と呼ぶ. ことが少なく,テキストマッチでの検索は難しい.ま 音楽動画の増加に関して顕著な例が,初音ミクをは た,こうしたサービス上では,ユーザが印象タグを付 じ め と す る VOCALOID を 使 用 し た も の で あ り , 日 本 与して他者の検索に役立てることが可能であるが, そ 最大の動画共有サイトであるニコニコ動画において膨 の 割 合 は ニ コ ニ コ 動 画 で は 5% [9], 音 楽 に 関 す る ソ ー 大 な 量 の 動 画 が 存 在 し て い る( 2016 年 1 月 1 日 時 点 で シ ャ ル メ デ ィ ア で あ る Last.fm で は 14% [11]と 少 な く , 約 39 万 件 ). ま た , ア マ チ ュ ア 作 曲 者 お よ び 動 画 作 成 現状では検索に利用するには不十分である. 者 が 投 稿 し た 音 楽 動 画 が 100 万 回 以 上 再 生 さ れ て い る こうした問題を解決するため,音楽情 報検索の分野 ものも多数存在している.これはニコニコ動画という では,楽曲の視聴を通してユーザが受ける主観的な印 動 画 投 稿 お よ び 共 有 基 盤 の 存 在 と ,VOCALOID な ど の 象 を 推 定 す る 研 究 が 多 数 行 わ れ て い る [6][9]. こ こ で , コンテンツ制作支援システムによってコンテンツの制 主観的な印象に基づく検索とは,ユーザが楽曲を聴い 作が容易になったことが大きいが,それに加え「歌っ て 受 け る 印 象 に 合 う よ う に ,「 人 気 の あ る 切 な い 音 楽 」 てみた」 「 踊 っ て み た 」な ど に 代 表 さ れ る 二 次 創 作 が 広 や「元気の出る印象を受ける動画」といった,主観的 まったことも大きく寄与していると考えられる. な印象語をクエリに含んだ楽曲の検索を可能とする手 人々がアクセスできる音楽動画の数が増加してい 法のことである. る一方で,音楽動画を探すための検索手段は多様では このような主観的な印象に基づく検索が可能とな ない.たとえば,ニコニコ動画では音楽動画名やアー れ ば ,VOCALOID を 用 い た 音 楽 動 画 の よ う な ,比 較 的 ティスト名,タグといったテキスト情報に対するキー 新しく,ユーザ自身が好むアーティストやジャンルが ワード検索や,再生数や投稿日による動画のソートな まだないドメインにおける音楽動画を探しているユー どの方法でしか検索を行うことができない. ザへの検索手段となる.また,既存のドメインにおい ユーザが音楽動画を検索する際に作者名やタイト ても,動画推薦の手法の一つとして雰囲気が類似して い る 楽 曲 を 推 薦 す る こ と が 可 能 に な り ,ア ー テ ィ ス ト , ジ ャ ン ル に 縛 ら れ な い 動 画 推 薦 が 可 能 に な る .さ ら に , よる印象推定および評価を行った. これまでにない新しい観点からの検索手段を提供する ことができ,ユーザが未知かつユーザの求めている雰 2. 関連研究 囲気に合った音楽動画を検索することができる .ここ 音楽情報処理の分野では,ユーザの検索を支援する で,楽曲自体,映像自体については様々な印象評価に ために,楽曲の印象の推定や印象にまつわる楽曲検索 関する研究が行われているものの,楽曲,映像, 音楽 に関する研究が多数行われている. 動画では,受ける印象はそれぞれ異なると考えられる 2.1 楽 曲 の 印 象 モ デ ル ため,ある楽曲,ある映像に対する印象をそのままそ 楽曲の印象の表現方法については,様々なアプロー の音楽動画の印象評価に適用することは難しい. チ が 提 案 さ れ て い る .MIREX で は ,印 象 を 表 す 形 容 詞 メディアを融合した際にどのように印象評価が変 をクラスタリングすることで,印象を 5 つのクラスに 化するかという点に関する研究としては,静止画と音 分割し,印象推定のタスクに用いている.また,楽曲 楽の組み合わせによっておこる印象の変化などが検証 のみを対象としたものではないが,楽曲の印象推定に さ れ て い る [4].ま た ,映 像 と 音 楽 の 組 み 合 わ せ で は 視 も 広 く 用 い ら れ る モ デ ル と し て , Russel が 提 案 し た 覚刺激による影響が大きいことなどが明らかにされて Valence-Arousal 空 間 が あ る [7].Valence は 快 -不 快 を 表 い る [5].さ ら に ,音 楽 動 画 の 印 象 推 定 に 関 す る 研 究 と す 次 元 , Arousal は 覚 醒 -鎮 静 を 表 す 次 元 で あ り , 印 象 しては,音楽動画に付与されたソーシャルコメントを をこの 2 つの軸で表現するという考え方である. 用 い て 印 象 を 推 定 す る 研 究 [9][13]な ど が 提 案 さ れ て い これらの研究のほかにも,印象による検索を行うた るが,メディアを融合した際の印象評価の変化を考慮 め,ユーザの検索ニーズに合わせた印象語を選定する して音楽動画の印象推定を行っている研究は存在しな 手 法 な ど も 行 わ れ て い る [10]. い. 2.2 メ デ ィ ア 間 の 印 象 の 差 異 一方,我々はこれまでの研究において,ニコニコ動 音楽動画をはじめとするマルチメディア情報での 画 上 の 音 楽 動 画 500 件 の 音 楽 動 画 全 体 に 対 す る 印 象 評 印象に関する研究として,各メディアから受ける印象 価 デ ー タ セ ッ ト の 作 成 を 行 っ た [1].ま た ,先 述 と 同 様 の 違 い に 関 す る も の が あ る .佐 藤 ら の 研 究 [5]で は ,音 の 音 楽 動 画 500 件 の サ ビ 部 分 の 30 秒 に つ い て ,「 音 楽 楽と静止画では音楽が,音楽と映像では映像から受け の み 」「 映 像 の み 」「 音 楽 と 映 像 の 組 み 合 わ せ 」 の 3 つ る印象が強いことがわかっている.また,長谷川らは のメディアタイプに分離したものに対して印象 評価を 静止画と音楽の印象の類似はユーザの好みのジャンル 行い,メディア分離された印象評価データセットを構 に 影 響 さ れ る こ と を 明 ら か に し て い る [4]. 築 し た [12]. こ う し て 得 ら れ た デ ー タ セ ッ ト に 対 し 分 2.3 楽 曲 の 印 象 推 定 析を行ったところ,音楽動画全体と音楽動画のサビ部 楽曲の印象推定に関する研究は,音楽情報検索の分 分では印象評価が大きく異なること,音楽動画の印象 野において,近年特に取り組まれている.それらの研 評価は音楽の印象と映像の印象を組み合わせることで 究では,音響特徴量をベースとした印象の推定が数多 音楽動画の印象推定ができる可能性があることを明ら く な さ れ て い る [14].ま た ,近 年 で は 音 響 特 徴 量 に 加 え かにすることができた.しかし,各メディアの各印象 楽 曲 の 歌 詞 情 報 を 利 用 し た 印 象 推 定 手 法 の 提 案 [8] も がどのように組み合わさって音楽動画の印象になって なされている. いるかの解明はできておらず,また実際に推定手法を 提案するまでには至っていなかった. そ こ で 本 研 究 で は ,音 楽 動 画 を「 音 楽 の み 」 「映像の 一方,楽曲の音響的特徴に依らない印象推定手法と して,楽曲に付与されたタグやコメントによる印象推 定 [9]も 行 わ れ て い る . み」に分離したものに対する印象を組み合わせること このように,楽曲の印象を推定する手法がいくつか での音楽動画の印象推定手法の提案,またそれに対す 提案されているものの,それを音楽動画の印象の推定 る評価を行う.印象推定に対するアプローチとして, に使用した研究はない.この研究は,音楽の印象推定 先述の研究で構築したデータセット 2 件で対象とした 技術と音楽動画の印象推定技術の橋渡しになると考え 500 件 の 音 楽 動 画 の「 音 楽 の み 」 「 映 像 の み 」を ラ ン ダ られる. ムに組み合わせ,音楽動画を自動生成する.こうして 2.4 音 楽 動 画 の 印 象 推 定 生成された音楽動画に対しユーザに印象評価を行って 音楽動画の印象推定に関する研究としては,ニコニ もらうことで,印象がどのように変化するのかという コ動画で付与されるソーシャルコメントを用いた印象 ことを分析可能とするとともに, この評価データと過 推 定 を 行 っ た 研 究 が あ る [9][13]. 去の研究で構築したデータセット をもとに,音楽動画 の「 音 楽 の み 」 「 映 像 の み 」の 印 象 評 価 の 組 み 合 わ せ に 3. 表 1 印象変化データセット構築 音楽と映像の組み合わせによって,音楽動画の印象 はどのように変化するのかを明らかにするため,我々 はこれまでに実現してきた音楽のみのコンテンツ,映 像のみのコンテンツに対する印象評価データセットを 活用し,任意の音楽と映像を組み合わせてユーザに提 示し,その組み合わされたコンテンツによってユーザ がどのような印象を受けるのかというデータセットを 構築する. 音楽のみのコンテンツ,映像のみのコンテン ツに対 す る 印 象 評 価 デ ー タ セ ッ ト は , 500 件 の 音 楽 動 画 ( 動 画共有サイト「ニコニコ動画」上に投稿された音楽動 画 の う ち ,タ グ「 VOCALOID」が 付 与 さ れ た 動 画 の 2012 年 8 月 時 点 で 再 生 数 が 多 い 動 画 上 位 500 曲 ) を 後 藤 ら の RefraiD[2]を 用 い て サ ビ 部 分 を 抽 出 し た も の で あ る . この音楽動画のサビ部分を音楽のみ,映像のみに分 8 つの印象軸 C1( 堂 々 ) 堂々とした,どっしりとした 心躍る,にぎやかな C2 元 気 が 出 る ,楽 し い 気 持 ち に さ せ る (元気が出る) 陽気な,心地よい C3( 切 な い ) 切ない,悲痛な,ほろ苦い 気がめいる,哀愁の C4( 激 し い ) ア グ レ ッ シ ブ な ,激 し い ,興 奮 さ せ る 感情的な,感情あらわな C5( 滑 稽 ) 滑 稽 な ,ユ ー モ ラ ス な ,お も し ろ げ な 奇 抜 な ,気 ま ぐ れ ,い た ず ら っ ぽ い C6( か わ い い ) 可 愛 ら し い ,愛 く る し げ ,愛 お し い かわいい Valence 明るい気持ちになる,楽しい 暗い気持ちになる,悲しい Arousal 激しい,積極的な,強気な 穏やか,消極的な,弱気な 離 し , ラ ン ダ ム に 組 み 合 わ せ る こ と で 作 成 し た 25000 件 の 音 楽 動 画 の う ち , 任 意 に 抽 出 し た 200 件 の 音 楽 動 画を評価対象とする.本研究では,ここで評価される 3.2 印 象 評 価 イ ン タ フ ェ ー ス 音楽動画を「合成音楽動画」とする. 図 1 に評価データ収集に用いたインタフェースを 示 以降,評価対象とする印象軸,印象評価のインタフ す. ェース,印象評価の手続きについて述べる. 図にあるように,評価者は音楽動画を視聴し,その 3.1 印 象 軸 音楽動画に対する印象を,以下に示す形で付与する. 本研究では,我々の過去の研究と同様に,音楽動画 に対する印象として,音楽情報検索ワークショップで 動 詞 群 に 対 す る 1( 全 く そ う 思 わ な い )~ 5( と て あ る MIREX で 用 い ら れ て い る 5 つ の 印 象 ク ラ ス と , Russel ら の Valence-Arousal 空 間 を 参 考 に し た . こ こ もそう思う)の 5 段階のリッカート尺度 で ,MIREX で は ,5 つ の 印 象 ク ラ ス が 用 い ら れ て い る Valence: -2( 暗 い 気 持 ち に な る ,悲 し い )~ +2( 明 る い 気 持 ち に な る ,楽 し い )の 5 段 階 の リ ッ カ ー が ,こ れ ま で の 研 究 [1]に よ り ,ニ コ ニ コ 動 画 上 で は「 か わいい」と感じる楽曲やそれに関するタグが多く存在 C1-C6 の 印 象 ク ラ ス : 表 1 に 示 し た 形 容 詞 , 形 容 ト尺度 Arousal: -2( 穏 や か ,消 極 的 な ,弱 気 な )~ +2( 激 することが分かっているため, 本研究でもこれまでの しい,積極的な,強気な )の 5 段階のリッカート 研 究 の 評 価 に 則 り ,MIREX の 5 ク ラ ス に 加 え ,可 愛 ら 尺度 し さ を 表 す 印 象 ク ラ ス を 加 え た 6 軸 と , Valence- ま た ,評 価 項 目 と し て , 「 違 和 感 を 覚 え る 」と い う 項 目 Arousal に 関 す る 2 軸 の 合 計 8 軸 を 評 価 の 収 集 対 象 と も用意し,ユーザに評価してもらった. した. 本研究で用いた 8 つの印象軸は,表 1 に示すとおり である.表中の「印象クラス名」は,著者らが便宜上 付 与 し た ,印 象 を 表 す ラ ベ ル 名 で あ る .ま た , 「印象を 表す形容詞」は,データセット構築において評価者か ら評価値を収集する際に,その印象クラスを表現する た め に 用 い た 表 現 を 表 す .C6 に つ い て は , 「かわいい」 の 類 義 語 を 集 め た . ま た Valence-Arousal に つ い て も , 既存研究を参考に著者らが日本語に直したものを用い た. 図 1 評価用インタフェース 3.3 印 象 変 化 デ ー タ の 収 集 図 2~ 7 を 通 し て , 音 楽 の 印 象 評 価 が 正 の 値 で あ る 場 2015 年 1 月 4 日 か ら 2015 年 1 月 10 日 に か け て , 3.1 合,高評価群に属する音楽動画の 件数が多く,音楽の 節で述べた対象動画の印象に対する評価データを 収集 印象評価が負の値である場合,低評価群に属する音楽 した.データセット構築の協力者は明治大学の学部生 動 画 の 件 数 が 多 い 傾 向 が あ る こ と が わ か る .こ れ よ り , 計 3 人であった. 合成音楽動画では音楽の印象に影響を受けやすいこと データセット構築者には,評価対象である 音楽動画 が 分 か っ た .特 に ,C1,C2,C4,C6 で は ,音 楽 の 印 象 を 視 聴 し , 3.2 節 で 述 べ た 印 象 評 価 用 の ウ ェ ブ イ ン タ 評価値が高い値となっているものは音楽動画の印象評 フェースを用い,対象コンテンツに対する印象を評価 価値も高い値に,また音楽の印象評価値が低い値とな し て も ら っ た . こ れ に よ り , 200 件 の 音 楽 動 画 に 対 し っているものは音楽動画の印象評価値も低い値になる て,3 人以上の評価を収集した. 傾向があることが分かった. また,過去の研究では音楽動画のサビ部分を 「音楽 また,図 7 では,ほかの印象軸と比べ,音楽の印象 動 画 」「 音 楽 の み 」「 映 像 の み 」 に メ デ ィ ア 分 離 し た も 評価値が負の値であり,映像の印象評価値が正の値で のに対して全く同じ印象軸を用いて印象評価を行って ある場合,音楽動画が高評価群に属しているものが多 もらった.本研究では,これを「印象評価データセッ い .こ の こ と よ り ,C6 の 印 象 軸 に 関 し て は ,ほ か の 印 ト 」 と す る . 結 果 と し て , 先 述 の 500 件 の 音 楽 動 画 の 象軸よりも映像の印象評価が音楽動画の印象評価に大 サビ部分に対して, 「音楽のみ」 「映像のみ」 「 音 楽 動 画 」, きくかかわっている傾向があることが分かった. 200 件 の 「 ラ ン ダ ム に 合 成 し た 音 楽 動 画 」 の 印 象 評 価 値がデータとして存在することになる. ま た , 図 4, 図 6 で は 高 評 価 群 に 分 類 さ れ た 件 数 よ りも低評価群に分類されたものが多く,相関関係が見 ら れ な い こ と が , 図 8, 図 9 で は , 音 楽 動 画 の 高 評 価 4. 印象変化データセットの分析 本章では,3 章で得たデータの分析を行うことで, 音楽と動画の組み合わせによって どのように印象が変 群,低評価群ともに散らばっていること が分かる.こ れ よ り , C3, C5, Valence, Arousal で は 音 楽 の 印 象 と 映像の印象と直接の相関がなく音楽動画の印象ができ ていると考えられる. 化するのかを明らかにする. こ れ ら の こ と よ り , C1~ C6 ま で は 音 楽 動 画 の 印 象 4.1 分 析 の た め の デ ー タ の 補 正 と音楽の印象,音楽動画の印象と映像の印象には,各 ま ず C1 か ら C6 の デ ー タ は , 1~ 5 の 5 段 階 で 評 価 印象軸でそれぞれ違った相関関係が存在する可能性が を 入 力 し て も ら っ て い た .一 方 Valence お よ び Arousal あ る と 考 え ら れ る .ま た ,Valence,Arousal に 関 し て は , で は -2 か ら +2 の 5 段 階 で 評 価 を 入 力 し て も ら っ て い 相関関係が見受けられないことも分かった. これは, た.分析にあたり,両者のデータの最小値と最大値を 音楽動画を適当に作成した場合では切なさ,滑稽さ, そ ろ え る た め , C1 か ら C6 の デ ー タ は 1~ 5 ま で の 数 Valence, Arousal と い っ た 印 象 を 伝 え る の が 難 し い こ 値 を , -2~ +2 ま で の 数 値 へ と 変 換 し て 分 析 に 用 い た . とを表していると考えられる. 4.2 印 象 変 化 デ ー タ セ ッ ト を 用 い た 印 象 評 価 値 の 分 析 ま た ,評 価 項 目 の う ち , 「 違 和 感 を 覚 え る 」の 項 目 で は , 違 和 感 を 覚 え る と し た 音 楽 動 画 は , 200 件 の う ち 本節では,音楽のみ,映像のみがどのように組み合 わさって音楽動画の印象になっているのかを分析する. 15 件 程 度 で あ り ,ラ ン ダ ム に 作 成 し た 音 楽 動 画 で あ っ ても違和感は少ないことも分かった. そ の 際 , 合 成 音 楽 動 画 の 印 象 評 価 値 が -0.5 以 下 の も の を 低 評 価 群 ,印 象 評 価 値 が +0.5 以 上 の も の を 高 評 価 群 として分析を行う. 分析手法としては合成音楽動画の各評価群のうち, 4.3 印 象 評 価 デ ー タ セ ッ ト を 用 い た 印 象 評 価 値 の 分 析 本節では,ランダムに生成した音楽動画と,製作者 が意図して作成した音楽動画での評価の違いを明らか 合成元の音楽,映像がどの評価群に属していたかを調 に す る た め ,我 々 の 過 去 の 研 究 [12]で 構 築 し た ,500 件 べ た .図 2~ 9 は ,縦 軸 を 映 像 の 印 象 評 価 値 ,横 軸 を 音 の音楽動画のサビ部分を音楽のみ,映像のみに分離し 楽の印象評価値とし,そこから生成された音楽動画を た も の に 対 す る 印 象 評 価 デ ー タ セ ッ ト を 用 い て ,4.1 節 評価群ごとに色別にプロットしたものを各印象で表示 と同様の補正を行ったデータで比較,分析を行った. したものである.このとき,高評価群は赤色,低評価 群 は 青 色 ,ど ち ら に も 属 さ な い も の を 緑 色 で 表 示 し た . 図 2 図 5 図 3 合成音楽動画の C1 に お け る 印 象 評 価 値 の 分 布 合成音楽動画の C2 に お け る 印 象 評 価 値 の 分 布 図 6 合成音楽動画の 合成音楽動画の 図 4 合成音楽動画の C3 に お け る 印 象 評 価 値 の 分 布 図 7 合成音楽動画の C4 に お け る 印 象 評 価 値 の 分 布 C5 に お け る 印 象 評 価 値 の 分 布 C6 に お け る 印 象 評 価 値 の 分 布 図 8 図 9 図 10 合 成 音 楽 動 画 の Valence における印象評価値の分布 合 成 音 楽 動 画 の Arousal における印象評価値の分布 オリジナル音楽動画の C3 に お け る 印 象 評 価 値 の 分 布 図 11 オリジナル音楽動画の C5 に お け る 印 象 評 価 値 の 分 布 図 12 図 13 オリジナル音楽動画の Valence に お け る 印 象 評 価 値 の分布 その結果,オリジナルの音楽動画ではすべての印象 で,音楽と映像それぞれから影響を受けている傾向が オリジナル音楽動画の Arousal に お け る 印 象 評 価 値 の分布 製作者の意図が反映されている音楽動画では音楽の印 象 ,映 像 の 印 象 で 線 形 的 な 相 関 が あ る 傾 向 が み ら れ た . み ら れ た が ,こ こ で は ,4.2 節 で 得 ら れ た 結 果 と 大 き く この 2 つの印象軸での推定においては,別の要素が 異 な る 結 果 が 出 た も の を 表 示 す る . 図 10~ 図 13 は , 関 連 し て い る 可 能 性 が 考 え ら れ る .こ れ よ り ,SVM な C3, C5, Valence, Arousal の 各 印 象 に 対 し て 先 述 の プ ど,学習を用いて重みづけを行った印象推定をする必 ロットを行ったものである. 要があると考えられる. 図 10 で は ,図 4 に 比 べ ,音 楽 の 印 象 評 価 値 が 正 の 場 本章では,実際に重回帰分析を用いて印象推定を 行 合に音楽動画の評価値が高評価群に属している件数が う.具体的な手法としては,各印象について, 過去の 多 い こ と が 分 か る .こ れ よ り ,C3 で は 製 作 者 の 意 図 が 研究で作成した印象評価データセットをもとに, 「音楽 混じったものでは音楽の印象に影響されやすいことが のみ」と「映像のみ」での印象を用いて重回帰式を作 分 か っ た . ま た , 図 11, 図 12, 図 13 で は , 図 6, 図 成する.回帰式の説明変数は表したい印象と同じ「音 8,図 9 に 比 べ ,音 楽 ,映 像 そ れ ぞ れ の 印 象 評 価 が 正 の 楽のみ」 「 映 像 の み 」の 印 象 を 用 い た .具 体 的 な 例 と し 値の場合,高評価群に属している音楽動画の件数が多 て は , あ る 合 成 音 楽 動 画 の C1 の 印 象 評 価 値 を , 合 成 い こ と が 分 か る .こ れ よ り ,C5,Valence と Arousal で 元 の 音 楽 の み で の C1 の 印 象 評 価 値 と 映 像 の み の C1 の は製作者の意図を交えた場合,音楽と映像の印象評価 印象評価値で表す.このようにして各印象で回帰式を が音楽動画の印象評価にそれぞれ同程度に影響する傾 作成した.回帰式の生成には R を使用した. 向があることが分かった. 5. 推定手法およびその評価 生成した回帰式の係数の一例を表 2 に示す. 表 2 実際に求めた回帰式の係数の一例 切片 本章では,4 章で行った分析をもとに,提案する音 楽動画の印象推定手法の検討,評価を行う. 4 章で行った分析の結果,合成音楽動画であって も , 製 作 者 の 意 図 が 反 映 さ れ て い る 場 合 で も , C1~ C6 の 印 象 軸 で は 音 楽 の 印 象 と 音 楽 動 画 の 印 象 , 映 像 の印象と音楽動画の印象は,印象軸ごとに違うが線形 的な相関がある傾向があることが分かった.ここから C1 C2 C3 C4 C5 C6 Valence Arousal 0.2570 0.3529 -0.2513 0.4904 -0.4628 0.0813 0.2284 0.3508 音楽のみの 偏回帰係数 0.5760 0.5118 0.5114 0.7353 0.3334 0.3765 0.1382 -0.0831 映像のみの 偏回帰係数 0.0458 0.2425 0.1603 0.0990 0.2711 0.4255 -0.0741 -0.0981 考えられる印象推定手法としては,回帰分析を用いた 評価値の組み合わせが考えられる. ま た ,Valence,Arousal に 関 し て は ,合 成 音 楽 動 画 で は 音 楽 ,映 像 と も に 相 関 が な い 傾 向 に あ っ た .し か し , こうして得られた重回帰式を過去の研究で得られ た 印 象 評 価 デ ー タ セ ッ ト の「 音 楽 の み 」 「 映 像 の み 」に 適用し,印象推定を行った. 評 価 の 際 に は 5-fold-cross-validation を 用 い て 行 い , Valence, Arousal で は 製 作 者 の 意 図 に よ っ て 音 楽 や 映 推 定 値 と 実 際 の 印 象 評 価 値 の 差 が 0.5 以 下 に な っ た 件 像から影響されるかどうかが変化する軸であり,適当 数の平均を表示した.こうして得られた結果を表 3 に に動画を作成する際には伝わりづらい印象であること まとめる. も分かった.また,実際に音楽動画の印象推定を行っ たところ,全体を通して十分な推定精度を 得ることが 表 3 推定値と実際の印象評価値との差が 0.5 以 下 に な っ た 件 数 C1 52.6 C2 54.8 C3 54.8 C4 49.8 C5 52.0 C6 57.0 Valence 61.0 Arousal 60.8 できなかった. 今後は,本研究で検討した印象推定手法の精度の向 上を図るために,データのアンダーサンプリングや, 各印象間での関係性を考慮して再度回帰分析を行う予 定である. 謝辞 本 研 究 の 一 部 は ,JST CREST,明 治 大 学 重 点 研 究 A, 重点研究 B の支援を受けたものである. 表 3 よ り , 推 定 値 と 実 際 の 印 象 評 価 値 と の 差 が 0.5 以下になった件数は全体を通して半数程度と, 決して 高い推定精度であるとは言えない.そこで ,説明変数 に「 音 楽 の み 」 「 映 像 の み 」の す べ て の 印 象 を 用 い て 回 帰式の生成および印象の推定を行ったが,すべての印 象で表 3 のものよりも推定精度が下がった. こ れ は , そ も そ も の デ ー タ 500 件 を す べ て 使 用 し た ため,そもそものデータに偏りがあり,回帰式がうま く作成されなかったことが原因として挙げられる.今 後は,データのアンダーサンプリングを行い,正確な 回帰式を作成することで推定精度が向上すると考えら れる. また,今回生成した重回帰式の説明変数は,各印象 そ れ ぞ れ の 音 楽 の み ,映 像 の み の 印 象 を 用 い た も の と , 音楽のみ,映像のみのすべての印象を用いたものの 2 パ タ ー ン で 行 っ た が , 我 々 の 過 去 の 研 究 [12]で 明 ら か に し た 各 印 象 の 関 係 を 考 慮 し ,説 明 変 数 を 選 ぶ こ と で , 推 定 精 度 が 向 上 す る と 考 え ら れ る .具 体 的 に は ,C1 を 推定する際に, 「 音 楽 の み 」で の C1, 「 映 像 の み 」で の C1 だ け で な く ,「 音 楽 の み 」 の C3 や 「 映 像 の み 」 の Arousal な ど を 説 明 変 数 に 加 え る こ と で ,推 定 精 度 を 上 げることができると考えられる. 6. まとめ 本研究では,音楽と映像を任意に組み合わせた 音楽 動画を作成し,それに対する評価データセットを構築 した.またそれについて,我々の過去の研究で作成し た 500 曲 の 音 楽 動 画 を メ デ ィ ア 分 離 し た も の に 対 し て の印象評価データセットを用いて分析を行い,独立し た音楽と映像からの印象推定手法の検討を行った. そ の 結 果 , C1, C2, C4 で は 音 楽 の 影 響 を 受 け や す く ,C6 で は 音 楽 ,映 像 ど ち ら か ら も 影 響 を 受 け や す い こ と を 明 ら か に す る こ と が で き た . さ ら に C3, C5, 参 考 文 献 [1] 山 本 岳 洋 , 中 村 聡 史 : 楽 曲 動 画 印 象 デ ー タ セ ッ ト の 作 成 と そ の 分 析 ,ARG 第 2 回 Web イ ン テ リ ジ ェ ン ス と イ ン タ ラ ク シ ョ ン 研 究 会 (2013) [2] 後 藤 真 孝 : SmartMusicKIOSK: サ ビ 出 し 機 能 付 き 音 楽 試 聴 機 ,情 報 処 理 学 会 論 文 誌 ,Vol.44,No.11, pp.2737-2747 (2003) [3] 大 出 訓 史 , 今 井 篤 , 安 藤 彰 男 , 谷 口 高 士 : 音 楽 聴 取 に お け る "感 動 "の 評 価 要 因 ~ 感 動 の 種 類 と 音 楽 の 感 情 価 の 関 係 ,情 報 処 理 学 会 論 文 誌 Vol. 50, No. 3, pp.1111-1121 (2009). [4] 長 谷 川 優 , 武 田 昌 一 : 好 み の 音 楽 ジ ャ ン ル に 着 目 した静止画と音楽の組み合わせに関する考察: - 個人の属性に着目した静止画と音楽に対する印 象 度 の 相 互 比 較 - ,日 本 感 性 工 学 会 論 文 誌 ,Vol.11, No.3, pp.435-442 (2012). [5] 佐 藤 淳 也 , 佐 川 雄 二 , 杉 江 昇 : 音 と 映 像 の 組 み 合 わ せ に よ る 主 観 的 印 象 の 変 化 ,映 像 情 報 メ デ ィ ア 学 会 誌 , Vol.55, No.7, pp.1053-1057 (2001). [6] 熊 本 忠 彦 , 太 田 公 子 : 印 象 に 基 づ く 楽 曲 検 索 シ ス テ ム の 設 計・構 築・公 開 ,人 工 知 能 学 会 論 文 ,Vol.21, pp.310-318 (2006). [7] Russell, James A.: A Circumplex Model of Affect , Journal of Personality and Social Psychology,39(6), pp.1161-1178(1980) [8] 舟 澤 慎 太 郎 , 北 市 健 太 郎 , 甲 藤 二 郎 : 楽 曲 推 薦 シ ステムのための楽曲波形と歌詞情報を考慮した 類似楽曲検索に関する一検討, 情報処理学会研究 報 告 オ ー デ ィ オ ビ ジ ュ ア ル 複 合 情 報 処 理 , pp.1-5 (2013). [9] 山 本 岳 洋 , 中 村 聡 史 : 視 聴 者 の 時 刻 同 期 コ メ ン ト を 用 い た 楽 曲 動 画 の 印 象 分 類 ,情 報 処 理 学 会 論 文 誌 , Vol.6, No.3, pp.66-72 (2013). [10] 熊 本 忠 彦 ,太 田 公 子 :印 象 に 基 づ く 検 索 の た め の 印 象 語 選 定 法 の 提 案 , 情 報 処 理 学 会 論 文 誌 , Vol.44, No.7, pp.1808-1811 (2003). [11] Hu, X., Bay, M. and Downie, J.: Creating a Simplified Music Mood Classification Ground -Truth Set, Proceedings of the 8th International Conference on Music Information Retrieval, pp.309 -310 (2007). [12] 大 野 直 紀 , 中 村 聡 史 , 山 本 岳 洋 , 後 藤 真 孝 : 音 楽 動画への印象評価データセット構築とその特性 の調査, 情報処理学会研究報告音楽情報科学, Vol.108, No.7, pp.1-9 (2015). [13] 土 屋 駿 貴 , 中 村 聡 史 , 山 本 岳 洋 : ソ ー シ ャ ル コ メ ントからの音楽動画印象推定に関する考察, 情報 処理学会研究報告グループウェアとネットワー ク サ ー ビ ス , Vol.96, No.3, pp1-6 (2015). [14] 佐 藤 聡 , 菊 池 幸 平 , 北 上 始 : 音 楽 デ ー タ を 対 象 と し た イ メ ー ジ 検 索 の た め の 感 情 価 の 自 動 生 成 ,情 報処理学会研究報告データベースシステム, Vol.1999, No.39, PP57-64(1999).