Comments
Description
Transcript
印象に関する検索意図を考慮したサムネイル動画自動生成手法の提案
DEIM Forum 2016 C4-5 印象に関する検索意図を考慮したサムネイル動画自動生成手法の提案 前島 紘希† 中村 聡史‡ 土屋 駿貴† 大野 直紀† †‡ 明治大学総合数理学部 〒164-8525 東京都中野区中野 4-21-1 E-mail: †{ev30658 , ev30616 , ev30508}@meiji.ac.jp ‡[email protected] あらまし 動画検索においては様々な方法が考えられるが,その一つが印象に基づく検索である.ここで,動画 検索結果のスニペットとして提示されるのはサムネイル画像とタイトル,簡単な説明文程度であり,その動画が自 身の意図に沿っているかどうかを判断するには不十分である.検索ユーザを支援するためサムネイル動画や要約動 画を生成する試みはあるが,これまでに実現されている手法は検索意図に応じたものではない.そこで本稿では, 音楽動画検索クエリ中の印象語を検索ユーザの意図として考え,印象語に応じたサムネイル動画を,ソーシャルコ メントを用いて自動生成する手法を提案する.また,自動生成されたサムネイル動画を用いた評価実験によって, 印象によってサムネイル動画を生成するのに適している手法は異なっていることを明らかにした. キーワード サムネイル, 動画, ソーシャルコメント 1. は じ め に YouTube や ニ コ ニ コ 動 画 な ど 動 画 共 有 サ イ ト が 人 気 ため,特定の印象語を用いた検索の際に利用すること ができないといった問題があった . を博すようになり,一般ユーザによって創り出される そこで本稿では,ユーザの検索クエリに印象語が含 動画の数が飛躍的に増加している .ユーザがこうした ま れ る 場 合 ,そ の 印 象 語 を ユ ー ザ の 意 図 で あ る と 考 え , 動画共有サイト上で視聴する動画を探す場合,動画ラ 印象語に応じたサムネイル動画を生成してユーザに提 ンキングから目的のものを探したり,目的の動画に該 示する手法を提案する.ここでは,動画のどのシーン 当しそうなキーワードを入力することで検索したりす がその印象語に適しているかどうかを, 動画に対して ることが一般的である. 投稿されているソーシャルコメントから 判断する.そ こ の 動 画 共 有 サ イ ト 上 で の 動 画 の 検 索 で は ,「 初 音 ミ ク 」や「 VOCALOID」, 「 JAZZ」な ど の 固 有 名 詞 を 用 して動画の各シーンにおける印象を推定し,その印象 度合いに応じてシーンの切り出しを行う. いるだけでなく, 「かわいい」 「壮大な」 「 泣 け る 」な ど 我々の手法によりユーザは検索結果が自分の求め の印象に基づく検索が行われることも少なくない.実 ていた動画か,それとも自分が探 していたものと違う 際に,ニコニコ動画などでは「泣ける動画」や「涙腺 ものなのかという判断がしやすくなり,動画を 最初か 崩壊」のように動画に印象タグをつける試みが多々行 ら最後まで視聴するか否かを判断する指標になるので わ れ て お り ,機 能 し て い る .し か し ,山 本 の 調 査 [10]に はないかと期待される. あるように,そのタグは十分に付与されているわけで はない.また,印象語を付与した検索を行った場合に 2. 関 連 研 究 出 て く る 検 索 結 果 の 数 は 多 く ( 例 え ば 2016 年 2 月 時 ダイジェスト動画の生成に着目した研究は多数行 点 で ,ニ コ ニ コ 動 画 で「 初 音 ミ ク き れ い 」で 検 索 す る わ れ て い る .石 黒 ら の 研 究 [1]で は ,ド ラ マ や ア ニ メ の と お よ そ 1000 件 の 動 画 が 検 索 の 候 補 と し て で て く る ), 次回予告のセリフを利用したダイジェスト 動画生成を どれが求めている動画なのかを選別することは容易で 行っている.しかし,この手法は,次回予告が必須と はない.特に動画の検索においては,ユーザは視聴対 なっているため,動画共有サイト上の動画 へ利用する 象とする動画をタイトルや動画の説明文などのテキス ことはできない. ト情報やサムネイル画像を見て選ぶことが一般的であ 小 川 ら の 研 究 [2]で は ,ニ コ ニ コ 動 画 に お け る ソ ー シ り,テキスト情報や画像といった動きのない情報から ャルコメントが多い箇所を判定し,その箇所のみを再 その動画がどのようなものであるかを判断することは 生するといったダイジェストの疑似生成を行っている. 困難である. しかし,単純にコメントが多いからといってその部分 そうした問題を解決するため,中村らは音楽動画の が重要なシーンであるとは限らず,またユーザの 検索 サビの部分と,ニコニコ動画において動画につけられ 意図に応じたダイジェストの生成はできない.なお, たコメントの量やコメントに込められた感情に注目し ソーシャルコメントが少ない動画の際にダイジェスト てサムネイル動画を抽出するといった手法を提案して 再生がされないことが問題点として挙げられている が, き た [4].し か し ,こ の 手 法 で は コ メ ン ト に 含 ま れ て い これについては我々の研究も同様の問題を抱えている る感情の種類をひとくくりにしてしまっている .その と言える. 磯 貝 ら の 研 究 [3]で は ,笑 い の 意 味 を 含 ん だ コ メ ン ト 動画のシーン毎の印象推定を行うには,その動画内 である「w」を利用し,おもしろい動画を探している で視聴者の受ける印象がどのように変化し ていったの 人向けのダイジェスト動画の作成アルゴリズムの手法 かという情報が必要となる.ここでソーシャルコメン を 提 案 し て い る .し か し ,こ の 研 究 で は「 お も し ろ い 」 トが存在する動画に対する印象評価データセットとし という印象にしか焦点を当てておらず,多種多様な印 ては,我々がこれまでに構築した 動画全体に対する印 象 語 に 対 応 で き て い な い .ま た , 「 w」が 使 わ れ て い る 象 評 価 デ ー タ セ ッ ト [9]と ,動 画 の サ ビ 部 分( 30 秒 )の としても必ずしも面白いとは限らない. 音楽のみ,映像のみ,音楽と映像の組み合わせに対す 中 村 ら の 研 究 [4]で は ,音 楽 動 画 の サ ビ 検 出 技 術 ,感 る 印 象 評 価 デ ー タ セ ッ ト [7]が 存 在 す る .シ ー ン 毎 の 印 情コメントの数を利用した視聴者の盛り上がり検出技 象推定においては,両データセットともに最適とは言 術 ま た は そ の 両 方 を 用 い て 15 秒 の サ ム ネ イ ル 動 画 の い が た い が , 動 画 の 30 秒 に 対 す る 印 象 推 定 が 可 能 に 生成を行っている.しかし,この提案手法では感情コ なれば,シーン毎の印象推定もある程度可能になると メントの種類には着目しておらず,動画検索の際には 考えられる.そこで,本稿ではまず我々がこれまで構 視聴者の検索意図を考慮することが出来ない. 築 し た 30 秒 の 動 画 に 対 す る [7]に お い て 構 築 し た 印 象 ウェブ上の動画を対象としているわけではないが, Miyamori ら の 研 究 [11]で は , テ レ ビ 番 組 を 見 な が ら チ 評 価 デ ー タ セ ッ ト を 利 用 し , そ の 30 秒 分 の 印 象 推 定 の可能性を検討する. ャットをしている人の情報を利用し,テレビ番組のシ なお,本来は考えうるすべての印象に対応するよう ーンのインデックス化およびビューを生成する手法を な分析を行う必要があるが,本稿では研究の第一段階 提案している.この研究はチャットというテキスト情 ということで,後述する印象評価データセットで用い 報を扱っており,我々のソーシャルコメントを用いて られている 8 つの印象軸についてのみ取り組む. いる点と類似しているが,シーン検索かサムネイル動 画の生成かという用途が大きく異なっている. 3.2. 印 象 評 価 デ ー タ セ ッ ト 高 見 ら の 研 究 [5]で は ,ウ ェ ブ 検 索 の 検 索 意 図 に 応 じ 本稿で用いる印象評価データセットは,音楽動画の て検索結果のスニペットを再構築する 手法を提案して サ ビ 部 分 (RefraiD[8]に よ っ て 推 定 さ れ た サ ビ 開 始 の 5 いる.この研究は我々のクエリに応じて動画サムネイ 秒 前 か ら 30 秒 間 )の み を 対 象 と し て , 8 軸 の 印 象 評 価 ルを生成するという点と類似しているがサムネイル動 を 3 人以上が行ったものである.データセットで用い 画に着目した研究でないうえ,対象とするメディアが られている 8 つの印象軸を表 1 に記す.表中の「印象 異なるためアプローチも大きく異なっている. ク ラ ス 名 」は ,[7]お よ び [9]に お い て 便 宜 上 付 与 さ れ て ソーシャルコメントと印象の関係性を明らかにす いる印象を表すラベル名である. る 研 究 も い く つ か な さ れ て い る .土 屋 ら の 研 究 [6]で は , 下記で説明する印象評価データセットを用いてソーシ ャルコメントから音楽動画のメディアタイプ(映像, 音楽,映像と音楽)に対する印象を推定する実験を行 っている.本稿では,動画に対する印象によるソーシ ャルコメント内に出現する単語の違いを調べ,それら 表 1 C1(堂 々 ) C2(元 気 が 出 る ) C3(切 な い ) を利用し印象ごとのサムネイル動画の自動生成手法に ついて検討していくものである. C4(激 し い ) 3. 印 象 評 価 デ ー タ セ ッ ト に 基 づ く 分 析 C5(滑 稽 ) 3.1. シ ー ン 毎 の 印 象 推 定 の 方 針 本稿で目的としている動画の印象に基づくサムネ イル動画自動生成を実現するためには,動画のシーン 毎の印象を推定する必要がある.動画のシーン毎の印 C6(か わ い い ) Valence 象推定においては,音響的な特徴量を使うことや,映 像の視覚的な特徴量を使うことも考えられるが,本稿 ではユーザの検索意図に沿ったサムネイル動画自動生 Arousal 8 つの印象軸 堂々とした,どっしりとした, 心踊る,賑やかな 元 気 が 出 る ,陽 気 な ,心 地 よ い , 楽しい気持ちにさせる 切ない,悲痛な,ほろ苦い, 気が滅入る,哀愁の アグレッシブな,激しい, 興奮させる,感情的な, 感情あらわな 滑稽な,ユーモラスな, おもしろげな,奇抜な, いたずらっぽい 可愛らしい,愛くるしげ, 愛おしい,かわいい 明るい気持ちになる,楽しい, 暗い気持ちになる,悲しい 激しい,積極的な,強気な, 穏やか,消極的な,弱気な 成研究の第一段階として,動画の再生時間に対するソ ーシャルコメントを用いて,動画のシーン毎の印象推 定を行う. 評価対象となっている音楽動画は,動画共有サイト であるニコニコ動画上に投稿された音楽動画のうち, 2012 年 8 月 時 点 で「 VOCALOID」と い う タ グ が 付 与 さ れ て い た , 再 生 数 が 多 い 上 位 500 個 を 抽 出 し た も の と なっている. 本 稿 で は ,こ の 印 象 評 価 値 の 3 人 分 の 平 均 を 計 算 し , それぞれの印象軸に対する評価値とする.なお,印象 評 価 デ ー タ セ ッ ト で は , C1 か ら C6 に つ い て は 1( 全 く そ う 思 わ な い )~ 5( と て も そ う 思 う ),Valence に 対 し て は -2( 暗 い 気 持 ち に な る , 悲 し い ) ~ +2( 明 る い 気 持 ち に な る , 楽 し い ), Arousal に 対 し て は -2( 穏 や か , 消 極 的 な , 弱 気 な ) ~ +2( 激 し い , 積 極 的 な , 強 表 2 DF 値 の 差 が 「 0.2 以 上 」 の 8 つの印象軸の特徴的な単語 C1( 堂 々 ) か わ い い , www C2( 元 気 が 出 る ) か わ い い , www C3( 切 な い ) かっこいい,綺麗 C4( 激 し い ) かっこいい,声 C5( 滑 稽 ) www, 中 毒 C6( か わ い い ) かわいい,萌え Valence かっこいい,サビ Arousal かわいい 気 な )の 各 5 段 階 評 価 を さ れ て い た .そ こ で ,C1 か ら C6 に 対 す る 評 価 に つ い て は ,Valence-Arousal と 比 較 し C6( か わ い い )に「 か わ い い 」と い う 単 語 が 頻 出 し や す く す る た め ,1~ 5 の 評 価 値 を 単 純 に -3 す る こ と に て い る の は 問 題 な い が ,C1( 堂 々 ),C2( 元 気 が 出 る ), よ っ て -2~ +2 に 変 換 し た . Arousal( 積 極 的 )な ど に お い て も「 か わ い い 」と い う 3.3. 分 析 方 法 単 語 が 出 て き て し ま っ て い る .ま た , 「 か わ い い 」と い 各印象でどのようなコメントが付与されているか う 単 語 は , C6 の 評 価 値 が -1 以 下 の も の に も そ れ な り を 明 ら か に す る た め に ,[7]に お い て 構 築 し た 印 象 評 価 の頻度で登場していた.そこで実際に, 動画に投稿さ デ ー タ セ ッ ト に 該 当 す る 500 個 の 音 楽 動 画 の サ ビ 部 分 れているコメントを調査してみたところ,動画のお約 ( 30 秒 間 ) に 対 し て 付 与 さ れ た コ メ ン ト を 収 集 し た . 束 と し て の「 か わ い い 」,単 純 に 初 音 ミ ク を 利 用 し て い こ こ で 収 集 さ れ た コ メ ン ト の 総 数 は 4,780,872 件 で あ る か ら「 か わ い い 」な ど の よ う に , 「 か わ い い 」と い う った.また,明確な印象の差による分析を行うため, 言葉が音楽動画自体の印象とは別のものとして利用さ 8 つの印象軸に対してそれぞれ評価値が 1 以上の動画 れていたため今回のような結果になったと考えられる. 集 合 と -1 以 下 の 動 画 集 合 を 作 成 し た( そ れ ぞ れ Positive つまり,単純に「かわいい」という言葉を利用するだ 集 合 , Negative 集 合 と す る ). けでは,本来の「かわいい」シーンを抽出することは 例 と し て C1 と い う 印 象 軸 に つ い て 考 え る と ,C1 の 評 価 値 が 1 以 上 の 動 画 集 合 と 評 価 値 が -1 以 下 の 動 画 集 困難であると考えられる. 一 方 , C3, C4, Valence の 3 軸 に お い て 「 か っ こ い 合 を 作 成 す る .こ の 操 作 を 8 つ の 印 象 軸 に 対 し て 行 う . い 」と い う 単 語 が 頻 出 し て い る .C4( 激 し い )に お い そ の 後 , Positive 集 合 と Negative 集 合 の そ れ ぞ れ に つ ては「かっこいい」という単語が頻出語として出てく い て す べ て の 単 語 の DF 値( こ こ で DF 値 と は ,動 画 を る の は 問 題 な い が ,C3( 切 な い )や Valence( 楽 し い ) 1 つのドキュメントとして捉え,その動画に 該当する などにおいても「かっこいい」という単語が出てきて 単語がコメントの一部として投稿されているかで算出) し ま っ て い る .そ こ で , 「 か っ こ い い 」と い う コ メ ン ト を計算する.なお,単語については形態素解析を行う がどのように利用されているかを 調査してみたところ, た め ,Mecab を 用 い た .最 後 に Positive 集 合 と Negative 鏡音レンなどのキャラクターの見た目に対しての「か 集 合 の DF 値 の 差 を と り , そ の 差 の 大 き さ に よ っ て ど っ こ い い 」,楽 曲 の ス ト ー リ ー 中 の キ ャ ラ ク タ ー の 性 格 のような単語が出現しやすいかの分析を行った.その に 対 し て の「 か っ こ い い 」な ど の よ う に , 「かっこいい」 際 ,DF 値 の 差 を「 0.2 以 上 」と「 0.1 以 上 0.2 未 満 」の という言葉が音楽動画自体の印象とは別のものとして 2 種類に分けて出現する単語の種類の確認 を行った. 利 用 さ れ て い た .つ ま り , 「 か わ い い 」同 様 ,単 純 に「 か っ こ い い 」と い う 言 葉 を 利 用 す る だ け で は ,本 来 の「 か 3.4. 分 析 結 果 分 析 結 果 は 表 2,表 3 の 通 り で あ る .表 2 は ,Positive 集 合 と Negative 集 合 に お け る DF 値 の 差 が 「 0.2 以 上 」 っこいい」シーンを抽出することは困難であると考え られる. こ こ で ,C3 に 現 れ た「 か っ こ い い 」と い う 単 語 の DF の も の を ピ ッ ク ア ッ プ し た も の , 表 3 は DF 値 の 差 が 値 の 差 が C4 や Valence に 現 れ た「 か っ こ い い 」と い う 「 0.1 以 上 0.2 未 満 」の も の を ピ ッ ク ア ッ プ し た も の で 単 語 の DF 値 の 差 よ り も 値 が 低 く な っ て い た .こ れ は , ある. C3 の「 か っ こ い い 」は C4 や Valence の「 か っ こ い い 」 表 2 の 結 果 よ り , C1, C2, C6, Arousal の 4 軸 で は よりも印象として弱いものとなっているのではないか 「 か わ い い 」 と い う 単 語 が , C3, C4, Valence の 3 軸 と 考 え ら れ る .さ ら に ,C3 以 外 の 印 象 で は「 か わ い い 」, で は「 か っ こ い い 」と い う 単 語 が ,C5 で は「 www」と 「 か っ こ い い 」, 「 www」と い っ た 単 語 の 別 の 表 現 も DF いう単語が多く表れていることが分かる. 値 の 差 が「 0.2 以 上 」の 特 徴 的 な 単 語 と し て 多 く 出 現 し て い る の に 対 し て ,C3 は「 か っ こ い い 」以 外 の 表 現 に は様々な使われ方があるが,これらの「かわいい」に つ い て は ,DF 値 の 差 が 0.2 以 上 に な っ て い る も の が な 含まれているイメージがほぼ同じになっているという か っ た . こ れ か ら 表 記 の 違 い に よ っ て DF 値 の 差 が 低 ことが原因であると考えられる. くなっているのではないことが分かる.このことから 一方, 「 か っ こ い い 」と い う 単 語 が 頻 出 語 と し て 出 て も C3 の 「 か っ こ い い 」 と い う 印 象 が C4 や Valence の き た C3, C4, Valence の 間 に は , 印 象 ご と に 使 用 さ れ 「かっこいい」よりも印象として弱くなっていること ている単語に違いが出てきていることが分かる.例え が考えられる. ば , C3 で は 「 調 教 」 や 「 声 」 と い っ た VOCALOID の C5( 滑 稽 な )の み「 www」と い う 単 語 が 特 に 頻 出 し ボーカルに関する単語と, 「 綺 麗 」や「 イ ケ レ ン 」と い ており,この印象軸がほかの印象軸とは特にかけ離れ っ た 映 像 に 関 す る 単 語 が 出 て き て い る .ま た ,C4 で は , た 固 有 の 特 徴 を 持 っ て い る こ と が 分 か っ た .C5 の 印 象 「ギター」や「ベース」といった楽器の名前が多くあ 軸 の み が 固 有 の 特 徴 を 持 っ た 理 由 と し て は ,「 面 白 い 」 ることからバンド調の音楽動画が多いことが考えられ と い う 意 味 の 表 現 の ネ ッ ト ス ラ ン グ は「 www」と い う る .Valence で は「 www」 や「 中 毒 」と い っ た C5 に 多 表現以外ほぼ使われていないためであると考えられる. く 出 現 し て い た コ メ ン ト が 出 現 し て い る が ,こ れ は C3, C4 に な い 特 徴 で あ り ,「 か っ こ い い 」 と い う 印 象 に 加 表 3 DF 値 の 差 が 「 0.1 以 上 0.2 未 満 」 の 8 つの印象軸の特徴的な単語 最 高 ,イ ラ ス ト ,今 ,ア ニ メ ,萌 え , 明 日 , 嫁 , love, 元 気 , 愛 , 歳 ,調 教 ,胸 ,頭 ,投 稿 ,神 ,幸 せ ,楽 し い ,大 好 き ,リ ン ,天 使 , 絶 対 ,友 達 ,流 れ ,誕 生 ,ミ リ オ ン,爽やか,再生,本家,結婚, カ ラ オ ケ ,一 番 ,夏 ,行 く ,高 い , おめでとう,レン C2(元 気 が 出 る ) 萌え,爽やか,歌,絵,アニメ, 普 通 ,嫁 ,love,サ ビ ,胸 ,投 稿 , 元気,天使,ミク,誕生,弾幕, 明 日 ,幸 せ ,夏 ,画 質 ,青 春 ,人 気,恋,今日,歳 C3(切 な い ) 鳥 肌 ,調 教 ,声 ,イ ケ レ ン ,人 間 C4(激 し い ) リ ン ,ギ タ ー ,希 望 ,鳥 肌 ,カ ラ オ ケ ,サ ビ ,最 高 ,イ ラ ス ト ,評 価 ,伸 び ろ ,大 好 き ,苦 手 ,ベ ー ス C5(滑 稽 ) 面 白 い ,意 味 ,性 ,か わ い い ,嫌 , 楽 し い ,セ ン ス ,シ ュ ー ル ,お め で と う ,人 ,癖 ,怖 い ,動 く ,ひ ど い ,市 場 ,カ オ ス ,不 思 議 ,頭 , 子 C6(か わ い い ) 俺 ,歌 ,www,ア ニ メ ,弾 幕 ,爽 や か ,ミ ク ,嫁 ,画 質 ,絵 ,普 通 , 職 人 ,目 ,泣 け る ,誕 生 ,恋 ,色 Valence www,ギ タ ー ,リ ン ,PV,中 毒 , 絵,神,服,理解,流石,配信, 動画,相変わらず Arousal www,萌 え ,元 気 ,爽 や か ,ア ニ メ,普通,ミク C1(堂 々 ) 表 3 は , 表 2 と 異 な り DF 値 の 差 が「 0.1 以 上 0.2 未 満」の特徴的な単語についてまとめたものである. 「 か わ い い 」と い う 単 語 が 頻 出 語 と し て 出 て き た C1, C2,C6,Arousal の 間 に は「 爽 や か 」 「ミク」 「 嫁 」な ど のように重複している部分が多く,あまり違いがない ことが分かる.これは上述したように「かわいい」に えて「面白い」という印象も一緒に持っている 音楽動 画が多いことが考えられる. 「 www」 と い う コ メ ン ト が 頻 出 し て い た C5 に つ い て は 「 シ ュ ー ル 」 や 「 カ オ ス 」,「 不 思 議 」 と い っ た よ うなほかの印象にほとんど出現していない単語が数多 く 使 用 さ れ て い る . こ の こ と か ら も C5 の 印 象 軸 が 固 有の特徴を持っていることが分かる. ま た 文 書 内 で 出 現 す る 頻 度 を 表 す TF 値 ( こ こ で は ある動画に対して投稿されたコメント集合に含まれる 単 語 の 比 率 )に よ る 閾 値 を 利 用 し た 分 析 も 行 っ た .TF 値 が 0.01 以 上 か つ DF 値 が 0.1 以 上 と な っ た 単 語 を ピ ックアップしたものを表 4 にまとめる. 表 4 TF 値 0.01 以 上 か つ DF 値 0.1 以 上 の 8 つの印象軸の特徴的な単語 C1(堂 々 ) C2(元 気 が 出 る ) C3(切 な い ) C4(激 し い ) C5(滑 稽 ) C6(か わ い い ) Valence Arousal か わ い い , 絵 , www か わ い い , 絵 , 歌 , www か っ こ い い ,声 ,調 教 ,神 ,綺 麗 , す ご い ,曲 ,素 敵 ,絵 ,歌 ,レ ン , 鳥肌 かっこいい,最高,声,やばい, リン,サビ,大好き,鳥肌 www, か わ い い , 中 毒 かわいい,ミク,絵,歌 か っ こ い い , www, サ ビ , 最 高 , リン,ルカ,絵,やばい か わ い い , www 表 2 と表 4 を比較すると表 2 にある単語はどれも表 4 に 出 て き て お り , DF 値 「 0.2 以 上 」 の 単 語 は そ も そ も TF 値 が 高 い こ と が 分 か る . ま た , 表 3 と 表 4 を 比 較してみると, 「 か わ い い 」が 頻 出 語 と し て 出 て き た C1, C2, C6, Arousal に つ い て は ど れ も 出 現 す る 単 語 の 種 類 が 激 減 し て い る こ と が 分 か っ た .ま た , 「かっこいい」 が 頻 出 語 と し て 出 現 し て い る C3, C4, Valence で は そ れ ぞ れ に 特 徴 が 出 て い た .C3 は「 神 」 「曲」 「 素 敵 」の ように表 3 で表れていた単語ではない単語もいくつか これにより,8 つの印象軸のそれぞれに対して印象が 出 て い た . C4 に 関 し て は , 表 3 で は 「 ギ タ ー 」「 ベ ー より表れている動画のみに対してサムネイル動画を生 ス」といった楽器に関する単語が特徴的な単語となっ 成している. て い た が ,TF 値 を 利 用 し た 表 4 で は 出 現 し な く な っ て 一方,トリグラムを用いた手法では,まず,すべて い る . Valence で は 表 3 と 表 4 で 出 現 す る 単 語 が 大 き のコメントを 3 文字ずつに区切る.その中で印象軸ご く変わっている. 「 www」が 頻 出 語 と し て 出 現 し て い る とに出現頻度が高い 3 文字の塊を収集する.その後, C5 に つ い て は 表 3 で 出 現 し て い た 単 語 は 「 か わ い い 」 形態素解析を用いた手法と同様に,印象軸ごとに収集 しか残っておらず,繰り返し用いられる単語はほとん された 3 文字の塊を含むコメントを抽出し,コメント ど存在しないということが分かった. さ れ た 時 間 で 並 べ , 一 番 コ メ ン ト が 多 か っ た 15 秒 を 以上のことより,特に頻出する語句である程度の印 抽出する.さらに抽出したすべてのコメントの中で収 象カテゴリを推定し,それ以外に出てくる語でその中 集された 3 文字の塊が含まれるコメントの割合を計算 でもどのような印象に分類されるのかということを推 し , 0.2 と い う 閾 値 を 超 え て い た 場 合 の み サ ム ネ イ ル 定する方法が考えられる. 動画として抽出するといった手法を用いている. 4. 検 索 意 図 に 応 じ た サ ム ネ イ ル 動 画 生 成 5. 評 価 実 験 本稿では,ユーザの検索意図は検索クエリに埋め込 提案する印象に基づくサムネイル動画自動生成手 まれた印象語に特にあらわれると考え(固有名詞やジ 法の有用性を検証するため,ユーザベースでの評価実 ャンルなどの名詞は最低限の絞り込みのための語とし 験を行った. て 考 え る ),サ ム ネ イ ル 動 画 自 動 生 成 に お い て は そ の 印 5.1. 実 験 方 法 象語に対応した該当部分を切り出して利用する.ここ 実験ではまず,形態素解析およびトリグラムによる で印象語については,表 1 に示す印象軸で説明されて 2 手 法 を 用 い , 8 つ の 印 象 値 が 高 い も の に つ い て , 3.2 いる語句のみとした.なお,サムネイル動画の長さに 節 の 印 象 評 価 デ ー タ セ ッ ト で 用 い た 500 個 の 動 画 に 対 つ い て は , 一 般 的 な テ レ ビ CM と 同 じ 15 秒 に 設 定 し してサムネイル動画を生成した.この生成されたサム た. ネ イ ル 動 画 に つ い て ,8 つ の 印 象 ,2 つ の 生 成 手 法 の そ システムは,まずユーザの入力したクエリに応じて れぞれに対して 5 個ずつランダムに提示した. 動画集合を限定する.次に,印象語がクエリに含まれ 評 価 者 に は ,提 示 さ れ る サ ム ネ イ ル 動 画 に 対 し ,8 つ ている場合に,表 1 を元にした辞書を用いてユーザが の 印 象 軸 す べ て に つ い て -2~ +2 の 5 段 階 で 評 価 し て も どの印象軸を求めているかを判定する.また,その印 らった.すべての印象について評価してもらった理由 象 語 に 最 も 適 切 で あ る 15 秒 を 抽 出 し , ユ ー ザ に サ ム は,その提示されている印象に影響を受けないように ネイル動画として検索結果とともに提示するものとな す る た め で あ る .な お ,評 価 者 は 20 代 の 男 子 大 学 生 4 っている. 名である. なお,毎回上記の計算を行うのは無駄であるため, 5.2. 実 験 結 果 事前に用意した 8 つの印象軸についてそれぞれの動画 評価者による印象評価値が,目的とする印象をどの で 適 し て い る 15 秒 を 計 算 し , デ ー タ ベ ー ス に 格 納 し 程度推定できていたのかの平均をまとめたものが表 5 ておき,そのデータベースから呼び出すことでサムネ である. イル動画をユーザに返す. 今回,サムネイル動画の生成においては,先述の形 形 態 素 解 析 を 用 い た 手 法 で は C6 が 高 い 値 を 示 し て おり形態素解析が効果的に働いていることがわかるが, 態素解析を用いた手法に加え,ニコニコ動画上のコメ ほかの軸に関してはあまり高い値が得られなかった. ントが形態素解析に適していない 可能性を考慮してト 一 方 , Valence, Arousal に つ い て は 評 価 値 が 0 を 下 回 リグラムを用いた手法を用意した. っておりうまくいっていないことがわかる. 形 態 素 解 析 を 用 い た 手 法 で は , ま ず 表 2, 表 3 に あ ト リ グ ラ ム を 用 い た 手 法 で は , C1, C2 , C4, C5, る単語が入っているコメントを抽出し,それらをコメ Valence が 高 い 値 を 示 し た 一 方 で ,C3,C6,Arousal は ントが行われた時間軸で並べる.その後,一番コメン 評価値が 0 を下回っていた. ト の 量 が 多 か っ た ,連 続 し た 15 秒 を 抽 出 す る .さ ら に 次に形態素解析を用いた手法とトリグラムを用い 抽 出 し た 15 秒 内 の す べ て の コ メ ン ト の 中 で の 表 2,表 た 手 法 を 比 べ る と ,C3,Arousal 以 外 の 軸 で 形 態 素 解 析 3 にある単語が含まれるコメントの割合を計算し,そ とトリグラムで評価値に大きな差があることが分かる. の 値 が 0.25 と い う 閾 値 を 超 え て い た 場 合 の み サ ム ネ そ の 中 で も C6 や Valence の よ う に ど ち ら か の 手 法 で イル動画として抽出するといった手法を用いている . は 0 を超える評価,もう片方の手法では 0 を下回る評 表 5 形態素解析,トリグラムのそれぞれの手法 で生成されたサムネイル動画の評価 C1 C2 C3 C4 C5 C6 Valence Arousal 堂々 元気が出る 切ない 激しい 滑稽 かわいい 楽しい 積極的 平均 形態素解析 0.10 0.05 0.05 0.25 0 0.80 -0.35 -0.15 0.09 トリグラム 0.60 0.50 -0.25 0.80 0.55 -0.70 0.40 -0.10 0.23 価となった軸があり,これらの軸については 0 を超え わゆい」といったような表記が混ざってしまい抽出の る手法が特にサムネイル動画の抽出に適した手法であ 箇所がぶれてしまったということが考えられる. る考えられる. Arousal に 関 し て は C6 の 軸 と 同 じ 理 由 に 加 え て ,頻 出 していた単語がトリグラムで抽出した際にほとんど現 5.3. 考 察 れなくなっていたことが原因と考えられる. 形 態 素 解 析 を 用 い た 手 法 に お い て , C1 , C2 , C6 , 形態素解析を用いた手法とトリグラムを用いた手 Arousal の 4 軸 で「 か わ い い 」と い う 単 語 が 頻 出 し て い 法の比較から,それぞれの軸でサムネイル動画の生成 た に も 関 わ ら ず C6 で の み 値 が 高 く な っ て い た . こ の に適している手法が違っているため,ユーザの求める 理 由 と し て は「 か わ い い 」と い う 単 語 が そ も そ も C6 の 印象に応じて切り替えることが重要であると考えられ 印 象 軸 を 表 す 語 と し て 用 い ら れ て い る た め に C1,C2, る. Arousal の 3 軸 よ り も 印 象 が コ メ ン ト に 出 て き や す い からであると考えられる. 形 態 素 解 析 に よ る 手 法 で Valence, Arousal の 評 価 値 今回の実験で抽出したサムネイル動画のうち,同一 の動画内で複数の印象軸でもサムネイル動画がうまく 生 成 で き た 例 が 多 数 あ っ た . こ こ で は , C1, C2, C6, が 0 を下回っていた理由としては,頻出語が印象に与 Arousal か ら な る「 か わ い い 」が 特 徴 的 な グ ル ー プ ,C3, え る 影 響 が 少 な い と い う こ と が 考 え ら れ る .Valence に C4,Valence か ら な る「 か っ こ い い 」が 特 徴 的 な グ ル ー ついては, 「 PV」 「 理 解 」と い っ た よ う に ど の 印 象 に も プ , C5 か ら な る 「 www」 が 頻 出 す る グ ル ー プ の う ち , 影響を与えることがなさそうな単語が多く出現してお 異なるグループに属する軸に対して抽出する場合にう り ,Arousal に つ い て は , 「萌え」 「 元 気 」と い っ た よ う ま く 抽 出 で き て い る こ と が 多 か っ た( 例 え ば C1 と C5 な「激しい」とは少し違う印象を与えるような語が多 に つ い て は う ま く 抽 出 で き る こ と が 多 く , C1 と C6 に く出現していた.これらの語が多い箇所がサムネイル つ い て は う ま く 抽 出 で き る こ と が 少 な い ).こ の 理 由 と 動画抽出の箇所に選ばれてしまったために評価値が低 しては, 「かわいい」 「かっこいい」 「 www」の 3 つ の 単 くなってしまったのではないかと考えられる. 語は印象の方向性が全く違うものであるということが ト リ グ ラ ム を 用 い た 手 法 に お い て は , C1, C2, C4, 考えられる.同一の動画内で印象が大きく変化するも C5, Valence が 高 評 価 と な っ て い た . こ の 理 由 と し て の で は「 か わ い い 」と コ メ ン ト さ れ る 箇 所 , 「かっこい は ,C1,C2 の 軸 で は ,頻 出 す る 単 語 が 1 文 字 や 2 文 字 い 」と コ メ ン ト さ れ る 箇 所 , 「 www」と コ メ ン ト さ れ る の も の が 多 く ,同 じ「 か わ い い 」が 頻 出 し て い た C6 や 箇所がはっきりと分かれていることが多いため ,印象 Arousal よ り も 頻 出 す る 単 語 が 表 れ や す か っ た こ と が に適した箇所がそれぞれの軸で生成できたのではない 考 え ら れ る .C4,Valence に 関 し て は「 か っ こ い い 」と かと考えられる. い う 単 語 の 一 部 が 多 く 出 現 し て お り , ま た C4 に 関 し 一方,著者の主観では動画内から 他にサムネイル動 ては「ロック」という音楽のジャンルに関する 語が, 画として適している箇所があるにもかかわらず,適し Valence に 関 し て は「 www」と い う 語 が 多 く 出 現 し て お ていない箇所を抽出してしまっている例もあり,これ り,この部分が抽出され高い評価が出たのではないか は C5( 滑 稽 )の 軸 で の 抽 出 が 大 半 で あ っ た .こ の 理 由 と 考 え ら れ る .C5 に 関 し て は「 www」と い う 語 が ほ か としては, 「 www」と い う 語 が 関 係 の な い コ メ ン ト の 後 に比べ圧倒的に多く抽出されており, 「 滑 稽 」と い う 印 ろにとりあえず付与するという感覚で用いられること 象とあっていたためにうまく抽出できたと考えられる. が原因として考えられる.特に動画の序盤には「うぽ 一 方 ,C3,C6,Arousal が 低 評 価 と な っ て い た が ,こ の つ」といったような,どの動画にも同じように用いら 理由としては,トリグラムにおいてこのような 3 文字 れる決まり文句のようなコメントがあり,そのような の塊がうまく抽出されておらず ,印象にあった箇所が コ メ ン ト に「 www」と い う コ メ ン ト が 用 い ら れ て し ま うまく抽出されなかったのではないかと考えられる. うことで本来抽出すべき箇所が抽出できなくなってい C6 に 関 し て は ,「 か わ い い 」 と い う 単 語 の 表 記 の 方 法 る と 考 え ら れ る .ま た ,C5 の 印 象 に あ っ て い る 箇 所 に と し て 平 仮 名 や カ タ カ ナ ,漢 字 な ど と い っ た 違 い や「 か 付 与 さ れ る コ メ ン ト は「 www」と い う 語 が 単 体 で 用 い ら れ て い る こ と が 多 か っ た た め ,こ の 問 題 に つ い て は , わせによって印象の絞り込みが行えると考えられるの 「 www」と い う 語 の み で 形 成 さ れ て い る コ メ ン ト の み で今後調査する必要がある. を用いることで解決できるのではないかと考えられる. 今 回 ,サ ム ネ イ ル 動 画 の 長 さ を 15 秒 と 設 定 し た が , 必 ず し も 15 秒 提 示 す る 必 要 は 無 く , こ の 15 秒 と い う 6. ま と め 時間をさらに短くすることで内容がより伝わりやすく 本 稿 で は , 500 個 の 動 画 に 対 す る 8 軸 の 印 象 評 価 か なる動画の存在も考えられる.そのような動画の調査 らなる印象評価データセットを用い,それぞれの印象 と,サムネイル動画の長さを固定の長さではなく可変 に 対 し て 頻 出 す る 単 語 の 分 析 を 行 っ た .そ の 結 果 ,C1, の長さにする手法の考案についても今後行っていく必 C2,C6,Arousal か ら な る「 か わ い い 」が 頻 出 す る グ ル 要がある. ー プ ,C3,C4,Valence か ら な る「 か っ こ い い 」が 頻 出 す る グ ル ー プ ,C5 か ら な る「 www」が 頻 出 す る グ ル ー プの 3 つのグループに大きく分けられることが分かっ 謝辞 本 研 究 の 一 部 は JST, CREST, 明 治 大 学 重 点 研 究 A, 重 点 研 究 B の 支 援 を 受 け た も の で あ る . た . ま た , C1, C2, C6, Arousal の 4 軸 に つ い て は 出 現 す る 単 語 に は あ ま り 違 い が 見 ら れ な か っ た が , C3, C4, Valence の 3 軸 に つ い て は 違 い が 見 ら れ た . こ の ことから,特に頻出する単語を用いてある程度の印象 推定を行い,それ以外に出てくる語でさらに印象を絞 り込んでいくことの重要性が示唆された.さらに,形 態素解析を用いた手法とトリグラムを用いた手法の 2 種類のサムネイル動画の生成手法を提案し,評価実験 を 実 施 し た .そ の 結 果 ,C3,Arousal で は ど ち ら の 手 法 でも印象にあったサムネイル動画は生成できなかった が C6 は 形 態 素 解 析 ,C1,C2,C4,C5,Valence は ト リ グラムの手法で生成したサムネイル動画が ユーザの求 める印象に近い箇所を抽出することが出来ていること が分かった. 今後の課題としては,まず今回の評価実験では各印 象軸についてそれぞれ 5 個の動画しか評価してもらっ ておらず,さらに評価者も 4 人と少ない.また,形態 素 解 析 に つ い て は C1,C2,C3,C5 と い っ た 軸 の 評 価 値が 0 あたりにまとまってしまっており,必ずしも 評 価値が収束しているとは言い切れない.よって評価の 動画数や評価者を増やして再実験を行う必要がある. 一 方 ,今 回 の 研 究 に お い て の 印 象 に つ い て ,3.2 節 で 紹介している 8 つの印象軸を利用したが,印象の種類 は数多くあるために,印象軸についての分析を行い, 印象軸の増減についての議論を行っていく必要がある. 今回の研究では,形態素解析のためニコニコ動画に 投稿されたコメントをそのまま利用しているが,ニコ ニコ動画に投稿されたコメントは日本語として崩れて いるものが多いため,単語が違うものとして判断され て い る 可 能 性 が あ る .こ の 問 題 に 関 し て は Brody ら [12] が行っている正規化をコメントに対して行うことで解 決ができると考えられるため,今後正規化処理を 行っ ていく必要がある. また,今回の研究では,単語間の共起関係に関して は十分に調査・分析できていない.頻出語との組み合 参 考 文 献 [1] 石 黒 信 啓 ,白 井 治 彦 , 黒 岩 丈 介 , 小 高 知 宏 , 小 倉 久 和 :文 章 要 約 の 手 法 を 用 い た ダ イ ジ ェ ス ト 動 画 の 製 作 手 法 ,情 報 処 理 学 会 創 立 50 周 年 記 念 (第 72 回 )全 国 大 会 (5W-1),pp.491-492(2010) [2] 小 川 一 昭 ,服 部 哲 ,速 水 治 夫 :視 聴 者 か ら の コ メ ン ト情報を用いたダイジェスト動画疑似生成方法 の 提 案 , 情 報 処 理 学 会 研 究 報 告 (2009-GN-71) , pp.146-150(2009) [3] 磯 貝 佳 輝 ,齋 藤 義 仰 ,村 山 優 子 :視 聴 者 コ メ ン ト を 用いた動画検索支援のための紹介動画作成手法 の 提 案 ,情 報 処 理 学 会 論 文 誌 コ ン シ ュ ー マ ・ デ バ イ ス & シ ス テ ム ,Vol.2 No.1 pp74-81(2012) [4] 中 村 聡 史 ,山 本 岳 洋 ,後 藤 真 孝 ,濱 崎 雅 弘 :視 聴 者 反応と音楽的特徴量を用いたサムネイル動画の 自 動 生 成 , WebDB Forum 2012 [5] 高 見 真 也 ,田 中 克 己 :ウ ェ ブ 検 索 結 果 に 応 じ た ス ニ ペ ッ ト 生 成 , 情 報 処 理 学 会 論 文 誌 , Vol.49 No.4 pp1648-1656(2008) [6] 土 屋 駿 貴 ,中 村 聡 史 ,山 本 岳 洋 :ソ ー シ ャ ル コ メ ン ト か ら の 音 楽 動 画 印 象 推 定 に 関 す る 検 討 ,情 報 処 理学会論文誌 [7] 大 野 直 紀 , 中 村 聡 史 , 山 本 岳 洋 , 後 藤 真 孝 : 音 楽 動画への印象評価データセット構築とその特性 の 調 査 ,情 報 処 理 学 会 研 究 報 告 ,Vol.2015-MUS108, No. 7, pp. 1-9 (2015). [8] 後 藤 真 孝 : SmartMusicKIOSK: サ ビ 出 し 機 能 付 き 音 楽 視 聴 機 ,情 報 処 理 学 会 論 文 誌 ,Vol.44,No. 11, pp. 2737-2747 (2003) [9] 山 本 岳 洋 , 中 村 聡 史 : 楽 曲 動 画 印 象 デ ー タ セ ッ ト の 作 成 と そ の 分 析 , ARG 第 2 回 Web イ ン テ リ ジ ェ ン ス と イ ン タ ラ ク シ ョ ン 研 究 会 (2013). [10] 山 本 岳 洋 ,中 村 聡 史 :視 聴 者 の 時 刻 同 期 コ メ ン ト を 用 い た 楽 曲 動 画 の 印 象 分 類 ,情 報 処 理 学 会 ,Vol6, No3, pp61-72(2013) [11] Miyamori , H ., Nakamura , S ., and Tanaka , K:Generation of Views of TV Content Using TV Viewers’ Perspectives Expressed in Live Chats on the Web , In Proc . of ACM Multimedia2005 , pp853861(2005) [12] Brody , S . and Diakopoulos , N: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!!: Using word lengthening to detect sentiment in microblogs, Proc.Conference on Empirical Methods in Natural Language Processing, pp.562-570(2011)