Comments
Description
Transcript
料理映像における調理動作の解析 Analysis of Cooking
8-2 第4回デジタルコンテンツシンポジウム講演予稿集 料理映像における調理動作の解析 蒯 承穎† 志土地 由香† 高橋 友和‡ †名古屋大学大学院情報科学研究科 井手 一郎†* 村瀬 洋† 〒464-8601 愛知県名古屋市千種区不老町 1 ‡岐阜聖徳学園大学経済情報学部 〒500-8288 岐阜県岐阜市中鶉 1-38 *国立情報学研究所 E-mail: 〒101-8430 東京都千代区一ツ橋 2-1-2 †{kuai, shidochi, ttakahashi, ide, murase}@murase.m.is.nagoya-u.ac.jp あらまし 近年,料理教材を電子化するなどの料理に関する新しい支援サービスへの期待が高まっている.我々 は,調理者を支援する際に調理動作を視覚的に提示することを考慮し,調理動作映像データベースの構築を目指し ている.そのため,特に料理番組の映像を対象とし,特定の調理動作の映像を抽出することを考えた.料理映像中 に現れる各種調理動作の中には, 「切る・炒める・混ぜる」などの基本的な動作を繰り返すという特徴を持つものが 存在する.本発表では,このような特徴に注目し、繰り返し動作の検出,ならびに動作特徴の解析により,これら 3 つの動作の分類方法を検討する. キーワード 料理映像,調理動作,動作検出,動作特徴 Analysis of Cooking Motions in Cooking Video KUAI Cheng Ying† Yuka SHIDOCHI† and Tomokazu TAKAHASHI‡ Ichiro IDE†* Hiroshi MURASE† †Graduate School of Information Science, Nagoya University 1 Furo-cho, Chikusa-ku, Nagoya-shi, Aichi, 464-8601 Japan ‡Faculty of Economics and Information, Gifu Shotoku Gakuen University 1-38 Nakauzura, Gifu-shi, Gifu, 500-8288 Japan *National Institute of Informatics E-mail: 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo, 101-8430 Japan †{kuai, shidochi, ttakahashi, ide, murase}@murase.m.is.nagoya-u.ac.jp Abstract Recently, the demand of new cooking support service, such as digital cook textbooks, is rising. We considers to provide people with visual explanations for cooking support services, and therefore aim at building a video database of cooking motions by extracting cooking operations from cooking shows. In a cooking video, there are hundreds of cooking operations, most of which are repetition of basic motions, such as cutting, frying and mixing. In this presentation, we try to detect such repetitious motions, and also identify them by their features. Keyword Cooking Video,Cooking Motion,Motion Detection,Motion Feature 1. は じ め に ば,任天堂(株)が携帯ゲーム機向けに開発した「し ゃ べ る ! DS お 料 理 ナ ビ 」 [3] と い う ソ フ ト ウ ェ ア に 料理とは,食品や食材,調味料などを組み合わせて は,調理者に対する画像と音声ガイダンスによる料理 加工を行うこと,およびそれを行った結果の生成物の 支援機能が搭載されている.本研究では,調理動作を 総称と定義できる.すなわち,料理は日常生活におい 視覚的に提示することによる料理支援を目的とし,料 て大きな役割を果たすと同時に,一種の創作活動と考 理 番 組 映 像( 以 降「 料 理 映 像 」と 呼 ぶ )を 対 象 と し て , えることもできる.近年,マルチメディア技術を応用 特定の調理動作と対応する映像の抽出を行う.これに して,料理教材を電子化するなどの新しい料理に関す より,調理動作映像データベースの自動構築が可能と る 支 援 サ ー ビ ス へ の 期 待 が 高 ま っ て い る [8] .た と え なる. 本研究の先行研究として,テキスト教材が付随する 3. 調 理 動 作 の 分 類 料理番組に注目し,料理映像とテキスト教材の対応付 け を 行 う 手 法 [4] が 提 案 さ れ て い る .し か し こ の シ ス 調理動作は数百種類にも及び,様々な分類方法が存 テムでは,複数の調理動作を含む一つのシーンを対応 在 す る . 本 研 究 で は , Web 上 で 公 開 さ れ て い る 料 理 レ 付けの単位とするため,動作と動作の間に冗長な部分 シ ピ [1] 6,779 件 を 用 い て , 調 理 動 作 を 分 類 し た . 調 が含まれることと,必ずしも単一調理動作と対応する 理動作を分類するためには,料理レシピから調理動作 映像を抽出できない問題がある.一方,料理番組の映 を抽出しなければならない.抽出するために,料理レ 像の代わりに,自分で撮影した調理映像とレシピテキ シピの「作り方」を形態素解析する.形態素解析には ストを対応付けることによって調理コンテンツを自動 日 本 語 形 態 素 解 析 ソ フ ト ワ ェ ア MeCab [2] を 用 い た . 作 成 す る 研 究 [5] も あ る .し か し ,こ の 場 合 に は ,映 そ の 結 果 ,調 理 動 作 は の べ 67,532 件 で あ り ,語 尾 に 基 像だけでなく,様々なセンサなどを組み合わせた専用 づ い て 分 類 し た と こ ろ 226 種 類 に 分 類 さ れ た . こ れ ら 環境で撮影する必要がある. の 調 理 動 作 を 人 手 で 大 き く 「 混 合 」,「 加 熱 」,「 切 砕 」, 本研究では,料理映像中の調理動作に着目し,その 「 装 飾 」,「 浸 漬 」,「 冷 却 」,「 分 離 ・ ろ 過 」,「 そ の 他 」 中でも特に繰り返し動作特徴を解析することで,調理 の 8 つの調理操作に分類したところ,各々の出現頻度 動作と料理映像の対応付けを行うことを目指す. は表 1 のようになった. 2. 料 理 映 像 の 特 徴 表 1: 料 理 レ シ ピ テ キ ス ト か ら 抽 出 さ れ た 調理操作 混合 加熱 切砕 装飾 浸漬 冷却 分離・ろ過 その他 料理映像は一般的な映像とは異なる特徴を持つ.図 1 に示すように,料理映像は基本的に,人物ショット と手元ショットから構成される.人物ショットとは, 人の全身または上半身が映っているショットであり, 講師や補助者が料理についての説明やコツ等を説明す る.これに対して,手元ショットでは料理の状態や調 理動作が大きく映される場合が多いため,料理映像と して重要な視覚情報が多く含まれると考えられる. 調理動作の分類 出現頻度 調理動作例 加える,混ぜる 25.7% 炒める,焼く 17.7% 切る,砕く 9.6% 9.6% 盛る,添える 2.9% 浸す,漬ける 2.3% 冷ます,冷やす 1.4% 振るう,絞る 31.7% 包む,溶かす 手元ショットはさらに,状態部分と調理動作部分に 分けられる.状態部分の映像はほぼ静止した画面で構 こ の 結 果 ,「 そ の 他 」 を 除 け ば ,「 切 砕 」,「 加 熱 」,「 混 成されており,食材や料理の状態を示す.一方,調理 合」が大きい割合を占めることが分かる. 動作部分の映像には一連の調理動作の様子が映ってい るが,多くの場合,動作の前後は比較的冗長である. 本研究では,手元ショット中の重要な調理動作部分 本研究では映像情報を用いて料理映像を以下の 3 つ の調理動作に分類して認識することを考えている. に注目し,さらに,その中の繰り返し動作に対する映 1) 像解析の手法について検討する. 映像の局所領域上を対象物が往復するような周期 繰り返し動作 的な動きが含まれる動作である. 「 千 切 り す る 」な ど の 切 り 方 の 違 い を 表 す も の を 全 て「 切 る 」と み な し , 「和 カット点 人物ショット 手元ショット える」や「泡立てる」などは「混ぜる」とみなす. 人物ショット 手元ショット 2) 状態動作 状態動作の映像においては,画面上に大きな動きが 冗長部分 なく,ほとんど静止した状態が続く.状態動作は開始 時 と 終 了 時 の み 動 き が 存 在 す る . た と え ば 「 茹 で る 」, 「焼く」などである. 3) その他 繰り返し動作と状態動作以外の単一操作で完結す 人物ショット 調理動作部分 図 1: 料 理 映 像 の 構 成 る 動 作 で あ る .た と え ば「 絞 る 」, 「 盛 る 」な ど で あ る . 本 発 表 で は ,上 の 3 つ の 分 類 の 中 で 繰 り 返 し 動 作 に 含 ま れ る 調 理 動 作 「 切 る 」「 炒 め る 」「 混 ぜ る 」 に 注 目 し,次節においてこれらの映像特徴を解析する. 域 の 出 現 回 数 を 積 算 す る .繰 り 返 し 局 所 領 域 と 判 定 さ 4. 繰 り 返 し 動 作 特 徴 の 解 析 れ た 回 数 が 少 な い ほ ど 白 で ,多 い ほ ど 赤 で 表 現 さ れ て 料理映像から繰り返し動作を検出するため,まず映 いる. 像 に 対 し て ,カ ッ ト 検 出 ,シ ョ ッ ト 分 類 [6] な ど の 前 次 に ,累 積 さ れ た 繰 り 返 し 局 所 領 域 の 位 置 に 関 す る 処理を行う.次に,分類されたショットから手元ショ 主 成 分 分 析 を 行 い ,局 所 領 域 分 布 の 形 の 違 い か ら , 「切 ットのみを選び,その中の調理動作部分を検出する. る 」,「 炒 め る 」 と 「 混 ぜ る 」 3つ の 調 理 動 作 を 分 類 す 検出された調理動作に対して,フレーム画像中の各局 る こ と を 検 討 す る .実 際 に 分 類 す る 際 に は ,主 成 分 分 所領域の輝度値の時間変化を周波数解析し,その周期 析 の 結 果 得 ら れ る 第 1固 有 値 と 第 2固 有 値 の 比 を 動 作 性の有無から繰り返し動作を検出する.以下にその手 の特徴とする. 順を説明する. ま ず ,図 2( a)に 示 す よ う に ,各 フ レ ー ム を 局 所 領 累積 域 に 分 割 す る .こ こ で は ,16×16 ピ ク セ ル を 一 つ の 局 所領域とする.次に,複数の連続するフレームにおけ る各局所領域の時間変化を観測するために,画像中の t 各 局 所 領 域 の 輝 度 値 の 時 間 変 化 に FFT を 適 用 し ,そ の 周期性を調べる. 図 3: 局 所 領 域 の 累 積 分 布 こ こ で は ,図 2( b)の FFT グ ラ フ に 関 す る 以 下 の 4 つの統計量から,ある周波数で明確なピークが存在す るか調べる. 5. 解 析 実 験 ・対象周波数帯におけるパワーの総和:P 5.1. 実 験 条 件 ・ 対 象 周 波 数 帯 に お け る パ ワ ー の 最 大 値 : fp ・ 全 体 に お け る f p で の パ ワ ー の 割 合 : F peak カット検出,ショット分類などの前処理は人手によ ・ f p に お け る パ ワ ー の ピ ー ク の 鋭 さ : R s h a rp り行い,繰り返し動作部分単独での解析を行う. そして,2 個以上の局所領域において,これらが全 本 実 験 で は ,NHK 番 組「 き ょ う の 料 理 」か ら ,手 作 て閾値以上の値となるようなフレームにおいて,繰り 業 で「 切 る 」30 区 間 , 「 炒 め る 」27 区 間 , 「 混 ぜ る 」30 返し動作を検出する.その際に,一般に想定される人 区間を抽出して用いた. 間 の 繰 り 返 し 動 作 の 速 さ か ら , 考 慮 す る 周 波 数 帯 を f0 前節で述べた手法に従い,はじめに繰り返し動作映 ≦ f < f 0 + N と 限 定 す る ( 図 2( b)). 以 上 の 特 徴 抽 出 像の各フレームを局所領域に分割した.各フレームか 手 法 は 基 本 的 に [7] に よ る .ま た ,フ レ ー ム の 上 下 左 ら抽出された繰り返し局所領域の累積分布を主成分分 右の端は画像的に不安定であるため,映像の端から局 析 し た .こ こ で ,FFT を 行 う 窓 サ イ ズ T は 32 フ レ ー ム 所領域 2 つ分は考慮にしないことにする. ( 約 1 秒 ), ま た 窓 の 移 動 ス テ ッ プ は 16 フ レ ー ム ( 約 0.5 秒 ). 対 象 と す る 周 波 数 帯 は f 0 = 3, N = 12 と し た . 1 block = n * n pixels 本実験で周波数解析に用いた閾値を表 2 に示す. Block Sequence 表 2: 周 波 数 解 析 に 用 い た 閾 値 P 500 fp 3 F peak 10 Rsharp 3 Fw,x,y(f) F(fp ) P FFT t 0 f0 f p f0 + N T/2 f 5.2. 実 験 結 果 T frames = 1 window ( a) 映 像 の 分 割 ( b) FFT の グ ラ フ 図 2: 映 像 の 分 割 方 法 と 局 所 領 域 へ の FFT の 適 用 繰り返し動作として検出された料理映像中の複数 の 連 続 す る フ レ ー ム に 対 し て ,図 3に 示 す よ う に ,フ レーム中の各局所領域位置に関して繰り返し局所領 抽出された繰り返し局所領域の累積分布の例を図 4 に示す.各累積分布に対して主成分分析を行い,縦軸 を 第 1 固 有 値( 第 1 主 成 分 λ 1 ),横 軸 を 第 2 固 有 値( 第 2 主 成 分 λ 2 )と す る 平 面 に プ ロ ッ ト し た 結 果 を 図 5 に 示す. 「切る」の繰り返し局所領域は細長く分布している ことがわかる.これは,動きの大きな局所領域が包丁 の周り,包丁の軌跡に沿って出現したためと考えられ 6. お わ り に る .一 方 , 「 炒 め る 」や「 混 ぜ る 」は ,画 面 全 体 に 繰 り 返し局所領域が分布していることがわかる.これに関 本発表では,料理映像を対象として,その中の繰り して,原点を通る直線を分類境界とし,その傾きを少 返し動作部分を解析により, 「 切 る 」な ど の 3 つ の 調 理 しずつ変化させたときに「切る」と他の動作とを最も 動 作 を 分 類 す る 手 法 を 検 討 し た .本 手 法 に よ り「 切 る 」 良く分類する直線を調べたところ,本実験結果に対す に関しては良好に分類できることを実験によって確認 る 最 適 な 分 類 境 界 は 傾 き 1.9 の 原 点 を 通 る 直 線 で あ っ した. た .ま た ,こ の と き 分 類 成 功 率 は ,81.6%( 71 / 87)で 今 後 は ,更 に 大 規 模 な 解 析 を 行 い , 「 炒 め る 」と「 混 あ っ た .こ の 結 果 か ら , 「 切 る 」と 他 の 動 作 は ,本 手 法 ぜる」の判別方法を検討する.ここで,繰り返し局所 で良好に判別可能であることが分かった. 領域の累積分布だけではなく,局所領域の時系列分布 ま た ,「 炒 め る 」 と 「 混 ぜ る 」 の 判 別 は こ の 手 法 の も考慮する. みでは困難であることが分かった.その要因として, ま た , 繰 り 返 し 動 作 以 外 の 動 作 , 特 に 「 焼 く 」,「 茹 「炒める」と「混ぜる」の映像特徴は,画面全体に動 でる」などの状態動作に関して,動作の間はほぼ静止 きが存在するという点で類似していることが挙げられ の料理の状態(焼いてる,茹でている)を示す部分で る. あるが,実際に全てを一つの調理動作映像としたい. 謝辞 本研究の一部は国立情報学研究所の「評価用映像メ デ ィ ア DB」 [9] を 利 用 し ま し た . ( a) 切 る ( b) 炒 め る ( c) 混 ぜ る 図 4: 局 所 領 域 の 累 積 分 布 の 例 2.5 分類境界: λ1 = 1.9 λ2 第一主成分 λ1 2 1.5 1 0.5 切る 炒める 混ぜる 0 0 0.5 第二主 成分 λ2 1 図 5: 各 累 積 分 布 の 形 状 特 徴 文 献 [1] 味 の 素 株 式 会 社 ,“「 味 の 素 KK」レ シ ピ 大 百 科 ”, http://www.ajinomoto.co.jp/recipe/ [2] 京 都 大 学 , “日 本 語 形 態 素 解 析 シ ス テ ム 和 布 蕪 ”, http://mecab.sourceforge.net/ [3] Nintendo , “ し ゃ べ る ! DS お 料 理 ナ ビ ” , http://www.nitendo.co.jp/ds/a4vj/ [4] R. Hamada, K. Miura, I. Ide, S. Satoh, S. Sakai, H. Tanaka: “Multimedia Integration for Cooking Video Indexing”, Proc. PCM2004, 5th Pacific Rim Conf. on Multimedia, Lecture Notes in Computer Science, Vol.3332, pp.657- 664 (Dec. 2004) [5] 山 肩 洋 子 ,角 所 考 ,美 濃 導 彦:“調 理 コ ン テ ン ツ の 自動作成のためのレシピテキストと調理観測映像 の 対 応 付 け ” , 電 子 情 報 通 信 学 会 論 文 誌 ( D ), Vol.J90-D, No.10, pp.2817- 2829( Nov. 2007) [6] K. Miura, R. Hamada, I. Ide, S. Sakai, and H. Tanaka: “Motion Based Automatic Abstraction of Cooking Videos”, Proc. ACM Multimedia 2002 Workshop on Multimedia Information Retrieval, pp.29- 32 (Dec. 2002) [7] R. Hamada, S. Satoh, S. Sakai, and H. Tanaka: “Detection of Important Segments in Cooking Videos”, In Proc. IEEE Workshop on CBAIVL 2001, pp.118- 123 (Dec. 2001) [8] 椎 尾 一 郎 ,浜 田 玲 子 ,美 馬 の ゆ り:“Kitchen of the Future: コ ン ピ ュ ー タ 強 化 キ ッ チ ン と そ の 応 用 ”, コ ン ピ ュ ー タ ソ フ ト ウ ェ ア , Vol.23, No.4, pp.36 - 46( Dec. 2006) [9] 馬 場 口 登 , 栄 藤 稔 , 佐 藤 真 一 , 安 達 淳 , 阿 久 津 明 人,有木康雄,越後富夫,柴田正啓,全炳東,中 村 裕 一 , 美 濃 導 彦 , 松 山 隆 司 : “映 像 処 理 評 価 用 映 像 デ ー タ ベ ー ス に つ い て ”,電 子 情 報 通 信 学 会 技 術 研 究 報 告 , PRMU2002- 30( June 2002)