Comments
Description
Transcript
ディープラーニングの映像認識への応用 - 中山英樹研究室
Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ディープラーニングの映像認識への応用 西田典起 東京大学 大学院情報理工学系研究科 創造情報学専攻 中山英樹研究室 [email protected] Prometech Simulation Conference 2015 2015 年 9 月 17 日 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 1 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Overview 1 Deep Learning 入門 2 Deep Learning の映像認識への試み 3 マルチモーダルジェスチャー認識 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 2 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 機械学習 ▶ 観測データを用いて関数 fθ のパラメータ θ を 最適化 ▶ 例: 動物画像の分類 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 3 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 教師あり学習 ▶ 観測データと正解出力のペアをたくさん用意 ▶ fθ (入力) = 正解 となるように θ を調整 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 4 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 パラメータ θ の最適化 ▶ 損失関数 L(θ) を定義 例. N 1 ∑ L(θ) = (fθ (xn ) − tn )2 N n=1 ▶ 損失関数 L(θ) が減少する方向へ θ を修正 ▶ 勾配降下法 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 5 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 勾配降下法 (Gradient Descent, GD) 更新式 西田典起 θ =θ−λ ディープラーニングの映像認識への応用 ∂L ∂θ 東京大学 中山英樹研究室 6 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ところで関数 fθ って? ▶ 一般的には特徴抽出部と分類部 (分類問題の場 合) からなる 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 7 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 従来の特徴抽出手法の問題 ▶ どのような特徴が有用かはタスクやデータドメ インによって大きく異なる ▶ 作り込み, 事前知識が必要 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 8 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ILSVRC 2012 の衝撃 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 9 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ニューラルネットの基本形: 3 層パーセプトロン ▶ 式で記述すると: h = σ(Win x + bin ) y = g(Wout h + bout ) 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 10 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 フィルタによる畳み込み: 局所特徴の抽出 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 11 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 例: エッジ特徴の抽出 −1 0 1 wx = −1 0 1 −1 0 1 西田典起 −1 −1 −1 wy = 0 0 0 1 1 1 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 12 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Convolutional Neural Networks [LeCun et al., 1998] ▶ 画像を入力とし, 階層的に畳み込みを繰り返す ▶ ConvNet のパラメータは畳み込み層 (特徴抽出) と完全結合層 (分類) にある 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 13 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ConvNets の特徴 ▶ ▶ ▶ 局所特徴を抽出するのに適した構造 特徴抽出も学習 (表現学習) ⇔ 作り込み 層を深くすることによる高い表現力 (deep learning) ▶ 浅い層では単純な特徴が, 深い層では複雑な特 徴が抽出される 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 14 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 最近話題になった Deep Dream って何してるの? http://googleresearch.blogspot.jp/2015/06/inceptionism-going-deeper-into-neural.html 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 15 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 やってること ▶ 画像を入力して, 活性が高くなるユニットがあ れば, その活性値がより大きくなるように入力 画像を修正 ▶ 高くなった活性は, 何かしらの特徴を抽出した ことを表し, その原因を増大させている ▶ だからああいう画像が出来上がるのはある意味 当然 ▶ 利点: ニューラルネットがどんな特徴を抽出し ているのか確認することができる 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 16 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 入力に近い層の活性に注目した場合 ▶ 単純な特徴が増大されている 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 17 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 出力に近い層の活性に注目した場合 ▶ 抽象的で複雑な特徴が増大されている 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 18 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ランダムな画像でも可能 ▶ 出力の分類結果が “バナナ"になるように特徴 増大 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 19 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ConvNet を使った物体検出の例 [Yoo et al., 2015] ▶ ▶ 現在の bounding box の端点の移動方向を出力 画像全体から始めて, bounding box を徐々に洗 練化 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 20 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ConvNet を使った画像生成の例 [Desovitsky et al., 2015] 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 21 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 スポーツ映像認識 [Karpathy et al., 2014] (1) ▶ ConvNet を使ってビデオフレームを統合 ▶ どういう順序で統合していくか 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 22 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 スポーツ映像認識 [Karpathy et al., 2014] (2) ▶ Slow Fusion が最も良いという結果に 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 23 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 スポーツ動画認識 [Karpathy et al., 2014] (3) 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 24 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 スポーツ動画認識 [Karpathy et al., 2014] (4) ▶ Slow Fusion モデルをスポーツ動画データセッ トで事前学習 ▶ これを初期値として, UCF-101 データセットで 再学習 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 25 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 フレームをまとめて入力してもダメ? ▶ Karpathy et al. (2014) 曰く, “we qualitatively observe that the motion-aware network clearly benefits from motion information in some cases, but these seem to be relatively uncommon." ▶ 同時に複数フレームを入れるだけでは時間的ダ イナミクスの効率的な抽出は難しい? 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 26 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 オプティカルフローを用いる [Simonyan et al., 2014] (1) 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 27 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 オプティカルフローを用いる [Simonyan et al., 2014] (2) ▶ ▶ RGB 画像を入力する ConvNet: 物体認識 オプティカルフローを入力する ConvNet: モー ション情報抽出 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 28 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 オプティカルフローを用いる [Simonyan et al., 2014] (3) ▶ UCF-101(データセット) で Karpathy らの Slow Fusion に比べて約 23%も正解率向上! 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 29 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 3D ConvNets [Ji et al., 2013] ▶ 縦と横だけでなく, 時間軸方向にも畳み込み 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 30 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ジェスチャー認識 [Molchanov et al., 2015] (1) ▶ 高解像度入力と低解像度入力の 2 ストリームの 3D ConvNets 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 31 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ジェスチャー認識 [Molchanov et al., 2015] (2) ▶ 作り込みの特徴抽出手法 (HOG) に比べて 13% 正解率向上 ▶ VIVA Challenge 2015 のジェスチャー認識タ スクで 1 位 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 32 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Recurrent Neural Networks (RNNs) ht = σ(Win xt + Whh ht−1 + bin ) yt = g(Wout ht + bout ) 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 33 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 RNN をステップ毎に展開すると P (yt |ht ) = P (yt |ht−1 , xt ) = P (yt |x1 , . . . , xt ) 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 34 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 RNN とジェスチャー認識 [Murakami et al., 1991] ▶ RNN の各ステップの入力は画像ではなく, Data Glove からの信号 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 35 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 RNN の問題 ▶ RNN は遠い過去の情報を保持することが困難 ▶ 勾配が消失/爆発してしまい上手く学習できない 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 36 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Long Short-Term Memory (LSTM) ▶ 隠れ層 h ∈ Rm の計算にメモリーベクトル c ∈ Rm と制御用ベクトル i, f , o ∈ Rm を使う 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 37 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Long Short-Term Memory (LSTM) ▶ LSTM における状態 ht の計算 (バイアス項省 略): gt it ft ot ct ht 西田典起 = tanh(Win xt + Whh ht−1 ) = sigmoid(Wix xt + Wih ht−1 ) = sigmoid(Wf x xt + Wf h ht−1 ) = sigmoid(Wox xt + Woh ht−1 ) = it ⊙ gt + ft ⊙ ct−1 = ot ⊙ tanh(ct ) ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 38 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 動画認識, 画像説明文の生成 [Donahue et al., 2014] 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 39 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 生成された画像説明文の例 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 40 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 動画の説明文生成 [Yao et al., 2015] ▶ 動画の n 個のサブセットを 3D ConvNet でエ ンコード V = {v1 , v2 , . . . , vn } ▶ RNN 言語モデル + attention で単語列にデ コード yt = P (wt |w1 , . . . , wt−1 , ϕt (V )) ▶ ϕt (V ) は, n 個の動画サブセットのどれに重きを 置くかを求め, それに基づいて V をベクトルへ 変換 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 41 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 生成された動画説明文の例 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 42 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 (i) Autoencoder による特徴抽出 [Bengio et al., 2007] ▶ ▶ y = x となるようにネットワークを学習 h から x を復元できるということは, h は x を 効率的に表現 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 43 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 (ii) Sequence to Sequence [Sutskever et al., 2014] ▶ ▶ 系列をエンコードする Encoder RNN (赤) と, 系列にデコードする Decoder RNN (青) 機械翻訳: 単語系列 −→ 単語系列 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 44 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 動画特徴抽出器の学習 [Srivastava et al., 2015] (1) 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 45 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 動画特徴抽出器の学習 [Srivastava et al., 2015] (2) 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 46 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 動画特徴抽出器の学習 [Srivastava et al., 2015] (3) ▶ ▶ 学習後は Decoder RNN は不要 学習した Encoder RNN を初期値として, 別の 映像データセットで教師あり学習 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 47 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 マルチモーダルジェスチャーとは? ▶ 従来のカラー情報だけでなく, depth やスケル トン, 音声データを用いてジェスチャー分類を 行う ▶ 各モダリティをどのように効果的に統合するか が課題 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 48 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Multi-stream RNN (MRNN) [Nishida et al., 2015] 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 49 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Early Multimodal Fusion Model 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 50 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 Late Multimodal Fusion Model 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 51 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 テストデータに対する正解率の比較 正解率 (%) 手法 Liu et al. (2013) Choi et al. (2014) Tung et al. (2014) Early multimodal fusion Late multimodal fusion MRNN (color only) MRNN (optical flow only) MRNN (depth only) MRNN 88.7 91.9 96.7 94.1 94.6 91.6 88.5 95.9 97.8 ▶ SKIG データセットにおける最高正解率を達成 ▶ 時間依存性を考慮したマルチモーダルの統合が有効 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 52 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 ノイズに対するロバスト性の評価 ▶ ガウシアンノイズ (標準偏差 σ) をテストデータの depth モダ リティに加えて正解率を評価 ▶ マルチモーダルで学習した MRNN はより高い正解率を維持 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 53 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 まとめ ▶ 映像への応用では, 空間的な情報と時間的な情報をどのよ うにモデル化するかが問題 ▶ 現在では, 3D ConvNet か, ConvNet + RNN (LSTM) が 最も多い (しかし人間の認識率を越えてはいない) ▶ 今後, 映像だけでなくマルチモーダル情報の応用も増えて くるだろう ▶ ネットワーク構造やハイパーパラメータの調整など, deep learning では試行錯誤がほぼ必須 ▶ そのため GPU による学習の高速化は非常に重要 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 54 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 参考文献 (1) LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P.: Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, 1998 Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., and Fei-Fei, L.: Large-scale video classification with convolutional neural networks. In Proc. CVPR, 2014 Simonyan, K., and Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In Proc. NIPS, 2014 Ji, S., Xu, W., Yang, M., and Yu, K.: 3D convolutional neural networks for human action recognition. In Trans. PAMI, 35(1):221-231, 2013 Pavlo Molchanov, P., Gupta, S., Kim, K., and Kautz, J.: Hand Gesture Recognition with 3D Convolutional Neural Networks. In CVPR 2015 Workshop on Hand gesture recognition, 2015 Murakami, K., and Taguchi, H.: Gesture recognition using recurrent neural networks. In Proc. SIGCHI, 1991 Donahue, J., Hendricks, L. A., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., and Darrell, T.: Long-term recurrent convolutional networks for visual recognition and description. In Proc. CVPR, 2014 Srivastava, N., Mansimov, E., and Salakhutdinov, R.: Unsupervised learning of video representations using lstms. arXiv preprint arXiv:1502.04681, 2015 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 55 / 56 Deep Learning 入門 Deep Learning の映像認識への試み マルチモーダルジェスチャー認識 参考文献 (2) Sutskever, I., Vinyals, O., and Le, Q. V.: Sequence to sequence learning with neural networks. In Proc. NIPS, 2014 Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, H.: Greedy layer-wise training of deep networks. In Proc. NIPS, 2007 Yao, L., Torabi, A., Cho, K., Ballas, N., Pal, C., Larochelle, H., and Courville, A.: Describing videos by exploiting temporal structure. arXiv preprint arXiv:1502.08029, 2015 Liu, L. and Shao, L.: Learning discriminative representations from RGB-D video data. In Proc. IJCAI, 2013 Choi, H., and Park, H.: A hierarchical structure for gesture recognition using RGB-D sensor. In Proc. HAI, 2014 Tung, P. T., and Ngoc, L. Q.: Elliptical density shape model for hand gesture recognition. In Proc. ICTD, 2014 Nishida, N., and Nakayama, H.: Multimodal Gesture Recognition using Multi-stream Recurrent Neural Network. In Proc. PSIVT, 2015 西田典起 ディープラーニングの映像認識への応用 東京大学 中山英樹研究室 56 / 56