Comments
Description
Transcript
知的学習システム(10)
知的学習システム(10) 電気通信大学 総合情報学専攻 庄野 逸 [email protected] 1 階層型ニューラルネットワーク 階層型パーセプトロン(Muti-Layer Perceptron:MLP) 誤差逆伝播法の問題点 問題解決の為の知識の導入 不変性へのアプローチ 接線伝搬法 (tangent propagation) コンボリューションネットワーク (convolutional netowork) 2 MultiLayer Perceptron: MLP 単純 Perceptron の線形分離問題→ 階層性による打破 入力 x, 出力 y の他以外に中間層(隠れ層)z を持つ 信号は一定方向(入力から出力へ向けて)で処理 (1) wM D hidden units zM (2) wKM xD yK outputs inputs y1 x1 z1 x0 (2) w10 z0 3 誤差逆伝搬(BP)法による深いネットワークの学習 uk yk uk yk δk uj zj δj zj uj xi Feed forward を一旦計算 tk xi Back Prop. を計算 k = 0 (uk )(yk 勾配を計算 tk ) 4 MLP+BP の問題点 BP はパラメータの調整のみ 未知数が方程式数より多い問題設定 アーキテクチャ設計によっては パラメータ数 データ数になる 層間が全結合だと特に顕著 無理やり学習させることはできる 勾配情報の拡散 全体のトレーニングは難しい 訓練誤差 汎化誤差→過学習 深いネットワーク全体を 一気に学習させるのは難しい orz… 5 MLP+BP の問題点 アーキテクチャ設計の難しさ 中間層が少なければ表現がプア 中間層が多すぎれば過学習 (訓練誤差 汎化誤差) 6 解決のためのアプローチ 「そもそも,階層が深いのがダメ」派 → 浅いネットワークで頑張る, SVM, Boosting, etc… 「勾配さえ生き残ってくれればなんとかなる」派 ReLU ユニットによる活性化関数導入 LSTM モジュールによる勾配消失の補償 「学習を各階層でちょっとづつ」派 教師なし学習の導入,ICA, Sparse Coding, etc… 「自由度削れば良い」派 アーキテクチャに対する制約→ネオコグニトロン, DCNN 学習に対する制約→Sparse Coding, Drop out 7 浅いネットワークで頑張る(90年台後半∼) 機械学習法の進展 Support VectorMachine / Kernel 法 Boosting Shallow network で十分じゃないの?的な風潮 そもそもデータがないし… 特徴抽出までできれば結構上手くいく SVM等による識別 特徴抽出層 入力層 8 深いネットワークで学習させよう 2010年くらいから浅いネットワークでは辛い状況 →そうだ,深いネットワークしてみよう モデルの自由度 データ数 な状況であれば 何らかの事前知識を入れる必要がある スパース制約 結合係数や出力状態が 0 のものを多くしよう アーキテクチャに対する制約 ネオコグニトロン,DCNN 学習に対する制約 スパースコーディング,Drop out 9 正則化項的手法導入の効果 隠れ層の個数 M に依存してエネルギー関数が 極小点を持ちトラップされる→正則化等による解決 早期終了(Early Stopping) による学習制御 事前分布の導入による正則化項効果と類似 Undertraining 1 Overtraining 1 M =1 M =3 1 0 0 0 −1 −1 −1 0 1 0 1 M = 10 0 1 10 早期終了による学習制御 過学習時: 検証用集合に対する誤差の増大 →増大を始めた時点で学習打ち切り 誤差 加重減少との類似性 w2 0.25 0.2 0.15 誤差 0 10 20 30 40 50 e w 早期終了解 0.45 早期終了 0.4 0.35 最尤解 wML w1 0 10 20 30 40 学習繰返し数 50 11 どのような「事前知識」を入れ込むのか? NN の表現能力が訓練サンプルに比べて過剰 NN に現実に則した制限(事前知識)を加えてやる 画像認識を例に考えてみる 画像オブジェクトの,平行移動,回転,拡大縮小等の 変化に対して不変性を持つような,結合を設計する 接線伝播法: Tangent Prop. 畳み込みネット: Convolution Net (Deep Convolution Neural Net) 12 不変性へのアプローチ 知識例: 「画像の平行移動や回転に対して出力は不変であるべき」 訓練集合に変換したパターンを加える 入力の変換に対し,出力が変化しないような制約 →接線伝播法 (tangent propagation) ニューラルネットワークの構造に不変性を埋め込む →Convolutional Neural Network (a) (d) 13 接線伝播法 (tangent propagation) 不変性を持たせたい変換を 1 パラメータで表示させる 変換: s( xn, ξ ) 出力変化を接線で近似 x2 (b) ⌧n xn (a) ⇠ M (c) 接線方向変化 原画像 x1 14 接ベクトルの例 回転変換に対する接ベクトルと変換例 (a) (b) (d) 接ベクトル τn 原画像 xn (c) 回転画像 s( xn, ξ ) 接ベクトル近似 xn +ξ τn 15 接線伝播法のエネルギー関数 エネルギー関数は ξ の変化に対して罰を与える Ω の計算においてヤコビ行列が導出されるが, これも逆伝搬法で求めることが出来る (Simard 1992) 16 Convolutional-net 平行移動不変な局所特徴抽出機構をネットワークの 構造に埋め込む→フィルタ,畳み込み演算 Neocognitron (Fukushima 1980), LeNet (LeCun 1998), DCNN (Krizhevski 2012∼) etc. 局所特徴抽出と局所平均のアーキテクチャ 局所的受容野 (local receptive field) 重み共有 (weight sharing) 局所平均 (sub-sampling) 生物学的な画像識別戦略の可能性 17 Convolution-net の特徴 局所的な演算はフィルタ演算(畳み込み)として実現可能 特徴抽出 局所平均 重み共有 Input image Convolutional layer Sub-sampling layer 18 Neocognitron (Fukushima 1980) FOR COMPUTER VISION? 1849 視覚野(Ventral pathway)の性質 KRÜGER ET AL.: DEEP HIERARCHIES IN THE PRIMATE VISUAL CORTEX: WHAT CAN WE LEARN FOR COMPUTER VISION? AIT/CIT 8 TF IT Large receptive field Face, Complex feature detector V4 ? V2 ? V1 Small receptive field 7a PIT LIP MST DPL VIP V1 TEO V4 TE AIT V2 CIT PIT V4 Ventral Pathway MT V3A V3 1849 VA/V4 VP V2 V1 Edge, Line segment detector [Felleman+91, DiCarlo+12, Kruger+13] ations (summarized from [44]). Box and font sizesFig. are2. Simplified hierarchical structure of the primate’s visual cortex and approximate area locations (summarized from [44]). Box and font sizes are relative to the area size. 視覚野: 階層構造を持ち,階層ごとに異なる視覚課題の解決 In summary, in this paper we want to argue that deep uition of basic (mostly biological) terms used hierarchies are an appropriate concept to achieve a general, ng sections. Most data we present in robust, the and versatile computer vision system. Even more importantly, we want to present relevant insights about the obtained from macaque monkeys because hierarchical organization of the primate visual system for siological knowledge stems from investigacomputer vision scientists in an accessible way. We are also give an intuition of basic (mostly biological) terms used in the following sections. Most data we present in the following were obtained from macaque monkeys because most neurophysiological knowledge stems from investigations on these. While the primate brain consists of approximately 100 cortical areas, the human brain probably contains as many as 150 areas.3 There is a general consensus that the primary sensory and motor areas in the monkey are homologous to the corresponding areas in the human brain. Furthermore, several other cortical areas in the monkey have an identified homologue in the human (e.g., MT/MST, Anterior Intraparietal Area (AIP)). These areas can be viewed as landmarks that can be used to relate other cortical areas in 初期視覚野: 狭い受容野,単純な特徴抽出 primate brainSimple consists of approximately Cell,Complex Cellの存在 eas, the human brain probably contains as aware that some of our abstractions are rather crude from the neurophysiological point of view and that we have left out important details of the processes occurring at the different levels,2 but we hope that such abstractions and the 3 the picture given in this paper will help to foster reas. There is a general consensus that holistic exchange between the two fields. ry and motor areas in the monkey productive are The paper is organized as follows: In Section 2, we will the corresponding areas in the human brain. touch upon the aspects of the primate visual system that are everal other cortical areas in the monkey have relevant to understand and model the processing hierarchy. 高次視覚野: 広い受容野,中程度に複雑な特徴に選択的 初期視覚野 (V1野) の受容野計測 初期視覚野の細胞 観えている範囲(受容野)は狭い 視覚野中の エッジ や 線分 といった成分に反応 単純型細胞(simple cell)と 複雑型細胞(complex cell) に大きく分けられる http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources/text/KisokouKoukai2009/Ohzawa2009Koukai04.pdf 初期視覚野の性質 Simple SimpleCell Cell Phase PhaseSensitive Sensitive Orientation OrientationSelective Selective Complex ComplexCell Cell Input InputStimulus Stimulus Input InputStimulus Stimulus Receptive ReceptiveField Field Receptive ReceptiveField Field Not NotFire Fire Fire Fire Not NotFire Fire Phase PhaseInsensitive Insensitive Fire Fire Fire Fire Not NotFire Fire V1 線分やエッジなどの成分に反応 TE V2 CIT PIT V4 Ventral Pathway Complex cell: 位相には許容的 Large receptive field Face, Complex feature detector V4 ? V2 ? V1 Small receptive field TEO AIT Simple cell: 方位,位相に敏感 IT Edge, Line segment detector Hubel-Wiesel 階層仮説 Simple Cell Phase Sensitive Orientation Selective Input Stimulus Receptive Field Not Fire Complex Cell Fire Not Fire Phase Insensitive Input Stimulus Receptive Field Fire Fire Not Fire Simple Cell の出力合成で, Complex cell は説明可能 (Hubel & Wiesel 59) 高次視覚野の性質 巨大な受容野 中程度に複雑な特徴に反応 顔細胞の存在 分散表現 時空間的な変化に許容的 (Kobatake & Tanaka 94 を改変) V1 IT Large receptive field Face, Complex feature detector V4 ? V2 ? V1 Small receptive field TEO TE AIT V2 CIT PIT V4 Ventral Pathway Edge, Line segment detector 生理学的な知見まとめ 細かい特徴 抽象特徴 https://grey.colorado.edu/CompCogNeuro/index.php/CCNBook/Perception DCNN の視覚野的解釈 U0 V1 IT Large receptive field Face, Complex feature detector V4 ? V2 ? V1 Small receptive field TEO TE AIT V2 CIT PIT V4 Ventral Pathway Edge, Line segment detector Us1Uc1 Us2Uc2 Us3Uc3 Us4Uc4 Us5Uc5 41x41x8 41x41x1 41x41xK2 41x41x8 21x21xK3 11x11xK4 21x21xK2 11x11xK3 5x5xK4 5x5xK5 1x1xK5 Hubel & Wiesel : Simple → Complex Cell の階層性 V2 → IT の不明な領野 → 初期視覚野構造のアーキテクチャ外挿 学習によるチューニング可能性 Deep Convolution NN (DCNN) (Neocognitron) 畳み込みによる局所特徴抽出と空間プーリング Neocognitron(Fukushima80): 階層仮説の実装 (Hubel & Wiesel 59) U0 Us1 Uc1 Us2 Uc2 Us3 Uc3 Us4 Uc4 Recognition It’ s “5” Input S-Cell S-Cell C-Cell Local Feature S-Cell C-Cell S-Cell C-Cell Feature Extraction Tolerance to the distortion Feature Integration Global Feature Neocognitron の動作原理 局所特徴抽出(畳み込み)+変形に対する不変性(プーリング) Preferred feature Subsampling Convolutions Convolution Layer Convolutions Subsampling Subsampling Layer Preferred Feature (Orientation): X Input: x Input: x Preferred Orientation S-cell response Blurring +ReLU による変調 +Sigmoid による変調 IT野反応との定性的な比較 1 0.8 0.6 0.4 Distractor Level 0.2 0 -100 -80 -60 -40 -20 0 20 40 60 80 100 'cell5' 'cell7' 'cell10' 'cell11' 'cell12' Neocognitron 型の神経回路モデルは,新奇3D物体の 回転,拡大,位置変化不変な反応を説明できる(吉塚 他 2007) https://www.jstage.jst.go.jp/article/jnns/14/4/14_4_266/_pdf Neocognitron まとめ 畳み込み演算を原理としたネットワーク構造 Perceptron に比べて,結合係数の自由度は低い でも視覚入力は並進対称なので構造としては妥当 (多分) 特徴抽出層とプーリング層の階層構造 特徴抽出層は学習で決定可能 BP使わなくても割りと普通に動く. クラスタリングアルゴリズムでも動く プーリング層は空間的な位相ずれの許容 Convolution-net の実現例 Neocognitron (Fukushima 1980) U0 Us1 Uc1 Us2 Uc2 Us3 Uc3 Response of `C-cell layers Us4 Uc4 U0 Recognition Uc1 Uc2 Uc3 Input It’ s “5” Uc4 0 1 2 3 4 5 6 7 8 9 Recognition Input Edges S-Cell S-Cell C-Cell S-Cell C-Cell S-Cell C-Cell Higher-order features Feature Extraction Reduction of pattern distortion 31 Convolution-net に出来ること(1) 手書き文字のパターン認識 BPを使わなくても 汎化誤差は ∼0.6% 程度 (Fukushima+2014) BPを使うと ∼0.4%程度 Example patterns in ETL-1 Handwritten digit character DB 32 Convolution-net に出来ること(2) 3D 物体識別 Examples of NORB 3D object view database (Huang & LeCun 2006) test error train time (min x GHz) test time (sec x GHz) SVM Conv. Net. Conv. +SVM 43.3% 7.2% 5.9% 10,944 5,880 330+ 2.2 0.04 0.06+ 33 Neural network (NN) 歴史的背景 第1期 1960 第2期 1970 1980 1990 第3期(たぶん) 2000 2010 今ココ Stochastic GD (Amari 67) Perceptron (Rosenblatt 57) “Linear Separable” (Minski & Papert 68) Neocognitron (Fukushima 80) Simple/Complex cell (Hubel&WIesel 59) Back Prop. Sparse Coding (Rumelhart+ 86) (Olshausen&Field 96) Boltzmann Mach. (HInton+85) Population coding (Desimone+ 84) Conv. net (LeCun+ 89) Population coding (Tanaka+ 84) Deep learning (Hinton+ 06) Deep Convolution Neural Network (DCNN) (LeCun+ 89) (Deep) Convolution-net 基本アーキテクチャ Neocognitron (Fukushima 80 畳み込み演算による, 局所特徴抽出+並進不変性 学習則: BackPropagation (LeCun+86, Okada90) (LeCun+86) DCNN デモ Rotation Scale Multiple Input Noise http://yann.lecun.com/exdb/lenet/index.html まとめ ネットワークが深い構造になるほど,全体の最適化は 勾配情報のみを用いて決定するのは困難 入力空間に関する特性を学習方式やネットワークアーキテク チャに組み込むことで性能向上が可能 画像の場合の知識例 →並進運動,回転,拡大等の変換に不変であるべき 学習にこれらのルールを組み込む→Tangent Prop. アーキテクチャに組み込む→ネオコグニトロン ネオコグニトロンアーキテクチャのアイディアは 生物学的な知見から 生物のやっていることの理解に繋がる 38