...

知的学習システム(10)

by user

on
Category: Documents
7

views

Report

Comments

Transcript

知的学習システム(10)
知的学習システム(10)
電気通信大学 総合情報学専攻
庄野 逸
[email protected]
1
階層型ニューラルネットワーク
階層型パーセプトロン(Muti-Layer Perceptron:MLP)
誤差逆伝播法の問題点
問題解決の為の知識の導入
不変性へのアプローチ
接線伝搬法 (tangent propagation)
コンボリューションネットワーク
(convolutional netowork)
2
MultiLayer Perceptron: MLP
単純 Perceptron の線形分離問題→ 階層性による打破
入力 x, 出力 y の他以外に中間層(隠れ層)z を持つ
信号は一定方向(入力から出力へ向けて)で処理
(1)
wM D
hidden units
zM
(2)
wKM
xD
yK
outputs
inputs
y1
x1
z1
x0
(2)
w10
z0
3
誤差逆伝搬(BP)法による深いネットワークの学習
uk
yk
uk
yk
δk
uj
zj
δj
zj
uj
xi
Feed forward を一旦計算
tk
xi
Back Prop. を計算
k
=
0
(uk )(yk
勾配を計算
tk )
4
MLP+BP の問題点
BP はパラメータの調整のみ
未知数が方程式数より多い問題設定
アーキテクチャ設計によっては
パラメータ数 データ数になる
層間が全結合だと特に顕著
無理やり学習させることはできる
勾配情報の拡散
全体のトレーニングは難しい
訓練誤差
汎化誤差→過学習
深いネットワーク全体を
一気に学習させるのは難しい orz…
5
MLP+BP の問題点
アーキテクチャ設計の難しさ
中間層が少なければ表現がプア
中間層が多すぎれば過学習
(訓練誤差 汎化誤差)
6
解決のためのアプローチ
「そもそも,階層が深いのがダメ」派
→ 浅いネットワークで頑張る, SVM, Boosting, etc…
「勾配さえ生き残ってくれればなんとかなる」派
ReLU ユニットによる活性化関数導入
LSTM モジュールによる勾配消失の補償
「学習を各階層でちょっとづつ」派
教師なし学習の導入,ICA, Sparse Coding, etc…
「自由度削れば良い」派
アーキテクチャに対する制約→ネオコグニトロン, DCNN
学習に対する制約→Sparse Coding, Drop out
7
浅いネットワークで頑張る(90年台後半∼)
機械学習法の進展
Support VectorMachine / Kernel 法
Boosting
Shallow network で十分じゃないの?的な風潮
そもそもデータがないし…
特徴抽出までできれば結構上手くいく
SVM等による識別
特徴抽出層
入力層
8
深いネットワークで学習させよう
2010年くらいから浅いネットワークでは辛い状況
→そうだ,深いネットワークしてみよう
モデルの自由度 データ数 な状況であれば
何らかの事前知識を入れる必要がある
スパース制約
結合係数や出力状態が 0 のものを多くしよう
アーキテクチャに対する制約
ネオコグニトロン,DCNN
学習に対する制約 スパースコーディング,Drop out
9
正則化項的手法導入の効果
隠れ層の個数 M に依存してエネルギー関数が
極小点を持ちトラップされる→正則化等による解決
早期終了(Early Stopping) による学習制御
事前分布の導入による正則化項効果と類似
Undertraining
1
Overtraining
1
M =1
M =3
1
0
0
0
−1
−1
−1
0
1
0
1
M = 10
0
1
10
早期終了による学習制御
過学習時: 検証用集合に対する誤差の増大
→増大を始めた時点で学習打ち切り
誤差
加重減少との類似性
w2
0.25
0.2
0.15
誤差
0
10
20
30
40
50
e
w
早期終了解
0.45
早期終了
0.4
0.35
最尤解
wML
w1
0
10
20
30
40
学習繰返し数
50
11
どのような「事前知識」を入れ込むのか?
NN の表現能力が訓練サンプルに比べて過剰
NN に現実に則した制限(事前知識)を加えてやる
画像認識を例に考えてみる
画像オブジェクトの,平行移動,回転,拡大縮小等の
変化に対して不変性を持つような,結合を設計する
接線伝播法: Tangent Prop.
畳み込みネット: Convolution Net (Deep Convolution Neural Net)
12
不変性へのアプローチ
知識例: 「画像の平行移動や回転に対して出力は不変であるべき」
訓練集合に変換したパターンを加える
入力の変換に対し,出力が変化しないような制約
→接線伝播法 (tangent propagation)
ニューラルネットワークの構造に不変性を埋め込む
→Convolutional Neural Network
(a)
(d)
13
接線伝播法 (tangent propagation)
不変性を持たせたい変換を 1 パラメータで表示させる
変換: s( xn, ξ )
出力変化を接線で近似
x2
(b)
⌧n
xn
(a)
⇠
M
(c)
接線方向変化
原画像
x1
14
接ベクトルの例
回転変換に対する接ベクトルと変換例
(a)
(b)
(d)
接ベクトル τn
原画像
xn
(c)
回転画像
s( xn, ξ )
接ベクトル近似 xn +ξ τn
15
接線伝播法のエネルギー関数
エネルギー関数は ξ の変化に対して罰を与える
Ω の計算においてヤコビ行列が導出されるが,
これも逆伝搬法で求めることが出来る (Simard 1992)
16
Convolutional-net
平行移動不変な局所特徴抽出機構をネットワークの
構造に埋め込む→フィルタ,畳み込み演算
Neocognitron (Fukushima 1980), LeNet (LeCun 1998),
DCNN (Krizhevski 2012∼) etc.
局所特徴抽出と局所平均のアーキテクチャ
局所的受容野 (local receptive field)
重み共有 (weight sharing)
局所平均 (sub-sampling)
生物学的な画像識別戦略の可能性
17
Convolution-net の特徴
局所的な演算はフィルタ演算(畳み込み)として実現可能
特徴抽出
局所平均
重み共有
Input image
Convolutional layer
Sub-sampling
layer
18
Neocognitron
(Fukushima 1980)
FOR COMPUTER VISION?
1849
視覚野(Ventral pathway)の性質
KRÜGER ET AL.: DEEP HIERARCHIES IN THE PRIMATE VISUAL CORTEX: WHAT CAN WE LEARN FOR COMPUTER VISION?
AIT/CIT
8
TF
IT
Large receptive field
Face, Complex feature
detector
V4
?
V2
?
V1
Small receptive field
7a
PIT
LIP
MST
DPL
VIP
V1
TEO
V4
TE
AIT
V2
CIT PIT
V4
Ventral Pathway
MT
V3A
V3
1849
VA/V4
VP
V2
V1
Edge, Line segment
detector
[Felleman+91, DiCarlo+12, Kruger+13]
ations (summarized from [44]). Box and font sizesFig.
are2. Simplified hierarchical structure of the primate’s visual cortex and approximate area locations (summarized from [44]). Box and font sizes are
relative to the area size.
視覚野: 階層構造を持ち,階層ごとに異なる視覚課題の解決
In summary, in this paper we want to argue that deep
uition of basic (mostly biological) terms used
hierarchies are an appropriate concept to achieve a general,
ng sections. Most data we present in robust,
the and versatile computer vision system. Even more
importantly, we want to present relevant insights about the
obtained from macaque monkeys because
hierarchical organization of the primate visual system for
siological knowledge stems from investigacomputer vision scientists in an accessible way. We are
also give an intuition of basic (mostly biological) terms used
in the following sections. Most data we present in the
following were obtained from macaque monkeys because
most neurophysiological knowledge stems from investigations on these.
While the primate brain consists of approximately
100 cortical areas, the human brain probably contains as
many as 150 areas.3 There is a general consensus that the
primary sensory and motor areas in the monkey are
homologous to the corresponding areas in the human brain.
Furthermore, several other cortical areas in the monkey have
an identified homologue in the human (e.g., MT/MST,
Anterior Intraparietal Area (AIP)). These areas can be viewed
as landmarks that can be used to relate other cortical areas in
初期視覚野: 狭い受容野,単純な特徴抽出
primate brainSimple
consists of approximately
Cell,Complex Cellの存在
eas, the human brain probably contains as
aware that some of our abstractions are rather crude from
the neurophysiological point of view and that we have left
out important details of the processes occurring at the
different levels,2 but we hope that such abstractions and the
3
the picture given in this paper will help to foster
reas. There is a general consensus that holistic
exchange between the two fields.
ry and motor areas in the monkey productive
are
The paper is organized as follows: In Section 2, we will
the corresponding areas in the human brain.
touch upon the aspects of the primate visual system that are
everal other cortical areas in the monkey have
relevant to understand and model the processing hierarchy.
高次視覚野: 広い受容野,中程度に複雑な特徴に選択的
初期視覚野 (V1野) の受容野計測
初期視覚野の細胞
観えている範囲(受容野)は狭い
視覚野中の エッジ や
線分 といった成分に反応
単純型細胞(simple cell)と
複雑型細胞(complex cell)
に大きく分けられる
http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources/text/KisokouKoukai2009/Ohzawa2009Koukai04.pdf
初期視覚野の性質
Simple
SimpleCell
Cell
Phase
PhaseSensitive
Sensitive
Orientation
OrientationSelective
Selective
Complex
ComplexCell
Cell
Input
InputStimulus
Stimulus
Input
InputStimulus
Stimulus
Receptive
ReceptiveField
Field
Receptive
ReceptiveField
Field
Not
NotFire
Fire
Fire
Fire
Not
NotFire
Fire
Phase
PhaseInsensitive
Insensitive
Fire
Fire
Fire
Fire
Not
NotFire
Fire
V1
線分やエッジなどの成分に反応
TE
V2
CIT PIT
V4
Ventral Pathway
Complex cell: 位相には許容的
Large receptive field
Face, Complex feature
detector
V4
?
V2
?
V1
Small receptive field
TEO
AIT
Simple cell: 方位,位相に敏感
IT
Edge, Line segment
detector
Hubel-Wiesel 階層仮説
Simple Cell
Phase Sensitive
Orientation Selective
Input Stimulus
Receptive Field
Not Fire
Complex Cell
Fire
Not Fire
Phase Insensitive
Input Stimulus
Receptive Field
Fire
Fire
Not Fire
Simple Cell の出力合成で,
Complex cell は説明可能
(Hubel & Wiesel 59)
高次視覚野の性質
巨大な受容野
中程度に複雑な特徴に反応
顔細胞の存在
分散表現
時空間的な変化に許容的
(Kobatake & Tanaka 94 を改変)
V1
IT
Large receptive field
Face, Complex feature
detector
V4
?
V2
?
V1
Small receptive field
TEO
TE
AIT
V2
CIT PIT
V4
Ventral Pathway
Edge, Line segment
detector
生理学的な知見まとめ
細かい特徴
抽象特徴
https://grey.colorado.edu/CompCogNeuro/index.php/CCNBook/Perception
DCNN の視覚野的解釈
U0
V1
IT
Large receptive field
Face, Complex feature
detector
V4
?
V2
?
V1
Small receptive field
TEO
TE
AIT
V2
CIT PIT
V4
Ventral Pathway
Edge, Line segment
detector
Us1Uc1 Us2Uc2 Us3Uc3 Us4Uc4 Us5Uc5
41x41x8
41x41x1
41x41xK2
41x41x8
21x21xK3 11x11xK4
21x21xK2
11x11xK3 5x5xK4
5x5xK5
1x1xK5
Hubel & Wiesel : Simple → Complex Cell の階層性
V2 → IT の不明な領野
→ 初期視覚野構造のアーキテクチャ外挿
学習によるチューニング可能性
Deep Convolution NN (DCNN)
(Neocognitron)
畳み込みによる局所特徴抽出と空間プーリング
Neocognitron(Fukushima80): 階層仮説の実装 (Hubel & Wiesel 59)
U0
Us1 Uc1 Us2 Uc2 Us3 Uc3
Us4 Uc4
Recognition
It’ s “5”
Input
S-Cell
S-Cell
C-Cell
Local
Feature
S-Cell
C-Cell
S-Cell
C-Cell
Feature Extraction
Tolerance to the distortion
Feature Integration
Global
Feature
Neocognitron の動作原理
局所特徴抽出(畳み込み)+変形に対する不変性(プーリング)
Preferred feature
Subsampling
Convolutions
Convolution Layer
Convolutions
Subsampling
Subsampling Layer
Preferred Feature
(Orientation): X
Input: x
Input: x
Preferred
Orientation
S-cell response
Blurring
+ReLU による変調
+Sigmoid による変調
IT野反応との定性的な比較
1
0.8
0.6
0.4
Distractor
Level
0.2
0
-100
-80
-60
-40
-20
0
20
40
60
80
100
'cell5'
'cell7'
'cell10'
'cell11'
'cell12'
Neocognitron 型の神経回路モデルは,新奇3D物体の
回転,拡大,位置変化不変な反応を説明できる(吉塚 他 2007)
https://www.jstage.jst.go.jp/article/jnns/14/4/14_4_266/_pdf
Neocognitron まとめ
畳み込み演算を原理としたネットワーク構造
Perceptron に比べて,結合係数の自由度は低い
でも視覚入力は並進対称なので構造としては妥当
(多分)
特徴抽出層とプーリング層の階層構造
特徴抽出層は学習で決定可能
BP使わなくても割りと普通に動く.
クラスタリングアルゴリズムでも動く
プーリング層は空間的な位相ずれの許容
Convolution-net の実現例
Neocognitron (Fukushima 1980)
U0
Us1 Uc1 Us2 Uc2 Us3 Uc3
Response of `C-cell layers
Us4 Uc4
U0
Recognition
Uc1
Uc2
Uc3
Input
It’ s “5”
Uc4
0
1
2
3
4
5
6
7
8
9
Recognition
Input
Edges
S-Cell
S-Cell
C-Cell
S-Cell
C-Cell
S-Cell
C-Cell
Higher-order features
Feature Extraction
Reduction of pattern distortion
31
Convolution-net に出来ること(1)
手書き文字のパターン認識
BPを使わなくても
汎化誤差は ∼0.6% 程度
(Fukushima+2014)
BPを使うと ∼0.4%程度
Example patterns in ETL-1
Handwritten digit character DB
32
Convolution-net に出来ること(2)
3D 物体識別
Examples of NORB 3D
object view database
(Huang & LeCun 2006)
test error
train time
(min x GHz)
test time
(sec x GHz)
SVM
Conv. Net.
Conv. +SVM
43.3%
7.2%
5.9%
10,944
5,880
330+
2.2
0.04
0.06+
33
Neural network (NN) 歴史的背景
第1期
1960
第2期
1970
1980
1990
第3期(たぶん)
2000
2010
今ココ
Stochastic GD
(Amari 67)
Perceptron
(Rosenblatt 57)
“Linear Separable” (Minski & Papert 68)
Neocognitron
(Fukushima 80)
Simple/Complex cell
(Hubel&WIesel 59)
Back Prop.
Sparse Coding
(Rumelhart+ 86) (Olshausen&Field 96)
Boltzmann Mach.
(HInton+85)
Population coding
(Desimone+ 84)
Conv. net
(LeCun+ 89)
Population coding
(Tanaka+ 84)
Deep learning
(Hinton+ 06)
Deep Convolution
Neural Network
(DCNN)
(LeCun+ 89)
(Deep) Convolution-net
基本アーキテクチャ
Neocognitron
(Fukushima 80
畳み込み演算による,
局所特徴抽出+並進不変性
学習則: BackPropagation
(LeCun+86, Okada90)
(LeCun+86)
DCNN デモ
Rotation
Scale
Multiple Input
Noise
http://yann.lecun.com/exdb/lenet/index.html
まとめ
ネットワークが深い構造になるほど,全体の最適化は
勾配情報のみを用いて決定するのは困難
入力空間に関する特性を学習方式やネットワークアーキテク
チャに組み込むことで性能向上が可能
画像の場合の知識例
→並進運動,回転,拡大等の変換に不変であるべき
学習にこれらのルールを組み込む→Tangent Prop.
アーキテクチャに組み込む→ネオコグニトロン
ネオコグニトロンアーキテクチャのアイディアは
生物学的な知見から
生物のやっていることの理解に繋がる
38
Fly UP