バッチ学習型競合連想ネットとその性質

by user

on 28 марта 2017

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download バッチ学習型競合連想ネットとその性質

Transcript

バッチ学習型競合連想ネットとその性質

計測自動制御学会論文集
Vol.42, No.8, 916/925
(2006)
バッチ学習型競合連想ネットとその性質
黒
Batch
木
秀
Learning
Shuichi
一＊・西
田
Competitive
KUROGI*,
Takeshi
健*・渕
Associative
NISHIDA*
Net
川
康
and
裕
Its
and Yasuhiro
Properties
FUCHIKAWA*
So far, the competitive associative net called CAN2 has been developed to utilize the competitive and associative schemes for learning to achieve efficient piecewise linear approximation of nonlinear functions. Although
the conventional online learning methods for the CAN2 have been shown effective, they basically are for infinite
number of training data. Provided that only a finite number of training data are given, however, the batch
learning scheme seems more suitable. We here present a batch learning method to learn a finite number of
training data efficiently by means of combining competitive learning, associative learning and reinitialization
using asymptotic optimality. Finally, we apply the present method to learning to approximate sevaral artificial
benchmark functions and show that the batch CAN2 calculates faster and achieves smaller MSE (mean square
error) than the conventional online CAN2, and it has several advantages superior to the SVR (support vector
regression).
Key Words: competitie associative net, batch learning, piecewiselinear approximation, comparative experiment
to support vector regression
トとし,競合部分をゲートとする混合エキスパートモデル9)
1.
競合連想ネットCAN2
はじめに
(Competitive
Associative
Net
2)
としても捉えられる.こ
の類似手法としてたとえばMARS
(multivariate
regression
adaptive
splines)モ
デル10)は
連
は競合ネット1)と連想ネット2)の機能を用いて非線形関数を
続的な区分的線形近似を行なうのに対し,競合連想ネットは
学習し区分的線形関数として近似するニューラルネットであ
各区分領域で最適な線形近似を行なうために不連続な近似を
り3),非線形時変プラントの制御4),降
行なう点などが異なる.
水量推定5),非
線形関
さて従来のCAN2は
数の学習問題6)などへ応用され種々の側面からその有用性が
示されている.特
に2000年
度電子情報通信学会総合大会シン
ポジウム・降水量推定コンテストではCAN2を
訓練データを1個ずつ処理してネット
のパラメタを少しずつ更新していくオンライン学習法を用い
ていた.し
用いた手法5)
かし訓練データが有限個の場合には訓練データ全
の成績を得ており,その性能の高さが示された結果
体を用いてネットのパラメタを一括して変更していくバッチ
であると考える.このネットの特徴は訓練誤差(訓練データに
学習の枠組のほうがより効率的な学習法が構成できると考えら
対する近似の二乗平均誤差)を最小化するために,勾配法に基
れる.そ
づく競合学習により入力空間を区分し,再帰的最小二乗法に
つかの間題に適用した11)∼15).特
基づく連想学習により各領域での線形近似を最適化し,さらに
tional Joint Conference
が第2位
の類似手法として,局
所線形モデル7)や
区分的線形ニューラルネット8)があるが,そ
れらは訓練入力
mation
Challengeの
on Neural
小化するための手法であるK近
あると考えられる.
neighbor)
Networks)の
ッチ学習型CAN2の
本的な性質を示すことを目的とする.特
点に違いがある.ま
違い,お
その連想部分をエキスパー
(Support
九州工業大学工学部北九州市戸畑区
Faculty of Engineering, Kyushu Institute
(Received April 13, 2005)
(Revised March 13, 2006)
Infor-
Uncertainty
winner)15)に
性能の高さが示された結果で
自体を最小化するための競合学習により入力空間を区分する
たCAN2は
時系列予測
(Neural
Predictive
本稿ではこのバッチ学習型CAN2を
訓練誤差
(Interna-
回帰部門では第1位(regression
選ばれ,バ
を用いて入力空間を区分するのに対し,CAN2は
にIJCNN2004
Processing)のEvaluating
ベクトル集合と各区分領域の中心ベクトルとの距離測度を最
傍法(K-nearest
バッチ学習法を考案し,いく
コンペティションでは第3位14),NIPS2004
漸近最適性の条件6)を用いて勾配法の局所解問題に対処して
いることにある.こ
こで著者らはCAN2の
提案し(注1),そ
の基
にオンライン型との
よび他手法のうちでも関数近似性能の高かったSVR
Vector
Regression)と
の比較実験6)を通して提案
of Technology
(注1)
本稿の一部はSCI2004な
どで発表しているが,よ
細に論文誌に掲載するのは本稿が初めてである.
TR 0008/06/4208-0916 (c)
2005 SICE
り詳
計測自動制御学会論文集
手法の性質を示す.以
習法を示す.こ
下,ま
ず2でCAN2と
第42巻
第8号
2006年8月
917
そのバッチ学
の学習法は従来のオンライン学習法と同様の
手順を繰り返す手法であるが,各
手順において有限個のデー
タから得られる情報を用いてより効果的に学習するように構
成している.つ
ぎに3で
いくつかの非線形関数に対し,従来
のオンライン学習法およびSVRと
バッチ学習型CAN2の
2.
2.1
CAN2に
まずk次
の比較数値実験を行ない,
諸性質を示す.
バッチ学習型CAN2
よる関数近似
元ベクトルxj△=(xj1,
とスカラ値yj∈Rを
xj2,…,xjk)T∈Rk×1
入出力とするシステム
(1)
yj
を考える.こ
こでj=1,2,…
は異なるデータを表わす
ための添字であり,∫(xj)はxjの
0で
分散が
σ2dの
関数,djは
観測雑音とする.CAN2は
ルwi△=(wi1,…,wik)T∈Rk×1と
(Mi0,
Fig.1
effect
input
vector
x
by
the
movement ƒ¢wi
we
suppose
when
the
1
意の入力ベクトル,x△=(1,xT)T∈R(k+1)×1は
任
上式(2)の
線形近似のバイアス項を生成するために1を付加したベクト
る.こ
XEX1
は競合により選択されるユニットの番号を表わす.以
上の関
のボロノイ領域(または
ディリクレ領域ともいう)
である.こ
区分的線形近似を行なうこと
のEの
ボロノイ領域Viに
最小化問題は非線形問題であり,本手法
訓練データ集合Dに
なうことを1回
によりEを
想行列の更新,お
なわち
よび(3)再
対してそれぞれ1回
ずつ行
のバッチ学習とし,この学習を繰り返すこと
逐次的に最小化する手法を用いる.以下,各
手
順を説明する.
勾配法に基づく荷重ベクトルの更新
まず連想行列Mi(i∈I)の
できる;今,あ
θw=0.1と
値が変化しないと仮定すると,
る荷重ベクトルwiを
最適化することが
含むボロノイ領域Vi
の微小な幅 θw(<1;後
述の実験では
した)をもつ境界領域
Wil={x￨x∈Xi∪Xlお
り得られる有限個の訓練データの集
合D={(xj,yj)￨j∈J}が
こでX={xj￨j∈J}は
訓練出力(スカラー)の集
よびJ={1,2,…,n}は
あり,訓練データの個数nは
各訓練データの添字集合で
有限である.CAN2の
学習した後,シ
学習の
目的は,こ
の訓練データ集合Dを
ステム方
程式(1)へ
の任意の入力xに
対して雑音のないシステム出力
推定値y=f(x)を
出力できるようになること
こでそのような学習を達成するには訓練データに
よび
(2x-wi-wl)T(wi-wl)
与えられているとする.こ
8W}
(6)
w2-wl2
訓練入力(ベクトル)の集合,
y={yj=f(xj)+dj￨j∈J}は
である.そ
属する
学習の目的と漸近最適条件
システム方程式(1)よ
y=f(x)の
求めればよいと考えられ
の手順を繰り返す解法を適用する.す
とその隣接領域Vlと
バッチ学習法
(5)
Ei
以下のように勾配法の考え方によりwiを
を意味する.
合,お
初期化,を
(4)
1EI
CAN2の
(x-wi)>0.
is one-dimensional
訓練入力ベクトルの集合であり,Ei△=(1/n)Σx∈xl‖e(x)‖2
2.2.2
V={xi=argminx-wl}
2.2.1
train-
Vi•¿Wil
iEI
(1)荷重ベクトルの更新,(2)連
(3)
c=argminx-wi
iEI
CAN2の
(b)
二乗の平均(期待値)を表
こでXi={x∈X∩Vi}は
ではつぎの3つ
よび
2.2
space
を最小化するwiとMi(i∈I)を
こでx=(x1, x2,…,xk)T∈Rk×1は
数y=f(x)の
A
into
s=ƒ¢wTi
input
e(x)2=
iEI
により,上記システムの観測雑音を除いた関数y=f(x)の
に分割して,関
moves
わすエネルギー
(2)
数近似は入力空間V=RkをN個
movement ƒ¢wi.
Vl•¿Wil
対する近似誤差e(xj)△=y-yjの
E_
ル,お
of the
(a)
for simplicity.
いて
_~C-MCx
近似を行なう.こ
in
荷重ベクト
もつユニットをN個
σ ∈I={1,2,…,N})用
of the
ing
Here,
平均値が
連想行列Mi△=
Mi1,…,Mik)∈R1×(k+1)を
Example
にある訓練ベクトルx∈Wilに
対して,Wiが
Δwiだ
属する領域がViか
巧
け変化することによりxが
またばVlか
らViに
s△=ΔwTi(x-wi)の
する.す
移動するとき,エ
参照),f(x)に
つs>0の
ら第iユ
け増加
とき(Fig.1
よるネットの近似誤差は第lユ
誤差el(x)(△=Mlx-f(x))か
ら
ネルギーEは
符号で(e2i(x)-e2l(x))/nだ
なわちx∈Vl∩Wilか
微小量
ニットによる
ニットによる誤差
918
T. SICE
ei(x)に
変化し,逆にx∈Vi∩Wilか
差はei(x)か
s<0,ま
らel(x)に
つs>0,の
August
2006
つ
ときはxが
たがってエネルギーEも
これは ΔwlとEが
No.8
ときの誤
変化する.一方,x∈Vl∩Wilか
たはx∈Vi∩Wilか
る領域は変化せず,し
つs<0の
Vol.42
属す
変化しない.
不連続な関係をもつことを意味するが,
Fig.2
今,Wil内
に訓練ベクトルxが
と,(6)式
よりVi∩WilとVl∩Wilは
Example
一様に存在すると仮定する
同面積なのでWil内
の半数の訓練ベクトルによりエネルギーEが
of the
nmin=2,
Vi
is
original
insuficient,
nearest
変化し,Δwi
augmentation
the
to
and
wi
is
of
training
the
training
dataset
training
augmented
so
vectors.
For
Xi={xi1}
in
vector xj2
that
(•¸
Xi:={xi1,
Vi)
xj2}
and |Xi|=nmin.
によるエネルギーの増加量 ΔEは
QED-4w1
2n
(7)
で近似できると考えられる.こ
~i-
0
(e2(x)-ei(x))
であり,AiはViに
を横に並べた行列,お
こで
IEA1XEWil
こでniが
x-wi
ξi‖2<0と
減少が期待できる.し
ωi(i∈I)に
集合である.
用いて Δwi=γ
たがってすべての荷重ベクトル
Mi=YiXi+はEiを
とする更新式が得られる.こ
こで:=は
辺に代入することを表わす.さ
訓練入力ベクトルxjの
要素xjlの
max~xj1-Xm1
max
1=1,...,k
対
なるまでwi
なわち,
Mxi-wi,
mm
x1Ex-x2
(13)
lxal=nmin}
取
(10)
jEJ
~mEJ
となるようにXiを
更新する.こ
で最も大きく更新される要素wilは
訓
γ0倍以下になる
微小に更新されることを保証する.
以上のようにバッチ学習法ではすべての訓練データの情報
を用いることができるが,訓
練データが
1個ずつ与えられる従来のオンライン学習法での学習係数6)
取りうる範囲を予想して注意深く設定する必要が
きすぎる場合やViの
ある.
かし経験的にはkの
最小化問題は各iに
変化しないとすると,E=
用いて
こで以上の方法はViの
外から
大
注意深く選択すべきで
大きさにかかわらず,nmin=3
多くの事例でよい性能を示したことを付記してお
く.これは多くの関数近似問題においては比較的小数の訓練
データしか与えられないのでnminを
大きくしすぎるとあま
りよい結果が得られないこと,お
よび3∼4個
があればMi=YiXi+が
を最小にする機能により,
‖Mi‖
の訓練データ
予測誤差が発散しないような比較的良い解が得られるのでは
ないかと考える.
連想行列Mi=YiXi+は
つぎのRLS
y∈Yiに
線形最小二乗法による連想行列の更新
のXiを
最適形状が球でない場合には不適切な
直接計算することもできるが,
(Recursive
めることもできる.す
荷重ベクトルwi(i∈I)が
照),こ
球形近傍領域の訓練データを補充するので,nminが
ある.し
(11)
ると(9)式
補充し(Fig.2参
データを補充する恐れがあり,nminは
は ξiの要素 ξilの最大値
としてDxとDξ
Σi∈IEiの
らにある定数nminに
場合には￨Xi￨=nminと
Xi:={x~xj-wi<
Mi=YiXi+を
練入力ベクトルの要素が取りうる幅Dxの
2.2.3
ユニットについてはwiとMiの
れるまで行なわないこととする.さ
らに学習係数は γ=γ0Dx/Dξ
maxmaxi1
1=1,...,kiEl
はei(x)の
の解決
更新およびこのユニットによる関数近似は再初期化(後述)さ
または4が
ので,wiが
を最小に
の解は未知ベクトルに対する関数近似
策として,まずni=0の
wiの
である.す
述した解
を行なうために一般には妥当であるとは限らない.こ
右辺で計算した値を左
りうる幅
およびDξ
要素数である.こ
りも小さいと,上
り十分小さな正定数(後述の実験では γ0=
した),Dxは
D~=
はXiの
の近傍の訓練データを補充する,す
(9)
対応するyj∈Yi
最小にする解のうち ‖Mi‖
して1≦ni<nminの
w2:=w2-YZ
0.001と
ξi
なり,エネルギー
ついて
とし,γ0は1よ
よび物
ベクトルの次元kよ
するものになるが,こ
添字lの
したがって十分小さな学習係数 γ(>0)を
Eの
(8)
Hx-w2
隣接する領域Vlの
とすると,ΔE=-(γ/2n)‖
を順に横に並べた行列,Yi∈R1×nlはxjに
Least
Square)法
により逐次的に求
なわちすべてのx∈Xiと
対応する
ついて
MZ:=MZ+
ついて
(y-1)xlgZ
1+xT!/x
(14)
および
Ez=1MZX1-YZ2
(12)
!i:=Pi-
を最小化する線形問題となり,その解はMi=YiXi+と
ここでXi+はXiの
はすべてのxj∈Xiか
なる.
一般化逆行列を表わし,Xi∈R(k+1)×ni
ら生成した列ベクトルxj=(1,xTj)T
[gxxTY2
(15)
1+xT!2x
による更新を,す
初期値はMi=Oと
べてのi∈Iに
Ψi=I/∈0と
ついて行なう.各行列の
し,Oは
零行列,Iは
計測自動制御学会論文集
単位行列を表わし,∈0は小さな定数である(後述の実験では
60=10-4と
第42巻
第8号
2006年8月
919
の等号が成立するのは
した).この初期化は,バッチ学習の繰り返しご
0Cp
(18)
2v21+4/k--ˆê’èa2-Z-(a=1,2,...,N)
とに行なうこともできるが,最初のバッチ学習時にのみ一度
だけ行なうこともできる.いくつかの実験結果によると,連
となるときのみであり,これが漸近最適条件を表わす.な
想行列を直接計算する場合やRLS法
以下,αiを
でバッチ学習の繰り返
しごとに初期化する場合はバッチ学習の繰り返しの途中で訓
練データに対する二乗平均誤差が不安定になる場合があった
が,最初のバッチ学習時に一度だけ初期化するRLS法
では
量子化歪あるいは単に歪という.こ
お,
の条件を以下
のように利用する.
まず第iユ
ニットの二乗誤差和Si=nEiを
(5)式,(16)式,(17)式
そのような不安定な現象は起こらなかったので,後述の実験
および(18)式
計算すると,
より,
Szoe(x)2
では後者の方法を用いた.なお前者の場合に不安定になった
XEX1
要因として,バッチ学習の繰り返しの途中で,ある連想行列
Miの
inJe(x)JJ2p(x)dx
ひとつの要素の値が突然非常に大きくなり,学習の繰
り返しとともに次第に発散していく現象を観察することがで
(19)
きた.これはバッチ学習の繰り返しにより得られるXlとYi
のみを用いて計算したMlは
不安定になることがあり,後者
の手法はこれを取り除く働きがあるものと考えられる.
が得られる.こ
こで上式の近似は(5)式
と(16)式
散と連続の違いに基づく近似を表わす.い
以上の処理のうち(2)式により訓練データを補充する処理
多数ありf(x)が
ま荷重ベクトルが
線形近似できる領域Viの
は訓練データすべてを用いるバッチ学習の枠組でのみ行なう
と,その領域でのCiは0,し
ことができる処理である.逆にオンライン学習ではこの処理
測雑音の分散 σ2dの推定値
における離
存在を仮定する
たがって αiは0と
なるので観
が不可能なため,訓練データが少ない領域での近似性能がバッ
2.2.4
が得られる.こ
漸近最適条件に基づく再初期化
前述の荷重ベクトルwiの
(20)
Q~=min{S1In2iEI‚¨‚æ‚ÑnZ/ne}
チ学習より劣る可能性があることがわかる.
更新で用いた勾配法には局所解
nlが
こでしきい値 πθ(>k)は
入力ベクトルの次元k以
問題が内在する.そこで荷重ベクトルが十分多い場合を仮定
Si=0と
して得られる最適条件(漸近最適条件という)を用いて荷重ベ
の定数である.以
訓練データの個数
下のときMの
最適化により
なり σ2dが正しく推定できなくなることを防ぐため
クトルを再初期化する学習法とその有効性が示されており6),
上により歪 α,の推定値
S2-Qdnz
(21)
6b._
本稿でもこの手法を利用する.以下,この条件を要約して示
72
し,その使用法を説明する.まず漸近最適条件とは,荷重ベ
が得られ,こ
クトルが十分多い場合の荷重ベクトルの最適配置においては,
どうかを判断するために,つ
れらの αi(i∈I)が(18)式
各ボロノイ領域における観測雑音を除いた二乗誤差和が等し
くなる,という条件であり,以下のように定式化される.ま
ず(5)式のエネルギーを連続化して
E=~
および
~ea
(i2)
ここでb∈Iで
(16)
Me(x)2p(x)dx
H
ln(N)
あり,θ α(>1)お
<αi>は推定歪 αi(i∈I)の
を満たしているか
ぎの条件式を用いる.
(22)
<OH
よび θH(<1)は
平均,Hは
正定数,
次式で与えられるエ
ントロピー
i:IVi
と表わす.こ
る.今,各Viは
こでp(x)は
訓練ベクトルxの
十分小さく,各Vl内
で近似でき,f(x)は2次
確率密度であ
でp(x)は
H_-
In
一定値pi
関数で近似できるとする.す
ると
ネットのエネルギーは
a
aEIjEI7
である.条
件式(22)の
(23)
~jEIa7
左方の不等式はある推定歪 αbが平
均値よりかなり大きいとき成立し,右方の不等式はすべての
αi(i∈I)が
1+4/kC
p1vz+o2pzvz
あまり均一でないとき成立する.この連立不等式
は安定した漸近最適性の判断を行なうためにベクトル量子化
SFr
>N-4/kIC(x)p(x)
1
1+4/k
(17)
+Ud
献16)を
となることが導かれる(詳しくは文献6)参
∫VldxはVlの
呼ばれ,関
照).こ
体積であり,Ci△=C(wi)は
数f(x)の
さを表わす.ま
位置x=wlに
量子化係数と
た ‖g(x)‖α=(∫V￨g(x)￨αdx)1/α
らに(17)式
の右辺はEの
こでvi=
おける非線形性の強
‖C(x)p(x)‖1/1+4/kは与えられたf(x)とp(x)に
なる.さ
における漸近最適性の判断に用いられたものである(詳細は文
であり,
対し定数に
最小値を表わし,この式
参照).な
お後述の実験では再初期化が適度に起こるし
きい値として θα=5お
を用いた.こ
よび θH=0.75+0.15(N-100)/400
こでこの θHはユニット数がN=100と500
のときそれぞれ θH=0.75と0.90と
れた経験則から導いた.さ
すると良い結果が得ら
て条件式(22)が
満たされるとき,
その左方の不等式を満たす大きい歪をもつ第bユ
重ベクトルwbの
ニットの荷
近くに小さな歪をもつユニットの荷重ベク
920
T. SICE
トルを移動することにより,よ
No.8
August
2006
り最適解に近づけることがで
きると考えられる.すなわち,今,す
べてのi∈Iに
j番目に大きい αiをもつユニットを第b(j)ユ
とき,j番
Vol.42
目に小さい第s(j)=b(N-j)ユ
ついて
ニットとする
ニットを次式に
より再初期化する.
W3(j):=Wb(j)+Br(Xc(j)-Wb(J))
(24)
J"1s(j):=Mb(j)
ここでxc(j)は
(25)
一wb(j)に最も近い訓練ベクトルである.ま
新しいws(j)に
対するボロノイ領域Vs(j)に
つの訓練ベクトルxc(j)が
θrは1.9と
した.な
た
は少なくとも1
存在するように,再
お前節で述べたni=0と
初期化の係数
なるユニット
は αiが最も小さいユニットとして優先的に再初期化する.
Fig.3
Benchmark
functions
以上のようにバッチ学習では訓練データすべてを用いて歪
の推定値 αiを計算できるが,従
来のオンライン学習では各
領域の近似誤差をある時定数で漏れ積分して求めており,そ
の時定数の決定に注意を要した.ま
(9x12)2(9X22)2
4
f2(x)=4exp
たバッチ学習では再初期
化された荷重ベクトルのボロノイ領域に少なくとも1つ
練ベクトルが存在するように構成できたが,オ
の訓
+34exp
(9i+1)2x(9x2+1)2
4910
+1exp2
(9x17)2(9x2-3)2
4
ンライン学習
では再初期化する荷重ベクトルを補充すべき領域の荷重ベク
トルと同じベクトルに再初期化し,そのとき入力された訓練
-1exp-(9x1-4)2-(9x2-7)2
ベクトルを学習させていたため,再初期化されたボロノイ領
域内に訓練ベクトルが存在せず近似性能が低下する可能性が
ある.
f3(x)=
3.
数値実験
のコンペティションで使用し,優れた成績を得ている.特
はstereopsis(両
タ)という性質の異なる3つ
力次元がそれぞれ4,
に,
のデータセットに適用した.入
値(予測分布の中心)と予測分布を求める課題であり,訓練
数はそれぞれ500,
た.こ
427,
150, 20,000,お
20,000の
よびテストデータ
データセヅトが使用され
れらさまざまな入力次元やデータ数をもつデータセッ
トに対し,提案手法のMSE(二
第1位,第2位,第1位
乗平均予測誤差)はそれぞれ
の成績を得ることができた.こ
(cos(4πr)+1)/2
(r≦1/4)
0
(そのほか)
(-3/2)2+(x2-1/22
((x1-0.5)(x2-0.5)≧0)
1
(そのほか)
のコ
まず各関数fi(i=1,2,3,4)に
対して入力ベクトルxを
正方領域S={x=(x1,
x2)￨x1,x2∈[0,1]}内
ムに選んでfi(x)を
し,データの個数n=j×103(j=1,5,10,50)の
D(j;n)を
作成した.つ
がN=100,
200,
ぎに各訓練データ集合をユニット数
300,
バッチ学習させた.こ
400お
よび500の
ネットにそれぞれ
のときネットを評価するため訓練データ
データとして格子点x∈L(K)={(0.5+i/32,
的にわかりやすい入力次元が2次
覚
元のデータセットに対する
数値実験結果を示し,提案手法の基杢的な性質を検討する.
3.1
提案手法の学習性能をつぎの4つ
び文献6)参
fi(x)=
求めた.こ
L(K)=L(0)は
準備
fi(x1, x2)
i,j=0,±1,士2,…,±(16+K)}と
を用いて,ネ
(i=1,2,3,4)に
ついて検討した(Fig.3お
照).
tanh(9x2-9x1)+1
9
よ
0.5+j/32)T￨
その関数値y=fi(x)
こでKは
非負の整数であり,K=0の
ときの
訓練データを生成した単位正方領域内の点
ときのL(K)は
域の外の点を含むこととなる.し
のとき内挿能力,K≧1の
わせて汎化能力,さ
できる.な
よびテスト
ットによる推定値すとの二乗平均誤差E(K)testを
集合となり,K≧1の
の関数fi(x)=
生成
データ集合
用されており,そのうちでもバッチ学習型CAN2が
下では,視
0.01]内の一
様乱数による雑音を加えて訓練データy=fi(x)+dを
ンペティションでは最新の種々のニューラルネット手法が適
優れてい
単位
からランダ
計算したあと,区間[-0.01,
に対するネットの出力の二乗平均誤差Etrain,お
ることが示された結果であると考えられる.以
≦1/2)
業の秘密デー
12, 37のベクトルからその関数の予測
データ数はそれぞれ192,
(0≦x2-ξ
{0
f4(x)=
眼立体視のデータ),gaze(計
算機スクリーン上の注視データ),outaouais(企
(x2-ξ>1/2)
2(x2-ξ)
=2.1x1-0.1;r
前述のように,提案手法はすでにIJCNN2004やNIPS2004
NIPS2004で
{1
とき外挿能力,お
らにEtrainは
おL(0)はFig.3で
学習した単位正方領
たがってE(K)testはK=0
よび両者を合
学習能力を表わすと解釈
関数を描画するために用いた
計測自動制御学会論文集
第42巻
第8号
2006年8月
Fig.5
Fig.4
Etrain
and
E(0)test vs.
the
number
of batch
921
Etrain
and
E(0)test vs.
n and
N
learning
iterations
33×33の
格子点の集合であり,この集合により生成された
テストデータ集合はネットが各関数を学習できたかどうかを
判断するために妥当な集合であると考えられる.
なお以下の計算結果は,Intel (R) Pentium
CPU
1200MHzのCPU,主
てVine
Linux
(R) III Mobile
メモリ512Mバ
2.6,倍
精度計算のCプ
イト,OSと
し
ログラムとgcc-2.95
のコンパイラを使用して得たものである.
3.2
バッチ学習回数に対するMSEの
まず各関数fiに
変化
ついてn=1,000と50,000の
訓練データ
集合をそれぞれユニット数がN=100と500のCAN2で
バッチ学習さぜた場合の学習回数に対するEtrainとE(0)test
をFig.4に
示す.こ
の図からすべての関数の学習はほぼ100
回のバッチ学習で収束していると考えられる.な
のEtrainとE(0)testに
は振動が見られるが,こ
再初期化の影響である.す
おf3とf4
た再初期化の直後は近似誤差が大きくなることもある.た
だ
ついては勾配法によるわずかな荷重変化によっ
ても振動が起こった.こ
れはf4が
不連続関数であることに
数nと
繰り返した後のCAN2の
ユニット数Nに
示す.本
実験では訓練データy=fi(x)+dは
テストデータは雑音を含まないので,ネ
E(0)testはEtrainよ
ると関数f4以
Etrainよ
訓練データ
対するEtrainとE(0)testをFig.5に
の雑音を除去し左y=fi(x)の
雑音を含むが
ットが訓練データ中
みをうまく学習するならば,
りも小さくなる・この見地から同図を見
外で訓練データ数nが
大きいときはE(0)testは
りも小さくなり,雑音を除去する学習が行なわれて
以上の結果をさらに定量的に検討すると,ま
は最適値が存在すると考えられる.す
の雑音dの
になっていたので,ネ
ットが雑音を含まない真の関数fiを
学習している場合のEtrainは
Etrainが
この σ2dの値になる.さ
らに
この値より小さくなりすぎるとネットは訓練デー
σ2dより
考えられる・そこでFig.5のEtrainとE(0)testを
ユニット数
Nに
示す.ま
対して再描画したものをFig.6とFig.7に
Fig.6か
ずEtrainに
なわち訓練データy=
標本分散 σ2dは作成したすべての訓練
らf4以
外およびn=1,000以
適値である σ2d=3.3×10-5の
より小さなE(0)testはf4以
合に実現されている.こ
外のEtrainは
ず
その最
近傍にあり,良好な学習能力
が得られていると考えられる.さ
らにFig.7か
ら3.3×10-5
外およびnとNが
十分大きい場
れらの結果はNを
大きくするとよ
り多くの区分領域を用いてより複雑な非線形関数を近似でき
るが,デ
いるものと考えられる.
fi(x)+d中
データ集合についてほぼ理論値3.3×10-5=∫0.0010x2dx/0.01
小さくなっていれば雑音を除去した学習が行なわれていると
学習能力と内挿能力
バッチ学習を100回
N
タを過学習していると考えられる.一方,E(0)testが
起因していると考えられる.
3.3
Etrain vs.
なわち再初期化が起こる場合は起
こらない場合よりも近似誤差の変動が大きいことが多く,ま
し関数f4に
Fig.6
れらの多くは
ータ数nが
えない場合が生腸
少ないと各区分領域の学習が良好に行な
ことから理解できる.ま
たf4のE(0)test
が小さくできなかった場合の検討は後述する(3.7参
照).
922
T. SICE
Vol.42
No.8
August
2006
Fig.9
Fig.7
E(0)test vs.
E(K)test vs.
n and
K
N
なおf4でn=5,000の
ときはその例外になっているが,ほ
かの場合と比べるとその差はほとんどないとみることができ
る.CAN2bがCAN2oよ
り・E(0)testを
小さくできた主な要因
は,連想行列の計算においてボロノイ領域内の訓練データ数
が少ない場合の処理を施したこと(2.2.3参
照)などが考えら
れる.
つぎにSVMTorchはf1とf2の
びf3のn=1,000の
すべてのnに
とき,CAN2bよ
実現できたことがわかる.こ
ある1点
ついておよ
りも小さなE(0)testを
れはCAN2bがk次
元空間上の
の関数値を雑音を除去して近似するためには(k+1)
個よりも多くの訓練データが必要なのに対しSVMTorchは
ガウスカーネル関数の機能によりf1やf2の
ような滑らかな
関数を少数の訓練データを学習して内挿する能力に優れてい
ることが原因であると考えられる.
逆にf3のn≧5,000お
Fig.8
E(0)test vs.
n
よびf4の
すべてのnに
CAN2bの
ほうがSVMTorchよ
f3やf4は
区分的に線形な関数部分をもち,そ
対して
りも内挿誤差が小さいのは,
の部分は滑ら
かに変化するカーネル関数の和で近似するよりも区分的線形
関数として近似するほうが誤差を小さくできることが原因で
3.4
他手法の内挿能力との比較
Fig.7で
各関数fiと
各nに
対して最小のE(0)testを抽
出したものをFig.8のCAN2bの
実線で表わす.比
め,従来のオンライン学習型CAN2の
の破線で示す.さ
gation
らに文献4)に
Net)やRBFN
(Radial
も良い結果を示したSVR
おSVMTorchを
の方法は付録Aを
(Radial
Basis
Fig.8に
Net)よ
り
Regression)の
用いた理由とそのパラメータ探索
たカーネル関数はRBF
なわちガウス関数K(x,y)=
用いた.
おいてまずCAN2bは
訓練データ数に対する外挿能力
前節でSVMTorchは
にこのか
結果を同図の細い実線で表
Function)す
タ集合に対してCAN2oよ
Vector
3.5
ガウスカーネル関数を用いてCAN2b
よりも優れた内挿能力を示す場合があることがわかったが,逆
(Backpropa-
Basis Function
参照のこと.ま
exp(-‖x-y‖/r2)を
較のた
結果を同図のCAN2o
おいてBPN
(Support
一手法であるSVMTorch18)の
わす.な
あると考えられる.
ネル関数はK≧1に
対するE(K)testすなわち外挿
能力を制約すると考えられる.そ
をCAN2bとSVMTorchに
示す.こ
ついて計算した結果をFig.9に
の図よりSVMTgrchのf1,
はK=0で
はCAN2bよ
同程度になり,K≧2で
ることがわかる.ま
ほとんどすべての訓練デー
ためn=5,000に
f2, f3に対するE(K)test
り小さいが,K=1でCAN2bと
はCAN2bの
たf4で
ほうが小さくなってい
はすべての場合についてCAN2b
のほうが小さくなっている.こ
り小さなE(0)testを実現している.
こでK=0∼5のE(K)test
の結果をより詳細に検討する
ついてのCAN2bとSVMTorchの
の誤差y-y=fi(x)-yをK=5に
出力y
対応する領域,す
なわ
計測自動制御学会論文集
第42巻
第8号
2006年8月
923
Fig.11
Camputational
りCAN2bはCAN2oよ
cost
りも平均して約10倍
程度少ない時
間で計算できていることがわかり,また最も時間がかかった
場合でも約15分
であった.こ
れはバッチ学習法はオンライ
ーン学習で行なう共通の処理を一括して行なうように工夫して
いるので一般に短時間で学習できることを反映している.ま
たSVMTorchは
関数f1とf2の
びf3のn=1,000の
場合についてCAN2bよ
で計算できているが,関
Fig.10
Extrapolation error of CAN2b (left) and SVMTorch
(right)
数f3とf4で
く時間がかかっておりn=50,000の
示す.図
よりCAN2bの
1.15625]の
区分的線形近似が
訓練領域外でも良好に機能していることがわかる.こ
れに対
訓練領域から離れるにつれて大きな誤差が
出ているが,これはSVMTorchの
出力は訓練領域から離れる
200, 300, 400, 500以
Fig.11の5倍
約8回
付録Aの
幅rがf1,
誤差の大きさは訓練領域か
f2, f3, f4で
0.0160と
れはこの場合の
それぞれ0.1432,
0.1680,
かなり小さかったことから理解できる.
なお外挿能力は学習すべき関数の性質に大きく依存するの
で,一
般的な性質として記述することは困難であるが,少
な
3.7
関数f4と
関数f4に
SVMTorchの
3.6
ッチ学習型CAN2は
良い成績を残している.
計算時間
示す.図
よ
た最適値以外のパラメータ値を用いて
は含
だし実際には計算時間を計測する
テストデータ
ついて,再びFig.8を
見て,CAN2b,
CAN2o,
いずれの手法でもE(0)testの値がほかの関数に
比べて数桁大きな値になっていることについて考える.ま
ずこの結果はネットや学習法によるのではなく,この関数
f4に特有の性質,よ
各訓練データに対して最小のE(0)testを与えるパラメータを
用いたときの学習に要した計算時間をFig.11に
なわち約70倍
用した.
良
が要求され,バ
の時
この数値実験以外は複数の性能の異なる計算機を並列して使
の
ータセットにおいても外挿能力
約32∼40倍
段で
た不感帯 ∈=0.01
選択も含めるとさらにその2倍,す
めていない場合もある.た
くとも本稿で扱った関数についてはバッチ学習型CAN2は
コンペティシヨンのgazeデ
段階的な探索法で4∼5段,各
80分以上かかって得た結果が最適でないためFig.11に
い性能を示しているといえる.さ
らに前述のNIPS2004で
外は固定して行なったので各
探索に必要であったといえる.ま
要したことになる.ま
0.05612,
の計算時
ずつの探索を行なったのでFig.11の
間がrの
理解できる.ま
RBFの
とき約40分
程度と見積もることができるが,SVMTorchは
パラメータrを
と0.001の
たSVMTorchの
りも長
パラメータ探索はユニット数
に従い訓練データの関数値の平均値に近づいていくことから
ら離れるにつれて急速に増加しているが,こ
りも短い時間
はCAN2bよ
訓練データ集合に対してパラメータ探索を含めた計算時間は
誤差は訓練領域であるx1,x2∈[0,1]
の外でもそれほど大きくなく,CAN2bの
し,SVMTorchは
N=100,
領域についてFig.10に
ついておよ
間がかかった.
なおCAN2bとCAN2oの
ちx1, x2∈[-0.15625,
すべてのnに
り具体的にはこの関数の不連続性に起
因するものであると考えられる.さ
らにテストデータセット
E(0)testを生成した格子点集合L(0)={(0.5+i/32,
0.5+
924
T. SICE
Vol.42
関数値が不連続な直線x1=
0.5とx2=0.5上
の点を含んでいるので,学
評価をするのに適していない可能性がある.そ
習結果の
いう格子
点集合を用いてテストデータを作り,再実験した.そ
得られ,さ
雑音の分散 σ2d=3.3×10-5よ
らにN=800と
びN=800で7.2×10-4,ま
よ
たこのテストデータを用いて
パラメータを再探索したSVMTorchで
は4.5×10-3ま
か小さくすることができなかった.以
CAN2oやSVMTorchよ
でし
上の結果はCAN2bは
りもf4の
ような不連続関数を学習
する能力にも優れていることを示していると考えられる.
4.
おわりに
本稿ではバッチ学習型CAN2の
諸性質を明らかにした.ま
学習法について検討しその
ずバッチ学習法は従来のオンライ
ン学習に以下のような処理を付加することにより性能向上を
図っていることを示した.す
なわちバッチ学習法は荷重ベク
トルを勾配法により更新する際には訓練データの変動範囲に
応じた学習係数の値を用いることにより荷重ベクトルの変化
量が微小量になるようにしており,また連想行列を更新する
際には再初期化された荷重ベクトルのボロノイ領域内の訓練
データの個数が小さいときにその周囲から訓練データを補充
する手法を用いていることを示した.さ
用いて再初期化する際には,訓
らに漸近最適条件を
練データのすべてを用いて歪
の推定値が計算できることなど,バ
ッチ学習法の有用性を示
した.最後にオンライン学習法およびSVRと
験を行ないバッチ学習型CAN2の
本稿では入力次元が2次
の比較数値実
諸性質と有効性を示した.
のいくつかの関数を学習する際の諸
性質を数値実験を用いて検討したにすぎないが,本
学習法が
より高次の入力次元をもつ関数についても有効に適用可能で
あることは前述したIJCNN2004やNIPS2004の
コンペティ
ションで好成績を修めたことから理解できると考える.な
滑らかな関数の内挿能力はSVMTorchよ
明したが,今
後,そ
お,
りも劣ることが判
の原因をさらに追究し,対処法を検討し
たいと考えている.ま
203/212
5)
数のモデルの学習と切り替えを行う競合連想
大,
田:競
SD-1,
合連想ネットを用いる降水量推定,信
260/261
黒木秀一:競
合連想ネットの漸近最適性と非線形関数の遂次
学習への応用,電
184/194
後,さ
子情報通信学会論文誌 D-II,
J86-D-II-2,
(2003)
7) J.D. Farmer and J.J. Sidorowich: Predicting chaotic time
series, Phys. Rev. Lett., 59, 845/848 (1987)
8) H. Chandrasekaran and M.T. Manry: Convergent design of a piecewise linear neural network, Proceedings of
IJCNN1999, 2, 1339/1344 (1999)
9) R.A. Jacobs, M.I. Jordan, S.J. Nowlan and G.E. Hinton:
Adaptive mixtures of local experts, Neural Computation,
3, 79/87 (1991)
10) J.H. Friedman: Multivariate adaptive regression splines,
Ann Stat, 19, 1/50 (1991)
11) S. Kurogi, N. Araki, H. Miyamoto, Y. Fuchikawa, T.
Nishida, M. Mimata and K. Itoh: Temperature Control of
RCA cleaning solutions using batch learning competitive
associative net, Proceedings of SCI2004, V, 18/23 (2004)
12) S. Kurogi, T. Ueno and M. Sawa: A batch learning method
for competitive associative net and its application to function approximation, Proceedings of SCI2004, V, 24/28
(2004)
13) S. Kurogi, T. Ueno and M. Sawa: Batch learning competitive associative net and its application to time series
prediction, Proceedings of IJCNN2004, CD-ROM (2004)
14) CATS benchmark: http://www.cis.hut.fi/~lendasse/
competition/results.html
15) Evaluating Predictive Uncertainty Challenge:
http://predict.kgb.tuebingen.mpg.de/pages/home.php
16)
西田,黒
木:再
初期化法を用いた適応ベクトル量子化,電
報通信学会論文誌 D-II,
J84-D-II-7,
1503/1511
子情
(2001)
17) T. Joachims: Making large-scale suppoert vector machine learning practical, in Advances in Kernel Methods, ed. B. Scholkopf, C.J.C. Burges, and A.J. Smola,
169/184, The MIT Press (1999). Software available at
http://svmlight.joachims.org/
18) R. Collobert and S. Bengio: SVMTorch-Support
vector machines for large-scale regression problems, Journal of
Machine Learning Research, 1-1, 143/160 (2001). Software
available at ftp.idiap.ch/pub/learning/SVMTorch.tgz
19) Stefan Ruping, mySVM-Manual, Universitat Dortmund:
Lehrstuhl Informatik VIII (2000). Software available at
http://wwwai. cs.uni-dortmund. de/SOFTWARE/
MYSVM/
た非線形時変の温度制御系への応用11)
<<付
録>>
らに良好な性能を得るための検討も行
A.
なっていく計画である.
本研究の一部は文部科学省科学研究費,基
16300070の
学総
(2001)
においてもバッチ学習法によるいくつかの性能の改善が得ら
れているが,今
測自動制御学会論文集, 37-3,
(2001)
黒木,藤,寺
すると
はN=500で1.4×10-3お
田:複
ネットを用いる適応予測制御,計
6)
りも小さな値2.5×10-5が
得られた.一方,CAN2oで
2006
黒木,西
の結果
訓練データに対し,ユニット数N=500で
E(0)test=1.1×10-4が
4)
こで新たに
L33(0)={i/33,j/33)T￨i,j=0,1,2,…,33}と
n=50,000の
August
3) S. Kurogi and S. Ren: Competitive associative networks
for function approximation and control of plants, Proc.
NOLTA '97. 775/778 (1997)
j/32)T￨i,j=0,±1,±2,…,±16}={i/32,j/32)T￨
i,j=0,1,2…,32}はf4の
No.8
援助を受けました.こ
参
考
文
盤研究(B)
こに感謝致します.
献
1) A.C. Ahalt, A.K. Krishnamurthy, P. Chen and D.E.
Melton: Competitive learning algorithms for vector quantization, Neural Networks, 3, 277/290 (1990)
2) T. Kohonen: Associative Memory, Springer Verlag (1977)
SVRの
CAN2と
諸手法とパラメータ探索
比較するSVRの
SVMTorch18)お
手法として,SVMlight17),
よびmySVM19),に
ついて試行したが,各
手法は最適化アルゴリズムや収束条件の定義の違いなどによ
り,同じパラメータ値を用いても異なる結果が得られた.た
えば関数f3のn=50,000の
mySVM,
SVMlight,
と
訓練データ集合の学習に対して
SVMTorchの
パラメータを粗い最適化
により求めE(0)testの値をそれぞれ4.1×10-5,
1.6×10-5,
計測自動制御学会論文集
Table
A.1
A course-to-fine
RBF
for
method
to
search
the
width
r of
第42巻
第8号
西
2006年8月
田
健 (正会員)
SVR
ステップ1.第i=1段
の刻み幅を Δ1=0.1と
r=jΔ1(j=1,2,…)に
対するE(0)testを
の細かな変動は鞭
しながら4∼5点
増加し始めたならばこの段の縣
与えたrをr=ri*と
計財
平成10年
卒.平14年
し,
る.E(0)test
を終了し,最
九州工業大学工学部設計生産工学科
同大学院博士後期課程修了.同年よ
り九州工業大学・制御・助手.工博.主にニュー
ラルネットによるパターン認識の研究に従事.日
程度の範囲でE(0)testが
する.i:=i+1と
925
本神経回路学会,電子情報通信学会などの会員.
小のE(0)testを
おき,ス
テップ2
し,前
段での最
にいく.
ステップ2.
刻み幅を Δi=0.1/5i-1と
適値r=Ti*
-1を
中心とした8点r=ri*-1+jΔi(j=
±1,±2,±3,±4)に
の段の跡
が5%未
する.轍
の跡
値E(0)test(ri*-1)に
対するこ
値E(0)test(ri*)の減少率1-E(0)test(ri*)/E(0)test(ri* -1)
満ならこの探索を終了する.そ
とおき,ス
1.8×10-5と
テップ2を
繰り返す.
することができたが,そ
のときの学習に要した
であった.各
訓練データに対して粗い最適化により各手法が実現できた最
小の一E(0)testの
大小関係はデータ集合により異なったが,計
算時間は常にSVMTorchが
SVMTorchで
す,各
最も短かった.そ
こで本稿では
パラメータ値をより詳細に最適化した結果を示
パラメータは以下のように設定し探索した:SVRの
ジンと訓練誤差のトレードオフ係数Cは1,000と
不感帯の幅 ∈は0.01と0.001に
件の誤差(以下,∈Tと
表記する)は
f3とf4で
は1,000,000回
したが,
れは関数
でも終了しなかったが,そ
こで打
で打ち切ったときとほ
とんど同じであったからである.カ
ーネルとしてRBFす
わちK(x,y)=exp(-‖x-y‖/r2)を
A.1の
束判定条
∈T=0.0001と
で終了させた.こ
ち切ったときのE(0)testは100,000回
Table
マー
し(注2),
ついて調べた.収
最適化繰り返し回数は100,000回
な
使用し,その幅rは
手順により刻み幅を段階的に小さくする手法
で探索した.
[著
黒
木
秀
者
紹
介]
一 (正会員)
昭和55年
九州工業大学工学部電気工学科卒.昭
和60年東工大大学院博士課程修了.同年より九
州工業大学制御助手を経て平成3年同大・助教授.
工博.主にニューラルネットの研究に従事.日本
神経回路学会,電子情報通信学会などの会員.
(注2)
係数Cを
大きくすると訓練誤差は小さくなるが,大
きす
ぎると過学習が起こり近似関数は滑らかでなくなる.SVMTorch
のデフォールト値C=100で
C=1,000と
は訓練誤差は小さくできず,
して小さな訓練誤差が得られるようになった.
さらに汎化誤差を小さくするためにTable
化を行ないFig.10の
A.1に
康
裕 (学生会員)
よるrの
最適
ような滑らかさの近似誤差が得られた.
九州工業大学工学部機械知能工学科
卒,平成15年同大大学院博士前期課程修了.現在
同大大学院博士後期課程に在学中.主にニューラ
ルネットによるパターン認識の研究に従事.日本
神経回路学会,電子情報通信学会などの学生会員.
うでなければi:=i+1
時間はそれぞれおよそ307分,129分,40分
川
平成13年
ついてE(0)testを計算し,その最小値を与え
たrをr=ri*と
渕

バッチ学習型競合連想ネッ トとその性質

Comments

Description

Transcript

バッチ学習型競合連想ネットとその性質