...

カスケードモデルによる識別ルールの発見と Datascape Datascape and

by user

on
Category: Documents
12

views

Report

Comments

Transcript

カスケードモデルによる識別ルールの発見と Datascape Datascape and
カスケードモデルによる識別ルールの発見と Datascape
Datascape and Rule Induction based on Cascade Model
岡 田 孝
関西学院大学 情報メディア教育センター
Abstract. !"#$
"%!"#"
& %%" "% "
&# "" % " % % " &
"##$
#' #
%()#
" *+ "" !"# "" %
""#
1.
はじめに
析者にとっては精度の高いルール群を得られることだけ
最近データマイニング技術が注目を集めている。分
が重要なのではない。他の説明変数群による別の視点か
類を目的とする場合、特徴づけを目的とする場合のいず
らの説明や、説明変数群間の相関関係もデータ全体の理
れにおいても、われわれはすでに十分な精度でルールを
解にとって重要である。この観点からは、共通問題の解
導出することができる。また、そのための環境も、ハー
に対する津本のコメントが参考になる 0-1。
ドウェア、ソフトウェアともに十分整備されている。し
,2. 原データ分布と解の照合。個別原データの分布状況
かし、データ解析をツールとして利用する他の研究分野
を解と照合させながら認識できることが重要である。ズ
において、特にデータ全体の理解を目的とする場合、そ
ーム機能を備えたレンズのように、鳥瞰的な視点、解内
の利用度は統計学と比較して依然極端に低いと言わざる
部のミクロな分布、等を調べられることが必要である 0/1。
を得ない。
上記の3点が、データスケープとして必要なすべて
本報告においてはまず、データ全体の理解を目的と
の点を網羅しているか否かは別として、現状で大部分の
する場合に、データ解析システムが備えるべき要件とし
ルール導出システムはこれらの要件を満たしておらず、
て、データスケープの概念を提唱する。よく利用される
今後とも理解を目的とした研究において、利用度の向上
統計学の方法論には備わっており、多くのルール導出シ
は望めないと思われる。
ステムには不備なものを考えれば、以下の諸点をデータ
スケープの要素としてあげることができよう。
著者らはすでに識別ルールを定量化できるカスケー
ドモデルを報告した 021。このモデルでは相関ルール探
,-. 解と問題の定量化。与えられた解が問題全体の何パ
索で使用される の束に注目する。各 を説
ーセントを解いたことになるのか、把握できることが望
明変数の0%3 1で表し、束を構成する各節点
ましい。特にルール群でデータを説明しようとする場合、
にインスタンスのクラス分布を付加すれば、節点間のリ
各ルール毎の説明力の定量化も必要である。通常行われ
ンクに次式で表す潜在パワーを定義することができる。
るカバーと精度(あるいは "" と )によ
L− power (U → L) =
(1)
る表現も1種の定量化ではあるが、重回帰分析における
N ( L) ⋅ ( potential (U ) − potential ( D))
全平方和の説明平方和と残差平方和への分解のような意
ここで はリンクの上側および下側節点を表し、,
.
味では、定量化がなされていない。
は下側節点でのインスタンス数を表す。またポテンシャ
,/. データの依存関係。たとえば分類問題において、解
ルとしては、4! やエントロピーを想定する。
他方、根節点におけるポテンシャルとインスタンス
連絡先:岡田孝、関西学院大学情報メディア教育セ
ンター、〒55/4678- 西宮市上ヶ原 -4-4-77
93:##;"
数の積で を定義し、各インスタンスが
束内でとる最低ポテンシャルの和を と
ここで の定義として,6.式を与えるならば、,/.
する。各節点を湖、リンクを滝と見なすと、束全体を1
種の水力発電能力を持つカスケードと見ることができる。
式と全く同じ形式で が各群毎の と に分
クラス識別の問題は、このカスケードからできる限り多
解可能となる(証明は 051 参照)。
くの を説明する少数の滝の群を選択す
BSS g =
ることに帰着される。このモデルによると、選ばれた滝
ng
2
(p (α ) − p(α ))
∑
α
g
2
,
(8)
のパワーの和、各滝のパワー、解くべき問題全体のパワ
この は内容から考えても、リンクのパワーとして
ーおよびカスケード内の滝では説明不可能なパワーが統
用いることが適当であり、さらに束内のすべてのリンク
一的に表されることになる。
間で 値が比較可能であるため、有効なルール選択
本報告では、このカスケードモデルのパワー概念に
の基盤となりえる。実際、,-.式のポテンシャル差による
対して、平方和分解から導出される群間平方和を対応さ
パワー定義では、適切な取り扱いが不能であった図1の
せることにより、モデルをさらに合理的な形に構成でき
例においても、識別力の強い右側のリンクに大きな ることを示す。さらに識別ルールだけでなく特徴的ルー
値が与えられる。
ルをも同時に定式化できるため、上記データスケープを
800/200
よりよく満すルール導出が可能であることを実例に則し
TSS: 160
て解説する。
2.
BSS(1): 18
平方和の分解
連続値を持つ変数を対象とする場合、下記の,/.4,<.
式により全平方和 (&)を各群
760/40
40/160
WSS(1): 38
WSS(2): 32
毎 に 、 群 内 平 方 和 ( = " 図1.平方和分解の例
&)と群間平方和 (>"
&)に分割できることはよく知られている 0<1。
(
TSS = ∑ WSS g + BSS g
g
(
⋅ (x
)
− x)
WSS g = ∑ xa − x g
a∈g
BSS g = n g
g
)
,
(2)
2
,
(3)
BSS(2): 72
上記 の分解は多変数の場合にも拡張できる。ク
ラス変数の を規範としてルールとなるリンクを選
択した場合には識別ルールが得られ、説明変数群に対応
する多変数の 値を規範とする場合は、特徴的ルー
2
.
(4)
この群毎の群間平方和 をリンクのパワーとして採
用すれば、自然であろう。問題はこの定義をカテゴリー
ルが求められることになる。いずれの場合も、問題全体
の のできる限り多くの部分をルール群で説明する試
みであり、その精神において多変量解析の重回帰分析お
よび主成分分析と同じ位置づけを与えることができる。
変数へと拡張することにある。
( 071によると、 は平方和()
表現が,7.式に変換でき、さらにカテゴリー変数における
距離定義として,5.式を採用するならば、変数値がαとな
る確率 ,α.を用いて,?.式で表現できることを示した。
ここで,?.式の括弧内がいわゆる 4! である。
1
2
SS = ∑∑(xa − xb ) ,
2n a b
 = 1 if xa ≠ xb ,
xa − xb 
 = 0 if xa = xb ,
n
2
SS =  1 − ∑ p(α )  .
2
α

対応し、 としては各インスタンスの束中
における最小 の合計を与えればよい。ただし、束
内で任意に選んだリンク群に対しては、それらの 値の合計が を越える場合があることに
注意する必要がある。
(5)
3.
リンクからのルール表現
値によりあるリンクが選択されたとき、ルール
(6)
としての一般的な表現は以下のように与えられる。ただ
し、各 は0%31の形式で表現される。
(7)
( らはこの,?.式で定義できる の差として
を与え、これに対する仮説検定法を提案した。
なお、 には根節点における が
@ 01
)9A 0 1 ここで、() 部はリンク下位節点上の に含ま
れる を表し、その中で がルールリンクにお
いて付加された として強調されている。
8ルール中からパワーの強い順に 7 ルールを示す。
他方、') 部はパワー定義に用いられた変数群に対
例えば、表1の5番目のルールは次のように解釈す
応する から選択する。クラス変数の をパワ
る。039@31の条件に0351の条件
ーとして採用した場合、結論部はクラス変数値を表す
が加わると、0 3 1の確率が -- ケース中の
となる。また、説明変数群を対象としてパワーを
7<#7Dから < ケース中の 8#8Dに落ちる。このルールの
定義した場合は、これら変数に対応する 群から
潜在パワー((4)は 8#E< であるが、< ケース中の /
に対する寄与が大きい を選択することになり、
ケースはすでに 4/2 でカバーされているため、この
相関ルールと同様の右辺を与える。
ルールの有効なパワー(94)は 8#<? となる。なお、
ここで注意すべきは、ルールリンク両端の節点記述
このルールで新たに覆われる / ケースからなる節点を想
に現れる 群は () 部のみを指定していることであ
定し、根節点からそこへの直接のリンクを考えた場合、
る。') 部に現れる 群は、節点記述に含まれない
その有効なパワー('4)は 8#26 である。
に対する両節点上での分布から導かれる。すなわ
全8ルールにより、このデータセット中のすべての
ち、') 部の記述に対応する節点はルール生成には不
ケースをカバーしている。この問題では 必要である。この点、相関ルール探索において0
と は 5#8 と 8#8 であり、最初のルール群
B1 0 B について、'4 と 94 の和を取るとそれぞれ 7#-?
B1の両辺に対応する節点を比較してルールを生
5#2< となる。前者に 4< の下位節点の (8#62)
成することと比較すれば対照的と言える 0?1。
を加えると、 のすべてが説明される。
') 部に記す の選択は、2段階からなる。最
表2には、この問題における9種の説明変数間の特
初に、指定したパラメータ値よりも大きな 要素を
徴的ルール例として、最初のルール群で得られた3ルー
有する変数を選択する。次いで、この変数の取り得る値
ルを示す。') の欄には、,6.式における (4 への寄
の中から,6.式の項中でもっとも大きな寄与を与える変数
与が -#8 以上の を選択して記載した。最後の欄の
値αを選択し、 として記述する。もし、同一の寄与
は (4 の和である。この特徴的ルール発見の問
をなす複数の変数値が存在する場合は、もっとも値の大
題では、 は <-#6- であり、表2の3ル
きな ,α.に相当する変数値αを表示することとする。こ
ールに対する 94 の和は -8#-? であった。リンクに
の選択法により、 ,α.が減少するような負の相互作用も
を加えると、この3ルールだけで の
ルールとして表現できる。
4.
おいて付加された 自身による 94 への寄与:5#-5
DISCAS システムと応用例
カスケードモデルに基づくシステムの構築に当たっ
2EDを説明したことになり、相関の集中していることが
わかる。他方、この3種のルールリンクにおいて、クラ
ス変数に対する 94 の和は //Dを説明するに過ぎず、
ては、束生成時の枝刈り、ルールの選択法に関して多く
燃費との相関は比較的低い。なお、識別ルール・特徴的
の選択肢が存在する。著者は *+ / を作成
ルールの双方において、2番目以降のルール群において
した。紙数の制約により詳細は省略するが、このシステ
も、大きな 値を持つルールが現れており、有効な
ムは以下のような特徴を有している。
知見を与えることが示された。
クラス変数に対する識別ルール、説明変数群間の依存
性を表す特徴的ルール、の双方を同時に生成する。
特徴的ルールの選択においては、 行列のトレー
5.
結論
平方和の分解にもとづき、識別ルールと特徴的ルー
スをパワーとして用いる。
ルを統一的に導出することができた。得られた結果は理
各インスタンスは対応するリンク群から、大きな潜在
解しやすいものであり、データスケープの本質的な要件
パワーを持つものをルール候補として推挙する。
を満たしていると思われる。本報告で提案した平方和の
複数のルール群を生成する。各群はカバーすべきイン
規範は、決定木、相関ルールなど他の方法においても容
スタンスがなくなったとき、ルールの生成を終了する。
易に取り入れることができ、今後ルールによる解析を行
本システムを自動車の燃費データ061に適用した。こ
う場合に参照すべき規範として広く使われることが期待
のデータ中の9種の説明変数群(すべて名義尺度)から
される。
燃費( 3 CC)を推定することが問
また、マーケットバスケット分析において、例えば
題である。表1に、最初の識別ルール群として得られた
() 部の 数を2個に制限する場合、本報告で示し
[3] Okada, T.: Finding Discrimination Rules Based on
Cascade Model, submitted to J. Jpn. Soc. Artificial
Intelligence (1999). 岡田, 雄山: カスケードモデルに
よる共通データベースの解析、 人工知能学会知識ベ
ース研究会, SIG-KBS-9802-12, 75-82 (1999).
[4] 竹 内 他 編 : 統 計 学 大 辞 典 , 東 洋 経 済 新 報 388-390
(1990).
[5] Light, R.J., Margolin, B.H.: An Analysis of Variance for
Categorical Data, J. Amer. Stat. Assoc. Vol.66 534-544
(1971).
[6] Okada, T.: Sum of Squares Decomposition for Categorical
Variables, to appear in K. G. Studies in Computer Science
Vol.14 (1999). http://www.media.kwansei.ac.jp/home/
kiyou/kiyou99/kiyou99.html
[7] Agrawal, R., Srikant, R.: Fast Algorithms for Mining
Association Rules, Proc. VLDB 487-499 (1994).
[8] Ziarko, W.: The Discovery, Analysis, and Representation
of Data Dependencies in Databases, in: Piatetsky-Shapiro,
G., Frawley, W. (eds.): Knowledge Discovery in
Databases, AAAI Press 195-209 (1991).
[9] Silverstein, C., Brin, S., Motwani, R.: Beyond Market
Baskets: Generalizing Association Rules to Dependence
Rules, Data Mining and Knowledge Discovery, Vol.2 3968 (1998).
[10] Washio, T., Matsuura, H., Motoda, H.: Mining
Association Rules for Estimation and Prediction, in: Wu,
X., Kotagiri, R., Korb, K.B. (eds.) Research and
Development in Knowledge Discovery and Data Mining.
Lecture Notes in A.I. Vol. 1394 Springer-Verlag 417-419
(1998).
[11] Suzuki, E., Shimura, M.: Exceptional Knowledge
Discovery in Databases based on Information Theory,
Proc. KDD-96 275-278 (1996).
た方法によれば、/4 までの束を生成するだけで、
すべての相関ルールを生成することができる。データベ
ースへのアクセス回数が問題となる大規模なデータマイ
ニングにおいて、有効な方法として期待できる。
平方和分解の方法は、χ 検定に基づく方法 0E1 と比
べても、 値がリンク間で比較可能であり、もっとも
強い相互作用を示す変数値の組を直接検出できること、
それらの相互作用のすべてをルール形式で表現できるこ
と、等の点で優れていると考えられる。また、') に
列挙すべきすべての を自動的に表示し、例外的な
知識に大きな 値を与えるため、これまでの研究で
指摘された重要な要件も満たしている 0-8--1。
今後、 の値を利用した有効な枝刈り法や、検定
法についての検討を行う予定である。
謝辞
本研究の遂行にあたり有益な助言を頂いた関西学院
大学の杉原教授、雄山教授、地道助教授に感謝します。
参考文献
[1] 津本: 生成された知識の評価:仮説生成としてのルー
ル生成、人工知能学会知識ベース研究会、SIG-KBS9802-12, 89-90 (1999).
[2] 雄山, 岡田, 李, 李: 知識発見法による探索的データ
解析, 計算機統計学, Vol.9, 1-12 (1997).
Table 1. 自動車の燃費推定問題における識別ルール例(解説は本文を参照)
A
/
2
<
7
""
F3%"
3
35
39@G"3 F3"
3<G%3
35
39@G3
')
,D.
""
3 26#-3-88
/-35
/#88
/#88
/#88
3
E#73-88
/-3/
-#/<
-#/<
-#/<
3
/6#53-88
?3/
-#8/
-#8/
8#26
3
<7#7362#2
--35
8#65
8#65
8#<7
3 7<#738#8
--3<
8#E<
8#<?
8#26
(
9
'
Table 2. 自動車の燃費推定問題における説明変数群間の特徴的ルール例(解説は本文を参照)
A
/
2
""
"3
"3 %3
"3
3<
"3 35
"3
,D.
55#?3-88
7/#<366#E
27#2368#8
7/#E3-88
4
4
')
""
/-3E
-?37
/-3-/
(
-#88
-#/8
-#88
-#--
'
-#88
-#/8
-#8E
8#E/
4
4
<#22
2#E<
2#/7
Fly UP