...

xb xbxbby

by user

on
Category: Documents
22

views

Report

Comments

Description

Transcript

xb xbxbby
重回帰分析(説明変数が2つの場合)
線形的な関係式を求め、以下の事柄を明らかにする
重回帰分析
y  b0  b1 x1  b2 x2
multiple regression analysis
①予測・潜在能力・評価
回帰分析(Regression Analysis)
●単回帰分析
●重回帰分析
y  b0  b1 x1Data  b2 x2 Data
②説明変数の目的変数に及ぼす影響度
③説明変数の重要性の格付け
p.3~p.22
変数の影響力
標準変量より重回帰直線
●2つの説明変数xの目的変数yに対する影響力
係数のデータ単位は目的変数yのデータ単位と同じになる
売上額(y) 千万円
広告費(x1) 百万円
セールスマン(x2) 人
y  1.02  0.86 x1  0.46 x2
広告費のデータ単位
広告費の係数
大小
セールスマン数の係数
百万円
0.86
>
0.46
十万円
0.086
<
0.46
二個の説明変数の場合: 生データで求めたもの
X i1 
xi1  x1
;
s11
X i2 
xi 2  x2
;
s22
売上を予測するため、どの説明変数が大事であるかは分からない
y y
Yi  i
s yy
係数とは別に統計値(標準偏回帰係数という)を算出し、
この値を用いて重要な説明変数のランキングを行う
(i  1,2,...n)
分析精度を表す ー 寄与率(決定係数)
●重相関係数による方法(教科書p.13)
実績値と理論値がどれほど一致しているかを見るのは、
実績値と理論値との相関係数Rを求めることと同じ
R
  y  y  yˆ  y 
  y  y    yˆ  y 
i
i
2
i
2
i
y i :実績値
ŷ i :理論値・予測値
決定係数=寄与率=R
S:分散共分散行列
標準変量で求めたもの
 r11 r12  b1*   r1 y 
r
 *    
 21 r22  b2  r2 y 
R:相関行列
Rb  w
単(or 重)相関係数 Rの計算例
実績値 理論値
A
8
8.1
B
9
9
C
12
11.7
D
11
10.9
E
13
13.4
F
17
16.9
平均:
11.7
2
s
  i2  1   ( yi  yˆi ) 2
 1 E  1
s yy
ns yy
ns yy
 S11 S12   b1   S1 y 
    
S
 21 S 22  b2   S 2 y 
 Sb  w
R
y i :実績値
ŷ i :理論値・予測値(回帰直線上の点)
 y
  yˆ
 y
11.7
i
 y   51.34 i
 y   50.98
i
 y  yˆ i  y   50.98
2
2
  y  y  yˆ  y 
  y  y    yˆ  y 
i
i
2
i
2
 0.9965
i
Rは1に近いので、重回帰式がよく当てはまっている
1
重回帰モデルの仕組み
決定係数(寄与率)の回答
A
B
C
D
E
F
実績値
8
9
12
11
13
17
理論値
8.098
9.02
11.67
10.86
13.45
16.9
11.7
11.7
平均:
y i :実績値
ŷ i :理論値・予測値(回帰直線上の点)
 y
 y
 y
i
 y   51.34 i
 yˆ i   0.353
i
 yˆ i   0
2
2
決定係数=寄与率=R 2  1 
R2  1
(単回帰=(1+1)D平面,重回帰=(P+1)D空間)
0.353
 0.9931
51.34
(y
i
 yˆ i ) 2
ns yy
注:小数点レベルの誤差がある
重回帰分析(説明変数p個)
目的変数yを複数(p個)の説明変数xiの線形重回帰モデル
として表す: yi   0  1 x1i   2 x2 i ・・・  p x pi   i
重回帰式: Yi  yˆ i  b0  b1 x1i  b2 x2 i ・・・ b p x pi
残差平方和Qを最小にするようなβiを最小2乗法で求める
n
n
 { y i  yˆ i } 2   { y i  (b0  b1 x1i  b2 x 2 i ・・・  b p x pi )} 2
S 
i 1
i 1
n
 S /  b0  2  { y i  ( b0  b1 x1i  b 2 x 2 i ・・・  b p x pi )}(  1)  0
i 1
n
 S /  b1  2  { y i  ( b0  b1 x1i  b 2 x 2 i ・・・  b p x pi )}(  x1i )  0
i 1
・・・・・
n
 S /  b p  2  { y i  ( b0  b1 x1i  b 2 x 2 i ・・・  b p x pi )}(  x pi )  0
重回帰分析(説明変数p個)
重回帰分析の正規方程式は次のようになる.
 b0 1  b1x1i b2 x2i  ・・・ bp xpi  yi

2
・・・ b
x
b
x
b
x
x
bp x1i xpi  yi x1i




 0  1i 1 1i 2  1i 2i

: :

2
b0 xpi b1x1i xpi b2 x2i xpi  ・・・ bp xpi  yi xpi

行列とベクトルで表現
X'Xb X'y X'X  0の場合、 b  (X'X)1X'y
i 1
行列を用いた方法(説明変数p個)
目的変数yを複数(p個)の説明変数xiの
線形重回帰モデルとして表す:
yi   0  1 x1i   2 x2i ・・・  p x pi   i
ベクトルと行列を用いた方法:y  Xβ  ε
1 x11
 y1 
1 x
y 
12
y   2 , X  
 


 
 yn 
1 x1n
x21  x p1 
 0 
1 
 
 
x22  x p 2 
1
, β   , ε   2 
  


 


 
 
x2 n  x pn 

 n 
 p 
行列を用いた方法(説明変数p個)
yの予測値Yを表す線形式
Yi  yˆ i  b0  b1 x1i  b2 x2i ・・・ b p x pi
 Y  Xb
1 x11
Y1 
1 x
Y 
12
2

Y
,X  
 


 
Yn 
1 x1n
一次形式
x21  x p1 
 b0 

b 
x22  x p 2 
1
,b   



 

 
x2 n  x pn 
b p 
2
標準変量データより重回帰直線
p個の説明変数の場合:
まず、生データから標準変量へ
X i1 
Yi 
xip  x p
xi1  x1
x x
; X i 2  i 2 2 ;; X ip 
s11
s22
s pp
yi  y
(i  1,2,...n)
s yy
目的変数
次、標準変量データを用いて分散共分散行列
(=相関行列)を求める
重回帰分析のまとめ
p個の説明変数の場合:
線形的な関係式を求め、以下の事柄を明らかにする
y  b0  b1 x1  b2 x2 ・・・ b p x p
①予測・潜在能力・評価
y  b0  b1 x1Data  b2 x2 Data ・・・ b p x pData
②説明変数の目的変数に及ぼす影響度
③説明変数の重要性の格付け
説明変数とサンプルの数
●説明変数の数は10未満に
説明変数の数が多い・・・決定係数が高くなる
・・・マルチコの問題にぶつかる
数が2桁になるとマルチコが起こる確率が高くなる
そのため、10個未満で決定係数を最大にするように
変数選択する
●サンプルの数は変数の数より多めに
サンプル数(n)と変数の数(p)の差は2以上であることが必要
n-p-1 > 0 (必要条件)
サンプル数が少ないと、求めた重回帰式を予測に使えないという事態が発生する
サンプル数はできるだけ多く取った方がよい
標準変量データより重回帰直線
p個の説明変数の場合:
 S11 S12 ... S1 p   b1   S1 y 
S
   
 21 S 22 ... S 2 p   b2    S 2 y 
 :
:
:
:  :   : 

   
 S p1 S p 2 ... S pp  b p   S py 
行列とベクトルで表現すると Rb  w
Rは説明変数データの分散共分散行列(or相関行列)
bは(偏)回帰係数のベクトル
wは説明変数と目的変数の共分散ベクトル
(R 1R  1より)
回帰係数のベクトルbを求める: b  R 1 w 変数選択の方法
分析の精度はどのような説明変数を用いるかによって決まる
良い説明変数の選択が分析の精度向上に必要
説明変数の選択基準
・目的変数と相関の高い変数を説明変数にする
・重相関係数Rを用い、R>0.7のものを説明変数にするのが一般的
説明変数の絞込み
①説明変数同士で高い相関のあるものを探し、そのどちらかを
落とす。相関が0.9以上あるときはどちらかを落とすのが一般的
②計測できない説明変数を落とす
変数クラスター分析、変数選択法を用いると変数選択が容易にできる
決定係数はどれぐらい以上あれば良い?
分析者が経験的な判断から決める!!
決定係数 R 2 普通・・・0.5(重相関係数Rは0.7)を基準に判断
非常に良い
決定係数
重相関係数
0.8以上
0.9以上
やや良い
0.5以上
0.7以上
悪い
0.5未満
0.7未満
サンプル数pと説明変数nとの差が2以上でなければ分析できない
「決定係数の検定」より決定係数の有意性を評価
3
回帰式の種類
回帰分析による画像処理例
線形重回帰分析:直線や平面などの線形回帰、線形予測
データの分布より曲線や曲面などの回帰もある
非線形重回帰分析:曲線・曲面の式で回帰・予測
EXCELを用いた重回帰分析の手順
EXCELの出力例
概要
寄与率
●ExcelとRを用いたデータ解析方法
http://www.casleyconsulting.co.jp/blogengineer/%E3%83%87%E3%83%BC%E3%82%BF%E8%A7%A3%E6%9E%90/excel%E3%81%A8r%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E3%83%87%E3%83%BC%
E3%82%BF%E8%A7%A3%E6%9E%90%E6%96%B9%E6%B3%95/
http://homepage1.nifty.com/gfk/Multreg.htm
●Excelによる回帰分析
http://www1.tcue.ac.jp/home1/abek/htdocs/stat/Excel/reg/reg.html
回帰統計
重相関 R
0.97384694
重決定 R2
0.94837787
補正 R2
0.93362869
標準誤差
0.263625
観測数
10
分散分析表
自由度
回帰
残差
合計
変動
分散
観測された分散比
有意 F
2 8.93751302 4.46875651
64.30037501 3.1255E-05
7 0.48648698 0.06949814
9
9.424
回帰係数
切片
X値1
X値2
EXCELを用いた重回帰分析
係数
標準誤差
t
1.02012955 0.44362392 2.29953684
0.06680477 0.00706459 9.45628471
-0.0808299 0.0122415 -6.6029458
P-値
下限 95% 上限 95%
0.055028639 -0.0288736 2.069133
3.08902E-05 0.05009968 0.08351
0.000303475 -0.1097765 -0.05188
EXCELを用いた重回帰分析課題1
表5.1 中古マンションのデータ
表5.1 中古マンションのデータ
サンプルNo.
1
2
3
4
5
6
7
8
9
10
広さx1
2
(m )
51
38
57
51
53
77
63
69
72
73
築年数x2
価格y
(年数) (千万円)
16
3.0
4
3.2
16
3.3
11
3.9
4
4.4
22
4.5
5
4.5
5
5.4
2
5.4
1
6.0
サンプルNo.
1
2
3
4
5
6
7
8
9
10
広さx1
2
(m )
51
38
57
51
53
77
63
69
72
73
築年数x2 価格y
(年数) (千万円)
16
3.0
4
3.2
16
3.3
11
3.9
4
4.4
22
4.5
5
4.5
5
5.4
2
5.4
1
6.0
[ツール]→[分析ツール]→[回帰分析]を選び,説明変数と
被説明変数を指定すると,パラメータの推定値が得られる.
(計算結果のプリントを提出してください)
4
EXCELを用いた重回帰分析課題2
主成分分析
教科書pp.24-26の計算例2(表1.5)の問題をExcelで
確認してください。
Principal Component Analysis
(PCA)
[ツール]→[分析ツール]→[回帰分析]を選び,説明
変数と被説明変数を指定すると,パラメータの推定値
が得られる.(計算結果のプリントを提出してください)
pp.35~49
回帰分析と主成分分析
◎回帰分析は条件の付かない最小問題
◎主成分分析は条件付の最大最小問題
⇒手順は殆ど同じ
◎回帰分析は
主成分分析(今回のポイント)
◎主成分分析は条件付の最大最小問題
問題:
観測データにおける分散が最大の軸を求める
新しい軸 Z
条件:
軸同士が直交
p次元の軸の長さ=1
1
多変量解析の手法の中で最もポピュラーな手法
新しい軸 Z 2
主成分分析の問題
主成分分析(PCA)
固有値問題
データの要約(縮約)とは
多変量解析の数学的考え方の基本形は主成分分析にある
主成分分析が理解できれば
多変量解析は半分以上が理解できたと言える
観測データの主要な変動を要約し、特徴を把握する
ための統計的手法を主成分分析と呼ぶ
1変量の要約→ 平均・分散・標準偏差
 2変量の要約→ 相関係数(分散、共分散)
 多変量の要約→ 総和・加重和

• 主成分分析、回帰分析など
z = Xl
z1
主成分分析の目的
・情報の要約(縮約)
・新しい尺度の構築
・構造の探索
z2
l

X
多変量 X → 1変量の z に ⇒ 次元縮小
5
不可視 → 可視化
次元縮小・情報要約・新変数


質量÷体積
= 密度
体重・身長・胸囲・座高 → 体格
•
•
•
•
• 具体的・現象的(計測できる) → 抽象的・概念的
• 次元縮小 → 抽象度上昇

X1 Sepal length(がく長)
X2 Sepal width(がく幅)
X3 Petal length(花びら長)
X4 Petal width(花びら幅)
科目テストの成績 → 能力
• 観測変数 → 合成変数
• 単純化 → 理解・解釈が容易に
データの要約(縮約)の特例

データの要約(縮約)の一般例

2変量( )は一直線上に並んでいる場合
y
新しい軸z
→ 新しいz軸で表現
→2次元表現が1次元に圧縮
⇒ 次元縮小
拡張:N次元の変量は一直線上に並んでいる時も
同じように1次元に圧縮できる
x
N変量は直線に近い状態で並んでいる場合
→N(=2)次元から1次元へ
新しい軸z
y
⇒次元縮小
回帰分析と主成分分析における
誤差の考え方
主成分分析のイメージ
OZ1  OZ 2  OZ 3  OZ 4
めのこ
回帰直線
y
が最大にするのが元の点Pi (i  1...4)の位置をあまり損なわずに y
z軸上に表現できる
新しい軸z
y
P4
負の値を取ることが避けるため
2
2
2
2
OZ1  OZ 2  OZ 3  OZ 4 (1)
考え方を用いる
主成分分析
残差は,垂直方向最小
残差は,直線の方向最小
x
x
問題:Z軸をどのように定めたらよいか?
x
主成分分析の基本は式 (1)が
重心O
P1
Z3
Z2
Z1
Z4
P3
P2
最大となる新しい軸を求める
問題に帰着する
 新しい軸の分散を最大にする
新しい軸への垂線
x
6
直線と点 の距離の2乗
(最小)
データの中心(平均)
データの中心(平均)
中心と点 の距離の2乗
《最大》
主成分の分散 =主成分得点
中心を通る以下の直線(新しい軸Z)を求める問題に帰着:
(1)各点 からこの直線におろした垂線の長さの2乗和の値が最小にする直線
or
(2)各点からこの直線におろした点 と中心 の距離の2乗和を最大にする直線
直線と点の距離の2乗(最小)
(1)直線と点の距離の2乗(最小)
一定
(一定)
データの中心(平均)
データの中心(平均)
中心と点 の距離の2乗
主成分の分散(最大)
=主成分得点
(2)主成分の分散(最大)
=主成分得点
これから(2)の言い方で統一
中心を通る以下の直線(新しい軸Z)を求める問題に帰着:
(1)各点 からこの直線におろした垂線の長さの2乗和の値が最小にする直線
直角三角形の有名なピタゴラスの定理より || (内容的にはまったく同じことを意味)
⇒ 全てのデータに対して、新しい軸Zの分散を最大にする
(2)各点からこの直線におろした点 と中心 の距離2乗総和を最大にする直線
主成分分析の例
主成分分析の例(続)
数 英
学 語
合
計
順
位
左の表では、順位は単純合計値によるが、
A
2
3
5
7
B
1
4
5
7
主成分分析を行い、主成分得点で順位を出す
C
2
2
4
10
3
2
5
7
E
5
4
9
3
4
4
8
6
G
8
5
13
1
H
F
6
3
9
3
I
7
6
13
1
J
4
5
9
3
1)点数グラフを作成
8
6
2)英語と数学のそれ
ぞれの平均点を重心
とする
3)重心を通る線を引く
英語
D
10
4
・B
2
 x2 
0
・A
・C ・D
2
・
I
・
J
・F×
・E
・H
4
6
数学  ( x1 )
・G
8
数 英
学 語
合
計
順
位
A
2
3
5
7
B
1
4
5
7
C
2
2
4
10
D
3
2
5
7
E
5
4
9
3
F
10
重心(4.2,3.8)
主成分分析で求めた主成分(主軸)は
1)重心を通る直線である
2)各点からこの直線におろした点と重心の距離2乗総和を最大に
する直線(軸)(=分散最大)
4
4
8
6
G
8
5
13
1
H
6
3
9
3
I
7
6
13
1
J
4
5
9
3
新しい軸 Z1
第一主成分
重心
第一主成分得点
新しい軸 Z 2
第二主成分
Z1 軸:第1主成分で総合能力
Z2 軸:第2主成分で系別能力
Z1 と Z2 垂直
7
2次元のデータ形式と主成分(主軸)
得られる主成分(主軸):
2個の変数
1
2
:
:
n
x1
x2
x11
x12
x21
x22

z1  l11x1  l12x2
x1n
n個のケース
単位ベクトル: lij 1,
x2 n
各 変数 の観
測データ
分散が最大の軸を探す
2
2
軸同士直交: likl jk  0, i, j 1,2;
k 1
i j
y軸
新しいZ軸
X軸
回転前:p(x1,y1)
回転後:P(X1, Y1)
X1
Y1

この基礎知識から、(xi, yi)が
新しいZ軸(第1主軸)上の点Ziを次式で表現する:
x軸
Z i  (cos  ) xi  (sin  ) yi (i  1,2,...n)
S ZZ 
2
軸同士直交: likl jk  0, ただし、i, j 1,2; i  j
l 
l 
単位ベクトル: l1   11, l2   21, l1  l1  l2  l2  l1  l2  1
l
l22 
 12 
軸同士直交: l1  l2  0
(2次元の場合、数式で表す)
(2次元の場合、数式で表す)
x-y座標系上の点p(x1, y1)は、直交軸の回転をした場合の
新しいX-Y座標系では点P(X1,Y1)となる。回転角度をとすると、
回転後の点P(X1, Y1)と回転前の点p(x1, y1)の関係:
Y軸
2
i 1
主成分分析
主成分分析
Z1  (cos  ) x1  (sin  ) y1
単位ベクトル: lij 1,
k 1
i1
 X 1  (cos  ) x1  (sin  ) y1

Y1  ( sin  ) x1  (cos  ) y1
z1  l11x1  l12x2
z2  l21x1  l22x2
2
2個の変量の線形(一次)結合
但し、以下の条件を満足:
2
得られる主成分(主軸):
2個の変量の線形結合であり、以下の条件を満足:
z2  l21x1  l22x2

2次元のデータ形式と主成分(主軸)
Z i  (cos  ) xi  (sin  ) yi (i  1,2,..., n)より
Z i  l1 xi  l2 yi (i  1,2,..., n)
ここで、l1  cos  ; l2  sin 
Z i  xi l1  yi l2 (i  1,2,..., n)
 Z1   x1 y1 
 Z   x y  l
2  1 
ベクトルZとl、行列Xで表現: Z   2    2
 Xl
 :   : :  l2 
  

 Z n   xn yn 
1
ベクトルZの分散 S ZZ  Z 'Z を最大にする問題
n
主成分分析
主成分分析(回答)
(2次元の場合、数式で表す)
(2次元の場合、数式で表す)
1 '
Z Z の最大となる時のベクトルlの値を求めれば、
n
新しいZ 軸(第1主軸)が求められる
ただし、下の制約条件が常に付いている:
l1  cos  ; l2  sin  から l12  l22  1
l 
ベクトルl   1 で表現すると l 'l  1となる
l2 
ラグランジュの未定乗数法を使って新しい式を定義
その問題を解く式は?(各自で書いてみてください)
タイトル「演習レポート」、日付、学生番号、氏名を書く
1 '
Z Z を最大にする問題
n
下の制約条件が常に付いている
◎ベクトルZの分散 S ZZ 
l1  cos  ; l2  sin  から l12  l22  1
l 
ベクトルl   1 で表現すると l 'l  1となる
l2 
ラグランジュの未定乗数法を使って、問題を解く式:
1
v  Z ' Z   (l 'l  1)
n
8
主成分分析(数式で表す)
v
「数式で表す」のまとめ
1 '
Z Z   (l 'l  1) にZ=Xl を代入して
n
●主成分分析はとても簡単な計算で求めることができる
●今まで復習した内容を綺麗にかつ簡潔に使った
1
1
v  ( Xl)' (Xl)   (l 'l  1)  l ' X' Xl   (l 'l  1)  l ' Σl  l 'l  
n
n
1 '
ここで、Σ  X X (分散共分散行列) →対称行列
n
●データから分散共分散行列さえ計算されれば、
簡単にヤコビ法で解くことができる
注意:対称行列Aのとき
(1)w  Axのベクトルxについての偏微分は、w x  A
ベクトルlについて偏微分して、0とおくと
(2)w  x' xのベクトルxについての偏微分は、w x  2x
どんな式が得られるか?
(3)w  x' Axのベクトルxについての偏微分は、w x  2 Ax
タイトル「演習レポート」、日付、学生番号、氏名を書く
主成分分析の計算を行ってみよう
2個の変数
1
2
:
:
n
x1
x2
x11
x12
x21
x22


x1n
x2 n
n個のケース
分散が最大の軸を探す
x2
Z1
x1
各変数の観
測データ
50
70

Z  Xl  65

60
75
85
75
 l1 
80   
 l2
70  
90
2次分散共分散行列の
固有値と固有ベクトルを求めよう
S
Σ   11
 S 21
S11  
S12
S 21
S 22  
85
75
80 

70
90
 Sxx Sxy  74 10 
Σ


 Sxy Syy  10 50
主成分分析の計算問題
データの分散共分散行列
S12 
( Σ  E)l  0 Σl  lより S 22 
Σの固有値を求める Σ  E  0 
主成分分析の計算
2次分散共分散行列を求める
50
50 85
70
70 75


 l 
Z  Xl  65 80  1   x y   65

 l2 

60
60 70
75
75 90
平均値は: 64、 80
ベクトルx, yの分散共分散行列
0
 Sxx Sxy  74 10 
Σ


 Sxy Syy  10 50
kの固有ベクトルを求める( Σ  k E)l k  0
Σの固有値と固有ベクトルを求めて下さい

 ( S11  k )lk1  S12lk 2  0

 S12lk1  ( S 22  k )lk 2  0
2

lki2  1 ←制約条件


i 1

タイトル「演習レポート」、日付、学生番号、氏名を書く
9
主成分分析の宿題:
下記の表に基づいて、以下の問題を答えなさい。
No 標本 英語(x1) 数学(x2)
1
A
5
8
2
B
5
5
3
C
7
4
4
D
8
5
(1)x1とx2の平均値を求めなさい。
(2)x1とx2の分散と共分散を求める定義式を書き、分散共分散行列
Sを求めなさい。
(3)分散共分散行列Sの固有値を求める定義式を書き、固有値を求
めなさい。
(4)分散共分散行列Sのランクを答え、その理由を述べなさい。
10
Fly UP