Comments
Description
Transcript
xb xbxbby
重回帰分析(説明変数が2つの場合)
線形的な関係式を求め、以下の事柄を明らかにする
重回帰分析
y b0 b1 x1 b2 x2
multiple regression analysis
①予測・潜在能力・評価
回帰分析(Regression Analysis)
●単回帰分析
●重回帰分析
y b0 b1 x1Data b2 x2 Data
②説明変数の目的変数に及ぼす影響度
③説明変数の重要性の格付け
p.3~p.22
変数の影響力
標準変量より重回帰直線
●2つの説明変数xの目的変数yに対する影響力
係数のデータ単位は目的変数yのデータ単位と同じになる
売上額(y) 千万円
広告費(x1) 百万円
セールスマン(x2) 人
y 1.02 0.86 x1 0.46 x2
広告費のデータ単位
広告費の係数
大小
セールスマン数の係数
百万円
0.86
>
0.46
十万円
0.086
<
0.46
二個の説明変数の場合: 生データで求めたもの
X i1
xi1 x1
;
s11
X i2
xi 2 x2
;
s22
売上を予測するため、どの説明変数が大事であるかは分からない
y y
Yi i
s yy
係数とは別に統計値(標準偏回帰係数という)を算出し、
この値を用いて重要な説明変数のランキングを行う
(i 1,2,...n)
分析精度を表す ー 寄与率(決定係数)
●重相関係数による方法(教科書p.13)
実績値と理論値がどれほど一致しているかを見るのは、
実績値と理論値との相関係数Rを求めることと同じ
R
y y yˆ y
y y yˆ y
i
i
2
i
2
i
y i :実績値
ŷ i :理論値・予測値
決定係数=寄与率=R
S:分散共分散行列
標準変量で求めたもの
r11 r12 b1* r1 y
r
*
21 r22 b2 r2 y
R:相関行列
Rb w
単(or 重)相関係数 Rの計算例
実績値 理論値
A
8
8.1
B
9
9
C
12
11.7
D
11
10.9
E
13
13.4
F
17
16.9
平均:
11.7
2
s
i2 1 ( yi yˆi ) 2
1 E 1
s yy
ns yy
ns yy
S11 S12 b1 S1 y
S
21 S 22 b2 S 2 y
Sb w
R
y i :実績値
ŷ i :理論値・予測値(回帰直線上の点)
y
yˆ
y
11.7
i
y 51.34 i
y 50.98
i
y yˆ i y 50.98
2
2
y y yˆ y
y y yˆ y
i
i
2
i
2
0.9965
i
Rは1に近いので、重回帰式がよく当てはまっている
1
重回帰モデルの仕組み
決定係数(寄与率)の回答
A
B
C
D
E
F
実績値
8
9
12
11
13
17
理論値
8.098
9.02
11.67
10.86
13.45
16.9
11.7
11.7
平均:
y i :実績値
ŷ i :理論値・予測値(回帰直線上の点)
y
y
y
i
y 51.34 i
yˆ i 0.353
i
yˆ i 0
2
2
決定係数=寄与率=R 2 1
R2 1
(単回帰=(1+1)D平面,重回帰=(P+1)D空間)
0.353
0.9931
51.34
(y
i
yˆ i ) 2
ns yy
注:小数点レベルの誤差がある
重回帰分析(説明変数p個)
目的変数yを複数(p個)の説明変数xiの線形重回帰モデル
として表す: yi 0 1 x1i 2 x2 i ・・・ p x pi i
重回帰式: Yi yˆ i b0 b1 x1i b2 x2 i ・・・ b p x pi
残差平方和Qを最小にするようなβiを最小2乗法で求める
n
n
{ y i yˆ i } 2 { y i (b0 b1 x1i b2 x 2 i ・・・ b p x pi )} 2
S
i 1
i 1
n
S / b0 2 { y i ( b0 b1 x1i b 2 x 2 i ・・・ b p x pi )}( 1) 0
i 1
n
S / b1 2 { y i ( b0 b1 x1i b 2 x 2 i ・・・ b p x pi )}( x1i ) 0
i 1
・・・・・
n
S / b p 2 { y i ( b0 b1 x1i b 2 x 2 i ・・・ b p x pi )}( x pi ) 0
重回帰分析(説明変数p個)
重回帰分析の正規方程式は次のようになる.
b0 1 b1x1i b2 x2i ・・・ bp xpi yi
2
・・・ b
x
b
x
b
x
x
bp x1i xpi yi x1i
0 1i 1 1i 2 1i 2i
: :
2
b0 xpi b1x1i xpi b2 x2i xpi ・・・ bp xpi yi xpi
行列とベクトルで表現
X'Xb X'y X'X 0の場合、 b (X'X)1X'y
i 1
行列を用いた方法(説明変数p個)
目的変数yを複数(p個)の説明変数xiの
線形重回帰モデルとして表す:
yi 0 1 x1i 2 x2i ・・・ p x pi i
ベクトルと行列を用いた方法:y Xβ ε
1 x11
y1
1 x
y
12
y 2 , X
yn
1 x1n
x21 x p1
0
1
x22 x p 2
1
, β , ε 2
x2 n x pn
n
p
行列を用いた方法(説明変数p個)
yの予測値Yを表す線形式
Yi yˆ i b0 b1 x1i b2 x2i ・・・ b p x pi
Y Xb
1 x11
Y1
1 x
Y
12
2
Y
,X
Yn
1 x1n
一次形式
x21 x p1
b0
b
x22 x p 2
1
,b
x2 n x pn
b p
2
標準変量データより重回帰直線
p個の説明変数の場合:
まず、生データから標準変量へ
X i1
Yi
xip x p
xi1 x1
x x
; X i 2 i 2 2 ;; X ip
s11
s22
s pp
yi y
(i 1,2,...n)
s yy
目的変数
次、標準変量データを用いて分散共分散行列
(=相関行列)を求める
重回帰分析のまとめ
p個の説明変数の場合:
線形的な関係式を求め、以下の事柄を明らかにする
y b0 b1 x1 b2 x2 ・・・ b p x p
①予測・潜在能力・評価
y b0 b1 x1Data b2 x2 Data ・・・ b p x pData
②説明変数の目的変数に及ぼす影響度
③説明変数の重要性の格付け
説明変数とサンプルの数
●説明変数の数は10未満に
説明変数の数が多い・・・決定係数が高くなる
・・・マルチコの問題にぶつかる
数が2桁になるとマルチコが起こる確率が高くなる
そのため、10個未満で決定係数を最大にするように
変数選択する
●サンプルの数は変数の数より多めに
サンプル数(n)と変数の数(p)の差は2以上であることが必要
n-p-1 > 0 (必要条件)
サンプル数が少ないと、求めた重回帰式を予測に使えないという事態が発生する
サンプル数はできるだけ多く取った方がよい
標準変量データより重回帰直線
p個の説明変数の場合:
S11 S12 ... S1 p b1 S1 y
S
21 S 22 ... S 2 p b2 S 2 y
:
:
:
: : :
S p1 S p 2 ... S pp b p S py
行列とベクトルで表現すると Rb w
Rは説明変数データの分散共分散行列(or相関行列)
bは(偏)回帰係数のベクトル
wは説明変数と目的変数の共分散ベクトル
(R 1R 1より)
回帰係数のベクトルbを求める: b R 1 w 変数選択の方法
分析の精度はどのような説明変数を用いるかによって決まる
良い説明変数の選択が分析の精度向上に必要
説明変数の選択基準
・目的変数と相関の高い変数を説明変数にする
・重相関係数Rを用い、R>0.7のものを説明変数にするのが一般的
説明変数の絞込み
①説明変数同士で高い相関のあるものを探し、そのどちらかを
落とす。相関が0.9以上あるときはどちらかを落とすのが一般的
②計測できない説明変数を落とす
変数クラスター分析、変数選択法を用いると変数選択が容易にできる
決定係数はどれぐらい以上あれば良い?
分析者が経験的な判断から決める!!
決定係数 R 2 普通・・・0.5(重相関係数Rは0.7)を基準に判断
非常に良い
決定係数
重相関係数
0.8以上
0.9以上
やや良い
0.5以上
0.7以上
悪い
0.5未満
0.7未満
サンプル数pと説明変数nとの差が2以上でなければ分析できない
「決定係数の検定」より決定係数の有意性を評価
3
回帰式の種類
回帰分析による画像処理例
線形重回帰分析:直線や平面などの線形回帰、線形予測
データの分布より曲線や曲面などの回帰もある
非線形重回帰分析:曲線・曲面の式で回帰・予測
EXCELを用いた重回帰分析の手順
EXCELの出力例
概要
寄与率
●ExcelとRを用いたデータ解析方法
http://www.casleyconsulting.co.jp/blogengineer/%E3%83%87%E3%83%BC%E3%82%BF%E8%A7%A3%E6%9E%90/excel%E3%81%A8r%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E3%83%87%E3%83%BC%
E3%82%BF%E8%A7%A3%E6%9E%90%E6%96%B9%E6%B3%95/
http://homepage1.nifty.com/gfk/Multreg.htm
●Excelによる回帰分析
http://www1.tcue.ac.jp/home1/abek/htdocs/stat/Excel/reg/reg.html
回帰統計
重相関 R
0.97384694
重決定 R2
0.94837787
補正 R2
0.93362869
標準誤差
0.263625
観測数
10
分散分析表
自由度
回帰
残差
合計
変動
分散
観測された分散比
有意 F
2 8.93751302 4.46875651
64.30037501 3.1255E-05
7 0.48648698 0.06949814
9
9.424
回帰係数
切片
X値1
X値2
EXCELを用いた重回帰分析
係数
標準誤差
t
1.02012955 0.44362392 2.29953684
0.06680477 0.00706459 9.45628471
-0.0808299 0.0122415 -6.6029458
P-値
下限 95% 上限 95%
0.055028639 -0.0288736 2.069133
3.08902E-05 0.05009968 0.08351
0.000303475 -0.1097765 -0.05188
EXCELを用いた重回帰分析課題1
表5.1 中古マンションのデータ
表5.1 中古マンションのデータ
サンプルNo.
1
2
3
4
5
6
7
8
9
10
広さx1
2
(m )
51
38
57
51
53
77
63
69
72
73
築年数x2
価格y
(年数) (千万円)
16
3.0
4
3.2
16
3.3
11
3.9
4
4.4
22
4.5
5
4.5
5
5.4
2
5.4
1
6.0
サンプルNo.
1
2
3
4
5
6
7
8
9
10
広さx1
2
(m )
51
38
57
51
53
77
63
69
72
73
築年数x2 価格y
(年数) (千万円)
16
3.0
4
3.2
16
3.3
11
3.9
4
4.4
22
4.5
5
4.5
5
5.4
2
5.4
1
6.0
[ツール]→[分析ツール]→[回帰分析]を選び,説明変数と
被説明変数を指定すると,パラメータの推定値が得られる.
(計算結果のプリントを提出してください)
4
EXCELを用いた重回帰分析課題2
主成分分析
教科書pp.24-26の計算例2(表1.5)の問題をExcelで
確認してください。
Principal Component Analysis
(PCA)
[ツール]→[分析ツール]→[回帰分析]を選び,説明
変数と被説明変数を指定すると,パラメータの推定値
が得られる.(計算結果のプリントを提出してください)
pp.35~49
回帰分析と主成分分析
◎回帰分析は条件の付かない最小問題
◎主成分分析は条件付の最大最小問題
⇒手順は殆ど同じ
◎回帰分析は
主成分分析(今回のポイント)
◎主成分分析は条件付の最大最小問題
問題:
観測データにおける分散が最大の軸を求める
新しい軸 Z
条件:
軸同士が直交
p次元の軸の長さ=1
1
多変量解析の手法の中で最もポピュラーな手法
新しい軸 Z 2
主成分分析の問題
主成分分析(PCA)
固有値問題
データの要約(縮約)とは
多変量解析の数学的考え方の基本形は主成分分析にある
主成分分析が理解できれば
多変量解析は半分以上が理解できたと言える
観測データの主要な変動を要約し、特徴を把握する
ための統計的手法を主成分分析と呼ぶ
1変量の要約→ 平均・分散・標準偏差
2変量の要約→ 相関係数(分散、共分散)
多変量の要約→ 総和・加重和
• 主成分分析、回帰分析など
z = Xl
z1
主成分分析の目的
・情報の要約(縮約)
・新しい尺度の構築
・構造の探索
z2
l
X
多変量 X → 1変量の z に ⇒ 次元縮小
5
不可視 → 可視化
次元縮小・情報要約・新変数
質量÷体積
= 密度
体重・身長・胸囲・座高 → 体格
•
•
•
•
• 具体的・現象的(計測できる) → 抽象的・概念的
• 次元縮小 → 抽象度上昇
X1 Sepal length(がく長)
X2 Sepal width(がく幅)
X3 Petal length(花びら長)
X4 Petal width(花びら幅)
科目テストの成績 → 能力
• 観測変数 → 合成変数
• 単純化 → 理解・解釈が容易に
データの要約(縮約)の特例
データの要約(縮約)の一般例
2変量( )は一直線上に並んでいる場合
y
新しい軸z
→ 新しいz軸で表現
→2次元表現が1次元に圧縮
⇒ 次元縮小
拡張:N次元の変量は一直線上に並んでいる時も
同じように1次元に圧縮できる
x
N変量は直線に近い状態で並んでいる場合
→N(=2)次元から1次元へ
新しい軸z
y
⇒次元縮小
回帰分析と主成分分析における
誤差の考え方
主成分分析のイメージ
OZ1 OZ 2 OZ 3 OZ 4
めのこ
回帰直線
y
が最大にするのが元の点Pi (i 1...4)の位置をあまり損なわずに y
z軸上に表現できる
新しい軸z
y
P4
負の値を取ることが避けるため
2
2
2
2
OZ1 OZ 2 OZ 3 OZ 4 (1)
考え方を用いる
主成分分析
残差は,垂直方向最小
残差は,直線の方向最小
x
x
問題:Z軸をどのように定めたらよいか?
x
主成分分析の基本は式 (1)が
重心O
P1
Z3
Z2
Z1
Z4
P3
P2
最大となる新しい軸を求める
問題に帰着する
新しい軸の分散を最大にする
新しい軸への垂線
x
6
直線と点 の距離の2乗
(最小)
データの中心(平均)
データの中心(平均)
中心と点 の距離の2乗
《最大》
主成分の分散 =主成分得点
中心を通る以下の直線(新しい軸Z)を求める問題に帰着:
(1)各点 からこの直線におろした垂線の長さの2乗和の値が最小にする直線
or
(2)各点からこの直線におろした点 と中心 の距離の2乗和を最大にする直線
直線と点の距離の2乗(最小)
(1)直線と点の距離の2乗(最小)
一定
(一定)
データの中心(平均)
データの中心(平均)
中心と点 の距離の2乗
主成分の分散(最大)
=主成分得点
(2)主成分の分散(最大)
=主成分得点
これから(2)の言い方で統一
中心を通る以下の直線(新しい軸Z)を求める問題に帰着:
(1)各点 からこの直線におろした垂線の長さの2乗和の値が最小にする直線
直角三角形の有名なピタゴラスの定理より || (内容的にはまったく同じことを意味)
⇒ 全てのデータに対して、新しい軸Zの分散を最大にする
(2)各点からこの直線におろした点 と中心 の距離2乗総和を最大にする直線
主成分分析の例
主成分分析の例(続)
数 英
学 語
合
計
順
位
左の表では、順位は単純合計値によるが、
A
2
3
5
7
B
1
4
5
7
主成分分析を行い、主成分得点で順位を出す
C
2
2
4
10
3
2
5
7
E
5
4
9
3
4
4
8
6
G
8
5
13
1
H
F
6
3
9
3
I
7
6
13
1
J
4
5
9
3
1)点数グラフを作成
8
6
2)英語と数学のそれ
ぞれの平均点を重心
とする
3)重心を通る線を引く
英語
D
10
4
・B
2
x2
0
・A
・C ・D
2
・
I
・
J
・F×
・E
・H
4
6
数学 ( x1 )
・G
8
数 英
学 語
合
計
順
位
A
2
3
5
7
B
1
4
5
7
C
2
2
4
10
D
3
2
5
7
E
5
4
9
3
F
10
重心(4.2,3.8)
主成分分析で求めた主成分(主軸)は
1)重心を通る直線である
2)各点からこの直線におろした点と重心の距離2乗総和を最大に
する直線(軸)(=分散最大)
4
4
8
6
G
8
5
13
1
H
6
3
9
3
I
7
6
13
1
J
4
5
9
3
新しい軸 Z1
第一主成分
重心
第一主成分得点
新しい軸 Z 2
第二主成分
Z1 軸:第1主成分で総合能力
Z2 軸:第2主成分で系別能力
Z1 と Z2 垂直
7
2次元のデータ形式と主成分(主軸)
得られる主成分(主軸):
2個の変数
1
2
:
:
n
x1
x2
x11
x12
x21
x22
z1 l11x1 l12x2
x1n
n個のケース
単位ベクトル: lij 1,
x2 n
各 変数 の観
測データ
分散が最大の軸を探す
2
2
軸同士直交: likl jk 0, i, j 1,2;
k 1
i j
y軸
新しいZ軸
X軸
回転前:p(x1,y1)
回転後:P(X1, Y1)
X1
Y1
この基礎知識から、(xi, yi)が
新しいZ軸(第1主軸)上の点Ziを次式で表現する:
x軸
Z i (cos ) xi (sin ) yi (i 1,2,...n)
S ZZ
2
軸同士直交: likl jk 0, ただし、i, j 1,2; i j
l
l
単位ベクトル: l1 11, l2 21, l1 l1 l2 l2 l1 l2 1
l
l22
12
軸同士直交: l1 l2 0
(2次元の場合、数式で表す)
(2次元の場合、数式で表す)
x-y座標系上の点p(x1, y1)は、直交軸の回転をした場合の
新しいX-Y座標系では点P(X1,Y1)となる。回転角度をとすると、
回転後の点P(X1, Y1)と回転前の点p(x1, y1)の関係:
Y軸
2
i 1
主成分分析
主成分分析
Z1 (cos ) x1 (sin ) y1
単位ベクトル: lij 1,
k 1
i1
X 1 (cos ) x1 (sin ) y1
Y1 ( sin ) x1 (cos ) y1
z1 l11x1 l12x2
z2 l21x1 l22x2
2
2個の変量の線形(一次)結合
但し、以下の条件を満足:
2
得られる主成分(主軸):
2個の変量の線形結合であり、以下の条件を満足:
z2 l21x1 l22x2
2次元のデータ形式と主成分(主軸)
Z i (cos ) xi (sin ) yi (i 1,2,..., n)より
Z i l1 xi l2 yi (i 1,2,..., n)
ここで、l1 cos ; l2 sin
Z i xi l1 yi l2 (i 1,2,..., n)
Z1 x1 y1
Z x y l
2 1
ベクトルZとl、行列Xで表現: Z 2 2
Xl
: : : l2
Z n xn yn
1
ベクトルZの分散 S ZZ Z 'Z を最大にする問題
n
主成分分析
主成分分析(回答)
(2次元の場合、数式で表す)
(2次元の場合、数式で表す)
1 '
Z Z の最大となる時のベクトルlの値を求めれば、
n
新しいZ 軸(第1主軸)が求められる
ただし、下の制約条件が常に付いている:
l1 cos ; l2 sin から l12 l22 1
l
ベクトルl 1 で表現すると l 'l 1となる
l2
ラグランジュの未定乗数法を使って新しい式を定義
その問題を解く式は?(各自で書いてみてください)
タイトル「演習レポート」、日付、学生番号、氏名を書く
1 '
Z Z を最大にする問題
n
下の制約条件が常に付いている
◎ベクトルZの分散 S ZZ
l1 cos ; l2 sin から l12 l22 1
l
ベクトルl 1 で表現すると l 'l 1となる
l2
ラグランジュの未定乗数法を使って、問題を解く式:
1
v Z ' Z (l 'l 1)
n
8
主成分分析(数式で表す)
v
「数式で表す」のまとめ
1 '
Z Z (l 'l 1) にZ=Xl を代入して
n
●主成分分析はとても簡単な計算で求めることができる
●今まで復習した内容を綺麗にかつ簡潔に使った
1
1
v ( Xl)' (Xl) (l 'l 1) l ' X' Xl (l 'l 1) l ' Σl l 'l
n
n
1 '
ここで、Σ X X (分散共分散行列) →対称行列
n
●データから分散共分散行列さえ計算されれば、
簡単にヤコビ法で解くことができる
注意:対称行列Aのとき
(1)w Axのベクトルxについての偏微分は、w x A
ベクトルlについて偏微分して、0とおくと
(2)w x' xのベクトルxについての偏微分は、w x 2x
どんな式が得られるか?
(3)w x' Axのベクトルxについての偏微分は、w x 2 Ax
タイトル「演習レポート」、日付、学生番号、氏名を書く
主成分分析の計算を行ってみよう
2個の変数
1
2
:
:
n
x1
x2
x11
x12
x21
x22
x1n
x2 n
n個のケース
分散が最大の軸を探す
x2
Z1
x1
各変数の観
測データ
50
70
Z Xl 65
60
75
85
75
l1
80
l2
70
90
2次分散共分散行列の
固有値と固有ベクトルを求めよう
S
Σ 11
S 21
S11
S12
S 21
S 22
85
75
80
70
90
Sxx Sxy 74 10
Σ
Sxy Syy 10 50
主成分分析の計算問題
データの分散共分散行列
S12
( Σ E)l 0 Σl lより S 22
Σの固有値を求める Σ E 0
主成分分析の計算
2次分散共分散行列を求める
50
50 85
70
70 75
l
Z Xl 65 80 1 x y 65
l2
60
60 70
75
75 90
平均値は: 64、 80
ベクトルx, yの分散共分散行列
0
Sxx Sxy 74 10
Σ
Sxy Syy 10 50
kの固有ベクトルを求める( Σ k E)l k 0
Σの固有値と固有ベクトルを求めて下さい
( S11 k )lk1 S12lk 2 0
S12lk1 ( S 22 k )lk 2 0
2
lki2 1 ←制約条件
i 1
タイトル「演習レポート」、日付、学生番号、氏名を書く
9
主成分分析の宿題:
下記の表に基づいて、以下の問題を答えなさい。
No 標本 英語(x1) 数学(x2)
1
A
5
8
2
B
5
5
3
C
7
4
4
D
8
5
(1)x1とx2の平均値を求めなさい。
(2)x1とx2の分散と共分散を求める定義式を書き、分散共分散行列
Sを求めなさい。
(3)分散共分散行列Sの固有値を求める定義式を書き、固有値を求
めなさい。
(4)分散共分散行列Sのランクを答え、その理由を述べなさい。
10