...

共分散

by user

on
Category: Documents
14

views

Report

Comments

Description

Transcript

共分散
国際教養学部数理統計 5 回
火曜 4 時限 担当 宮田
1
1.1
2 つの変量の関係を調べる.
散布図 (Scatterplot)
ある高校の選択授業のクラスの 25 人の受講者について 1 学期の成績 x と 2 学期の成績 y を調べた
ところ以下のような組のデータが得られたとします.
(99,59)
(51,38)
(16,15)
(84,62)
(58,35)
(79,39)
(62,26)
(60,57)
(50,58)
(92,58)
(35,32)
(96,70)
(59,43)
(71,36)
(94,75)
(18,5)
(71,46)
(44,33)
(50,46)
(46,20)
(41,18)
(33,13)
(12,12)
(38,43)
(47,33)
表1
これらの 25 個のデータのそれぞれを xy 平面上の点として図示してみると、下の図のようになりま
す. この図から、x の値が大きいと、y の値も大きくなる傾向があることがわかります. 100 6
80
60
40
20
0
20 40 60 80 100
このように、2 つの変量からなるデータを平面上に図示して、その関係を目で見てわかるようにした
ものを散布図といいます. 散布図には大きく分けて次の 5 つの場合に区別することができます. 正
の相関がある (Positive pattern) とは,x が大きな値をとるときには、それに対応する y も大きな
値をとる傾向があるものを言います. 例えば表 1 は 1 学期の成績がいい生徒は 2 学期の成績もよい
傾向があるので正の相関があると言えます. 負の相関 (Negative pattern) とは x が大きな値をと
るときには、それに対応する y は小さな値をとる傾向があるものを言います. 無相関 (No pattern)
というのは,x と y の間に直線関係が見当たらない状態のことを言います.
強い正の相関
正の相関
負の相関
強い負の相関
1
無相関
1.2
共分散 (Covariance)
表 1 のような対のデータ (x1 , y1 ), (x2 , y2 ), ...,(xn , yn ) 関係を数値で表すものを考えてみよう. ここ
で共分散 (covariance) という統計量を紹介します。
(x1 − x̄)(y1 − ȳ) + (x2 − x̄)(y2 − ȳ) + · · · + (xn − x̄)(yn − ȳ)
n−1
sxy =
P
( 記号を使うと sxy =
(1)
n
1 X
(xi − x̄)(yi − ȳ) と表せる) これは以下の性質を持ちます.
n−1
i=1
•
•
•
散布図に正の相関がある
散布図に負の相関がある
散布図は無相関である
⇐⇒
⇐⇒
⇐⇒
sxy > 0
sxy < 0
sxy + 0
問 1 以下のような対のデータ (x, y) の共分散を求めよ. °
1
1.3
x
y
9
5
5
9
8
7
8
9
10
8
x
y
°
2
1
2
4
6
4
5
1
3
5
6
共分散はなぜ正か負で 2 つの変量の関係を表せるの?
これは以下の図を用いて説明しましょう. データは表 1 のものを用います.
6
6
この範囲にある点 (c, d)
は (c − x̄)(d − ȳ) < 0
¾
B
A
(x1 , y1 )
(x1 , y1 )
ȳ
6
A
ȳ
(x2 , y2 )
この範囲にある点 (a, b)
は (a − x̄)(b − ȳ) > 0
¾
(xn , yn )
x̄
-
?
(x2 , y2B
)
(xn , yn )
x̄
-
この 2 つの図より,点の集まりが B より A の領域にたくさんある場合には,
µ
¶
1
sxy =
(x1 − x̄)(y1 − ȳ) + (x2 − x̄)(y2 − ȳ) + · · · + (xn − x̄)(yn − ȳ)
{z
} |
{z
}
n−1 |
正の値をとる
(2)
負の値をとる
において正の値をとる項が多くなりますので,これらの n 個の項を足し合わせた場合 sxy は正となり
ます. 一方で,A より B の領域にたくさん点がある場合には,負の値をとる項が多くなりますので,
これらの n 個の項を足し合わせた場合 sxy は負となります.
1.4
共分散の弱点とその改善 (相関係数を導く)
実は共分散には弱点があります. これを示すために以下の例を考えてみましょう.
2
No.
国語
(100 点満点)
数学
(100 点満点)
No.
国語
(100 点満点)
数学
(10 点満点)
1
2
3
4
5
80
50
70
90
70
70
60
50
30
90
1
2
3
4
5
80
50
70
90
70
7
6
5
3
9
ここで共分散を計算すると,左の表の共分散は −125 となり,右の表の共分散は −12.5 となります.
これより国語と数学の関係は同じなのに評価する点数の単位によって共分散の値が変わるということ
になってしまいます. つまり
共分散 sxy は 2 つ変量 x と y の単位によって値が変わる.
ということなのです. ですから共分散が正の大きい値をとっているからといって,正の相関が強い
ということは言えません. 1.5
相関係数
相関係数 (Correlation) p105
sxy
を相関係数という.
対のデータ (x1 , y1 ), (x2 , y2 ), ...,(xn , yn ) に対して r =
sx sy v
v
u
u
n
n
u 1 X
u 1 X
2
t
t
ここで, sx =
(xi − x̄) (x の標準偏差) sy =
(yi − ȳ)2 (y の標準偏差)
n−1
n−1
i=1
sxy =
1
n−1
n
X
i=1
(xi − x̄)(yi − ȳ) (x と y の共分散) とする.
i=1
相関係数 r は以下の性質を持っています.
•
•
•
−1 ≤ r ≤ 1
1 に近いほど強い正の相関があり, −1 に近いほど強い負の相関がある.
0 に近いほど相関がない.
強い正の相関 (r = 1)
正の相関 (r > 0)
負の相関 (r < 0)
強い負の相関 (r = −1)
3
無相関 (r = 0)
注意点としては、相関係数は x と y の線形的i な関係の強さを表す指標だということです. このため
x と y に関係があったとしても、相関係数が小さい値になるということも、たまにあります.
1.6
相関係数の計算例
計
x
9
5
8
8
10
40
これより
y
5
9
7
9
8
38
x − x̄
1
-3
0
0
2
0
y − ȳ
-2.6
1.4
-0.6
1.4
0.4
0
(x − x̄)2
1
9
0
0
4
14
(y − ȳ)2
6.76
1.96
0.36
1.96
0.16
11.2
(x − x̄)(y − ȳ)
-2.6
-4.2
0
0
0.8
-6
−6/(5 − 1)
p
r=p
+ −0.479.
14/(5 − 1) 11.2/(5 − 1)
問 2 問 1 のデータ °
1, °
2 の相関係数を求めよ
1.7
その他の性質(ここは試験範囲外. 興味のある方のみ)
ここで 2 変量の関係を表す数値として望まれるのは単位の影響を受けないということです. 実は、
z-score は単位の影響を受けない数値であることが知られています. (第 3 回目プリント参照) とい
うことは次のようにして、単位の影響を受けないで,かつ 2 つの関連性を表す指標を考えます.
°
1 与えられた対のデータ (x1 , y1 ), (x2 , y2 ), ...,(xn , yn ) に対して標準化を行う. n
n
xi − x̄
yi − ȳ
1X
1X
つまり ai =
, bi =
, i = 1, 2, ..., n とする. ここで x̄ =
xi , ȳ =
yi ,
sx
sy
n
n
i=1
i=1
n
n
X
X
1
1
(xi − x̄)2 , s2y =
(yi − ȳ)2 です.
s2x =
n−1
n−1
i=1
i=1
°
2 °
1 の操作で得られた標準化された対のデータ (a1 , b1 ), (a2 , b2 ), ...,(an , bn ) の共分散
n
1 X
(ai − ā)(bi − b̄)
n−1
(3)
i=1
n
n
1X
1X
ai , b̄ =
bi .
n
n
i=1
i=1
このようにして得られた 標準化したデータの共分散r は、実は以下の計算から相関係数になってい
ることが分かります. を求める. ここで ā =
i
線形的な関係とは x と y の散布図がどれだけ直線に近いかということを表しています.
4
これは標準化の性質より ā = 0, b̄ = 0 (4 章参照) となることから
n
n
i=1
i=1
n
1 X
1 X
1 X (xi − x̄) (yi − ȳ)
(ai − ā)(bi − b̄) =
ai bi =
n−1
n−1
n−1
sx
sy
=
1
(n − 1)sx sy
i=1
n
X
(xi − x̄)(yi − ȳ)
i=1
n
P
(xi − x̄)(yi − ȳ)
s
=s
n
n
P
P
(xi − x̄)2
(yi − ȳ)2
i=1
i=1
実はこの式を相関係数ということが多い
i=1
sxy
=
=r
sx sy
となります. ですから相関係数は, 変量 x や y の単位の影響を受けない指標となっています.
2
回帰分析 (散布図から対のデータの関係を導く)
ここであるクラスの身長と体重を測定したときの散布図を考えてみましょう. (下図)
y(身長)
y(身長)
こんな感じで直線
y = a0 + b0 x
を引きます
x(体重)
x(体重)
このとき, 左上の散布図をうまく表すのような直線を描いてみると、右上の図のような形になりま
すよね. もしこの直線の式
y(身長) = a0 + b0 x(体重)
(4)
が y = 100+1.2x となることがわかったとしましょう. そうすると体重 50kg の人は y = 100+1.2×50 =
160 より 160cm くらいの身長であることが予測できます. ただし実際に問題となのは a0 と b0 が何で
あるかが分かっていないということです. このことより a0 と b0 を 2 組のデータ (x1 , y1 ), ..., (xn , yn )
から推定しようというのがこの章の目的となります. (4) において、通常 y の値は x により定まると考
えることから x のことを独立変数 (independent variable) と呼び、y を従属変数 (dependent variable)
と呼びます.
2.1
最小 2 乗法 (Least Square Estimator)p109
ここでは、a0 と b0 をデータ (x1 , y1 ), ..., (xn , yn ) らいかにして推定するかを説明します. この時 y1
と a + bx1 の差を d1 とし, y2 と a + bx2 の差を d2 とし、後は同様にして yn と a + bxn の差を dn とし
5
ます. これは
d1 = y1 − (a + bx1 )
d2 = y2 − (a + bx2 )
..
.
dn = yn − (a + bxn )
と置くと下図のようになります.
y
y = a + bx
この差が d1 = y1 − (a + bx1 ) となる
y1
d2
(x2 , y2 )
x
x1
ここで d1 , d2 , ..., dn のそれぞれを 2 乗したものの和が最も小さくなるような a と b の値を考えてみ
ましょう.即ち、
n
X
d2i = d21 + d22 + · · · + d2n = (y1 − (a + bx1 ))2 + · · · + (yn − (a + bxn ))2
(5)
i=1
を最小にするような a と b の値を求めるということです. ここで (5) を最小にする a, b の値を最小
2 乗推定量といいます.
これは言い方を換えますと,散布図が与えられたときに,その散布図をうまく表しているような直
線を描いてあげるということです.実際,下図からわかるように, 散布図をうまく表していない直線
n
P
はそれぞれの点からの距離の 2 乗の和
d2i が大きくなるのがわかりますよね.
i=1
y
y
y = a + bx
y = a + bx
x
散布図をうまく表していない.
x
散布図をうまく表している.
このようにして得られた a, b を y = a + bx に代入した直線を回帰直線 (regression line) と言いま
す.この回帰直線を求めると x と y にいったいどのような関係があったのかがわかるのです.さてこ
n
X
こで計算はさておき(後で述べます),
d2i = d21 + d22 + · · · + d2n を最小にするような a, b は次の形
i=1
で表されるということだけ触れておきます.
6
a, b の最小 2 乗推定量
b=r
する.
注 bはb=
a = ȳ − bx̄
n
n
i=1
i=1
1X
1X
yi , x̄ =
xi , sx , sy はそれぞれ x と y の標準偏差と
n
n
ここで r は x と y の相関係数, ȳ =
n
P
sy
,
sx
(xi − x̄)(yi − ȳ)
i=1
n
P
とも表せます.
(xi −
x̄)2
i=1
上記の式変形の詳細
s
n
P
n
P
(yi − ȳ)2
(xi − x̄)(yi − ȳ)
(xi − x̄)(yi − ȳ)
i=1
sy
i=1
i=1
s
×s
=
b=r = s
n
P
sx
n
n
n
P
P
P
(xi − x̄)2
(xi − x̄)2
(yi − ȳ)2
(xi − x̄)2
i=1
n
P
i=1
i=1
i=1
手計算による具体例 次のようなデータに対する回帰直線を求めてみよう. 実際にはまず散布図を
書かなければならないが、ここでは省略します. x の平均を x̄, y の平均を ȳ とします. これは
x̄ =
2 + 5 + 3 + 9 + 12
= 6.2,
5
ȳ =
3 + 7 + 4 + 10 + 12
= 7.2
5
となります.
計
これより sxy =
x
2
5
3
9
12
31
y
3
7
4
10
12
36
x − x̄
-4.2
-1.2
-3.2
2.8
5.8
0
y − ȳ
-4.2
-0.2
-3.2
2.8
4.8
0
r
63.8
= 15.95, sx =
4
15.95
+ 0.9888628,
4.207 × 3.834
b=r
(x − x̄)2
17.64
1.44
10.24
7.84
33.64
70.8
(y − ȳ)2
17.64
0.04
10.24
7.84
23.04
58.8
(x − x̄)(y − ȳ)
17.64
0.24
10.24
7.84
27.84
63.8
r
sxy
70.8
58.8
+ 4.207, sy =
+ 3.834. r =
=
4
4
sx sy
sy
3.834
= 0.9888628 ×
+ 0.901
sx
4.207
a = ȳ − bx̄ = 7.2 − 0.901 · 6.2 + 1.614
より回帰直線は y = 1.614 + 0.901x となります.
3
予測
前章では最小二乗推定を説明しましたが, この手法を用いると簡単な予測ができます. さて東京に
おける 3 月 1 日から 14 日までの平均気温と開花日を表したデータを考えてみましょう. ここでの目
的は 2008 年の 3 月初旬の平均気温から桜の開花日を予測することです.
7
2000
2001
2002
2003
2004
2005
2006
2007
2008
3 月平均気温
8.24
7.22
10.88
6.64
8.56
6.89
8.74
9.99
9.3
開花日
30
23
16
27
18
31
21
20
?
今, 2000 年から 2007 年までのデータから散布図を作り、最小二乗法より回帰直線を描くと以下の
図のようになります.
25
20
開花日
30
平均気温と開花日の関係
7
8
9
10
11
平均気温
最小二乗推定量は α̂ = 46.819, β̂ = −2.8075 となるので, 回帰直線は y = 46.819 − 2.8075x となり
ます. これより x の部分に 9.3 を代入しますと, 下図のようになり,
25
20
開花日
30
平均気温と開花日の関係
7
8
9
10
11
平均気温
これより予測値は ŷ = 46.819 − 2.8075 × 9.3 + 20.7(日) となります.
3.1
決定係数 (試験範囲外)
ここでは、2 変量の関係を y = a + bx として表すことをしているわけですが、いつもこのような統
計手法を使えばよいかというとそうとは言えません. では、2 変量データ (x1 , y1 ), ..., (xn , yn ) に対し
8
て回帰直線を使うことが有効であるかないかを判断するにはどうすればよいのでしょうか?
ここで 1 つの判断材料として決定係数 r2 と呼ばれる値を紹介します. 最小 2 乗推定量を用いて a と
b の推定量を求めてそれを代入したものを yˆi = a + bxi とした時、次の関数 r2 を考えます.
r2 =
n
回帰直線によって説明された標本分散
y1 , ..., yn の標本分散
=
n
1 P
¯2
(yˆi − ŷ)
n − 1 i=1
n
1 P
(yi − ȳ)2
n − 1 i=1
(6)
n
1X ¯
1X
ここで ȳ =
yi ŷ =
yˆi . この r2 は決定係数と呼ばれています. なんだか複雑な式である
n
n
i=1
i=1
なと思われるかもしれませんが、Excel は自動的に計算してくれるので心配しなくても良いでしょう.
ここで重要なのはこの r2 が何を意味しているのかということです.
r2 の意味 r2 が 1 に近いほど、よく回帰直線が推定できていることを意味します. これは回帰直線
の当てはまりが良いという表現でよく言われます. 逆に r2 が 0 に近い値をとるときは、y = a + bx
のような回帰直線は 効果がない ということを意味します.(下の図参照)
当てはまりが悪い
r2 + 0
当てはまりが良い
r2 + 1
これを見ると要は相関がある程度ない場合は、回帰直線を使っても効果がないのだなと直感的にわ
かるでしょう. 実はこれは正しいことで、独立変数 x が 1 次元のときには決定係数 r2 と相関係数を 2
乗したもの r2 は一致することが知られています.
例 (続き) 回帰直線を求めた例において r2 = 0.977757 となります.r2 は極めて 1 に近いので、こ
れは有効な回帰直線であるということがいえます.
4
a と b の導きかた(試験範囲外)
ここでは前の章に示した最小 2 乗推定量を数学的に求める方法を紹介します. a と b を求めるた
めに、いくつかの定理を使わなくてはならないので、まずそれを紹介します.
4.1
補題 1
A > 0, B, C は定数とする.
h(t) = At2 + Bt + C
9
とした時、h(t) は t = −
す.
証明: B
の時、最小値をとる. ちなみにこの h(t) のことを t の 2 次関数といいま
2A
Ã
µ ¶2 µ ¶2 !
B
B
B
h(t) = At + Bt + C = A t + t +
−
+C
A
2A
2A
Ã
µ ¶2 !
µ
¶
B
B
B 2 B2
B2
2
=A t + t+
+C = t+
+
+C
−
A
2A
4A
2A
4A
2
2
これより 2 次関数のグラフより、t = −
4.2
B
の時、最小値をとることがわかる.
2A
a, b を求める
ここでは d1 = y1 − (a + bx1 ), d2 = y2 − (a + bx2 ), · · · , dn = yn − (a + bxn ) として
n
X
d2i
n
X
=
[yi − a − bxi ]2
i=1
i=1
n
P
[yi − a − bxi ]2 は a = â, b = b̂ という点で最
P
小値をとるとしましょう. まず始めに b = b̂ を代入した ni=1 [yi − a − b̂xi ]2 を最小にするのは a = â
n
P
の時であることを利用します. ここで xi , yi は全て定数とします. また
{yi − a − b̂xi }2 は a の関
を最小にするような a = â, b = b̂ を求めます. ここで
i=1
i=1
数であると考えることができます. これより
n
X
2
[yi − a − b̂xi ] =
i=1
n
X
{a − (yi − b̂xi )}2
i=1
=
n
X
{a2 − 2(yi − b̂xi )a + (yi − b̂xi )2 }
i=1
à n
X
2
= na − 2
yi − b̂
i=1
n
X
!
xi
i=1
a+
n
X
(yi − b̂xi )2
i=1
となります. 上の式は a の 2 次関数と考えますと、補題 1 から
−2(
n
P
i=1
a=−
yi − b̂
n
P
i=1
xi )
=
2n
n
n
i=1
i=1
1X
1X
yi − b̂
xi
n
n
の時に最小値をとることがわかります. よって â = ȳ − b̂x̄ となります. 一方で、
に a = â を代入したものは b の関数であると考えることができます. そうすると
n
P
{yi − a − bxi }2
i=1
n
n
X
X
2
[yi − â − bxi ] =
[bxi − (yi − â)]2
i=1
i=1
n
X
=
[x2i b2 − 2(yi − â)xi b + (yi − â)2 ]
i=1
=
à n
X
!
x2i
à n
!
n
X
X
b −2
(yi − â)xi b +
(yi − â)2
2
i=1
i=1
10
i=1
となります. これを b の 2 次関数と考えますと、補題 1 から
n
P
b=
(yi − â)xi
Pn
2
i=1 xi
i=1
(7)
の時に最小値をとることがわかるります. よって次の 2 つの式を導くことができました.
â = ȳ − b̂x̄
n
P
(yi − â)xi
i=1
b̂ =
n
P
x2i
(8)
(9)
i=1
である. このとき (9) に (8) を代入しますと
Pn
− ȳ + b̂x̄)xi
i=1 (y
Pi n
x2
! i=1n i
X
x2i b̂ =
(yi − ȳ
i=1
i=1
b̂ =
à n
X
à n
X
!
x2i
i=1
à n
X
!
x2i
n
n
X
X
b̂ =
(yi − ȳ)xi + b̂x̄
xi
i=1
i=1
n
X
b̂ =
(yi − ȳ)xi + n(x̄)2 b̂
i=1
i=1
à n
X
!
x2i
2
− n(x̄)
b̂ =
i=1
n
X
ここで
x2i − n(x̄)2 =
i=1
+ b̂x̄)xi
n
X
(yi − ȳ)xi
i=1
n
n
n
X
X
X
(xi − x̄)2 ,
(xi − x̄)(yi − ȳ) =
(yi − ȳ)xi より
i=1
i=1
Ã
n
X
(xi − x̄)2
i=1
!
i=1
n
P
となります. よって b̂ =
b̂ =
n
X
(yi − ȳ)(xi − x̄)
i=1
(yi − ȳ)(xi − x̄)
i=1
n
P
. これより結果が示せました. (xi − x̄)2
i=1
上の証明での注意点
n
n
n
n
X
X
X
X
x2i − n(x̄)2 =
(xi − x̄)2 と
(xi − x̄)(yi − ȳ) =
(yi − ȳ)xi が成り立つことは各自証明
i=1
i=1
i=1
i=1
してください.ヒントとしては前者は右辺を展開して左辺の式になることを示せばいいと思います.
後者は左辺を展開すればよいです.
問 1 の解 °
1
11
x
9
5
8
8
10
40
これより sxy =
°
2
13
.
4
y
5
9
7
9
8
38
x − x̄
1
-3
0
0
2
0
y − ȳ
-2.6
1.4
-0.6
1.4
0.4
0
(x − x̄)(y − ȳ)
-2.6
-4.2
0
0
0.8
-6
3
−6
=− .
5−1
2
問 2 の解
°
1
r
より sx =
14
5−1
x − x̄ y − ȳ (x − x̄)2 (y − ȳ)2 (x − x̄)(y − ȳ)
1
-2.6
1
6.76
-2.6
-3
1.4
9
1.96
-4.2
0
-0.6
0
0.36
0
0
1.4
0
1.96
0
2
0.4
4
0.16
0.8
0
0
14
11.2
-6
r
1.5
11.2
+ 1.87, sy =
+ 1.67. これより r = −
+ −0.48.
5−1
1.87 × 1.67
x
9
5
8
8
10
40
y
5
9
7
9
8
38
°
2 0.96
12
Fly UP