...

PDF

by user

on
Category: Documents
14

views

Report

Comments

Description

Transcript

PDF
今日のポイント
平均・分散共分散・正規分布
平均、分散、共分散の求め方は?
分散共分散行列の求め方?
相関行列と分散共分散行列の関係?
正規分布とは?
教科書pp.137-144
数値による記述
平均・分散・共分散
バラツキの中心を知る
平均,中央値
バラツキの大きさを知る
分散,標準偏差
平 均(Mean)
平 均(Mean)
•変数が1個、個体がn個の場合、求め方は
x
•変数が2個、個体がn個の場合
1
1
( x1  x2    x n )   xi
n
n i 1
n
•平均の意味は:誤差が一番少ない数
個々のデータと集団の平均との差(平均からの偏差)
データ値
平均値

 n
x1i 
1 
μ  x   in1  •変数が3個、個体がn個の場合
n
 x2 i 
 n

 i 1 
  x1i 
 i 1 
1 n
μ  x   x2 i 
n  i 1 
 n

  x3i 
 i 1 
1
平 均(Mean)
中央値(Median)
•変数がN個、個体がn個の場合
 n

  x1i 
 in1 
1   x2 i  1  n
μ  x   i 1    x1i
n
n  i 1
 
 n

 x Ni 
 i 1 
分散(Variance)
大きさの順に並べたときの真ん中の値
例:データ10,15,25,30,40の場合は、
n
 x2 i 
i 1

xNi 

i 1

n
25が中央値。
T
注意:データの個数が偶数の場合は真ん中の2
つの値の平均を中央値とする。
例:10,15,25,30の場合、(15+25)/2=20が中央値
分散(Variance)
ばらつきを測る尺度
•変数が1個、個体がn個の場合、求め方は
•変数が1個、個体がn個の場合、求め方は
2 
( x1  x )  ( x2  x )    ( xn  x )
1 n
  ( xi  x ) 2
n
n i 1
2

1
x1  x
n

1
(x  x)' (x  x)
n
x2  x 
2
2
 x1  x 
x  x

xn  x  2
  


 xn  x 
分散(Variance)
ばらつきを測る尺度
2 
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2 1 n
  ( xi  x ) 2
n
n i 1
各データ値xiの平均 xからの偏差の2乗の
合計をデータ数nで割った値
 平均値との差を2乗した値は、はずれ値が
大きいほど大きな数値になる
 分散は、元データの2乗になっているので、
単位も2乗になる

標準偏差(Standard deviation)
ばらつきを測る尺度
•変数が2個、個体がn個の場合
•変数が1個、個体がn個の場合、求め方は
 n
2 
  ( x1i  x1 ) 
1
σ 2   in1

n
( x2 i  x2 ) 2 

 i 1

s 2 
•変数が3個、個体がn個の場合

2 
  ( x1i  x1 ) 
i 1


1 n
σ 2    ( x2 i  x2 ) 2 

n  i 1

 n
2
  ( x3i  x3 ) 

 i 1

n
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
n
1 n
 ( xi  x ) 2
n i 1

ルートを取るから、標準偏差の単位は元データと同じ

結果的に散らばり具合を示す指標としての標準偏差が求
められる
分散や標準偏差が大きいほどデータのバラツキは大きい
データがすべて同じ値のとき、分散や標準偏差は0


2
ベクトルで分散を書くと
【標準偏差を求める】

5人の体重のデータ:
50,45,60,70,55 Kg
平均値、分散、標準偏差を求めなさい
(各自計算してください)
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
•変数が1個、個体がn個の場合  x1 
分散( Sxx)は : 1
Sxx  (x  x)' (x  x)
n

1
x1  x
n
ベクトルで分散・共分散を書くと
 x1 
 y1 
•変数が2個、個体がn個の場合
x 
y 
x   2 , y   2 
:
:
 
 
x
•変数xとyの平均をそれぞれ求めてから  n 
 yn 
•以下の式で分散、共分散を計算
1
(x  x)' (x  x)
n
1
分散( Syy )は : Syy  (y  y )' (y  y )
n
分散( Sxx)は : Sxx 
共分散( Sxy)は : Sxy 
1
( x  x)' (y  y )
n
行列で分散共分散行列を書く
•変数が2個、個体がn個の場合
A  x y  B  x  x y  y 
注意:変数は行で表現している
1
1 x  x
s  B' B  
x  x y  y 
n
n y  y 
 sxx sxy 
s

 sxy syy  2行2列の分散共分散行列
 x1  x 
x  x
x 
2

x    , x  x   2
 : 
:


 
 xn  x 
 xn 
 x1  x 
x  x 
n
  1  ( x  x )2
x2  x  xn  x  2
 :  n i 1 i


 xn  x 
分散共分散行列S
•変数が2個、個体がn個の場合
データx, yのすべての組み合わせの
分散共分散を行列の形式で表すと
分散共分散行列
 sxx
s
 sxy
sxy 
syy  実対称行列
主対角の要素は分散、その他は共分散
とてもとても大切な行列です!!!
注意:
x, yはそれぞれn次元のベクトル
行列で分散共分散行列を書く
A  x y z  B  x  x y  y
z  z
注意:変数は行で表現している
x  x
1
1
s  B' B  y  y x  x y  y
n
n
 z  z 
 sxx

s   sxy
 sxz

sxy
syy
syz
sxz 

syz 
szz 
z  z
•変数が3個
•個体がn個
3行3列の分散共分散行列
主対角の要素は分散、その他は共分散
3
例を挙げる
12 
20
 
x  24
 
26
33
3
6
 
y 7
 
10
14
22
16 
 
z  14 
 
10 
 8 
•変数が3個
•個体が5個
例を挙げる(xの分散)
12  23   11
12 
20  23   3 
20 平均値 x=23
 


 
x  24
x  x  24  23   1 
 

 

26
26  23  3 
33  23  10 
33
分散Sxx 
1
(x  x)' (x  x)
n
1
 {(11) 2  ( 3) 2  12  32  10 2 }  48
5
例を挙げる(yとzの分散)
12 
20
 
x  24
 
26
33
3
6
 
y 7
 
10
14
例を挙げる(xとyの共分散)
22
16 
 
z  14 
 
10 
 8 
1
(y  y )' (y  y )  ?
n
1
分散Szz  (z  z )' (z  z )  ?
n
12 
20
 
x  24
 
26
33
分散Syy 
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
例を挙げる(分散共分散行列)
12 
20
 
x  24
 
26
33
3
6
 
y 7
 
10
14
22
16 
 
z  14 
 
10 
 8 
の分散共分散行列を書いてください
実対称行列
(各自計算してください)
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
3
6
 
y 7
 
10
14
共分散Sxy 
22
16 
 
z  14 
 
10 
 8 
1
(x  x )' (y  y )  ?
n
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
行列で分散共分散行列を書く
A  x1
x 2 ... x m  B  x1  x1
x 2  x 2 ... x m  x m 
 x1  x1  注意:変数は行で表現している


1
1 x  x2 
s  B' B   2
x1  x1 x 2  x 2 ... x m  x m 
n
n  


x m  x m 
 sx1x1 sx1x 2  sx1x m 
s
sx 2 x 2  sx 2 x m  m個のベクトルの場合
xx
各ベクトルのデータ数はnとする
s 1 2
 


 
 主対角の要素は分散、その他は共分散

 sx1x m sx 2x m  sx m x m 
実対称行列
4
行列で平均を求める
•変数がp個、個体がn個の場合
教科書の中の求め方は
行列で分散共分散行列を求める
•変数がp個、個体がn個の場合、教科書の中の求め方は
1

x1i 


 x1 
 1   x1   n i 1 
x 
   x   1 n
2
2
2
x2 i 

, μ  X         n 
X

i

1
:
 :  : 
 
     n: 
x
 p 
  p   x p   1 x 
 pi
 n i 1 
n
注意:変数は列で表現することに変更
 x1  x1 


1
1  x2  x2 
x x
V ( X)  S  ( X  μ)( X  μ)' 

  1 1
n
n


x p  x p 

 sx1x1
s
xx
 1 2
 

 sx1x p
sx1x 2
sx 2 x 2

sx 2 x p
 sx1x p 
 sx 2 x p 


 

 sx p x p 
E (x)  μ  X を平均ベクトル(mean vector)と呼ぶ
例を挙げる(相関行列R)
x New
 11  6.93   1.59 
  3  6.93   0.43
標準偏差:
 

xx 

  1  6.93    0.14  S xx  48  6.93
S xx 
 

 3  6.93   0.43 
 10  6.93   1.44 
yとzも同じように計算し、新しいデータ(規準化データ)
から分散共分散行列を求めると
 S ' xx S ' xy S ' xz  rxx

 
R   S ' xy S ' yy S ' yz   rxy
'
'
'
 S xz S yz S zz   rxz

 
rxy
ryy
ryz
0.97  0.98
rxz   1

1
 0.96
ryz    0.97
1 
rzz   0.98  0.96
rxy
ryy
ryz
0.97  0.98
rxz   1

1
ryz    0.97
 0.96
1 
rzz   0.98  0.96
相関行列の主対角以外の各元素rijは相関係数と呼ぶ
rの値が-1から+1までの範囲内
正の値ならば、両データは同じように変化
負の値ならば、逆の方向に変化

 x1  x1 
 x1 
x  x 
x 
2
2
2
X     Xμ  
  
:


 
x p  x p 
x p 
規準化データの性質
n
総和が「0」になる:  xNewi  0  x New  0
i 1
n
2
二乗の総和が「1」に なる: 1
 xNewi
i 1
n
2
データベクトル xとxの相関係数Rxx= x Newi
1
i 1
y
0
相関行列Rと相関係数r
 S ' xx S ' xy S ' xz  rxx

 
R   S ' xy S ' yy S ' yz   rxy
'
'
'
 S xz S yz S zz   rxz

 
x 2  x 2 ... x p  x p
x
規準化により、元データ(青)を座
標の原点を中心とした点に移動さ
せた(赤)
相関係数r
相関係数rの値
1.0 ~ 0.7
0.7 ~ 0.4
0.4 ~ 0.2
0.2 ~-0.2
-0.2 ~-0.4
-0.4 ~-0.7
-0.7 ~-1.0
相関の強弱
強い正の相関がある
中程度の正の相関がある
弱い正の相関がある
ほとんど相関がない
弱い負の相関がある
中程度の負の相関がある
強い負の相関がある
上は一応の目安:標本の数や
研究分野で異なる
5
相関係数rの図形的意味
データ分布と相関係数rの関係
xy
r (相関係数)=-1
r(相関係数)=1
y

二つのベクトルの間の角度の余弦(cos)となる
強い正の相関
強い負の相関
r(相関係数)=0.5
r(相関係数)=0
rxy 

S xy
S xx S yy

x
x1 y1  x2 y2  ...  xn yn
( x  x22  ...  xn2 )( y12  y22  ...  yn2 )
2
1
x y cos 
(x, y)
(x, y) x  y



 cos 
x y
x y
x y
(x, x)(y, y)
相関行列の各要素は内積で表現できる
弱い正の相関
相関なし
プラスα:無相関は無関係ではない
ベクトルの内積と相関関係
S xy
rxy 


S xx S yy
x1 y1  x2 y2  ...  xn yn
r(相関係数)=0
y
(x, y)
(x, y) x  y


 cos 
x y
x y
(x, x)(x, y)

x
度 y
相関なし
y
y
x
弱い正の相関
度
x
y
相関なし
無相関(曲線の関係)
x
強い正の相関
度
r(相関係数)=0
( x12  x22  ...  xn2 )( y12  y22  ...  yn2 )
度
強い負の相関
今回の宿題:統計処理と固有値
x
相関係数rを計算し、r=0でも二つのデータ間には
関係がないとは簡単には断言できない
相関係数rとは、2つの変数の間の直線的な関係を示す
指標であって、それ以上の意味はない
プラスα:分布関数,密度関数(一次元)
下記の表に基づいて、以下の問題を答えなさい。
No
1
2
3
4
標本
A
B
C
D
英語(x1)
5
5
8
4
数学(x2)

F ( x )  Pr( X  x )
• Pr(X≤x) 確率変数Xがx以下の値をとる確率
• 累積分布関数(cumulative distribution function)
F (  )  lim F ( x )  0
8
5
7
5
•x1とx2の平均値を求めなさい。
•x1とx2の分散と共分散を求める定義式を書き、
分散共分散行列Sを求めなさい。
•分散共分散行列Sの固有値を求める定義式を書き、
固有値を求めなさい。
分布関数(distribution function)
x  
F (  )  lim F ( x )  1
x 
• F(x)は単調増加関数

密度関数(density function)
• 確率密度関数(probability distribution function)
f ( x)  lim
h  0
F ( x  h)  F ( x )
h
6
プラスα:分布関数,密度関数(一次元)
分布関数,密度関数(一次元)
標準正規分布の場合
F ( x)   f (u )du
離散型確率変数の場合
pi  Pr( X  xi )
• Xのとりうる値がx1,x2,…の場合
F ( x)   pi
0.4
0.2
Density
0.6
0.3
0.8
dF ( x )
dx
0.1
f (x) 
f ( u ) du
0.0

b
a
Cumulative Probability
• F(x)が微分可能な場合には

0.2
Pr( a  X  b )  F ( b )  F ( a ) 
Normal Distribution:  = 0,  = 1
1.0

0.4
分布関数(続き)
Normal Distribution:  = 0,  = 1
0.0

x
-3
-2
-1
0
1
2
3
-3
-2
-1
x
0
1
2
3
x
密度関数(density function)
分布関数(distribution function)
x
F ( x)   f (u ) du
xi  x

正規分布(Normal Distribution)
正規分布はガウス分布とも呼び、確率分布の代表的な
形式、統計学において最も重要な分布の一つであり、
工学分野に広く応用される
正規分布 N (  ,  2 )
特徴として、
0.4
0.3
0.4

・
0.2
0.3

・
・
変曲点
-2
0
-3
-1
0
 

1
 
一次微分が不連続なところ
0.1
0.1
0
-3
・
変曲点とは,カーブの向きが変わる境目
変曲点
 
0.2
・x=μについて左右対称
・x=μのところ最大
・μ±σで変曲点をもつ

・±∞で0に漸近
2
3
-2
-1
 
0

1
 
標準正規分布 N (0,1)
3
積分の面積=1
1 x
)2
 (
1
e 2 
2 
期待値(平均値) E ( X )   , 分散V ( X )   2
密度関数 f ( x) 
19世紀のGaussが天体観測のばらつきから発見された。
彼は「正規分布は偶然誤差の分布法則である」と考えた
2
正規分布のグラフと平均の関係
0.4
平均μによる変化
標準偏差が一定(σ = 1)
0.3

0.2
 
・ 変曲点
変曲点 ・
0.4
0.1
0
-3
0.3
-2
-1
-1
0
1
2
3
1
0
0.2
1
1  2 x2
e
2
期待値  E ( X )  0, 分散 2  V ( X )  1
密度関数 f ( x) 
0.1
-4
-2
2
4
7
ガウス関数hよりノイズを除去(1次元)
正規分布のグラフと分散の関係
標準偏差σによる変化
0.8
平均が一定(μ= 2)
Gaussian operator
σ= 0.5小さい
0.6
畳み込み:
積分の面積=1
0.4
σ= 1.0
0.2
σ= 1.5
σ= 2.0大きい
-5
5
Where is the edge?
10
Look for peaks in
Laplacian of Gaussian (LoG)
Derivative Theorem of Convolution
 2
2
h  f     2
x 2
 x
…saves us one operation.

h   f

Laplacian of Gaussian
ガウス関数の二階微分
ガウス関数の一階微分
Laplacian of
Gaussian operator
derivative of
Gaussian operator
二階微分後の畳み込み
一階微分後の畳み込み
Where is the edge?
Effect of  (Gaussian kernel size)
2次元正規分布
Gaussian
derivative of Gaussian

h ( x, y )
x
h ( x, y ) 

1
e
2 
Zero-crossings of bottom graph !
Laplacian of Gaussian
 2 h ( x, y ) 
2
2
h ( x, y )  2 h ( x, y )
y
x 2
original
x2  y2
2 2

Canny with
Canny with
The choice of depends on desired behavior
• large detects large scale edges
σ= 0.5小さい
• small detects fine features
0.8
0.6

h ( x, y )
y
0.4
0.2
応用:画像内のノイズを抑制しながらエッジを検出
-5
σ= 1.0
σ= 1.5
σ= 2.0大きい
5
10
8
プラスα:多変量正規分布
プラスα:同時分布(2次元)
(multivariate normal distribution)
f ( x, μ ,  ) 
 1
2 
d
2

XとYが確率変数
分布関数or同時分布関数(joint distribution function)

(同時)密度関数

d次元ガウス分布
 1

'
exp  x  μ   1 x  μ , (d  p)
 2

• F(x,y)≡Pr(X≤x,Y≤y)
f ( x, y ) 
変数がp個の場合: d=p

2次元の場合(教科書p.139)
f (x, μ, )  f ( x1 , x2 , μ, ) 

周辺密度関数(教科書p.134)

1
2
f X ( x)   f ( x, y )dy

 1

'
exp  x  μ   1 x  μ 
 2

注:p変量(p次元)まで拡張できる
プラスα:期待値,分散
プラスα:同時分布(2次元)


条件付密度関数
f ( x, y )
f ( y | x) 
f X ( x)
離散:

Var( X )  i pi xi      2   XX
2
Var( X )  E {( X  μ )( X  μ ) ' }  Σ
cov( X , Y )  E ( X   X )(Y  Y )

分散(variance)
2
重要な公式

a,bを定数。X,Yを確率変数として
cov( X , Y )
 XY

var( X )  var(Y )  X   Y
-1≤ cor(X,Y) ≤1
cor(X,Y)=0  確率変数XとYは無相関
相関は2つの変数間の線型関係をみるもの。XとYが無相関
であっても,非線形の関係があるかもしれない。
Var( X )  E( X 2 )   2
プラスα:期待値,分散の性質
プラスα:共分散と相関係数

E( X )  i pi xi  
 E ( X 1 )   1 
 E( X )   
2 
2
E( X)  
 μ
     
  

 E ( X p )   p 
Var( X )   x    f ( x)dx
注:p変量(p次元)まで拡張できる
corr ( X , Y ) 
E( X )   xf ( x) dx
を期待値として
分布の独立性(教科書pp.134-135)
• F(x,y) = FX(x)FY(y)
• f(x,y)=fX(x) fY(y)

期待値(expected value)
連続:
• X=xが与えられた場合のYの密度関数

2
F ( x, y )
xy
E(aX  b)  a E( X )  b
E( X  Y )  E( X )  E(Y )
var(aX  b)  a 2 var( X )
var( X  Y )  var( X )  var(Y )  2 cov( X , Y )

分散
Var( X )  E( X 2 )   2
9
プラスα:標本平均の性質


Y1,Y2,...,Ynは互い独立で同一の分布に従う
E(Yi)=, var(Yi)=, (i=1,2,..,n)
1
Y1  Y2    Yn 
n
1 n
EY    EYi   
n i 1
nが大きくなる
につれ,標本
平均のバラつ
きは小さくなる
Y 
 
1
varY   var  Y1  Y2    Yn   X
 n
n
(大数の法則)
2
10
Fly UP