Comments
Description
Transcript
PDF
今日のポイント
平均・分散共分散・正規分布
平均、分散、共分散の求め方は?
分散共分散行列の求め方?
相関行列と分散共分散行列の関係?
正規分布とは?
教科書pp.137-144
数値による記述
平均・分散・共分散
バラツキの中心を知る
平均,中央値
バラツキの大きさを知る
分散,標準偏差
平 均(Mean)
平 均(Mean)
•変数が1個、個体がn個の場合、求め方は
x
•変数が2個、個体がn個の場合
1
1
( x1 x2 x n ) xi
n
n i 1
n
•平均の意味は:誤差が一番少ない数
個々のデータと集団の平均との差(平均からの偏差)
データ値
平均値
n
x1i
1
μ x in1 •変数が3個、個体がn個の場合
n
x2 i
n
i 1
x1i
i 1
1 n
μ x x2 i
n i 1
n
x3i
i 1
1
平 均(Mean)
中央値(Median)
•変数がN個、個体がn個の場合
n
x1i
in1
1 x2 i 1 n
μ x i 1 x1i
n
n i 1
n
x Ni
i 1
分散(Variance)
大きさの順に並べたときの真ん中の値
例:データ10,15,25,30,40の場合は、
n
x2 i
i 1
xNi
i 1
n
25が中央値。
T
注意:データの個数が偶数の場合は真ん中の2
つの値の平均を中央値とする。
例:10,15,25,30の場合、(15+25)/2=20が中央値
分散(Variance)
ばらつきを測る尺度
•変数が1個、個体がn個の場合、求め方は
•変数が1個、個体がn個の場合、求め方は
2
( x1 x ) ( x2 x ) ( xn x )
1 n
( xi x ) 2
n
n i 1
2
1
x1 x
n
1
(x x)' (x x)
n
x2 x
2
2
x1 x
x x
xn x 2
xn x
分散(Variance)
ばらつきを測る尺度
2
( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 1 n
( xi x ) 2
n
n i 1
各データ値xiの平均 xからの偏差の2乗の
合計をデータ数nで割った値
平均値との差を2乗した値は、はずれ値が
大きいほど大きな数値になる
分散は、元データの2乗になっているので、
単位も2乗になる
標準偏差(Standard deviation)
ばらつきを測る尺度
•変数が2個、個体がn個の場合
•変数が1個、個体がn個の場合、求め方は
n
2
( x1i x1 )
1
σ 2 in1
n
( x2 i x2 ) 2
i 1
s 2
•変数が3個、個体がn個の場合
2
( x1i x1 )
i 1
1 n
σ 2 ( x2 i x2 ) 2
n i 1
n
2
( x3i x3 )
i 1
n
( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2
n
1 n
( xi x ) 2
n i 1
ルートを取るから、標準偏差の単位は元データと同じ
結果的に散らばり具合を示す指標としての標準偏差が求
められる
分散や標準偏差が大きいほどデータのバラツキは大きい
データがすべて同じ値のとき、分散や標準偏差は0
2
ベクトルで分散を書くと
【標準偏差を求める】
5人の体重のデータ:
50,45,60,70,55 Kg
平均値、分散、標準偏差を求めなさい
(各自計算してください)
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
•変数が1個、個体がn個の場合 x1
分散( Sxx)は : 1
Sxx (x x)' (x x)
n
1
x1 x
n
ベクトルで分散・共分散を書くと
x1
y1
•変数が2個、個体がn個の場合
x
y
x 2 , y 2
:
:
x
•変数xとyの平均をそれぞれ求めてから n
yn
•以下の式で分散、共分散を計算
1
(x x)' (x x)
n
1
分散( Syy )は : Syy (y y )' (y y )
n
分散( Sxx)は : Sxx
共分散( Sxy)は : Sxy
1
( x x)' (y y )
n
行列で分散共分散行列を書く
•変数が2個、個体がn個の場合
A x y B x x y y
注意:変数は行で表現している
1
1 x x
s B' B
x x y y
n
n y y
sxx sxy
s
sxy syy 2行2列の分散共分散行列
x1 x
x x
x
2
x , x x 2
:
:
xn x
xn
x1 x
x x
n
1 ( x x )2
x2 x xn x 2
: n i 1 i
xn x
分散共分散行列S
•変数が2個、個体がn個の場合
データx, yのすべての組み合わせの
分散共分散を行列の形式で表すと
分散共分散行列
sxx
s
sxy
sxy
syy 実対称行列
主対角の要素は分散、その他は共分散
とてもとても大切な行列です!!!
注意:
x, yはそれぞれn次元のベクトル
行列で分散共分散行列を書く
A x y z B x x y y
z z
注意:変数は行で表現している
x x
1
1
s B' B y y x x y y
n
n
z z
sxx
s sxy
sxz
sxy
syy
syz
sxz
syz
szz
z z
•変数が3個
•個体がn個
3行3列の分散共分散行列
主対角の要素は分散、その他は共分散
3
例を挙げる
12
20
x 24
26
33
3
6
y 7
10
14
22
16
z 14
10
8
•変数が3個
•個体が5個
例を挙げる(xの分散)
12 23 11
12
20 23 3
20 平均値 x=23
x 24
x x 24 23 1
26
26 23 3
33 23 10
33
分散Sxx
1
(x x)' (x x)
n
1
{(11) 2 ( 3) 2 12 32 10 2 } 48
5
例を挙げる(yとzの分散)
12
20
x 24
26
33
3
6
y 7
10
14
例を挙げる(xとyの共分散)
22
16
z 14
10
8
1
(y y )' (y y ) ?
n
1
分散Szz (z z )' (z z ) ?
n
12
20
x 24
26
33
分散Syy
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
例を挙げる(分散共分散行列)
12
20
x 24
26
33
3
6
y 7
10
14
22
16
z 14
10
8
の分散共分散行列を書いてください
実対称行列
(各自計算してください)
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
3
6
y 7
10
14
共分散Sxy
22
16
z 14
10
8
1
(x x )' (y y ) ?
n
タイトル「演習レポート」、日付、学生番号、氏名を
用紙の一番上に書く
行列で分散共分散行列を書く
A x1
x 2 ... x m B x1 x1
x 2 x 2 ... x m x m
x1 x1 注意:変数は行で表現している
1
1 x x2
s B' B 2
x1 x1 x 2 x 2 ... x m x m
n
n
x m x m
sx1x1 sx1x 2 sx1x m
s
sx 2 x 2 sx 2 x m m個のベクトルの場合
xx
各ベクトルのデータ数はnとする
s 1 2
主対角の要素は分散、その他は共分散
sx1x m sx 2x m sx m x m
実対称行列
4
行列で平均を求める
•変数がp個、個体がn個の場合
教科書の中の求め方は
行列で分散共分散行列を求める
•変数がp個、個体がn個の場合、教科書の中の求め方は
1
x1i
x1
1 x1 n i 1
x
x 1 n
2
2
2
x2 i
, μ X n
X
i
1
:
: :
n:
x
p
p x p 1 x
pi
n i 1
n
注意:変数は列で表現することに変更
x1 x1
1
1 x2 x2
x x
V ( X) S ( X μ)( X μ)'
1 1
n
n
x p x p
sx1x1
s
xx
1 2
sx1x p
sx1x 2
sx 2 x 2
sx 2 x p
sx1x p
sx 2 x p
sx p x p
E (x) μ X を平均ベクトル(mean vector)と呼ぶ
例を挙げる(相関行列R)
x New
11 6.93 1.59
3 6.93 0.43
標準偏差:
xx
1 6.93 0.14 S xx 48 6.93
S xx
3 6.93 0.43
10 6.93 1.44
yとzも同じように計算し、新しいデータ(規準化データ)
から分散共分散行列を求めると
S ' xx S ' xy S ' xz rxx
R S ' xy S ' yy S ' yz rxy
'
'
'
S xz S yz S zz rxz
rxy
ryy
ryz
0.97 0.98
rxz 1
1
0.96
ryz 0.97
1
rzz 0.98 0.96
rxy
ryy
ryz
0.97 0.98
rxz 1
1
ryz 0.97
0.96
1
rzz 0.98 0.96
相関行列の主対角以外の各元素rijは相関係数と呼ぶ
rの値が-1から+1までの範囲内
正の値ならば、両データは同じように変化
負の値ならば、逆の方向に変化
x1 x1
x1
x x
x
2
2
2
X Xμ
:
x p x p
x p
規準化データの性質
n
総和が「0」になる: xNewi 0 x New 0
i 1
n
2
二乗の総和が「1」に なる: 1
xNewi
i 1
n
2
データベクトル xとxの相関係数Rxx= x Newi
1
i 1
y
0
相関行列Rと相関係数r
S ' xx S ' xy S ' xz rxx
R S ' xy S ' yy S ' yz rxy
'
'
'
S xz S yz S zz rxz
x 2 x 2 ... x p x p
x
規準化により、元データ(青)を座
標の原点を中心とした点に移動さ
せた(赤)
相関係数r
相関係数rの値
1.0 ~ 0.7
0.7 ~ 0.4
0.4 ~ 0.2
0.2 ~-0.2
-0.2 ~-0.4
-0.4 ~-0.7
-0.7 ~-1.0
相関の強弱
強い正の相関がある
中程度の正の相関がある
弱い正の相関がある
ほとんど相関がない
弱い負の相関がある
中程度の負の相関がある
強い負の相関がある
上は一応の目安:標本の数や
研究分野で異なる
5
相関係数rの図形的意味
データ分布と相関係数rの関係
xy
r (相関係数)=-1
r(相関係数)=1
y
二つのベクトルの間の角度の余弦(cos)となる
強い正の相関
強い負の相関
r(相関係数)=0.5
r(相関係数)=0
rxy
S xy
S xx S yy
x
x1 y1 x2 y2 ... xn yn
( x x22 ... xn2 )( y12 y22 ... yn2 )
2
1
x y cos
(x, y)
(x, y) x y
cos
x y
x y
x y
(x, x)(y, y)
相関行列の各要素は内積で表現できる
弱い正の相関
相関なし
プラスα:無相関は無関係ではない
ベクトルの内積と相関関係
S xy
rxy
S xx S yy
x1 y1 x2 y2 ... xn yn
r(相関係数)=0
y
(x, y)
(x, y) x y
cos
x y
x y
(x, x)(x, y)
x
度 y
相関なし
y
y
x
弱い正の相関
度
x
y
相関なし
無相関(曲線の関係)
x
強い正の相関
度
r(相関係数)=0
( x12 x22 ... xn2 )( y12 y22 ... yn2 )
度
強い負の相関
今回の宿題:統計処理と固有値
x
相関係数rを計算し、r=0でも二つのデータ間には
関係がないとは簡単には断言できない
相関係数rとは、2つの変数の間の直線的な関係を示す
指標であって、それ以上の意味はない
プラスα:分布関数,密度関数(一次元)
下記の表に基づいて、以下の問題を答えなさい。
No
1
2
3
4
標本
A
B
C
D
英語(x1)
5
5
8
4
数学(x2)
F ( x ) Pr( X x )
• Pr(X≤x) 確率変数Xがx以下の値をとる確率
• 累積分布関数(cumulative distribution function)
F ( ) lim F ( x ) 0
8
5
7
5
•x1とx2の平均値を求めなさい。
•x1とx2の分散と共分散を求める定義式を書き、
分散共分散行列Sを求めなさい。
•分散共分散行列Sの固有値を求める定義式を書き、
固有値を求めなさい。
分布関数(distribution function)
x
F ( ) lim F ( x ) 1
x
• F(x)は単調増加関数
密度関数(density function)
• 確率密度関数(probability distribution function)
f ( x) lim
h 0
F ( x h) F ( x )
h
6
プラスα:分布関数,密度関数(一次元)
分布関数,密度関数(一次元)
標準正規分布の場合
F ( x) f (u )du
離散型確率変数の場合
pi Pr( X xi )
• Xのとりうる値がx1,x2,…の場合
F ( x) pi
0.4
0.2
Density
0.6
0.3
0.8
dF ( x )
dx
0.1
f (x)
f ( u ) du
0.0
b
a
Cumulative Probability
• F(x)が微分可能な場合には
0.2
Pr( a X b ) F ( b ) F ( a )
Normal Distribution: = 0, = 1
1.0
0.4
分布関数(続き)
Normal Distribution: = 0, = 1
0.0
x
-3
-2
-1
0
1
2
3
-3
-2
-1
x
0
1
2
3
x
密度関数(density function)
分布関数(distribution function)
x
F ( x) f (u ) du
xi x
正規分布(Normal Distribution)
正規分布はガウス分布とも呼び、確率分布の代表的な
形式、統計学において最も重要な分布の一つであり、
工学分野に広く応用される
正規分布 N ( , 2 )
特徴として、
0.4
0.3
0.4
・
0.2
0.3
・
・
変曲点
-2
0
-3
-1
0
1
一次微分が不連続なところ
0.1
0.1
0
-3
・
変曲点とは,カーブの向きが変わる境目
変曲点
0.2
・x=μについて左右対称
・x=μのところ最大
・μ±σで変曲点をもつ
・±∞で0に漸近
2
3
-2
-1
0
1
標準正規分布 N (0,1)
3
積分の面積=1
1 x
)2
(
1
e 2
2
期待値(平均値) E ( X ) , 分散V ( X ) 2
密度関数 f ( x)
19世紀のGaussが天体観測のばらつきから発見された。
彼は「正規分布は偶然誤差の分布法則である」と考えた
2
正規分布のグラフと平均の関係
0.4
平均μによる変化
標準偏差が一定(σ = 1)
0.3
0.2
・ 変曲点
変曲点 ・
0.4
0.1
0
-3
0.3
-2
-1
-1
0
1
2
3
1
0
0.2
1
1 2 x2
e
2
期待値 E ( X ) 0, 分散 2 V ( X ) 1
密度関数 f ( x)
0.1
-4
-2
2
4
7
ガウス関数hよりノイズを除去(1次元)
正規分布のグラフと分散の関係
標準偏差σによる変化
0.8
平均が一定(μ= 2)
Gaussian operator
σ= 0.5小さい
0.6
畳み込み:
積分の面積=1
0.4
σ= 1.0
0.2
σ= 1.5
σ= 2.0大きい
-5
5
Where is the edge?
10
Look for peaks in
Laplacian of Gaussian (LoG)
Derivative Theorem of Convolution
2
2
h f 2
x 2
x
…saves us one operation.
h f
Laplacian of Gaussian
ガウス関数の二階微分
ガウス関数の一階微分
Laplacian of
Gaussian operator
derivative of
Gaussian operator
二階微分後の畳み込み
一階微分後の畳み込み
Where is the edge?
Effect of (Gaussian kernel size)
2次元正規分布
Gaussian
derivative of Gaussian
h ( x, y )
x
h ( x, y )
1
e
2
Zero-crossings of bottom graph !
Laplacian of Gaussian
2 h ( x, y )
2
2
h ( x, y ) 2 h ( x, y )
y
x 2
original
x2 y2
2 2
Canny with
Canny with
The choice of depends on desired behavior
• large detects large scale edges
σ= 0.5小さい
• small detects fine features
0.8
0.6
h ( x, y )
y
0.4
0.2
応用:画像内のノイズを抑制しながらエッジを検出
-5
σ= 1.0
σ= 1.5
σ= 2.0大きい
5
10
8
プラスα:多変量正規分布
プラスα:同時分布(2次元)
(multivariate normal distribution)
f ( x, μ , )
1
2
d
2
XとYが確率変数
分布関数or同時分布関数(joint distribution function)
(同時)密度関数
d次元ガウス分布
1
'
exp x μ 1 x μ , (d p)
2
• F(x,y)≡Pr(X≤x,Y≤y)
f ( x, y )
変数がp個の場合: d=p
2次元の場合(教科書p.139)
f (x, μ, ) f ( x1 , x2 , μ, )
周辺密度関数(教科書p.134)
1
2
f X ( x) f ( x, y )dy
1
'
exp x μ 1 x μ
2
注:p変量(p次元)まで拡張できる
プラスα:期待値,分散
プラスα:同時分布(2次元)
条件付密度関数
f ( x, y )
f ( y | x)
f X ( x)
離散:
Var( X ) i pi xi 2 XX
2
Var( X ) E {( X μ )( X μ ) ' } Σ
cov( X , Y ) E ( X X )(Y Y )
分散(variance)
2
重要な公式
a,bを定数。X,Yを確率変数として
cov( X , Y )
XY
var( X ) var(Y ) X Y
-1≤ cor(X,Y) ≤1
cor(X,Y)=0 確率変数XとYは無相関
相関は2つの変数間の線型関係をみるもの。XとYが無相関
であっても,非線形の関係があるかもしれない。
Var( X ) E( X 2 ) 2
プラスα:期待値,分散の性質
プラスα:共分散と相関係数
E( X ) i pi xi
E ( X 1 ) 1
E( X )
2
2
E( X)
μ
E ( X p ) p
Var( X ) x f ( x)dx
注:p変量(p次元)まで拡張できる
corr ( X , Y )
E( X ) xf ( x) dx
を期待値として
分布の独立性(教科書pp.134-135)
• F(x,y) = FX(x)FY(y)
• f(x,y)=fX(x) fY(y)
期待値(expected value)
連続:
• X=xが与えられた場合のYの密度関数
2
F ( x, y )
xy
E(aX b) a E( X ) b
E( X Y ) E( X ) E(Y )
var(aX b) a 2 var( X )
var( X Y ) var( X ) var(Y ) 2 cov( X , Y )
分散
Var( X ) E( X 2 ) 2
9
プラスα:標本平均の性質
Y1,Y2,...,Ynは互い独立で同一の分布に従う
E(Yi)=, var(Yi)=, (i=1,2,..,n)
1
Y1 Y2 Yn
n
1 n
EY EYi
n i 1
nが大きくなる
につれ,標本
平均のバラつ
きは小さくなる
Y
1
varY var Y1 Y2 Yn X
n
n
(大数の法則)
2
10