Comments
Description
Transcript
PDF
今日のポイント 平均・分散共分散・正規分布 平均、分散、共分散の求め方は? 分散共分散行列の求め方? 相関行列と分散共分散行列の関係? 正規分布とは? 教科書pp.137-144 数値による記述 平均・分散・共分散 バラツキの中心を知る 平均,中央値 バラツキの大きさを知る 分散,標準偏差 平 均(Mean) 平 均(Mean) •変数が1個、個体がn個の場合、求め方は x •変数が2個、個体がn個の場合 1 1 ( x1 x2 x n ) xi n n i 1 n •平均の意味は:誤差が一番少ない数 個々のデータと集団の平均との差(平均からの偏差) データ値 平均値 n x1i 1 μ x in1 •変数が3個、個体がn個の場合 n x2 i n i 1 x1i i 1 1 n μ x x2 i n i 1 n x3i i 1 1 平 均(Mean) 中央値(Median) •変数がN個、個体がn個の場合 n x1i in1 1 x2 i 1 n μ x i 1 x1i n n i 1 n x Ni i 1 分散(Variance) 大きさの順に並べたときの真ん中の値 例:データ10,15,25,30,40の場合は、 n x2 i i 1 xNi i 1 n 25が中央値。 T 注意:データの個数が偶数の場合は真ん中の2 つの値の平均を中央値とする。 例:10,15,25,30の場合、(15+25)/2=20が中央値 分散(Variance) ばらつきを測る尺度 •変数が1個、個体がn個の場合、求め方は •変数が1個、個体がn個の場合、求め方は 2 ( x1 x ) ( x2 x ) ( xn x ) 1 n ( xi x ) 2 n n i 1 2 1 x1 x n 1 (x x)' (x x) n x2 x 2 2 x1 x x x xn x 2 xn x 分散(Variance) ばらつきを測る尺度 2 ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 1 n ( xi x ) 2 n n i 1 各データ値xiの平均 xからの偏差の2乗の 合計をデータ数nで割った値 平均値との差を2乗した値は、はずれ値が 大きいほど大きな数値になる 分散は、元データの2乗になっているので、 単位も2乗になる 標準偏差(Standard deviation) ばらつきを測る尺度 •変数が2個、個体がn個の場合 •変数が1個、個体がn個の場合、求め方は n 2 ( x1i x1 ) 1 σ 2 in1 n ( x2 i x2 ) 2 i 1 s 2 •変数が3個、個体がn個の場合 2 ( x1i x1 ) i 1 1 n σ 2 ( x2 i x2 ) 2 n i 1 n 2 ( x3i x3 ) i 1 n ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 n 1 n ( xi x ) 2 n i 1 ルートを取るから、標準偏差の単位は元データと同じ 結果的に散らばり具合を示す指標としての標準偏差が求 められる 分散や標準偏差が大きいほどデータのバラツキは大きい データがすべて同じ値のとき、分散や標準偏差は0 2 ベクトルで分散を書くと 【標準偏差を求める】 5人の体重のデータ: 50,45,60,70,55 Kg 平均値、分散、標準偏差を求めなさい (各自計算してください) タイトル「演習レポート」、日付、学生番号、氏名を 用紙の一番上に書く •変数が1個、個体がn個の場合 x1 分散( Sxx)は : 1 Sxx (x x)' (x x) n 1 x1 x n ベクトルで分散・共分散を書くと x1 y1 •変数が2個、個体がn個の場合 x y x 2 , y 2 : : x •変数xとyの平均をそれぞれ求めてから n yn •以下の式で分散、共分散を計算 1 (x x)' (x x) n 1 分散( Syy )は : Syy (y y )' (y y ) n 分散( Sxx)は : Sxx 共分散( Sxy)は : Sxy 1 ( x x)' (y y ) n 行列で分散共分散行列を書く •変数が2個、個体がn個の場合 A x y B x x y y 注意:変数は行で表現している 1 1 x x s B' B x x y y n n y y sxx sxy s sxy syy 2行2列の分散共分散行列 x1 x x x x 2 x , x x 2 : : xn x xn x1 x x x n 1 ( x x )2 x2 x xn x 2 : n i 1 i xn x 分散共分散行列S •変数が2個、個体がn個の場合 データx, yのすべての組み合わせの 分散共分散を行列の形式で表すと 分散共分散行列 sxx s sxy sxy syy 実対称行列 主対角の要素は分散、その他は共分散 とてもとても大切な行列です!!! 注意: x, yはそれぞれn次元のベクトル 行列で分散共分散行列を書く A x y z B x x y y z z 注意:変数は行で表現している x x 1 1 s B' B y y x x y y n n z z sxx s sxy sxz sxy syy syz sxz syz szz z z •変数が3個 •個体がn個 3行3列の分散共分散行列 主対角の要素は分散、その他は共分散 3 例を挙げる 12 20 x 24 26 33 3 6 y 7 10 14 22 16 z 14 10 8 •変数が3個 •個体が5個 例を挙げる(xの分散) 12 23 11 12 20 23 3 20 平均値 x=23 x 24 x x 24 23 1 26 26 23 3 33 23 10 33 分散Sxx 1 (x x)' (x x) n 1 {(11) 2 ( 3) 2 12 32 10 2 } 48 5 例を挙げる(yとzの分散) 12 20 x 24 26 33 3 6 y 7 10 14 例を挙げる(xとyの共分散) 22 16 z 14 10 8 1 (y y )' (y y ) ? n 1 分散Szz (z z )' (z z ) ? n 12 20 x 24 26 33 分散Syy タイトル「演習レポート」、日付、学生番号、氏名を 用紙の一番上に書く 例を挙げる(分散共分散行列) 12 20 x 24 26 33 3 6 y 7 10 14 22 16 z 14 10 8 の分散共分散行列を書いてください 実対称行列 (各自計算してください) タイトル「演習レポート」、日付、学生番号、氏名を 用紙の一番上に書く 3 6 y 7 10 14 共分散Sxy 22 16 z 14 10 8 1 (x x )' (y y ) ? n タイトル「演習レポート」、日付、学生番号、氏名を 用紙の一番上に書く 行列で分散共分散行列を書く A x1 x 2 ... x m B x1 x1 x 2 x 2 ... x m x m x1 x1 注意:変数は行で表現している 1 1 x x2 s B' B 2 x1 x1 x 2 x 2 ... x m x m n n x m x m sx1x1 sx1x 2 sx1x m s sx 2 x 2 sx 2 x m m個のベクトルの場合 xx 各ベクトルのデータ数はnとする s 1 2 主対角の要素は分散、その他は共分散 sx1x m sx 2x m sx m x m 実対称行列 4 行列で平均を求める •変数がp個、個体がn個の場合 教科書の中の求め方は 行列で分散共分散行列を求める •変数がp個、個体がn個の場合、教科書の中の求め方は 1 x1i x1 1 x1 n i 1 x x 1 n 2 2 2 x2 i , μ X n X i 1 : : : n: x p p x p 1 x pi n i 1 n 注意:変数は列で表現することに変更 x1 x1 1 1 x2 x2 x x V ( X) S ( X μ)( X μ)' 1 1 n n x p x p sx1x1 s xx 1 2 sx1x p sx1x 2 sx 2 x 2 sx 2 x p sx1x p sx 2 x p sx p x p E (x) μ X を平均ベクトル(mean vector)と呼ぶ 例を挙げる(相関行列R) x New 11 6.93 1.59 3 6.93 0.43 標準偏差: xx 1 6.93 0.14 S xx 48 6.93 S xx 3 6.93 0.43 10 6.93 1.44 yとzも同じように計算し、新しいデータ(規準化データ) から分散共分散行列を求めると S ' xx S ' xy S ' xz rxx R S ' xy S ' yy S ' yz rxy ' ' ' S xz S yz S zz rxz rxy ryy ryz 0.97 0.98 rxz 1 1 0.96 ryz 0.97 1 rzz 0.98 0.96 rxy ryy ryz 0.97 0.98 rxz 1 1 ryz 0.97 0.96 1 rzz 0.98 0.96 相関行列の主対角以外の各元素rijは相関係数と呼ぶ rの値が-1から+1までの範囲内 正の値ならば、両データは同じように変化 負の値ならば、逆の方向に変化 x1 x1 x1 x x x 2 2 2 X Xμ : x p x p x p 規準化データの性質 n 総和が「0」になる: xNewi 0 x New 0 i 1 n 2 二乗の総和が「1」に なる: 1 xNewi i 1 n 2 データベクトル xとxの相関係数Rxx= x Newi 1 i 1 y 0 相関行列Rと相関係数r S ' xx S ' xy S ' xz rxx R S ' xy S ' yy S ' yz rxy ' ' ' S xz S yz S zz rxz x 2 x 2 ... x p x p x 規準化により、元データ(青)を座 標の原点を中心とした点に移動さ せた(赤) 相関係数r 相関係数rの値 1.0 ~ 0.7 0.7 ~ 0.4 0.4 ~ 0.2 0.2 ~-0.2 -0.2 ~-0.4 -0.4 ~-0.7 -0.7 ~-1.0 相関の強弱 強い正の相関がある 中程度の正の相関がある 弱い正の相関がある ほとんど相関がない 弱い負の相関がある 中程度の負の相関がある 強い負の相関がある 上は一応の目安:標本の数や 研究分野で異なる 5 相関係数rの図形的意味 データ分布と相関係数rの関係 xy r (相関係数)=-1 r(相関係数)=1 y 二つのベクトルの間の角度の余弦(cos)となる 強い正の相関 強い負の相関 r(相関係数)=0.5 r(相関係数)=0 rxy S xy S xx S yy x x1 y1 x2 y2 ... xn yn ( x x22 ... xn2 )( y12 y22 ... yn2 ) 2 1 x y cos (x, y) (x, y) x y cos x y x y x y (x, x)(y, y) 相関行列の各要素は内積で表現できる 弱い正の相関 相関なし プラスα:無相関は無関係ではない ベクトルの内積と相関関係 S xy rxy S xx S yy x1 y1 x2 y2 ... xn yn r(相関係数)=0 y (x, y) (x, y) x y cos x y x y (x, x)(x, y) x 度 y 相関なし y y x 弱い正の相関 度 x y 相関なし 無相関(曲線の関係) x 強い正の相関 度 r(相関係数)=0 ( x12 x22 ... xn2 )( y12 y22 ... yn2 ) 度 強い負の相関 今回の宿題:統計処理と固有値 x 相関係数rを計算し、r=0でも二つのデータ間には 関係がないとは簡単には断言できない 相関係数rとは、2つの変数の間の直線的な関係を示す 指標であって、それ以上の意味はない プラスα:分布関数,密度関数(一次元) 下記の表に基づいて、以下の問題を答えなさい。 No 1 2 3 4 標本 A B C D 英語(x1) 5 5 8 4 数学(x2) F ( x ) Pr( X x ) • Pr(X≤x) 確率変数Xがx以下の値をとる確率 • 累積分布関数(cumulative distribution function) F ( ) lim F ( x ) 0 8 5 7 5 •x1とx2の平均値を求めなさい。 •x1とx2の分散と共分散を求める定義式を書き、 分散共分散行列Sを求めなさい。 •分散共分散行列Sの固有値を求める定義式を書き、 固有値を求めなさい。 分布関数(distribution function) x F ( ) lim F ( x ) 1 x • F(x)は単調増加関数 密度関数(density function) • 確率密度関数(probability distribution function) f ( x) lim h 0 F ( x h) F ( x ) h 6 プラスα:分布関数,密度関数(一次元) 分布関数,密度関数(一次元) 標準正規分布の場合 F ( x) f (u )du 離散型確率変数の場合 pi Pr( X xi ) • Xのとりうる値がx1,x2,…の場合 F ( x) pi 0.4 0.2 Density 0.6 0.3 0.8 dF ( x ) dx 0.1 f (x) f ( u ) du 0.0 b a Cumulative Probability • F(x)が微分可能な場合には 0.2 Pr( a X b ) F ( b ) F ( a ) Normal Distribution: = 0, = 1 1.0 0.4 分布関数(続き) Normal Distribution: = 0, = 1 0.0 x -3 -2 -1 0 1 2 3 -3 -2 -1 x 0 1 2 3 x 密度関数(density function) 分布関数(distribution function) x F ( x) f (u ) du xi x 正規分布(Normal Distribution) 正規分布はガウス分布とも呼び、確率分布の代表的な 形式、統計学において最も重要な分布の一つであり、 工学分野に広く応用される 正規分布 N ( , 2 ) 特徴として、 0.4 0.3 0.4 ・ 0.2 0.3 ・ ・ 変曲点 -2 0 -3 -1 0 1 一次微分が不連続なところ 0.1 0.1 0 -3 ・ 変曲点とは,カーブの向きが変わる境目 変曲点 0.2 ・x=μについて左右対称 ・x=μのところ最大 ・μ±σで変曲点をもつ ・±∞で0に漸近 2 3 -2 -1 0 1 標準正規分布 N (0,1) 3 積分の面積=1 1 x )2 ( 1 e 2 2 期待値(平均値) E ( X ) , 分散V ( X ) 2 密度関数 f ( x) 19世紀のGaussが天体観測のばらつきから発見された。 彼は「正規分布は偶然誤差の分布法則である」と考えた 2 正規分布のグラフと平均の関係 0.4 平均μによる変化 標準偏差が一定(σ = 1) 0.3 0.2 ・ 変曲点 変曲点 ・ 0.4 0.1 0 -3 0.3 -2 -1 -1 0 1 2 3 1 0 0.2 1 1 2 x2 e 2 期待値 E ( X ) 0, 分散 2 V ( X ) 1 密度関数 f ( x) 0.1 -4 -2 2 4 7 ガウス関数hよりノイズを除去(1次元) 正規分布のグラフと分散の関係 標準偏差σによる変化 0.8 平均が一定(μ= 2) Gaussian operator σ= 0.5小さい 0.6 畳み込み: 積分の面積=1 0.4 σ= 1.0 0.2 σ= 1.5 σ= 2.0大きい -5 5 Where is the edge? 10 Look for peaks in Laplacian of Gaussian (LoG) Derivative Theorem of Convolution 2 2 h f 2 x 2 x …saves us one operation. h f Laplacian of Gaussian ガウス関数の二階微分 ガウス関数の一階微分 Laplacian of Gaussian operator derivative of Gaussian operator 二階微分後の畳み込み 一階微分後の畳み込み Where is the edge? Effect of (Gaussian kernel size) 2次元正規分布 Gaussian derivative of Gaussian h ( x, y ) x h ( x, y ) 1 e 2 Zero-crossings of bottom graph ! Laplacian of Gaussian 2 h ( x, y ) 2 2 h ( x, y ) 2 h ( x, y ) y x 2 original x2 y2 2 2 Canny with Canny with The choice of depends on desired behavior • large detects large scale edges σ= 0.5小さい • small detects fine features 0.8 0.6 h ( x, y ) y 0.4 0.2 応用:画像内のノイズを抑制しながらエッジを検出 -5 σ= 1.0 σ= 1.5 σ= 2.0大きい 5 10 8 プラスα:多変量正規分布 プラスα:同時分布(2次元) (multivariate normal distribution) f ( x, μ , ) 1 2 d 2 XとYが確率変数 分布関数or同時分布関数(joint distribution function) (同時)密度関数 d次元ガウス分布 1 ' exp x μ 1 x μ , (d p) 2 • F(x,y)≡Pr(X≤x,Y≤y) f ( x, y ) 変数がp個の場合: d=p 2次元の場合(教科書p.139) f (x, μ, ) f ( x1 , x2 , μ, ) 周辺密度関数(教科書p.134) 1 2 f X ( x) f ( x, y )dy 1 ' exp x μ 1 x μ 2 注:p変量(p次元)まで拡張できる プラスα:期待値,分散 プラスα:同時分布(2次元) 条件付密度関数 f ( x, y ) f ( y | x) f X ( x) 離散: Var( X ) i pi xi 2 XX 2 Var( X ) E {( X μ )( X μ ) ' } Σ cov( X , Y ) E ( X X )(Y Y ) 分散(variance) 2 重要な公式 a,bを定数。X,Yを確率変数として cov( X , Y ) XY var( X ) var(Y ) X Y -1≤ cor(X,Y) ≤1 cor(X,Y)=0 確率変数XとYは無相関 相関は2つの変数間の線型関係をみるもの。XとYが無相関 であっても,非線形の関係があるかもしれない。 Var( X ) E( X 2 ) 2 プラスα:期待値,分散の性質 プラスα:共分散と相関係数 E( X ) i pi xi E ( X 1 ) 1 E( X ) 2 2 E( X) μ E ( X p ) p Var( X ) x f ( x)dx 注:p変量(p次元)まで拡張できる corr ( X , Y ) E( X ) xf ( x) dx を期待値として 分布の独立性(教科書pp.134-135) • F(x,y) = FX(x)FY(y) • f(x,y)=fX(x) fY(y) 期待値(expected value) 連続: • X=xが与えられた場合のYの密度関数 2 F ( x, y ) xy E(aX b) a E( X ) b E( X Y ) E( X ) E(Y ) var(aX b) a 2 var( X ) var( X Y ) var( X ) var(Y ) 2 cov( X , Y ) 分散 Var( X ) E( X 2 ) 2 9 プラスα:標本平均の性質 Y1,Y2,...,Ynは互い独立で同一の分布に従う E(Yi)=, var(Yi)=, (i=1,2,..,n) 1 Y1 Y2 Yn n 1 n EY EYi n i 1 nが大きくなる につれ,標本 平均のバラつ きは小さくなる Y 1 varY var Y1 Y2 Yn X n n (大数の法則) 2 10