Comments
Description
Transcript
分散分析(上記の簡略化)
まとめ ① 回帰による平方和を出す SR サンプル n 組において全部予測値を出す。 n 個の予測値の偏差平方和が SR SR=Σ(予測値 n 組の平均-予測値 i)2 ② 回帰による分散を出す VR 分散=偏差平方和/自由度 なので (自由度は説明変数 p 個) VR=SR/p ③ 今度は残差の平方和を出す Se サンプル n 組において全部予測値を出す(①で出ているはず) 各 n 組における実測値から各 n 組における予測値を引いて二乗して総和 Se=Σ(実測値 i-予測値 i)2 ④ 残差の分散を出す 分散を求める際の自由度は n-p-1 Ve=Se/(n-p-1) ⑤ 分散比を出す F=VR/Ve ⑥ 分散分析 帰無仮説 H0: 「x1 も x2 も…xp も y の説明になにも影響を与えない」のもとでは、この F は 自由度(p,n-p-1)の F 分布となるので、有意水準α(0.05 とする)に対する F 値を比較。 ※Excel での F 値計算 【=F.INV.RT(0.05,p,n-p-1)】←R の qf(0.95,p,n-p-1)と同様 ⑤で求めた F > ⑥で求めた F 値 …有意(回帰分析の意味あり) 〃 < 〃 …回帰分析の意味なし 重回帰分析は有意じゃないことはあまりない、後者となったら計算ミスか変数選択ミス 【分散分析】 ~説明変数が 2 個のときの分散分析~ 観測値 y 1,2,, n の全変動(偏差平方和)Syy を単回帰分析と同様に( “回帰平方和” と“残差平方和”の 2 つの部分に分解することを考える。x1,x2 による回帰推定式は、(3.3)’ 式で求めたように Y b0 b1 x1 b2 x 2 (4.1) と書くことができ、これを について平均すると Y b0 b1 x1 b2 x 2 y (4.2) となる。 ((3.8)式参照) ※ b 0 y b1 x1 b2 x 2 (3.8) よって n n S yy y y y Y Y Y 1 2 n 1 n 2 n y Y Y Y 2 y Y Y Y 2 1 n 1 n 2 n 1 4.3 e2 Y Y 2 e Y Y 1 1 1 Se 2 SR 0 と分解される。ここで右辺の第一項は の残差 e の 1n の総和であるから残差平方和 Se であることは明らか。第 2 項は回帰推定式 Y の変動を表す回帰平方和 SR である。 この第 3 項がゼロになる理由 y b0 b1 x1 b2 x 2 y Y e であるから正規方程式(3.6)の 3 つの式は 1 n x 1e 0 1 n x 2 e 0 1 n e 0 (4.4) と書ける。これらを用いると(4.3)式の第 3 項は n n n e Y Y e b0 b1 x1 b2 x 2 Y e 1 1 1 b0 Y e n 1 n n 1 1 b1 e x 1 b2 e x 2 0 (4.5) と分解され、この最後の式の各項はいずれもゼロであることがわかる。 (4.3)式の分解を分散分析表にまとめると、表 3.1 のようになる。 ここで各変動因に対応する自由度は、次のようにして求められる。 全体の自由度: fT n 1(n 個のデータから総平均 y を推定したから 1 を引く) “回帰による”自由度: f R 2 (説明変数として x1,x2 の 2 つを用いたから) “回帰からの”自由度: f e n 3 (b0,b1,b2 の 3 つを推定したから 3 を引く) この自由度の考え方は“データの総数”から“推定したパラメータの数”を差し引くと いう原則によっているが「用いた偏差の総数から、それらに付与された制約条件の数を差 し引く」という考え方からも導かれる。 つまり全体の自由度では、用いた偏差 y y 1,2, , n の間に y y 0 n 1 という 1 つの制約が存在するので、その自由度は(n-1)である。一方“回帰からの”残差平 方和 Se は eα=yα-Yα(α=1,2,…,n)の二乗和であるが、この eα相互の間には(4.4)式に示し た 3 つの制約条件が存在するので、その自由度は(n-3)となる。なお“回帰”平方和 SR は (4.1),(4.2)式を用いると Y n SR 1 Y b x 2 n 1 1 1 x1 b2 x 2 x 2 b S b S 22 2b1b2 S12 b1S1 y b2 S 2 y 2 1 11 2 2 2 3.15式を用いる 4.6 S 11S12y S 22S 22y 2S 12S1 y S 2 y と書くことができ、これが自由度 2 に対応する。 P8 で学んだ仮定④の正規性が満足されるときには、この分散分析表から分散比 F VR Ve (4.7) を計算すると、帰無仮説 H0: 1 2 0 すなわち「x1 も x2 も y の説明になにも影響を与 えない」のもとでは、この F は自由度(2,n-3)の F 分布となるので、有意水準αに対する F 表の値 F(2,n-3;α)を比較して、有意性の検定を行うことができる。 一般に重回帰分析において分散分析の結果が有意にならないということは、めったに起 こらないことである。もしそのようなことが起これば、よっぽど間の抜けた説明変数を取 り上げたことになるので、まず以下の事項を検討するとよい。 1) データの間違い、異常値の混入、計算間違いはないか。 2) データの数 n が十分かどうか、残差の自由度は 10 くらい必要。 (上記の例ではデータが少ないので残差の自由度が少ない。 ) 2’) 2)と関連するが、データの数 n に比べて説明変数の数 p が多すぎないか。 3) 役に立たない説明変数が多く入っていないか、そのときは“回帰による”変動の分散 がうすめられて小さくなる。 4) 説明変数の変化の範囲が狭すぎないか。 5) 必要な説明変数が抜けていないか。 6) 2 次以上の項を付け加えることが必要でないか。 ~説明変数が p 個のときの分散分析~ 説明変数の数 p が 2 個ではない場合も、前項とまったく同様に取り扱うことができる。 そのときの分散分析表を表 3.3 に示す。ここで自由度の表し方に注意が必要。