Comments
Description
Transcript
回帰分析の諸問題: 多重共線性・残差の診断
回帰分析の諸問題: 多重共線性・残差の診断 高木真吾 北海道大学 1. 線形回帰モデルにおける係数パラメータの推定 2. 線形回帰モデルにおける係数パラメータの検定 • 誤差項の分散の推定 • 係数パラメータ推定量の分散の推定 3. 推定結果表の読み方 • 標準誤差,t値,p値とは? 4. 決定係数について • • 通常の決定係数 自由度調整済み決定係数 5. ダミー変数の利用 • 標本の一部で,特別な理由により特異な値をとるとき, 質的な変数でその効果を吸収する 6. 多重共線性の問題 • 説明変数を追加したとき,推定結果が不安定になること がある Å なぜか? 7. 残差の診断 • 誤差項に関して設定された仮定は本当に適切か? 分析の流れ 検証したい仮説・問題の提示 モデルの設定 ・家賃と部屋の広さの関係は? ・マンション価格と面積の関係は? ・長期金利の決まり方は? ・家賃と部屋の広さの関係: モデル:Y=α+βX+U, 「家賃」「部屋の広さ」データを収集 データ収集 統計分析 最小二乗法による推定・検定 ダミー変数の利用 結果の吟味 問題なし Æ提示した問い に対する結論 当てはまりのよさについて 多重共線性の問題はないか? 残差の診断 問題あり Æ再検討 心臓疾患による死亡率とカロリー摂取 死亡率(Y) 脂肪(X1) 国名 オーストラリア 81 33 オーストリア 55 31 スリランカ 24 17 デンマーク 52 39 フィンランド 88 30 フランス 45 29 ドイツ 50 35 アイルランド 69 31 イスラエル 66 23 イタリア 45 21 日本 24 8 メキシコ 43 23 オランダ 38 37 ニュージーランド 72 40 ノルウェー 41 38 ポルトガル 38 25 スウェーデン 52 39 スイス 52 33 イギリス 66 38 アメリカ 89 39 カナダ 80 38 動物性蛋白質(X2) 8 6 2 6 7 7 6 5 4 3 3 3 6 8 6 4 7 7 6 8 8 • 説明変数が二つの回帰分析 – 被説明変数:(国別)死因に占める心疾患による 死亡率 – 説明変数:動物性蛋白質摂取量,脂質摂取量 – 次のグラフは,どちらも心疾患死亡率を引き上げ るように見える. 動物性蛋白質摂取量と心疾患死亡率 心疾患での死亡率(%) 100 80 60 40 20 0 0 2 4 6 動物性蛋白質摂取量(g/日) 8 10 脂肪摂取量と心疾患死亡率 心疾患での死亡率(%) 100 80 60 40 20 0 0 10 20 30 脂肪摂取量(mg/日) 40 50 • ところが,両方の変数を含めた回帰分析を行 うと, 回帰統計 重決定 R2 補正 R2 観測数 切片 脂肪 動物性蛋白質 0.499 0.443 21 係数 16.622 -0.223 8.044 グラフから予想される 結果とは逆? 標準誤差 11.911 0.656 3.005 t 1.395 -0.340 2.677 P-値 0.180 0.738 0.015 多重共線性 ・説明変数が複数あるときの問題 ・説明変数が1個の時には関係のない問題 • 説明変数同士の関係を考える – 二つの変数の相関係数を計算 • 高いとき:非常に類似した動きを見せる • 低いとき:あまり似ていない – 類似した動きを見せるとき,二つの変数の効果は 区別しにくいはず. • 変数の相関係数の二乗 R 2 12 2 S12 = S11S 22 確かに,先ほどの二つ の説明変数の相関係 数は0.83と高い. • 係数推定値(説明変数が2個の場合) S 22 T1 − S12 T2 S 22 T1 − S12 T2 ˆ β1 = = 2 2 S11S 22 − S12 S11S 22 (1 − R12 ) – 相関係数が1に近いとき,推定値が大きな値 – 推定値が不安定な値になりやすい – 計算されたt値が非常に小さな値になりやすい 心臓疾患による死亡率とカロリー摂取 ニ変数モデルによる回帰分析の結果 変数 係数推定値 標準 誤 差 t値 脂肪 動物性 蛋白 -0.223 0.656 -0.340 8.044 3.005 2.677 定数項 16.622 11.911 1.395 脂肪のみの結果 変数 推定値 標準誤差 本来両方とも心臓 疾患に対して影響 するはず 蛋白質のみの結果 t値 推定値 標準誤差 *** t値 脂肪 1.223 0.429 2.851 *** *** 動物性蛋 白質 *** *** *** 7.203 1.666 4.323 定数項 18.032 13.696 1.317 14.55 9.997 1.456 • 説明変数に複数の変数を加える – 1部の変数で自分の予想と異なる符合になった – 説明変数同士の相関関係を疑ってみる – もし相関関係が高いときには,推定結果が不安 定になり,符号が逆になるような変な結果も起こ りうる. データの種類 • 横断面データ(クロスセクションデータ) – ある一時点で多数の主体から集めたデータ – 例) 家賃データ • ある時点で,ある地域の複数の賃貸住宅の家賃 • 時系列データ(タイムシリーズデータ) – 同一の事柄について多時点にわたって記録した データ – 例) 電力消費データ • 1997年12月から1998年2月までの電力消費データ 回帰分析 • 被説明変数: Yi • 説明変数: X , X , ", X 1,i 2 ,i K ,i • モデル Yi = β 0 + β1 X1,i + β 2 X 2,i + " + β K X K ,i + U i i = 1, 2, " , n • 誤差項 E[U i ] = 0, E[U ] = σ , i = 1 ~ n 2 i E[ U i U j ] = 0, 2 i ≠ j =1~ n 誤差項に関する仮定 • 平均が0 – 推定式に定数項が含まれていれば問題なし • 分散が均一(Yの分散が均一であることも意味する) – 成立しないと仮説検定で問題あり – 推定量の不偏性は問題ないこともある • 誤差項同士の無相関 – 成立しないと仮説検定で問題あり – 推定量の不偏性は問題ないこともあるが,大抵 は様々な部分で問題があるケースが多い • データの設定条件から必然的に誤差項の分散の均 一性が守られないこともある – 例) 地域ごとの比率を被説明変数にする • 地域ごとに人口が異なる • 対象となる事柄が比較的少数(例えば,人口1000人当たり医師 数を考えてみる) • 人口が多い地域と,少ない地域では変動幅が異なるのは必然的 – 分子と分母の関係を考える. • 分散の不均一性が必然的に生じるときにはウェイト 付けした最小二乗法などの対処法を利用すべき – こうした内容は計量経済学Ⅱで学ぶはず (人) 8.0 2.0 1.5 0.8 0.5 0.4 千人当たり医師数 5.0000 4.5000 千 人 当 たり医 師 数 4.0000 3.5000 3.0000 2.5000 2.0000 1.5000 1.0000 0.5000 0.0000 0 20000 40000 60000 市区町村人口 80000 100000 ひとつの診断方法 • 残差をプロットする – 横軸になんらかの変数:縦軸に残差 • 散らばり方に一定のパターンがあるとき不均一分散の 疑いが生じる – 横軸に時間:縦軸に残差 • 残差の時間軸に沿った動き方に一定のパターンがあ るとき、誤差項同士が互いに相関している疑いが生じ る。 例)不均一分散の可能性 • ある50組のデータ (Y,X) において以下の式 を推定 • Xを横軸,残差を縦軸にプロット 残差 残差のプロット 0.150 0.100 0.050 0.000 0.000 -0.050 -0.100 -0.150 -0.200 1.000 2.000 3.000 4.000 5.000 6.000 例)系列相関の可能性 • 消費額(Y)が,所得水準(X)と資産額(Z)に 依存して決まるとする. – 所得だけを説明変数として回帰分析.残差を時 間軸に対してプロット(上の図) – 所得と資産額を説明変数として回帰分析.残差 を時間軸に対してプロット(下の図) 残差(1変数) 一定期間下がって,一定 期間上がるというパターン が多いように見える 1.000 0.800 0.600 0.400 0.200 0.000 -0.200 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 -0.400 -0.600 -0.800 -1.000 残差(2変数) 一定のパターンは ないように見える 1.000 0.800 0.600 0.400 0.200 0.000 -0.200 -0.400 -0.600 -0.800 -1.000 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 まとめ • 残差の診断を行って, – 不均一分散 – 系列相関 などの症状が見られる可能性があるときには – 必要な変数が含まれているか – 式の形は今のままでよいのか • 変数を対数変換(不均一分散を和らげる可能性あり)