Comments
Description
Transcript
R - C-faculty
[13] 重回帰分析と検定 (教科書 pp.124-134) [13-1] 重回帰分析の難しさ [13-2] 重回帰分析における検定 [13-3] 回帰分析における注意点 [13-1-1]C 重回帰分析の難しさ ●単回帰分析では、被説明変数1個と説明変数1個の 2次元データだったので散布図を描き、回帰直線を 引くことで、回帰分析の視覚的イメージがつかめた ●重回帰分析ではそれができない。たとえば説明変数 が2個の場合は3次元データになり、回帰平面を描 くことになる。 ●また、単回帰分析は電卓で可能だが、重回帰分析は Excel や R などの計算ソフトがないと難しい。 [13-1-2]C 重回帰分析の難しさ 図 10.3 単回帰分析の結果 婚姻 数(縦軸)と借家率(横軸) 婚姻 数(縦軸)と失業率(横軸) 14 14 12 12 10 10 8 8 6 6 4 4 3 6 9 40 50 60 70 [13-1-3]C 重回帰分析の難しさ ●婚姻件数 = 13.5-0.959 完全失業率 (7.9) (-3.2) 決定係数 = 0.301 標準誤差 = 1.60 ●婚姻件数 = 1.40+0.125 借家比率 (0.40) (1.95) 決定係数 = 0.136 標準誤差 = 1.78 ●婚姻件数=6.44-0.997 完全失業率+0.136 借家比率 (1.99) (-3.56) (2.50) 決定係数 = 0.462 標準誤差 = 1.50 ( )内は t 値. [13-1-4]C 重回帰分析の難しさ ●この事例は重回帰分析の成功例 ●単回帰分析の結果に比べて、重回帰分析の決定係数 が大幅に上昇し、標準誤差も大幅に低下 ●完全失業率と借家比率ともに、偏回帰係数と t 値(絶 対値)の両方が単回帰分析のときよりも上昇 ●今回の重回帰分析結果から、 ①完全失業率が1ポイント低下すると雇用状況が改善 し婚姻件数が千人当たり1組増え、 ②借家比率が1ポイント増加すると住居選択自由度が 増し婚姻件数が千人当たり 0.136 組増える [13-1-5]C 重回帰分析の難しさ ●変動要因分解:婚姻件数の変動要因を完全失業率要 因と借家比率要因さらに誤差に分解 ●回帰式: yn a0 a1 x1n a2 x2 n en において、 y a0 a1x1 a2 x2 したがって、 yn y a1 ( x1n x1 ) a2 ( x2n x2 ) en ● ( yn y ) を a1 ( x1n x1 ) と a2 ( x2 n x2 ) および en に分 解できる 完全失業率要因 借家比率要因 誤差 婚姻件数 八王子市 江戸川区 葛飾区 足立区 練馬区 板橋区 荒川区 北区 豊島区 杉並区 中野区 渋谷区 世田谷区 大田区 目黒区 品川区 江東区 墨田区 台東区 文京区 新宿区 港区 中央区 千代田区 [13-1-6]C 重回帰分析の難しさ 図 10.4 婚姻件数の変動要因分解 5 4 3 2 1 0 -1 -2 -3 -4 [13-1-7]C 重回帰分析の難しさ ●分析結果から明らかになったこと ①決定係数が 0.462 なので、婚姻件数の変動のうち誤 差が説明している割合が半分以上になっている ②たとえば千代田区の方が中央区よりも婚姻件数が多 くなるはずなのに、プラスの誤差のために中央区の婚 姻件数が多くなっている ③完全失業率要因の方が借家比率要因よりも面積が大 きい。この点が非常に重要で、t 値の絶対値の大きさは 面積の大きさに対応している [13-1-8]C 重回帰分析の難しさ ●税収 = 9760 + 0.174 就業者数 (1.58) (5.80) R2 0.584, R 2 0.565 ●税収 = 12723 + 0.229 雇用者数 (2.05) (5.30) R 0.540, R 0.519 2 2 ●税収 = 7061 + 0.476 就業者数-0.415 雇用者数 (1.13) (2.15) (-1.38) R 2 0.614, R 2 0.577 2 ● R は自由度修正済決定係数 [13-1-9]C 重回帰分析の難しさ ●重回帰分析において説明変数を増やせば増やすほど、 形式的には決定係数は大きくなる ●説明変数の数を考慮した別な決定係数が必要 2 ●自由度修正済決定係数 R は次式で定義される 2 e i /( n k 1) 2 R 1 2 ( yi y ) /( n 1) ●ここで k は説明変数の個数を指す。説明力の弱い説 2 明変数を加えると、 R が小さくなることがある [13-1-10]C 重回帰分析の難しさ ●就業者数と雇用者数の相関係数は 0.991 であり、そ のため、両方を同時に説明変数に用いた場合、雇用者 数の偏回帰係数はマイナスとなり(符号条件を満た さず) 、自由度修正済決定係数も 0.565 から 0.577 と ほとんど上昇していない ●説明変数同士が強い相関関係にあることを多重共線 性と呼ぶ。換言すれば多重共線性が強い説明変数同 士を同時に用いた場合、重回帰分析が失敗する可能 性が高い(特に標本サイズが小さいとき) [13-2-1]C 重回帰分析における検定 ●重回帰分析においては、説明変数が2個以上あるの で、それぞれについて t 検定をする ●重回帰式全体としての妥当性を検定する方法が必要 ●次のような k 個の説明変数の重回帰式を考える yi 0 1x1,i k xk ,i ei , i 1,..., n. ●ここで以下のような仮説を考えます。 H 0 : 1 ... k 0, H1 : 1,..., k の少なくとも1つは0ではない [13-2-2]C 重回帰分析における検定 ●このとき次式で定義される統計量 F は自由度 (k , n k 1) の F 分布に従う ( S0 S1 ) / k F . S1 /( n k 1) ここで S 0 は H 0 のもとでの S1 は H1 のもとでの残差平 方和である。このとき、有意水準 が与えられると、 F F (k , n k 1) のとき H 0 を棄却する [13-3-1]C 回帰分析における注意点 表 10.2 回帰分析における注意点 番号 1 2 3 4 5 6 7 8 9 10 注意点 説明変数の妥当性 多重共線性 単位と変数変換 2次項の必要性 因果関係 決定係数の意味 誤差の条件 有意水準の選択 異常値 内生性の問題 概要 先行研究などに基づくべき 相関の高い変数を使うな 円ではなく億円、対数変換が必要かも 直線ではなく曲線の関係もあるかも 夏の気温→ビールであり、逆はダメ 決定係数の大きさにこだわるな 分散一定か?系列相関なし? 特定の有意水準ではなく複数を 異常値処理に決定打はない 最も困難な問題 [13-3-2]C 回帰分析における注意点 ①被説明変数が与えられた場合、その決定要因として の説明変数を設定するが、先行研究などを参考に、説 明変数の妥当性を確認する必要がある。 ②説明変数間の多重共線性に注意が必要。標本サイズ が小さくて(たとえば 100 以下)説明変数間の相関 が強い場合 (たとえば相関係数の絶対値が 0.9 以上) 、 偏回帰係数の符号が期待していたものとは逆の符号 になるなど、回帰分析に悪影響が出る。 [13-3-3]C 回帰分析における注意点 ③変数の単位の問題と変数変換に留意。 冒頭の単回帰分析結果を再述すると、 税収 = 7418 + 0.175×納税義務者数 決定係数 = 0.645 標準誤差 = 13711 となる、税収の単位を百万円から1万円にすると 税収 = 741800 + 17.5×納税義務者数 決定係数 = 0.645 標準誤差 = 1371100 また、変数を全て対数に変換すると、 税収 = 2.268 + 0.685×納税義務者数 決定係数 = 0.650 標準誤差 = 0.315 このように対数変換することによって納税義務者数 が1%増えると、税収が約 0.7%増える [13-3-4]C 回帰分析における注意点 ④2次の項が必要な場合がある 図 10.5 1993 年設立企業の生存率 企業生存率=71.0 + 5.79 年齢 - 0.399(年齢×年齢) (15.5) (3.0) (-2.4) [13-3-5]C 回帰分析における注意点 ⑤因果関係に留意が必要。たとえば、ビールの消費量を 被説明変数に、気温を説明変数にした回帰分析は正 しいが、その逆をやってはいけない。 ⑥決定係数の大小はあまり意味がない。特に時系列デ ータの場合はそういえる。被説明変数のトレンド変 動が大きいときに決定係数は大きくなる(詳細は教 科書 132 頁)。他方、企業や家計などの個票データの 場合、決定係数は小さく、0.1 を下回ることもある。 [13-3-6]C 回帰分析における注意点 ⑦誤差をグラフ化して、誤差が[12-2-1]望ましい誤差 の5条件を満たしているかチェックする必要あり (詳細は教科書 pp.132-133) ⑧仮説検定一般にいえることだが、有意水準をどうと るかによって仮説検定の結果が変わる可能性あり 表 10.3 婚姻件数の回帰分析結果 定数項 完全失業率 借家比率 自由度修正済 偏回帰係数 6.44 * -0.997 *** 0.136 ** 0.410 決定係数 F 値 9.01 *** 観測数 24 *:p<0.1, **:p<0.05, ***:p<0.01. 標準誤差 3.240 0.280 0.054 [13-3-7]C 回帰分析における注意点 ⑨異常値処理の問題がある。異常値の程度や異常値の 数にもよるが、異常値が推定結果に悪影響を及ぼす ことがある。確立した対処法はない(教科書 134 参照)。 ⑩内生性の問題と呼ばれる困難な問題がある(詳細は教 科書 223 頁) 。たとえば、鶏と卵のどちらを被説明変数 と説明変数にすればよいのかは悩ましい。