http://mcobaya.web.fc2.com/karato.htm 2016 年 12 月 16 日 ゼロ制約
by user
Comments
Transcript
http://mcobaya.web.fc2.com/karato.htm 2016 年 12 月 16 日 ゼロ制約
http://mcobaya.web.fc2.com/karato.htm 2016 年 12 月 16 日 ゼロ制約以外のt検定 p.153 コブ-ダグラス型生産関数 α+β=1 の一次同 次の検定 t=α+β-1 を代入すると t=0 の検定に帰着する。 log Y= log A+αlogL+βlogK = log A+(t-β+1)logL+βlogK = log A+t×logL+βlog(K/L) 変形し、log(Y/L)=。 。。の形に直す。 [(残差平方和変数未追加-残差平方和変数追加)÷追加変数数 分母の説明:分母は変数追加後の推定での誤差分散の推定値 (注参照)で、検定には本質的でなく、単位や計測の精度の違い を調整するため。 残差平方和変数追加÷(n-係数総数) のかわりに「残差」の「分散」を用いてもよい。それが F=[(残差平方和変数未追加-残差平方和変数追加)÷追加変数数] ÷残差分散変数追加 Q:なぜ、変数追加後の誤差分散の推定量をつかうのか。仮説(制 約)が正しければ、変数追加前の説明変数だけで説明するのは この式を最小二乗法で推定して、logL の係数=0 の仮説を検 間違いであり、誤差分散にも偏りがある。。変数追加後の説明変 定すればよい。データは表 3-27 数だけで説明するのは、制約が正しくなくても係数が0である 検証する係数が複数の検定(一つの場合も特殊例で含む) t-検定は単一の係数対象、F 検定は複数の係数対象 例1 賃金= a+b*年齢+c*年齢^2 だけで間違いではない。 例 mbl1.xlsx をダウンロード N=353 MLB major league baseball の選手報酬の決定要因 のモデルにおいて、「年齢は賃金には無関係」は b=c=0 分散分析表 例 2:賃金=a+b*大企業+c*中企業 変数追加前 自由度 変動 分散 「賃金には規模格差はない」は b=c=0 回帰 3 294.745 98.248 注意:yt = a + a0xt + a1Dt + a2wt を当てはめたときの残 残差 349 197.430 0.5657 差平方和は yt = a + a0xt を当てはめたときの残差平方和 合計 352 492.175 (SSR)より必ず小さくなる。それは a1=0,a2=0 という制約を つけて最小化しているので。 係数 標準誤差 t MIN(a,a0,a1,a2)Σ[y(t) - a - a0*X(t) - a1*D(t) - a2*w(t)]2 切片 10.9101 0.273602 39.8760 ≦MIN(a,a0,a1=0,a2=0)Σ[y(t ) - a - a0*X(t ) - a1*D(t) 年数 0.07096 0.012498 5.67785 - a2*w(t)]2 出場数 0.01972 0.001388 14.2104 = MIN(a,a0)Σ[y(t) - a - a0*X(t )]2 生涯打率 0.00137 0.001101 1.24818 F 統計量の定義 変数追加後 F=[(残差平方和変数未追加-残差平方和変数追加)÷追加変数の数] ÷[残差平方和変数追加÷(n-係数総数)] もしくは(エクセルではこっちが使いやすい) F=[(残差平方和変数未追加 -残差平方和変数追加 )÷追加変数の数] ÷残差分散変数追加後 これを第一自由度=(追加した変数の数)、第二自由度=n-係 数の総数(定数項を含む) に対応する F 分布表の上側5%点と比較する。 自由度 追加前の自由度 353-4=349 追加前の変数は定数、年数、出場数、打率。上のテストでは 「追加した変数の数」は打点と HR の二つ 例 4.10(p.194 変数の係数がすべて 0 の検定:特殊例)表 3.25 この場合は F の値が回帰分析の出力に記されている。 分散 回帰 3 11.38805 3.7960 残差 43 12.81663 0.2981 合計 46 24.20468 分散 回帰 5 308.989 61.7978 残差 347 183.186 0.52791 合計 352 492.175 係数 標準誤差 t 切片 11.192 0.289 38.752 年数 0.069 0.012 5.684 出場数 0.013 0.003 4.742 生涯打率 0.001 0.001 0.887 年平均打点 0.011 0.007 1.500 年平均 HR 0.014 0.016 0.899 常に正の値をとり、中央は1の分布.追加変数の係数が0の よって F 分布の自由度は 2、347. 変動 変動 F 統計量=(197.43-183.186)/2/0.52791 追加後の自由度 353-6=347 自由度 自由度 分散比 12.7357 有意 F 4E-06 時、自由度 p,n-k の F 分布に従います。 (pは追加変数の数、 kは係数の総数でこの場合は2と4)この F の値を F 分布表 の上側5%(1%)点と比較して、値が十分大きければ追加 変数は有意であると判断される。数表は教科書 p.191 問:t 検定で b=0 が棄却されれば、cの値に関係なく b=c=0 は 棄却されるのではないか。また b=0 がt検定で棄却されず、c=0 でも棄却されなければ、b=c=0 も棄却されないのではないか。 答:多重共線性の問題があり、t検定とは結果が異なる。t検 定で b=0 が棄却されず、c=0 も棄却されなくても、F 検定(同時 分子の直感的な考え方:変数の数が増加すればするほど、たと 検定)で b=c=0 が棄却されることがある。 え構造変化がなくてもデータの誤差から 出場数、ホームラン数と打点は相関が高く、多重共線性が発生 残差平方和変数未追加-残差平方和変数追加 は大きくなるので、追加変数1個あたりの「残差平方和の差」 を求める。それが し、精度が低くなる。標準誤差が大きくなり、t値が低くなる。 =>係数=0 は棄却できない。 F 検定の簡便法 大小で構造変化の有無を判断できそうである。 (ア) 簡単な方法:仮説「係数がすべて0」の場合、 さて「あてはまりのよさ」を「残差平方和」で定義 F>0 の分布の中心は1なので二桁もしくは一 しよう。すると構造変化(=係数の変化)をモデルに組 桁の後半になったら、仮説は棄却。 み込むことにより残差平方和の差が十分小さくなれば (イ) すこし簡単な方法 サンプルサイズが大きい 構造変化ありと認められ、十分大きくなければ構造変 とき、第二自由度は∞とする。 化は認められないという結論になる (ウ) 厳密な方法:これを第1自由度=(追加した変数 の数)、第2自由度=n-追加後係数(含定数)の 総数に対応する F 分布表の上側5%点と比較す る。(数表は教科書p. ) 。 以上はグラフ上での考え方なので、式で考えると次 のようになる。 係数の差 c,d と後期を示すダミー変数 Dt を次のよう に表す。 a’-a=c, b’-b=d, Dt=0 if t<=1996 Dt=1 if t>=1997 (1),(2)は次のひとつの方程式であらわされる Yt=a+b*Xt+c*Dt+ d*Xt*Dt t=1990,1991,…,2004 (1996 年以前は消費増の影響が第 2 項をとおして現 れるが,1997 年以降はそれに加えて,第 4 項 d*Xt = d*Xt*Dt からも現れ,その影響の和は b+d=b’。また切 片は 1996 年以前は a,1997 年以降は a+c=a’となる。) 手順 (Step 1) Yt=a+b*Xt t=1990,1991,…,2004 を使って回帰分析する。1996 年の前後で変化のないモ デルを使って説明する (Step 2) Dt と Xt*Dt という説明変数を追加した Yt=a+b*Xt+c*Dt+ d*Xt*Dt t=1990,1991,…,2004 (3) を使って回帰分析をする、1996 年の前後で係数が変化 するモデル(1),(2)を使って説明すること。 (Step 3)説明変数を追加することにより、十分に残差 F 検定の応用(Chow test、構造変化の検定)。 平方和が減少すれば、構造変化があったと判断できる。 (構造変化のデータ kozo.xls を利用 構造変化の定式化 例:通信費のデータ kozo.xls を使って 1996 年以前のと もしも構造変化がおきていれば、まず、1 本の直線 Yt=a+bXt, t=1990,1991,…,2004 (0) 1997 年以降で構造変化があるか F テストせよ。 1. ですべての観測値(Y,X)を説明すると当てはまりが悪 く Yt=a+b*Xt t<=1996 (1) Yt=a’+b’*Xt t>=1997 (2) のように途中で切片と傾きを変化させて観測値を説明 2. すると当てはまりがよく、 「当てはまり」の差は大きい。 もしも構造変化がなければ、1 本の直線でも 2 本の 直線のどちらで説明しても「当てはまり」の差は小さ 3. い。下図でもサンプル全体を用いてあてはめた直線は 当てはまりが悪い。 したがって、二つのモデルでの「あてはまり」差の 4. ツール/分析ツール/回帰分析と選択し、入力 Y 範囲 (説明される変数)のデータ部分(ラベルも含む) B5:B20 をキー入力し、入力 X 範囲すなわち C5:C20 を入力。出力を一枚のシートにまとめるために、 「一 としておこ 覧の出力先」に印をつけ、出力先を A25 う。OK をクリックして実行。これは構造変化を考え に入れていない単回帰。 ダミー変数の作成:D5 に D と書き入れ、D6:D12(1990 年から 1996 年まで)に 0 を入力し、D13:D20(1997 年から 2004 年)に1を入力。これがダミー変数 Dt に対応。 E5 に X*D, E6 に=C6*D6 と入力。すなわち「ダミー変 。これを E7:E20 にコピー 数×支出」 ツール/分析ツール/回帰分析、入力 Y 範囲 A1:A15 をキー入力し、入力 X 範囲(説明する変数 B1:D15 を キー入力。出力を一枚のシートにまとめるために、 5. 「一覧の出力先」に印をつけ、出力先を A50 として おこう。ラベルにチェックし、「実行」、 重回帰ではいずれの係数も有意(絶対値 2 以上)で、 危険率5%で係数(切片、傾きのどちらか)の変化 は認められる。残差平方和(Excel では「残差の変 動」)も単回帰の場合の 210092 から 41245 と小さく なったことに注意。210092-41245 この変化が十分大 きいかどうかが重要。 分散分析表 変動 分散 回帰 1 1444517 1444517 残差 13 210092.4 16160.95 合計 14 1654609 分散比 有意 F 89.38313 3.4E-7 変動 分散 3 1613363 537787.8 残差 11 41245.63 3749.603 合計 14 1654609 6. 7. 8. 制約をつけて最小化しているので。 MIN(a,a0,a1,a2)Σ[y(t) - a - a0*X(t) - a1*D(t) a2*w(t)]2 - a2*w(t)]2 = MIN(a,a0)Σ[y(t) - a - a0*X(t )]2 扱います。) 回帰 F= 方和(SSR)より必ず小さくなる。それは a1=0,a2=0 という 一般的 F 検定(教科書 p.156 のものより一般的なものを 分散分析表 自由度 残差平方和は yt = a + a0xt を当てはめたときの残差平 ≦MIN(a,a0,a1=0,a2=0)Σ[y(t ) - a - a0*X(t ) - a1*D(t) N=15 自由度 注意:yt = a + a0xt + a1Dt + a2wt を当てはめたときの 分散比 有意 F 143.4253 4.2E-9 =(C37-C62)/2/D62 F 検定をおこなおう。 C37 は制約(「ダミーと係 数ダミーの係数は0」)のついた最小自乗法の残差 平方和、C62 は制約のない最小二乗法の残差平方和 で前者がおおきくなる。係数の数の差は2つなの で、これが分子の自由度。D62 は誤差分散の推定 量. どこかあいたところ A75 に F=と入力。B75 に =(C37-C62)/2/D62 と入力。例 5.5 では F=(21009241245)/2/3749=22.5 これが F 統計量。F の分子を 2でわったのは追加変数一つあたりの残差平方和 の変化をもとめたもの。残差の分散 6.23 でわった のは分母子の単位を相殺するため。 第一自由度は「追加した変数の数」で2、第二自 由度は「サンプルサイズ-全係数の数」で 11=154(=B62)。F 分布の5%は数表をみなくとも EXCEL で計算できる:C62 に=FINV (0.05, 2,11)。 この 上側 5%点を実際の F 統計量は超えるので、構造変 化が認められる。 練習2:表 6-6 p.175 15年間のエネルギー需要と実質 GDP の関係について散 布図を前期と後期別に描き、構造変化のテストを行え。 F 統計量の定義 p.24 F=[(残差平方和 変数未追加 -残差平方和 変数追加 )÷追加変 数数] ÷[残差平方和変数追加÷(n-係数総数)] もしくは(エクセルではこっちが使いやすい) F=[(残差平方和 変数未追加 -残差平方和 変数追加 )÷追加変 数数] ÷残差分散変数追加後 これを第1自由度=(追加した変数の数)、第2自由度 =n-追加後係数(含定数)の総数 に対応する F 分布表の上側5%点と比較する。 (数表 p.132)。 上の単回帰モデルの構造変化のテストでは「追加変 数数」はダミーとダミー×X の2つ、 「係数総数」は 定数、X,ダミーとダミー×X の4 分子の直感的な考え方:変数の数が増加すればするほ ど、たとえ構造変化がなくてもデータの誤差から 残差平方和変数未追加-残差平方和変数追加 は大きくなるので、追加変数1個あたりの「残差平方和 の差」を求める。それが [(残差平方和変数未追加-残差平方和変数追加)÷追加変数数 分母は変数追加後の推定での誤差分散の推定値(注参照) で、検定には本質的でなく、単位がや計測の精度の違い を調整するため。 残差平方和変数追加÷(n-係数総数) のかわりに「残差」の「分散」を用いてもよい。それが F=[(残差平方和変数未追加-残差平方和変数追加)÷追加変数数] ÷残差分散変数追加 F 統計量は常に正の値をとり、追加変数の係数が0の 時、自由度 p,n-k の F 分布に従います。 (pは追加変数の 数、kは係数の総数でこの場合は2と4)この F の値を F 分布表の上側5%(1%)点と比較して、値が十分大き ければ追加変数は有意であると判断される。 Chow test の第 2 のタイプ(5-24) 一方の期間が説明変数の数と同じか、より短い場合。 (例:観測期間を 10 年と最後の 1 年に分け、最後の時が 今までと同じモデルで説明できるか。これは 10 年間(推 定期間)のデータをつかって、11 年目(予測期間)を予測 し、その予測の誤差からモデルの正しさをチェックする テストと考えてもよい。最後 2 年の変化検出なら一次ダ ミーを二つ用いる。 最後の年について、一時的ダミー(教科書)を用いる。一 時的ダミーp.163 を用いると y11=a+b*x+d11 であり、最後の時点の誤差=0なので、一 時的ダミーを用いると 残差平方和(1 から 11 まで)=残差平方和(1 から 10 ま で)となる。 F 検定統計量=(全期間の残差平方和-推定期間の残差 平方和)/予測期間の長さ/推定期間の残差分散 練習:表 5-4 p.143 USA の GDP と実質輸入の関係で 2005 年は異常か?Chow テスト第二タイプを行う。 まず、2005 年一時的ダミーをつかった回帰分析と 2004 年までの回帰分析(ダミーなし)とで、残差平方和 74.1 で同じことに注意。(n2=1) 2005 年までの回帰分析 (ダミーなし)の残差平方和=75.9 ゆえ、その差 1.8 によ って 2005 年度の誤差が十分大きいかどうかを確認。一時 的ダミーの数1、2004 年までの回帰の残差分散=6.2 か ら、F統計量=1.8/1/6.2=0.3、これは有意ではない(F 分布は 0 以上で、仮説がただしく、係数=0 ならば中心が 1なので) 3rd:両者の残差平方和の差を追加説明変数の数(=k)でわ り、それをさらに変数を追加後の残差の分散(=回帰式 の標準偏差の2乗)でわり、F統計量を求める。 4th:これをF分布表(サンプルが十分大きいときは自由 度は(k,無限大)、サンプルが十分大きくないときは、m を追加前の変数の数として、自由度は(k,n-k-m))の 上側1%もしくは5%点と比べ、F統計量のほうが大き ければ追加変数の影響が認められ、統計量のほうが小さ ければ追加変数の影響が認めらない。 とくに構造変化のテストでは追加前の変数の数もkなの で、自由度は(k,n-2k)) 問:F統計量の話は分かりにくいのですが、どこまでわ かればいいのですか。 答:ほんとうは、サンプルが大きいときは追加した説明 変数の係数が0のとき、こうやって作ったF統計量の分 問:第二自由度まで必要になるのですか。F 分布表は読 むのは面倒ですね。もっと楽な検定方式はないのですか。 答:F 分布は追加変数の係数がすべて0の時、分布の 中央が1になるように作ってあります。したがって、F の 値は1より小さいときは数値表を見るまでもなく「追加 変数の係数がすべて0の可能性あり」と判断されます。 またサンプルサイズがある程度大きく、第二自由度 n-k が30を超えたら第二自由度∞無限大の場合と上側5% (1%)点はほとんど同一です。したがって、第二自由 度まで確認して数表を引く必要は実際上あまりありませ ん。 「第一自由度=追加変数の数」、 「第二自由度=無限大」 と考えて F 分布表を見れば、そんなに面倒な作業ではな いので、ご安心ください。 問:第二自由度=∞のとき F 分布の上側5%(1%)点 をエクセルではどうやって求めるのですか。 答:第一自由度=2、第 2 自由度=∞の F 分布の上側 5% 点は第 2 自由度にある程度大きな数、たとえば1000 を指定して、=Finv(0.05,2,1000) とするのがよいでしょ う。 布が「説明変数の値には関係なく、誤差の分散にも関係 なく、追加した変数の数に依存する」ことを数学的に証 明できる(する)のですが、実用上は手順と考え方だけ をしっかり理解すればいいとおもいます。数学的な証明 が知りたければ、数理統計学の教科書にでていますが、 少々手強いですよ。 問:F統計量を求めるときになぜ残差平方和を「回帰式 の分散」でわるのですか 答:完全な答えは難しいのですが、もしも被説明変数の 単位をmから cm にかえて、値を 100 倍すると残差も 100 倍になり、残差平方和は 10000 倍になります。実体はな にも変化がないので、10000 倍になるのでは判断尺度と して役に立ちません。このとき残差の分散(=回帰係数 の分散)は 10000 になるので、残差の分散でわることに より統計量(の分布)が単位から独立になり、判断尺度 問:残差平方和を使った面倒な計算をしなくても、エク としてはより好ましいものになります。 セルの回帰分析の出力に F 値というのがあるので、それ を使ってはいけませんか。 問: 「回帰式の分散でわる」という作業はわかったのです 答:この F 値は定数項以外の変数がすべて影響をもたな が、なぜ「説明変数を加えたとき」の「回帰式の分散」 いという仮説を検定しているものです。 を使って、 「説明変数が加える前」の「回帰式の分散」を F検定のまとめ 使わないのですか。 1st:説明変数の少ない回帰分析を行う。残差平方和を記 答: 「回帰式の分散でわる」でわるのは、実は「雑音」の 録 分散で割ることにより、F統計量の分布が単位から独立 2nd:説明変数を追加した回帰分析を行う。残差平方和を なものにするためです。ところが、 「説明変数が少ない」 記録 ときの「回帰式の分散」を使うと、モデルが誤っている