Comments
Description
Transcript
回帰分析説明用
+ 回帰分析とは ある変数の変動をいくつかの変数の変動によって説 明・ 予測するための手法。 目的 予測 使用できる情報(説明変数の値)を基に、目的変数の 値を予測する→予測式(回帰式)を作成 要因分析(因果の探索) 目的変数の変動の原因を探る 複数の説明変数を用意し、目的変数に各説明変 数がどのような影響を与えているかを探索する + 目的変数と説明変数 目的変数 「予測」をしたい変数 「従属変数」ともいう 「結果」としてとらえる変数 ・・・要因から影響されている変数 説明変数 目的変数に影響を与える変数 説明変数が1つ →単回帰分析 説明変数が複数→重回帰分析 独立変数ともいう + 回帰分析のためのデータ形式 Y X1 ... Xp 1 y1 x11 xp1 2 y2 x21 xp2 yN x2N xpN ... N 目的変数 説明変数 + 事例−高校の3年間の成績 課題: 表のデータは、40名の高校生の3年間の数 学の試験の結果である。 次の2つのモデルで回帰分析を行い、回帰 係数の解釈をおこなうこと。 モデル1:目的変数「3年」 説明変数「1年」、「2年」 モデル2:目的変数「3年」 説明変数「1年」 2つのモデルでの回帰係数の値を比較しな がら、考察すること。 とくに、3年生での成績が良いことは、1年生 や2年生の成績とどう関連しているのかに ついて、分析結果から考えよ。 ・ ・ ・ + 回帰分析の出力 単回帰分析 概要 回帰統計 重相関 R 0.63545132 重決定 R2 0.40379838 補正 R2 0.388108863 標準誤差 11.90540626 観測数 40 分散分析表 自由度 回帰 残差 合計 切片 1年 変動 1 3647.904466 38 5386.070534 39 9033.975 係数 14.14354162 0.922801734 標準誤差 7.414318948 0.181899244 分散 観測された分散比 3647.904466 25.73682778 141.7386983 t 1.907598219 5.073147719 P-値 0.064021868 1.05622E-05 有意 F 1.05622E-05 下限 95% -0.865962261 0.55456597 上限 95% 29.1530455 1.291037499 下限 95.0% -0.865962261 0.55456597 上限 95.0% 29.1530455 1.291037499 + 回帰分析の分散分析表 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 1 3647.904 3647.904 25.73683 1.06E-05 残差 38 5386.071 141.7387 合計 39 9033.975 n (Y n 2 ˆ ( Y Y ) i i 1 n (Y i 1 i Y )2 i 1 i Yˆi ) 2 + 回帰統計 決定係数(寄与率) 値が大きいほど、回帰モデルがあてはま りがよく、小さければあてはまりがよく ないことになる 値は0~1の範囲 数値が最大化するように算出され、説明変 数を追加すれば必ず値が大きくなる *しかし、全く関係ない説明変数を使っても 1になることがあるため、自由度の残差も みて判断する必要がある + 自由度調整済み決定係数 有効な変数だけをモデルに含む ように決定係数を算出したもの この値で回帰分析の精度、回帰 式の当てはまり具合を判断すれ ばよい ⇒値が大きいほど、よいモデル + 分散分析表 モデル全体が意味のあるものであるかを検定した結果 すべての説明変数の 係数が0である確率 0に近ければ 変数間の関連性が 大きいと考えられる 高ければ、問題ない分析になっていると考えられる (常に20〜30は欲しい) 低ければ、変数間の関連性が高いと考えられる 違うデータで同じ分析をしたときの 係数の変化の具合 変数が変化したら、もう一つの変数がどの程度変化するかを示したもの。 +か−どちらになっているかが重要! 変数がどのくらい効いているか(絶対値の大きいものが効いてくる) (係数)÷(係数の標準誤差)で算出される。 係数が0である確率。係数が0ということは関連性がないということ。 つまりP値が0に近ければ関連性が高いと考えられる。 + モデル2 分析結果から読み取れること 補正R2が0.39より、1年生の成績で3年生の成績を39%説明できる (自由度の残差も高いため信用してよい) 有意Fが限りなく0に近いため、変数間の関連性は高い 係数は+0.92より、3年生の成績が10点上がると1年生の成績は9.2 点上がる →1年生のときの成績がよければ、3年生の時の成績もよい P値は0に近いので、1年生の成績が3年生の成績に効いていると考 えられる