Comments
Description
Transcript
重回帰分析(Multiple Regression Analysis)
水曜Ⅰ部 5 限 Ⅱ部 1 限 2003/01/29 2002 年度助手補作成 数値情報論(二宮先生) 重回帰分析(Multiple Regression Analysis) −その1 理論編− ○ 重回帰分析の概要 ■ 目的:① いくつかの変数に基づいて、別の変数を予測すること。 ② モデルにおける他の独立変数が一定である場合の、変数 X の影響力を知ること。 → Ex. 独立変数 X が従属変数 Y に対して独立に与えている影響力を知る 家電チェーン S 電器における各店舗の売上高 図1 重回帰分析の概念 広告費 家電の売上高 値引率 商品種類 店舗面積 独立変数が 1 つだけの回帰分析 → 単回帰分析(Simple(Bivariate) Regression Analysis) 2 つ以上の回帰分析 → 重回帰分析(Multiple(Multivariate) Regression Analysis) ■ 重回帰分析で得られる推定値(パラメーター) ① F 値:モデルで用いた独立変数で従属変数を説明することが妥当かを検定する。 → モデルの妥当性を検証する ② 回帰決定係数(R2):モデルで用いた独立変数で Y の変動を何%説明できるかを表す。 → モデルの説明力を表す ③ 偏回帰係数:モデルの他の変数が一定であるとき、各独立変数が従属変数に与える影響力の 向きと大きさを示す。 → 各変数の影響力を表す 1 ④ t 値:偏回帰係数の統計的有意確率を検定する。 → 各変数の影響力が統計的に有意であるのかを検定する 以上のような情報が得られることを前提として、次のような仮説を検証することができる。 ■ 仮説(例): ・ モデルにおける他の独立変数が一定である場合*,商品種類が多いほど売上が多い。 ・ モデルにおける他の独立変数が一定である場合*,値引率が大きいほど売上が少ない。 ・ 広告費は値引率より売上に与える影響が大きい。 ・ 店舗面積が売上に与える影響は商品種類によって媒介されている。 ・ モデルは売上の変動に対して高い説明力を持つ。 Etc. * 重回帰では独立変数間の相関を除去して,各独立変数が従属変数に与えている独立の影 響力を測定している。例えば、店舗面積が広いほど商品種類が多いという相関があると する。その場合、商品種類の売上に対する貢献は、店舗面積の影響を媒介している可能 性がある(図 2 参照) 。しかし、重回帰の偏回帰係数として算出されるのは、店舗面積が 家電の売上に対して独立に貢献している作用(C)、および店舗面積による影響(A)を 0 とした場合の、商品種類の作用(B)である。そのため、重回帰は店舗面積と商品種類が 売上げに与える独立の影響を測定しているといえる。 図2 A 商品種類 店舗面積 B 売上 C <まとめ> ・ 回帰では、モデルにおいて原因(独立変数)と結果(従属変数)を設定し、原因が結果に与 える影響力の向き(正か負か)と大きさを推定し、統計的有意性を検定することができる。 ・ 構築したモデルの妥当性や説明力について数量的に知ることができる。 ・ 推定値をもとに従属変数の値を予測することができる。 2 ○ 回帰分析の考え方 ―単回帰を例に― 図3 Y= a + bx ei : 誤差(残差) Y (Xi, Y i) 従属変数 Y と 1 つの独立変数 X の単回帰を例とする。各点は実測値(Xi, Yi)を表し、これらの 点のもっとも近くを通る直線を Y= a + bx で表す。 「各点のもっとも近くを通る直線」とは、各点の誤差 ei の 2 乗の和が最小となるように引いた直 線である。この手法を最小 2 乗法(Ordinal Least Square: OLS)と呼ぶ。2 乗するのは、残差が 正負の符号をもつためである。 式で表すと、 予測値 Yˆi = a + bx i 実測値 Yi = a + bx i + ei 、 となる。 a: 定数, b: 偏回帰係数(傾き), e: 誤差, i: i 番目のサンプル よって、各サンプルの誤差の 2 乗和 ∑e 2 i が最小となる a, b を求めるのが回帰であるといえる。 回帰直線を引くことによって、 ① データのばらつきを直線で近似することができる → 情報を縮約し、データの傾向について知ることができる ② X から Y の値を予測することができる ③ 直線の傾き(偏回帰係数)によって、X1単位の増加が Y を何単位増加(減少)させるのかを 知ることができる 3 また、実測値 Y と Y の平均Y の差は以下の式によって表すことができる。 Y − Y = (Y − Yˆ ) + (Yˆ − Y ) ∑ (Y 最小 2 乗法でYˆ を求めると、 i 2 − Y) = ∑ (Y 2 i − Yˆi ) + ∑ (Yˆ i − Y )2 が成り立つ。 各項の意味は、 ∑ (Y i − Y ) :全平方和 ∑ (Y i 2 − Yˆi ) :残差平方和 2 ∑ (Yˆ − Y ) 2 i 実測値 Yi とその平均 Y の差の 2 乗。不変。 → → :回帰平方和 → 実測値 Yi と回帰による予測値 Yˆ i の差の 2 乗。小さいほど良い。 回帰直線で予測したことによって、平均で予測するより誤差が減 った分。大きいほど良い。 これらの平方和を用いて、モデルの当てはまりに関する 2 つの推定値を得ることができる。 ① F値= 回帰平方和 / 独立変数の数 平均回帰平方和 = 残差平方和(サンプル数−独立変 / 数の数−1) 平均残差平方和 * F 値は自由度が v 1(独立変数の数)、v 2(サンプル数 − 独立変数の数 − 1)の F 分布に従う。 → F 検定によってモデルの妥当性を検討できる。 ・帰無仮説(H0):モデルのすべての偏回帰係数は 0 である。 ・対立仮説(H1):少なくとも 1 つの偏回帰係数は 0 ではない。 ② 回帰決定係数(R2): モデルやデータに根本的な 過ちがない限り、帰無仮説が 採択されることはない。 回帰平方和 全平方和 0 から 1 までの値をとり、1 に近いほどモデルの説明力が高い。 → <まとめ> ここでは図で表しやすいように単回帰を例に解説した。独立変数が 2 つの場合は X、Y、Z の 3 つの軸によって表される空間(いわゆる 3 次元空間)にデータがちらばり、Yˆi = a + b1 x1 + b2 x 2 で表されるデータを近似する“平面”を求めることとなる。独立変数が 3 つ以上の場合は、デー タは 4 次元空間に散らばることとなり図で表すことは不可能となる。しかし、いずれの場合も考 え方はここで表した単回帰の例と同じである。 独立変数が 2 つ以上の回帰式は、以下の式によって表される。 Y= a + b1X1 + b2X2 + b3X3 + ・・・ + bnX n 4 重回帰分析(multiple regression analysis) −その 2 実践編− ■ SPSSによる重回帰の実行 ・ データセット:売上げ.sav ・ 重回帰分析の出力:「分析」−「回帰」−「線型」 従属変数 → 売上高、 独立変数 → 広告費、値引率 ⇒ 「OK」 ■ 出力結果 投入済み変数または除去された変数 b 除去され 投入済み変数 た変数 方法 値引率, 広告 a . 投入 費 a. 必要な変数がすべて投入されました。 b. 従属変数: 売上高 モデル 1 値引率と広告費で売上高の 変動の 76.9%を説明できる。 モ テ ゙ ル 集 計b 調整済み モデル R R2 乗 R2 乗 1 .888a .789 .769 a. 予測値: (定数)、値引率, 広告費。 推定値の 標準誤差 3.0576 F 値はモデルが有意水 b. 従属変数: 売上高 準 1%以下で妥当である ことを示している。 分散分析 b モデル 1 平方和 自由度 平均平方 F値 767.683 2 383.842 41.057 205.677 22 9.349 973.360 24 a. 予測値: (定数)、値引率, 広告費。 b. 従属変数: 売上高 X が 1 単位変化した時の 回帰 残差 全体 Y の変化量(偏回帰係数) モデル 1 (定数) 広告費 値引率 標準化係 数 ベータ .787 .253 すべての独立変数は、5% 水準で売上高に統計的に 有意な影響を与えている。 係数 a 非標準化係数 B 標準誤差 26.426 2.319 1.628 .210 1.970 .790 有意確率 .000a t 11.398 7.743 2.494 有意確率 .000 .000 .021 a. 従属変数: 売上高 X が 1 標準偏差変化した時の Y の変化量(標準化回帰係数) 5 <解釈例> 重回帰分析の結果、モデルは有意水準1%で統計的に有意であり、広告費と値引率で売上高の 76.9%が説明できることが明らかとなった。各独立変数の影響力をみると、広告費1単位当たりの 上昇は売上を約1.6単位増加させる効果があり、値引率1単位当たりの上昇は売上高を約2単位増加 させる効果が認められた。広告費の効果は1%水準、値引率の効果は5%水準で統計的に有意であ る。 ■ 標準化回帰係数の解釈 データには示されていないが、広告費の単位は通常「円」であり、値引率の単位は「%」であ る。両者は単位の尺度が異なるため、偏回帰係数の大きさを比較しても、どちらの変数がより強 い影響力をもつのかを知ることはできない。係数に変数の単位を反映させないようにするには、 データを平均0、標準偏差(分散)1の分布に当てはめた時の値に変換して(標準化という)、回 帰係数を求める必要がある。そうして求められるのが標準化回帰係数である。標準化回帰係数は、 Xが1標準偏差変化した時のYの変化量を表しており、変数の単位に関係なく独立変数間で影響力 の大きさを比較することが可能となる。 先の例では、偏回帰係数は広告費よりも値引率のほうが大きいが、標準化回帰係数を比較する と広告費のほうが大きい値を示している。これは、単位の違いを無視した場合、広告費のほうが 売上高に大きな影響を与えていることを意味している。そのため、値引率を上げるより広告費を 増やすほうが売上を上げるために有効な手段であるといえる。 ■ 回帰による予測 分析によって得られた偏回帰係数から、従属変数の値を予測することができる。先の分析例を回 帰式で表すと以下である。 Yˆ = 26.426 + 1.628×広告費 + 1.970×値引率 つまり、予測値 Yˆ は各係数に独立変数の値をかけて、定数を足したものとなる。例えば、広告費 が10、値引率が3.5の店舗で予測される売上げは、 Yˆ = 26.426 + 1.628×10 + 1.970×3.5 = 49.601 となり、実際の値である52に近いものとなる。 しかし、これはあくまでサンプルから得られた予測値なので、異なるサンプルを対象とした場合 や、将来予測等に用いる場合には誤差が大きくなるので注意が必要である。 6 ○ 重回帰分析実行までの手順とその注意点 ① 記述統計 記述統計量 度数 広告費 値引率 売上高 有効なケースの数 (リストごと) 25 25 25 25 最小値 1.00 1.00 30.00 最大値 12.00 5.00 55.00 平均値 6.3200 2.7640 42.1600 標準偏差 3.0784 .8190 6.3684 分析を行う前にデータの概要を知ることが大事!平均や標準偏差がおかしな値を示していない だろうか?最大値・最小値は欠損値を含んでいないだろうか?サンプル数は正しい数を示してい るだろうか?重回帰を行う前に「分析」−「記述統計」−「記述統計」で必ず使用変数の記述統 計をとること。 ② 相関 相関係数 広告費 値引率 1.000 .264 . .202 25 25 値引率 .264 1.000 .202 . 25 25 売上高 .854** .461* .000 .020 25 25 **. 相関係数は 1% 水準で有意 (両側) です。 *. 相関係数は 5% 水準で有意 (両側) です。 広告費 Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N 売上高 .854** .000 25 .461* .020 25 1.000 . 25 重回帰を実行する前に独立変数と従属変数および独立変数同士の関係について検討しておく必 要がある。そのため、モデルで使用する変数の相関をとる。相関係数の向きや大きさを検討する ことで仮説の妥当性について大まかな知見を得ることができる。 また、独立変数間に強い相関(たとえば0.8以上)がある場合、回帰係数の符号が逆転したり、 有意性が検出されないことがある。これを多重共線性(multicollinearity)という。多重共線性 とは、ある独立変数が残りの変数によってほとんど説明されてしまう状態である。このような場 合、強い相関をもつ独立変数の一方をモデルから取り除くべきである。 相関は「分析」−「相関」−「2変量」をクリックして出力することができる。量的変数を使用 する場合はPearson(ピアソン)の相関係数を用い、順序尺度や間隔尺度の場合にはSpearman 7 (スピアマン)のローおよび Kendall (ケンドール)のタウ bを用いる。有意差の検定は、両 側と片側を選択することができる。 ③ 散布図 広告費 値引率 A B 売上高 相関係数のような数値だけではデータ概要を理解することはできない。特に、独立変数と従属 変数の関係が線形(直線で近似できる)であるのか、非線形(曲線で近似する必要がある)であ るのかは、データの散布図をとってみなくてはわからない。そこで、2変量の関係を図のような相 関行列のグラフで視覚的に確認することが重要である。従属変数は常にY軸に取らなくてはなら ない。そのため、広告費と売上高の関係はAのグラフを、値引率と売上高の関係はBのグラフをみ る。広告費と値引率の関係についてはどちらをY軸にとっても良い。AとBのグラフから2つの独 立変数とも従属変数とほぼ線形の関係にあることがみてとれる。 散布図において重要なのは、外れ値を確認することである。図では目立った外れ値は見当たら ない。もし極端な外れ値がある場合、分析に歪みをもたらす恐れがある。一概には言えないが、 外れ値を入れた場合と入れない場合で重回帰の分析結果を比較して、大きな違いがある場合には 両方の結果を提示するか、外れ値を除去して分析を行う必要がある。外れ値の取り扱いは分析を 行う者の判断によるところが大きいため、外れ値による影響を詳細に検討した上で、どのような 取り扱いをしたのかを明記することが重要である。 散布図の出力方法については以下を参照のこと。 「グラフ」−「散布図」−「行列」−「定義」 行列変数 → モデル使用変数 ⇒ 8 OK ④ 重回帰分析 先の「出力結果」を参照のこと。 ⑤ 回帰の診断 重回帰分析にはいくつかの仮定がある。それらの仮定を無視して分析を行うと推定値にバイア ス(歪み)を生じることになる。そのため、分析が正しい仮定の下に行われたのかを確認する必 要がある。重回帰分析における仮定とは以下の4つである。 a. 独立変数の各値に対して、残差が無作為(random)に分布している b. 独立変数の各値に対して、残差の分布が一定である c. 各独立変数と従属変数の関係は線形である d. すべての観測が統計的に独立に生起している このうち、我々が確認しうるのはaからcの3つの仮定である。それらの方法について述べる。 1.「分析」−「回帰」−「線型」で従属変数と独立変数にそれぞれの変数を選択する。 2.「保存」→ 予測値と残差の「標準化されていない」にチェック ⇒ 3.「作図」→ 「すべての偏残差の散布図を作成」にチェック 「続行」 ⇒ 「続行」 4.「OK」 この結果、先に出力された重回帰の結果に加え、 「広告費を伴った売上高の偏残差プロット」 「値引率を伴った売上高の偏残差プロット」 という2つのグラフが出力される。 このグラフは、モデルの他の変数による影響を統制した場合の独立変数Xと従属変数Yとの関 係を表した散布図となる。つまり、前者は「値引率による影響を一定とした場合の、広告費と売 上高の関係」を、そして後者は「広告費による影響を一定とした場合の、値引率と売上高の関係」 を散布図で表している。この散布図をみることによって、仮定のcを確認することができる。X とYに線形の関係がみられれば、重回帰の仮定が満たされていることになる。もし、ここで非線 形の関係がみられる場合、分布の形にもよるが、Xを自然対数化してlogXとする方法や2乗根をと って X にする方法、もしくはXとX2をモデルに入れてXの影響力を2次関数として表す方法など によってXとYの非線形性を補正する必要がある。 仮定のaおよびbについては、先に保存した標準化されていない予測値と残差を用いる。以下の 操作で2つの散布図を作成する。 1.「グラフ」−「散布図」−「単純」 2.Y軸 → ⇒「定義」 「Unstandardized Residual」、X軸 9 → 「広告費」「値引率」 3.「OK」 4.出力されたグラフをダブルクリック → 「図表」−「オプション」 → 線の「全体」にチェック ⇒ 「OK」 → Y軸平均の参照 SPSS図表エディタウィンドウを閉じる ここで作成された図は、Y軸に残差、X軸に独立変数をとった散布図である。Y軸が0の位置で 引かれている参照線は、常に残差が0の点を通るので回帰直線である。この参照線を中心に図中の 各点が無作為(なんの傾向もみられないということ)に分布していれば、仮定のaが満たされてい るといえる。また、Xの値に対して各点の散らばりが一様であるならば、仮定のbが満たされてい るといえる。仮定のaが満たされない場合、別の独立変数を使用することを考えたほうがよい。ま た、仮定のbが満たされない場合は、重み付き最小2 乗法 (Weighted Least Square: WLS)などに よって分散の不定性を補正する必要がある。回帰の入門について解説するという趣旨から外れる ので、ここではWLSについては解説しない。 <まとめ> ・ 重回帰では、F値、調整済みR2、偏回帰係数、標準化回帰係数、t値を出力することができる。 各推定値が意味するものを正しく理解すること。 ・ 重回帰を行う前に、記述統計や相関、散布図などを取ることによって、扱うデータの特性を 把握すること。 ・ 欠損値や外れ値、多重共線性に注意すること。 ・ 現実のデータを扱う以上、回帰分析の仮定が完全に満たされることはない。しかし、その仮 定と現実がどれだけ離れているのかについては必ず確認し、できるだけバイアスの少ない分 析を行うことが重要である。また、バイアスが避けられないとしても、存在しうるバイアス について認識することが重要である。 ・ SPSSでは変数を指定して分析を行うだけでとりあえず結果が出てしまう。変数の選択は必ず 先行研究や理論をもとに行うこと。 <参考文献> 『数学が苦手な人のための多変量解析ガイド 調査データのまとめかた』 古谷野亘, 1988年 川島書店。 『社会統計学 社会調査のためのデ−タ分析入門』 ヴィド・ノ−キ, 海野道郎 & 中村隆監訳, 1990年 『統計学入門 基礎統計学』 『はじめての統計学』 ジョ−ジ・W.ボ−ンシュテット & デ− ハーベスト社。 東京大学教養学部統計学教室編, 1991年 鳥居泰彦, 1994年 『SPSS Base 10.0J User's Guide』 東京大学出版会。 日本経済新聞社。 SPSS Inc., 1999年 10 エス・ピー・エス・エス株式会社。 <問合わせ先> このレジュメに関するご意見・お問い合わせは下記までメールにてお願いします。 2002年度 明治大学 数値情報論Ⅰ・Ⅱ 水曜Ⅰ部5限 助手補 E-m@il to [email protected] 11 福田 節也