Comments
Description
Transcript
第 13 章 相関
第 13 章 相関 第 13 章 相関 1. 相関と相関係数 相関係数(Correlation coefficient)は r(小文字の斜体)で表現する.Relationship の頭文字をとっている.2 つの 量的データ分布のばらつき具合を調べ 2 データ間の関連性の強さを探る.この関係の強さを表したものが相関 係数である.その数値の範囲は,-1 から 1 で,絶対値が 1 に近いほど点が直線的に配列していることになる.x 軸(一方)の変量が増えると y 軸(他方)の変量が増える関係がある場合は,散布図が右上がりとなり「正の 相関」,逆に x 軸の変量が増えると y 軸の変量が減少する関係がある場合は,散布図が右下がりとなり「負の 相関」があるという.一定の法則がない散布図は無相関という. 相関関係があるといえる大体の目安:その調査・研究領域で異なるが,一般的に 0.6 以上あれば,両者に相 関性が認められたと判断できる. 以下に SAS JMP に保有しているデータを利用して相関係数 0.981, 0.650 および 0.117 の 3 つの分布の目安を示 す. SAS JMP では,Gosset のコーン(Regular と Kiln),15 歳の身長体重(weight と height)およびあやめ(Sepal length と Sepal width がくの長さと幅)を開く.分析→多変量→多変量の相関→両者を Y へ→アクション OK→ 多変量のペアごとの相関. 131 第 13 章 相関 相関係数の評価基準を表 1 に示した.医学および畜産などのヒトを含めた生物を扱う分野では幾分異なるが, 相関性が認められる目安は±0.6 以上である. 132 第 13 章 相関 表 1. 相関係数の評価基準 相関係数の値 相 関 係 数の 強 弱 1~ 0.7 強 い 正 の相 関 0.7~ 0.4 中 程 度 の正 の 相関 0.4~ 0.2 弱 い 正 の相 関 0.2~ -0.2 ほ と ん ど関 係 がな い -0.2~ -0.4 弱 い 負 の相 関 -0.4~ -0.7 中 程 度 の負 の 相関 -0.7~ -1 強 い 負 の相 関 2. 相関と因果 相関関係;2 つの事象が関連して生じる.一定した時間的方向性がない.例:数学の成績と物理の成績,運 動量と健康度および血糖とインシュリン分泌量. 因果関係;時間的に先行する何らかの事象(A)が,後続する事象(B)の生起に影響する.例:勉強時間と成績, 運動量と脈拍数,利尿剤と尿量,日照時間と気温. 疑似相関;2 つに直接な相関関係がないが,隠れた第三の因子(X)が A および B との相関(因果)関係にある ため,計算上相関がでることをいう.例:数学の成績と国語の成績,肉の値段と野菜の値段,女性の就職率と 離婚率,風が吹くと桶屋が儲かる(風が吹く→目に塵が入る→眼病が流行る→失明者がでる→盲人は三味線を 習い職業とする→三味線の革は猫皮である→猫がいなくなる→鼠が繁殖する→鼠は風呂桶をかじりその結果風 呂桶に穴があく→風呂桶屋が儲かる/日本の諺). 相関関係:A←B B→A 因果関係:A→B A 疑似相関:(X)/ ↑↓ \ B 自動車とテレビ台数には相関関係はあるが因果関係はない.塵と人口は相関および因果関係がある.これら 3 つの関係は,相関係数のみでは判断できない.データ背景となる知識に照らして妥当性が検討されなくては ならない.また相関係数は 2 つの変量が共に増加(または減少)する傾向が強いかどうかを数学的に表現した ものにすぎないので,それが直ちに 2 つのものの間に直接の因果関係があるという証拠にはならない. 例えば近年自動車が増え,また,がんの発生率が増え,鶏卵の需要が増えている.これらの間に相関係数を 単に数学的に計算すれば,かなり高い値が得られるかもしれない.しかし,それだからといって自動車が増え たことが直ちにがんの発生を増加させた原因であるとはいえないであろうし,また,がんの発生率が高くなっ たのは鶏卵の需要が増加したためとは単純に考えられないだろう.しかし,現代生活が一方において自動車を 増やし,一方では,がんの発生率を高めていることは否定できない.この 2 事象の間の因果関係があるかどう かは相関係数以外の知識で判断し,お互いに関係があることがはっきりした時に,はじめて 2 つの事象の持つ 関係の強さを測定するために相関係数を使用すべきであって,これを逆に初めに相関係数を計算して,だから 2 つの事象の間には”この程度の因果関係がある”というような結論の出し方は注意しなければならない. 3. 相関係数の計算 手計算でもさほど難しくはない.アルファルファの種子を 10 年間貯蔵し,各毎年発芽率を調べたところ表 2 の値を得た.貯蔵年数と発芽率との間に相関関係が認められるか検定をする(柴田,1970). 今回は,年数と発芽率について示したが,その他に,旧機器対新機器,GOT 対 GPT,Na 対 Cl,白血球数対 脾臓重量,体重対身長,白血球数対フィブリノゲン量,赤血球沈降速度対フィブリノゲン量,血糖対中性脂肪 量,人口対商店数,人口対電力消費量などに因果関係を持った相関性が認められる. 表 2.種子の貯蔵年数と発芽率 xy 年数(x) 発 芽 率 (y) 1 93 93 2 87 174 3 76 228 4 70 280 5 62 310 6 45 270 7 40 280 8 32 256 9 25 225 10 10 100 540 2216 合計= 55 133 第 13 章 相関 N = 10 å [X - X ( Xの平均値)] N = 10 å [ Y - Y ( Y の平均値)] g = 2 = 82.5 × × × × × 平方和 2 = 6952 × × × × × 平方和 55 ´ 540 - 754 10 (絶対値) = = -0.9956 = 0.9956 757.32 82.5 ´ 6952 2216 - 相関係数の分布表(数表 13-1)から,データ数=10, DF は 8, P=0.01 値を読むと 0.765.したがって,計算値 0.9956 は 0.765 より大きいことから母相関係数が 0 であるとする帰無仮設を 1%水準で否定できる.2 つの変量 がお互いに無関係ならば母相関係数 ρ=0 となる.標本数が 10 の場合は DF(自由度)8 で吟味する. DF(N-2) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 数表 13-1. 相関係数の分布表 5% 1% DF(N-2) 5% 0.997 1.000 17 0.456 0.950 0.990 18 0.444 0.878 0.959 19 0.433 0.811 0.917 20 0.423 0.754 0.874 21 0.413 0.707 0.834 22 0.404 0.666 0.798 23 0.396 24 0.388 0.632 0.765 0.602 0.735 25 0.381 0.576 0.708 26 0.374 0.553 0.684 27 0.367 0.532 0.661 28 0.361 0.514 0.641 29 0.355 0.497 0.623 30 0.349 0.482 0.606 35 0.325 0.468 0.590 40 0.304 標本数が 10 の場合は DF(自由度)8 で吟味する. SAS JMP による解析結果を下記に示した. 134 1% 0.575 0.561 0.549 0.537 0.526 0.515 0.505 0.496 0.487 0.478 0.470 0.463 0.456 0.449 0.418 0.393 第 13 章 相関 因果関係がある胸囲と肺活量について吟味する.この例は単回帰分析にも応用できる. 中学 1 年生 10 名の健康診断測定値のうち,胸囲と肺活量を表 3 に示した.相関係数を求める. 生徒番号 胸囲 肺活量 1 71 1850 表 3. 中学 1 年生の胸囲(cm)と肺活量(cc) 2 3 4 5 6 7 68 72 72 90 72 77 2000 2100 1700 2800 2200 2150 8 76 2400 9 84 2300 10 77 2600 SAS JMP による解析結果を下記に示した. 相関係数は 0.7939 (P<0.01)となり肺活量と胸囲には相関関係が認められる. 【引用文献および引用資料】 慶応 SFC データ分析教育グループ編(1999):データ分析入門,慶應義塾大学出版会,東京. 柴田寛三(1970):生物統計学講義,pp75-81,東京農業大学. 135