...

データ解析 第3回,代表値・散布図 - Akihiro SAITO`s Laboratory

by user

on
Category: Documents
13

views

Report

Comments

Transcript

データ解析 第3回,代表値・散布図 - Akihiro SAITO`s Laboratory
データ解析
第4回,2変量データの記述
北九州市立大学経済学部
齋藤 朗宏
Copyright (C) 2007-2010 Akihiro Saito’s Lab. All Rights Reserved.
今日の内容
¾ 散布図
¾ 共分散と相関
¾ 分割表
¾ 実習
1変量から2変量へ
¾ 1変数のデータを要約する場合,平均,標準偏
差等を使用すればよかった.
¾ 2変数になった場合でも,平均や標準偏差等を
使用する点はかわらない.
¾ ただし,それに加えて「変数Aと変数Bの関係
性」が興味の対象となる.
¾ e.g.
z 身長が高い人は体重も重いことが多い(一方が増え
ると他方も増える).
z 年齢が上がると,テレビの視聴時間が短くなること
が多い(一方が増えると他方は減る).
「関係性」の強さとは?
¾ 一方が増えるとき他方も増える(減る)という
関係が,厳密になればなるほど関係性は強く,
一方が増えても他方があまり増えない(減らな
い)とき,関係性は弱いと言える.
散布図
¾ 主に量的尺度間の関係を見たい場合に用いられ
る.
「関係性」の強さとは?
¾ 一方が増えるとき他方も増える(減る)という
関係が,厳密になればなるほど関係性は強く,
一方が増えても他方があまり増えない(減らな
い)とき,関係性は弱いと言える.
¾ 散布図で言うならば,直線的になればなるほど
関係性は強く,円に近づけば近づく程関係性は
弱いと考えられる.
Excelを用いた散布図の作成(1)
Excelを用いた散布図の作成(2)
関係性がある場合とない場合
110
100
90
80
系列1
70
60
50
40
30
10
12
14
16
18
205
20
22
24
195
185
系列1
175
165
155
145
10
12
14
16
18
20
22
24
共分散
¾ 一方の値が大きくなると他方も大きく(小さ
く)なるというような,関係性の指標に共分散
がある.
共分散の意味
¾ 関係性が強いときに,
の値の絶対値も大きくなる.
ピアソンの積率相関係数
¾ 共分散を双方の標準偏差で割ることで,相関係
数の範囲は-1から1の間に調整される.
ピアソンの積率相関係数
¾ 相関係数は,範囲が
であり,
正に大きければ強い正の相関(一方が大きい値
をとる場合,他方も大きい値を取りやすい),
負に大きければ強い負の相関(一方が大きい値
をとる場合,他方は小さい値を取りやすい)で
ある.0に近い場合には,相関がないと考える
(一方の値の大きさは他方に影響しない).
Excelによる相関係数の算出(1)
¾ 関数を用いても求められるが,分析ツールを用
いてもいい.
Excelによる相関係数の算出(2)
¾ 分析ツールは,3変数以上の相関を同時に求め
るときに有用.尚,共分散を求める場合にも,
関数,分析ツール双方が使用可能で,使用法も
相関を求める場合とほぼ同じである.
強い正の相関
弱い正の相関
無相関
弱い負の相関
強い負の相関
相関係数の注意点
30
25
20
15
10
5
0
-6
-4
-2
0
2
4
6
¾ このデータには,
という明確な関連
性があるが,相関係数を算出すると
となる.この問題は,相関係数が直線的(一次
関数的)な関係性しか見出せないため起こる.
相関係数の注意点
1.5
120
1
100
80
0.5
60
0
-2
-1
0
1
40
2
-0.5
20
-1
0
-20
-1.5
0
20
40
60
80
100
120
-20
¾ 左の散布図のデータでは,相関は0となるが,
このデータに外れ値を一箇所加えるだけで,相
関はほぼ1となってしまう.このように,相関
係数は外れ値に弱い点に注意が必要である.
質的データの記述
¾ 前述の散布図,相関係数は,量的なデータの場
合に用いられる.名義変数(性別,職業など)
のような質的なデータ間の関係を見たい場合に
は,分割表(クロス集計表)を用いることが多
い.
¾ 量的尺度,質的尺度については,2回目の資料
を参照のこと.
分割表
EXCELによる分割表の作成
¾ 分割表は,「ピボットテーブル」を用いて作成
する.ピボットテーブルでは,先頭行はラベル
として扱われるので注意すること.
EXCELによる分割表の作成
EXCELによる分割表の作成
分割表
並び替え
分割表
「地域」と「呼称」,どちらを
ドラッグ&ドロップしてもいい
分割表,完成
ピボットテーブルの参照は難しいので注意.
注意点
ここに注目.ここがデー
タの個数になっていない
場合には,「フィールド
の設定」で,データの個
数に設定すること.
度数分布表
¾ 尚,一変数でピボットテーブルを作成すれば,
度数分布表になる.
実習
¾ 「利き手の幅」と「身長」の散布図を描き,共
分散と相関係数を計算せよ.共分散と相関係数
については,関数を用いた場合と,分析ツール
を用いた場合の双方の結果を求め,結果が一致
しているか確認すること.
¾ 「喫煙経験の有無」と「成人か否か」のデータ
について,分割表を作成し論評せよ.
Fly UP