Comments
Description
Transcript
教育・心理系研究のためのデータ分析入門 §2
異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 報告者:Y.T. & Y.H. 教育・心理系研究のためのデータ分析入門 第2章 基本統計 SPSS を使ったさまざまなデータの分析手法の紹介 SPSS の基本操作方法 データ処理を行う前に抑えておくべき統計の基礎知識の解説 §2-1 SPSS を始める前に 2-1-1 SPSS へのデータ入力 (1) [データビュー]でデータを直接入力する ① SPSS を起動→ダイアログボックス(図 2.1) →キャンセル or[データを入力(T)]にチェックを入れ,OK をクリック ②[データエディタ] (図 2.2) : [データビュー(D)]と[変数ビュー(V) ] (画面左下のタブで切り替える) ③ 得点データなどを直接手入力 → 横1列:ケース(case) 1人のデータが入る 縦1列:変数(variable) (2)Excel データのインポート1:ドラッグ・アンド・ドロップ ① Excel データ[技能テスト.xls]を適当な場所に保存 (例)デスクトップ上 ②[技能テスト.xls]のアイコンを,SPSS のショートカット上か, 起動させて開いたデータエディタ上に,引きずって離す ③[Excel データソースを開く] (図 2.3)が表示される →[ワークシート]のプルダウンメニューから適切なシート名を選択 ④[データの最初の行から変数名を読み込む]にチェック→ OK をクリック ⑤ データのインポートが完了したら,適当な名前をつけて SPSS データを保存 (3)Excel データのインポート2:メニューを使ってファイルを開く ① SPSS を起動 ② 図 2.1(p.15 参照)の[実行する作業]からキャンセルを選択 ③ データエディタのメニューから[ファイル(F)]→[開く(O) ]→[データ(A) ]と進む ④[データを開く]が表示される→[ファイルの種類]から[*.xls, *.xlsx, *.xlsm]を選択 → 開きたいファイルを指定 → 開く(O)をクリック(p.16 の図 2.4 参照) ⑤[Excel データソースを開く] (図 2.3)が表示される → これ以降の手順はファイルをドラッグ・アンド・ドロップする方法と同じ。 1 異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 2-1-2 報告者:Y.T. & Y.H. 「変数ビュー」で変数を設定する 画面下の[変数ビュー(V) ]のタブをクリック(p.17 の図 2.5 参照) →画面上に①~⑩の設定項目→適宜,設定。 (変更の必要がない場合,初期設定のまま) ①[名前]:変数名をつける(数字を最初につける場合は全角にする) (例)番号,性別,得点 ②[型]:A.B,C など文字でデータを入力する場合は,[数値]→ … という順にクリック →[変数の型]のダイアログボックス(図 2.6)を開く→[文字列(R)]を選択→OK をクリック ③[幅]:セルの右端をクリック→…をクリック→調整 ④[小数桁数] :セルの右端をクリック→…をクリック→調整 ⑤[ラベル] :それぞれの変数の[名前]に詳しい説明をつけたい場合に設定。 (例)3 番目の変数の[ラベル]に[技能テスト]と入力。 →データ分析後の出力でこのラベルが表示される。 ⑥[値]:変数のカテゴリの定義(グループ名)を設定。 (p.17 の図 2.7 値ラベル 参照) (例) [性別]に関して[女性=0,男性=1]と設定する場合。 2 番目の変数の行の[値]→ …とクリック。→[値ラベル] (図 2.7)が表示される。 →[値(U) ]に「0」 , [ラベル(L)]に「女性」と入力。→ →「男性」も同様に入力して,追加(A)をクリック。→ 追加(A)をクリック。 OK をクリック。 ⇒ツールバーにある[値ラベル]のアイコンをクリックすれば, 0,1 の数値が「女性」 「男性」のラベルの表示に変わる。 ⑦[欠損値] :欠損値(missing value)とは,データが欠落している部分の値を意味する。 [データビュー(D) ]で欠損値部分が空欄 →欠損値を除外して分析が進められるため,通常,設定をする必要はない。 欠損値の種類を区別する場合には,設定が必要。 3 種類まで任意の数値で定めておくことができる。 (図 2.8) 設定する場合,前述の[値ラベル]で, [99]は「未回答」などと定義しておく。 (例)アンケート調査などで 未回答だった→「99」 明らかに無効な回答であった→「88」 ⑧[列]: [データビュー(D) ]の列の幅を設定できる。 ⑨[配置]: [データビュー(D) ]のセルに入力されたデータの配置を, 右寄せ,左寄せ,中央の 3 種類から選んで設定できる。 ⑩[尺度]:変数の尺度を[名義(N)] [順序(O) ] [スケール(S) ]の 3 種類から選んで設定。 間隔尺度と比較尺度データは[スケール(S)]にする。(2-1-4 参照) 2-1-3 SPSS の便利なデータ加工機能 SPSS では,データを加工することで分析の手間が省ける便利なツールがあり,そのほとんどが, メニューの[データ(D) ]または[変換(T)]に入っている(図 2.9) 。 (1)ファイルの分割:データセットをいくつかのグループに分割しておく機能。 → 一度に各グループの分析が可能になる。 (例)データを上位群,中位群,下位群に分けて同時に分析を行う場合などに使用。 (第 5 章 5-2-5 で使用) 2 異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 報告者:Y.T. & Y.H. (2)ケースの選択:データセットのある特定のケースだけを分析したい場合に使用。 (例)あるファイルで男性[1]だけを選択する。 ①図 2.9 から, [データ(D) ]→[ケースの選択(S)]と進む。 ②図 2.10 の画面下の[IF 条件が満たされるケース(C) ]を選択。 →[出力]が[選択されなかったケースを分析から除外(F) ]になっていることを確認。 → IF…をクリック。 ③図 2.11 の左の欄から,操作したい変数である[性別]を右の BOX に移す。 →下の計算パッドから選ぶか直接入力して,条件式を完成させる。 (例)[性別=1] ④ 続行 → OK クリックする。 ⑤データビュー(図 2.12)を見ると選択した性別以外のデータにはスラッシュが入り, 以後の分析から除外される。 ※この制限を解除したい場合は,図 2.12 最終列の[filter₋$]を削除する。 (3)データのコーティング:データの値を別の値に再割り当てし, 元データをグループに分ける場合に使用する(第 8 章 8-4-2 で使用)。 (4)変数の計算:データの値を再計算または変換することができる。 [変換(T) ]→[変数の計算(C)]で図 2.11 の画面を表示させる。 →直接入力または[関数グループ(G)]を指定。→[関数と特殊変数(F) ]から計算方法を選ぶ。 選択すると真ん中のボックスに説明が表示される(第 9 章 9-3-1 で使用)。 2-1-4 変数の尺度 データ入力が完了すると,次に分析へ進む。 (2-1-2⑩のデータの尺度の概念を把握しておく必要がある。統計手法によって,変数として扱えるデータの 尺度の種類に制限があるため。 ) 尺度は測定レベルによって,名義尺度・順序尺度・間隔尺度・比率尺度の 4 つに分けられ,後者になるほど より詳細な情報を含んでいる(p.20 図 2.13 参照) 。 ①名義尺度(nominal scale) :カテゴリを区別するために用いられる尺度。 (例)性別,血液型 名義尺度のカテゴリが 2 つしかない場合は,2 値データ(binary date)と呼ばれる。 ②順序尺度(ordinal scale) :成績順位やアンケートの段階評価の回答など,データの順位や大小の関係を示 すために用いられる尺度。この場合,数値は順位の上下の意味をもつが,順位の 差によって生じる間隔は一定ではない。四則計算はできないが,便宜上,平均な どを算出できる。(例)マラソンの順位 ③間隔尺度(interval scale) :順位情報に加えて,間隔の差の意味ももちあわせた尺度。 (例)テストの点数,温度 ④比率尺度(ratio scale) :間隔尺度の概念に加えて,基準値の 0(ゼロ)という原点が存在する尺度。 (例)身長,体重,年齢,金額 3 異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 報告者:Y.T. & Y.H. §2-2 記述統計と推測統計 ■ 記述統計:統計量を求めて標本の示す傾向や特性を表したもの ■ 推測統計:標本を抽出した集団全体にあたる母集団の傾向や特性を推測する統計的分析 ※ 母集団と標本の関係→p.21 の図 2.14 参照 2-2-1 記述統計量 データを要約する際に使用される主な記述統計量 ① 代表値(central tendency)・・・データの中央傾向を知るためのもの ② 散布度(dispersion)・・・データの散らばりを知るためのもの この中でも平均と標準偏差がよく利用される。 ■ 標本統計量(sample statistics)・・・標本から求める記述統計量 ■ 母数またはパラメータ(parameter)・・・母集団における値 2-2-2 標準化得点(z 値)と偏差値(Z 値) ■ z 得点または z 値(z-score, z-value) ・・・2つのテストの平均や得点が異なる場合に、それぞれのデータの平均が 0、標準偏差が 1 となるよ うに標準化した得点 ■ Z 値または Z 得点(Z-score)、偏差値 ・・・z 値を平均値 50、標準偏差 10 となるような標準値に変換したもの 2-2-3 正規分布と標準正規分布 ■ 度数分布・・・データをいくつかの階級に分け、その階級の中にあるデータの個数を数 えた頻度分布 ←この頻度分布を棒グラフ状にしたものをヒストグラムと呼ぶ ■ 正規分布・・・平均を中心に左右対称に広がったベル・カーブ状であるサンプルのサン プルサイズを大きくし、その形状に近づけたもの ←この分布の平均を 0、標準偏差を 1 に変換して標準化したものを標準 正規分布と呼ぶ ■ 正規性(normality)・・・データが正規分布に従っているのかということ →正規性を調べる方法 コルモゴロフ・スミルノフの検定 シャピロ・ウィルクの検定 2-2-4 平均をモデルにした統計 どのような統計手法においても、モデルがどの程度正確にデータを説明できるかを以下の式で検討できる。 (式) observed(観測値)= model(モデル) + error(誤差) ・平均をモデルにした統計の場合 ・・・観測値=標本平均+標本平均からのズレ(誤差) 4 異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 報告者:Y.T. & Y.H. このモデル(平均)の当てはまりを示す指標として、分散や標準偏差が挙げられる。 2-2-5 標準誤差と信頼区間 ■ 標準誤差・・・母集団からある数の標本を選ぶとき、組み合わせによって統計量がどの 程度ばらつくかを、全ての組み合わせについての標準偏差で表したもの ■ 信頼区間・・・母平均(母数)が含まれる範囲を推定→区間推定 §2-3 記述統計量と正規性の検定 2-3-1 記述統計量の算出方法 【操作手順】 (1)2-1-1 で使用した 83 名の[技能テスト.xls]データを SPSS にインポートする。 (2)メニューから, [分析(A) ]→[記述統計(E) ]→[探索的(E)]を選択する(図 2.18) 。 (3) [探索的] (図 2.19)画面で[得点]を[従属変数(D) ]の枠の中へ移動させる。 → 統計量(S)をクリックする。 ※[性別]を[因子(F) ]に入れると,男女別の分析がされる。 (4)図 2.20 の[探索的分析:統計]画面が表示される。 →[記述統計量(D) ]と[外れ値(O)]にチェック。→ 続行をクリック。 (5)図 2.19 で作図(T)をクリック。 →図 2.21 の[探索的分析:作図]画面右の[ヒストグラム(H)]と画面下の[正規性の検定とプロッ ト(O) ]にチェックを入れる。 → 2-3-2 続行をクリックして図 2.19 に戻り,OK をクリックする。 出力結果の見方 ①[統計記述](図 2.22) :さまざまな基本的統計量が出力される。 [5%トリム平均] :データの中で大きい値 5%と小さい値 5%を除外した, 残り 90%のデータの平均値である。 ※論文では,このうち,サンプルサイズ(N),最大数(Full),平均(M),標準 偏差(SD)などが報告される。 ②[正規性の検定] (図 2.23) :コルモゴロフ・スミルノフの検定とシャピロ・ウィルクの検定の[有意確率] (第 3 章参照)が 0.5 より大きくなっている。 →正規性が満たされているとみなすことができる。 ③[ヒストグラム](図 2.24) : [正規性の検定とプロット]を指定したため,ヒストグラムが出力される。 (グラフ左端に得点の低いデータが少し広がっているが,概ね正規分布していることがわかる。 ) ④[箱ひげ図](図 2.25) : [探索的(E) ]分析では,箱の上下にひげが伸びた図が出力される。 ひげの上端=データの最大値 ひげの下端=データの最小値 箱ひげ図の優れた点:外れ値(outlier)を特定しやすい。 箱の長さの 1.5 倍以上 3 倍以下の範囲内のケース番号 ○ 箱の長さの 3 倍より大きい値⇒ 「極地」として * で表示される。 5 異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 2-3-3 報告者:Y.T. & Y.H. 外れ値のとり扱い 外れ値は,結果を不正確にする恐れがあるため慎重に対処する。 サンプルサイズが小さい場合は平均が外れ値に引っ張られ,標準偏差が不当に大きくなるので注意が必要。 (1)外れ値の割合を考慮する データの z 値を算出し,どの程度の割合でその範囲を超えたケースがあるかを見てから対処。 (2)そのケースをはずす 他のデータとは明らかに異なる母集団に属するものだという正当な理由がある場合に,外れ値を削 除する。 (3)データを変換する 変数のデータを全て変換(transformation)し,正規分布に近づける方法。 外れ値だけでなく,変数データが歪んでおり等分散性(第 3 章 3-2-1 参照)が満たされない場合にも 使用される。 (4)外れ値の値を変える データの変換がうまくいかない場合,生データを使って歪んだ結果になるよりは少しは妥当な結果に なるという考え方のもとで用いられる。 ①外れ値でない値の中で,最も高い(低い)値より 1 つ高い(低い)値にする。 (例)データセット内に,外れ値でない最大値が 122 の場合, 外れ値を 1 つ高い値の 123 に変更する。 ②z 値±3.29 に相当する生データの値にする。 z 値に変換したときに±3.29 より超えた値であれば, 0.1%の確率で起こるほどの外れ値と考えられる。 →z に変換して超えた値は,すべて z 値が±3.29 に相当する変換前の値にする。 ③平均±2SD の値にする:上記②より,もう少し値を修正する場合に用いる。 (5)ノンパラメトリック検定を使用する ノンパラメトリック検定は,正規性や外れ値に影響されにくい。 →それぞれのパラメトリック検定の代わりに,その検定方法に相当するノンパラメトリック検定を使用する。 (本書ではノンパラメトリックの方法に関してはあまり触れない。) 6 異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 報告者:Y.T. & Y.H. 異文化言語教育評価論 IA 2014 年 4 月 23 日(水)授業後レポート 担当:Y. T. データの尺度の概念について 竹原(2007)によるとデータの尺度は以下のように解釈できる。 [尺度]は[数字をはかる物差し]と考える。わたしたちの身の回りにはさまざまな数字 があふれているが,すべてが同じ意味を持っているわけではない。数字は,統計上では, すべてが同じカテゴリに属するのではなく,その性質に応じて4つのタイプに分類される。 名義尺度と順序尺度は質的データであり,間隔尺度と比率尺度は量的データである。 以下それぞれの尺度について例を取り上げながら理解を深めていく。 ①名義尺度 カテゴリを区別するために用いられる尺度(平井,2012) 。言い換えれば,ラベルとしての意味し か持たない尺度であり,演算や大小関係や優劣関係も表現できない(竹原,2007) 。 (例)性別,血液型,出身地,所属クラスなど ②順序尺度 データの順位や大小の関係を示すために用いられる尺度で,四則計算はできないが,便宜上,平均 などを算出することがある(平井,2012) 。別名, [順位尺度]とも呼ばれる(竹原,2007) 。 (例)マラソンの順位,リレーの順位 竹原(2009)の説明では,リレーの順番を例にとり説明している。それによると,リレーで は 1 着から最下位の人まで早い順に順番をつけることができるが,この数字は[名義尺度] のような,単なるラベルではない。優劣や大小の決定に欠かせない,順番をつけるという重 要な役割がある。しかし,単に順番をつけるだけで,その順番の間の間隔は保障されていな く,間隔が違うこともある。したがって,1 着の人は 3 着の人の 3 倍優れているとは言えな い。なぜなら,リレーで 1 着の人のタイムが 30 秒,2 着の人のタイムが 33 秒,3 着の人の タイムが 35 秒だった場合,1 着のタイム(30 秒)は 3 着のタイム(35 秒)の 3 倍優れてい るとは言えない(竹原,2009) 。 [順序尺度]では, [1 着]+[2 着]+[3 着]=[4 着] という式が意味を持たないように,演算は意味を持たない(竹原,2009) 。 ③間隔尺度 順位の情報に加えて,間隔の差の意味も持ち合わせた尺度(平井,2012) 。 間隔尺度では[足し算]と[引き算]が可能(竹原,2007) 。 (例)テストの点数,温度 温度計の目盛は,たいてい 1 度単位でついている。この 1 度という目盛りは十番通りに並ん でいるが, [順序尺度]のリレーの順番と違って,その間隔は等しい。さらに温度は[摂氏] と[華氏]の両方で表現できるが,双方の 0 度は全く違う意味を持つ。言い換えると,変換 ができることになり,基準となるゼロが存在しない,つまり[絶対ゼロ]が存在しないと言 える。 7 異文化言語教育評価論 IA 2014 年 4 月 23 日(水) 報告者:Y.T. & Y.H. ④比率尺度 間隔尺度の概念に加えて,基準値の 0(ゼロ)[絶対ゼロ]という原点が存在する尺度であり, 四則計算を行って意味をもつ尺度である(平井,2012) 。 別名, [比例尺度]とも呼ばれる(竹原,2007) 。 (例)身長,体重,年齢,金額,人数,グラム 金額が 0→文字通り全くお金がない 人数が 0→文字通り全く人がいない グラムが 0→文字通りグラムとして図るものが全く何もない 最後に,4 つのデータの尺度を大小や優劣をみることができるか,四則計算ができるか, その例を表でまとめる(竹原,2009) 。 尺度 名義 尺度 順序 尺度 間隔 尺度 足し 掛け 大小 算 算 優劣 引き 割り 算 算 × × × ○ × × ○ ○ × ○ ○ ○ 比率 尺度 例 性別, 血液型,出身地 マラソンの順位 人気ベスト 10 テストの点数 温度,偏差値 身長,金額, 反応速度 参考文献 平井明代『教育・心理系研究のためのデータ分析入門―理論と実践から学ぶ SPSS 活用法』東京図 書株式会社,2012 年,19 頁-21 頁 竹原卓真『SPSS のススメ1 2 要因の分散分析をすべてカバー』北大路書房,2007 年,72 頁-74 頁 8