Comments
Description
Transcript
基礎編テキスト(PDF)
【1】SPSS で使えるデータにする Task 1-1. エクセルで作成したデータセットを SPSS に取り込む 1. SPSS を起動する 2. 「実行する作業」を選択できるウィンドウが表示されますが、「キャンセル」 3. ファイル(E) → 開く(O) → データ(A) 4. ファイルの種類(T)を「Excel」にして、本実習で使うエクセルファイルを開く http://www.med.nagoya-u.ac.jp/~koei/ e-learning 用の Web ページ からダウンロードし、適当な 場所に保存、そこから開いて ください。 5. 「データの最初の行から変数名を読み込む」にチェックが付いていることを確かめ、「続行」を クリックする。 6. データファイルを名前を付けて保存をしましょう。(ファイル→名前を付けて保存) 1 Task 1-2. 変数ビューで、ラベルと値の作成 1. 変数ビューをクリック !変数ビューとデータビューの切り替えタブは画面の 左下に配置されています。 !SPSS データエディタには、データを一覧できる「デ ータビュー」と変数の形式を表す「変数ビュー」の二 画面がある 2. 各変数の「ラベル」のセルにそれぞれ性、年齢、身長、体重、収縮期血圧、拡張期血圧を入 力する。 【一口メモ】 !変数のことを SPSS では variable と呼びます。 !変数ビューで「名前」に記載されているものが「変数名」で variable name と呼びます。 !「ラベル」は variable label、「値」は value label と呼んでいます。 !value というのは、その変数がとる値のことで、value label が有効なのはカテゴリ変数の場合です。 3. 変数名(名前)が sex(ラベルは性別と上記 2.で定義しました)の「値」のセル内部をクリックす ると出現する右端のグレー部分 をクリック、「値(U)」に半角の 1、「ラベル(L)」に男性(ある いは men、male 等)を入力、「追加(A)」をクリック、さらに続けて「値(U)」に半角の 2、「ラベル (L)」に女性(あるいは women、female 等)を入力、「追加(A)」をクリック、OK をクリック → ☞解析をしていると、変数がどんどん増えていってしまい、何がなんだか分からなくなってしまうことがあり ます。面倒でもラベルと値はしっかりと付けておきましょう。 2 【2】変数を変換する Task 2-1. 身長と体重から新しい変数 BMI を作成する。 1. 「 変 換 」 タ ブ を ク リ ッ ク す る と 下 に 現 れ る メ ニ ュ ー か ら 「 変 数 の 計 算 (C) 」 を 選 択 2. 「目標変数(T)」に bmi、「数式(E)」に wt/hei/hei*10000 を入力 (変数リストから選択して、 で枠の中に送ることもできる)、OK をクリック ☞ BMI は肥満の指標で、体重(kg)/身長(m)2 の式で計算します。 ☞ 単位を合わせるために、上式では最後に 10000(100×100)倍しています。 【一口メモ】 ! 関数を用いてある変数を対数変換したりするなどの作業も「変数の計算」から行います。 利用できる関数は「関数グループ」から参照できます。 ! なお、個々の関数の意味は「ヘルプ」をクリックすることで参照できます。! 例えば、「目標変数」を obesity (肥満)とし、「数式」に bmi>=25 と入力すると、bmi が 25kg/m2 以上の者(数式が該当する者)に 1、 25kg/m2 未満の者(該当しない者)には 0 が割り振られた変数が作成されます。なお、bmi が欠損値の者 は、新しい obesity の値も欠損値となります。 3 Task 2-2. BMI を 18.5 未満、18.5 以上 25 未満、25 以上の 3 群に分類する。 1. 「変換」タブから「他の変数への値の再割り当て(R)」を選択 2. bmi を選択して をクリック、「変数先変数の名前(N)」の枠の中に bmi3g、「ラベル」の中に BMI3 群と入力して「変更(H)」をクリック 3. 「今までの値と新しい値(O)」をクリック ① 今までの値・範囲(E)に 25(から最大値)と入力、新しい値・値(L)に 3 と入力、追加をクリック ② 今までの値・範囲(N)に 18.5(から)と 25 を入力、新しい値・値(L)に 2 と入力、追加 ③ 今までの値・範囲(G)に(最小値から)18.5 と入力、新しい値・値(L)に 1 と入力、追加 ! SPSS では、定義した順に 変数を変換していきます ので、「以上・以下」や「未 満」を使い分けるために、 この順に定義していくこと が重要です。 4. 続行をクリック、画面が戻り、OK をクリック ☞別の変数を再割り当てしたい時は、前のものを選択し、 で元に戻す。「今までの値と新しい値」で は、前に指定したものを選択し、除去をクリックする。あるいは「戻す」をクリックすれば、全て初期状態に 戻ります。 ☞解析をしていると、変数がどんどん増えていってしまい、何がなんだか分からなくなってしまうことがあり ます。面倒でもラベルと値はしっかりと付けておきましょう。 4 【3】統計解析 Task 3-1. 年齢の度数分布表を作成する。 1. 分析→記述統計→度数分布表 2. 変数の枠の中へ「性別」、「年齢」、「BMI3 群」を で移動し、OK をクリック ! 変数ボックスの横の「統計量(S)」や 「図表(C)」をクリックすると、一例とし て平均値やヒストグラムなども同時に 表示させることができます 3. 結果は「出力 1-SPSS ビューア」に表示されます。以後、計算結果は「出力 1-SPSS ビューア」 に追加されていきます。 ! 必要のない結果は、選択して Delete すると消すことができます。 ! また、後から参照しやすいように、名 前を変更したり、テキストを追加するこ とができます。 4. 出力 1 に名前を付けて保存をしましょう。(ファイル→名前を付けて保存) 5 Task 3-2. 年齢、身長、体重、収縮期血圧、拡張期血圧の基礎統計量(平均値、標準偏差、最 大値、最小値など)を計算する。 1. 分析→記述統計→記述統計量 ☞ 「分析」や「グラフ」のタブ( )は出力ファイル(SPSS ビューア)からも、データファイル(デ ータビューあるいは変数ビューからもどちらからも使用できます。どちらも同じです。 2. 変数の枠の中へ年齢、身長、体重、収縮期血圧、拡張期血圧、body mass index を移動し、 OK をクリック 3. ☞ 出力に表示された表をダブルクリックすると、画面が変わり、表の形式などを変えることができます。 Task 3-3. 年齢、BMI、収縮期血圧、拡張期血圧の相関係数を求める。 1. 分析→相関→2 変量 2. 年齢、収縮期血圧、拡張期血圧、body mass index を変数の枠の中へ移動し、OK をクリック ☞ デフォルトでは Pearson の相関係数のみが計算されます。Spearman の順位相関係数(ノンパラメトリック) を求めたい場合は、該当箇所のチェックボックスをオンにします。 6 Task 3-4. BMI と収縮期血圧の散布図を作成する。 1. グラフ→レガシーダイアログ→散布図/ドット 2. 単純な散布図→定義 Ver.14 以前にはレガシーダイ アログというのはなく、 「グラ フ」から直接散布図が選択で きます。 3. Y 軸に収縮期血圧、X 軸に BMI を移動し、OK をクリック (本来、散布図では X 軸、Y 軸と呼ばず、それぞれ横軸、縦軸と言います。) ☞ 上図・右の出力は「マーカーの設定」に性別を入れ、男女を同一散布図内で識別可能な状態で表示したも の。色や凡例はデータエディタ(出力ファイル中の図をダブルクリックすると自動的に開く)で編集してあります。 7 Task 3-5. BMI3 群(18.5 未満、18.5 以上 25 未満、25 以上)において、それぞれの収縮期血圧 の平均値を求める。 1. 分析→平均の比較→グループの平均 2. 従属変数に収縮期血圧、独立変数に BMI3 群を移動し、OK をクリック ☞ オプションによって、独立変数(BMI3 群) の各群における従属変数(収縮期血圧)の中 央値、最大値、最小値などを表示することもで きる。また後述するように、平均値の差の検定 である分散分析を実行することも可能。 ☞ 左の出力はオプションで中央値、最大値、 最小値を選択した結果。検定(分散分析)につ いては後述(Task 3-8)。 ☞ 同様の出力は「記述統計」→「探索的」か らも可能。 8 課題 3-6. 男女の間で収縮期血圧の平均値に差があるかどうかを検定する(二群間の平均値の 差の検定)。 1. 分析→平均の比較→独立したサンプルの T 検定 2. 「検定変数」の枠へ収縮期血圧、グループ化変数の枠へ性別を移動 3. (次に、グループ化変数の枠の中に入った sex という変数のどの値と値の比較をするのかを定義します。) グループの定義をクリックし、グループ(1)へ 1、グループ(2)へ 2 を入力して続行、OK をクリ ック ! 標準誤差=標準偏差/(N)1/2 で定義 されるため、N の少ない女性でより大き な値となっています。 ! t 検定や分散分析では独立変数(ここでは BMI3 群)の各群における従属変数(収縮期血圧)の平均値の比較と 呼ばれていますが、実際には平均値を代表値とする従属変数の各群における分布を比較しています。したがっ て、その分布が著しく正規分布から逸脱していないことや、各群によって分散の大きさが大きくことならないことを 前提としています。上記の出力の「等分散性のための Levene の検定」の有意確率が有意(P<0.05)の場合、等分 散ではないと判断されます。2 つの母平均の差の検定は「等分散を仮定する」ものと「等分散を仮定しない」ものの 2 つの計算結果が表示されていますが、Levene の検定が有意でなければ等分散を仮定する(上段)の結果に注 目すればいいことになります。 9 Task 3-7. 性と BMI3 群のクロス集計表を作成し、カイ二乗検定を行い、両者に関連があるかど うかを検定する。 1. 分析→記述統計→クロス集計表 2. 行に性、列に BMI3 群を移動 3. 右上の「統計量」をクリックし、「統計量の指定」画面左上のカイ2乗をクリック、続行 4. パーセンテージを表示する場合は、セルをクリックし、左中のパーセンテージを選択する。行 の合計を分母とするか、列の合計を分母とするかなど目的に応じて行や列を選択し、続行。 5. OK をクリック ! クロス表で、行(Row)は横、列(Column)は 縦です。 ! 上図右の「セル表示の設定」で指定した、「行 のパーセンテージ」とは右表の「性別の%」のこ とで、男性あるいは女性を 100%とした場合の BMI3 群のパーセンテージが表示されます。 ! Pearson のカイ 2 乗の「漸近有意確率(両側) が検定結果。尤度比のカイ 2 乗も同等の検定 ! 2×2 表では Fisher の直接法が計算される。 ! 行、列のどちらも量的変数の場合、カイ 2 乗は 線型と線型による連関検定になる。 10 Task 3-8. BMI3 群間で収縮期血圧に差があるかどうか、一元配置分散分析で検定する。 方法 1: (SPSS の)本使用法ではある一因子に対して同時に複数の従属変数を検定することができる。 1. 分析→平均の比較→一元配置分散分析 2. 従属変数リストの枠に収縮期血圧を、因子の枠に BMI3群を移動して、OK をクリック 3. 「対比」、「その後の検定」、「オプション」について ① 対比: 独立変数と従属変数の間に線形の関連などの有無を調べる ! ここでは「多項式」をチェックし、次数として「一次」を選択する(SPSS の デフォルトが一次)。 ② その後の検定: 多重比較 ! 多重比較には種々の方法が あるが、ここでは Bonferroni 法 と Tukey 法を選択する。 ! 前者は考え方が単純で理解 しやすいが、有意差がでにくい とされている。 ③ オプション: 記述統計量の計算(Task 3-5 と類似)、Levene の等分散性の検定など 11 方法 2: この一変量一般線型モデルを用いて、二元配置分散分析や共分散分析へと拡張できる (実践編 1 で学習します。) 1. 分析→一般線形モデル→一変量 Ver.15 からより拡張性の高い手法である一般化線形モ デルが追加されていますが、今回は一般線型モデルを用 いることとします。 2. 従属変数に収縮期血圧を、固定因子に BMI3群を移動し、OK をクリック 方法 1 と同様、「その後の検定」から多重比較法を選択したり、「オプション」から記述統計量の計算や等分散性 の検定を実行させることができる。 12 Task 3-9. 性、年齢、BMI から収縮期血圧を予測する。性、年齢、BMI と収縮期血圧との関連 について重回帰分析を用いて検定する。(多変量解析) 1. 分析→回帰→線型 2. 従属変数の枠へ収縮期血圧を、独立変数の枠へ性別、年齢、BMI を移動し、OK をクリック ! R2 乗は決定係数と呼ばれ、回帰モデルの 従属変数に対する影響力を示す。この例で はモデルによって収縮期血圧の個人間差の 13.9%が説明されることが示されている。 ! モデルの統計学的な有意性を検定し ている。従属変数のばらつき(分散)が どの程度モデルによって説明されてい るかを分散分析によって検定する。 !非標準化係数 B から、収縮期血 圧=78.582-5.700×sex+0.530 ×年齢+1.259×BMI という予測 式ができる。変数間で影響力の大 きさを比較するには標準化係数ベ ータ(β)の絶対値を用いる。 13 練習問題 問題 1. (1)30 歳代、40 歳代、50 歳代、60 歳代の4つの年齢階級を作成し、年齢階級ごとの収縮期血圧 の平均値を算出せよ。 (2)4つの年齢階級の間に、収縮期血圧に差があるかどうか検定せよ。 問題 2 性、年齢、BMI から、平均血圧値を予測する式を作成せよ。ただし、平均血圧=(収縮期血圧+ 2×拡張期血圧)/3 として計算せよ。 参考図書 SPSS でやさしく学ぶ統計解析 第 2 版、SPSS でやさしく学ぶ多変量解析 第 2 版、SPSS によ る分散分析と多重比較の手順 第 2 版、SPSS による多変量データ解析の手順、SPSS による医 学・歯学・薬学のための統計解析など多数あります。何れも単なるマニュアル本ではなく、医学研 究に必要十分な統計の知識も身につけることができます。 例えば、http://www.amazon.co.jp/exec/obidos/ASIN/4489006705/spssjapan-22 14