Comments
Description
Transcript
目 次
目次 第 1 章 多重クロス表と偏相関係数 1 1.1 ポイント . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 擬似的な関係と媒介的な関係 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2.1 第 3 変数のコントロールと多重クロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.2 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 擬似関係、疑似無関係、交互作用効果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3.1 その他の場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3.2 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 多重クロス表分析と検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4.1 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.1 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.2 偏相関係数の検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.3 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 1.4 1.5 偏相関係数 第 2 章 3 つ以上の変数の因果関係 5 2.1 擬似的な連関の検討 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 媒介的な連関の検討 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3.1 対数の計算のおさらい . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3.2 対数の計算の練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3.3 尤度比基準の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3.4 尤度比基準計算練習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2 変数同時コントロール . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.1 2.3 2.4 尤度比基準 2.4.1 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.4.2 条件付き独立の検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4.3 期待度数の問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4.4 条件付き独立の練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 第 3 章 相関係数とガンマ 13 3.1 相関係数と周辺度数の分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2 ガンマ係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3 最大関連と完全関連 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3.1 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.2 相関係数とガンマをどう使い分けるか . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 i 3.3.3 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 4 章 多重クロス表分析から対数線形モデルへ 4.1 4.2 4.3 4.4 15 16 多重クロス表分析の問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.1.1 3 つ以上の変数の連関のパターンを簡潔に記述する方法の欠如 . . . . . . . . . . . . . . . 16 4.1.2 帰無仮説の棄却と言う考え方 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3 重クロス表のカイ二乗検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2.1 独立モデル {[1], [2], [3]} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2.2 1 変数独立モデル {[1,2], [3]} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.2.3 条件付独立モデル {[1,2], [2,3]} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2.4 対連関モデル {[1,2], [2,3], [3,1]} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2.5 飽和モデル {[1,2,3]} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2.6 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 モデルの選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.3.1 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 階層的対数線形モデルとは? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.4.1 セル度数を予測するモデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.4.2 パラメータの推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.4.3 交互作用項 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.4.4 パラメータの制約 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.4.5 モデルの階層性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.4.6 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.5 標準残差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.6 対数線形モデルの手続き . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.7 LEM の使い方 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.8 4 変数以上を使った階層的対数線形モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 第 5 章 繰り返し比例当てはめ法 5.1 5.2 29 “2 重” クロス表の場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.1.1 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 対連関モデルの期待度数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.2.1 31 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 6 章 セル/周辺度数が 0 のとき 32 6.1 “2 重” クロス表の場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 6.2 多重クロス表の場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 6.3 対数線形モデルにおける自由度の計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 6.3.1 ゼロセルを無視する場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 6.3.2 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 6.3.3 ゼロセルを考慮する場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 6.3.4 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 6.4 分析例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 6.5 先験的ゼロ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 6.5.1 ii 6.5.2 6.5.3 6.5.4 期待度数の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 応用例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 7 章 SPSS について 7.1 7.2 SPSS の起動 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 変数の定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 変数の型、幅、少数桁 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 7.4 7.5 7.6 データの入力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7 36 37 37 38 38 39 39 度数分布表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 欠損値の処理とラベル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.1 変数ラベル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 40 41 41 41 7.6.2 7.6.3 7.6.4 42 42 43 欠損値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 値ラベル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 欠損値の指定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ラベルと欠損値の確認 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 44 44 45 45 7.9.1 有意確率 . . . . . . . . . . . . . . . 7.9.2 Crosstabs シンタックス . . . . . . 7.9.3 多重クロス表 . . . . . . . . . . . . 7.9.4 欠損値の処理 . . . . . . . . . . . . 7.10 新しい変数の作成 . . . . . . . . . . . . . . 7.10.1 カテゴリの統合 . . . . . . . . . . . 7.10.2 recode シンタックス . . . . . . . . 7.11 欠損値の指定 . . . . . . . . . . . . . . . . 7.12 新しい変数の作成 . . . . . . . . . . . . . . 7.12.1 compute([変換 (T)][計算 (C)]) 7.12.2 do repeat シンタックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 46 46 46 47 47 48 49 49 49 49 7.12.3 if シンタックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.12.4 count ([変換][出現数の計算]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 7.13 練習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 7.8 7.9 . . . . . . . . . . 7.7.1 シンタックスの貼り付け . . . . 7.7.2 Frequency シンタックスの入力 ファイルの保存 . . . . . . . . . . . . . クロス表の作成 . . . . . . . . . . . . . シンタックスの利用 . . . . . iii 図目次 1.1 疑似関係の例 コウノトリと赤ちゃん . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 媒介関係の例 性別と事故の経験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.1 擬似的な関係(帰無仮説) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 コントロール後も残る連関(対立仮説) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 媒介的関係(帰無仮説) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 間接効果と直接効果がある関係(対立仮説) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.5 対数のグラフ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.6 2 変数をコントロールした場合の帰無仮説 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.7 2 変数をコントロールした場合の対立仮説 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1 表 3.2 の男性比だけを変化させたときの相関係数の絶対値 . . . . . . . . . . . . . . . . . . . . . . 13 4.1 妻学歴別夫短大・4 大卒率のトレンド . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 階層的対数線形モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 7.1 SPSS 起動後最初のダイアログボックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 7.2 SPSS のデータ入力画面 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 7.3 SPSS 変数ビュー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 7.4 SPSS 変数名の入力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 7.5 SPSS 変数の型の指定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 7.6 SPSS 変数の指定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.7 データの入力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.8 データの入力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.9 度数分布表のダイアログボックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 7.10 変数の選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 7.11 度数分布表の出力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 7.12 変数ラベルの入力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.13 値のセルをアクティブにした図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.14 値ラベルのダイアログボックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.15 値ラベルの入力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.16 ラベル入力後の変数ビュー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.17 欠損値の欄をクリックしたところ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.18 欠損値の欄をクリックしたところ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.19 欠損値指定後の変数ビュー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.20 度数分布表ダイアログボックス中での変数ラベルの表示 . . . . . . . . . . . . . . . . . . . . . . . 43 7.21 ラベルと欠損値処理後の度数分布表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 iv 7.22 7.23 7.24 7.25 7.26 シンタックスの貼り付け . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.27 7.28 7.29 7.30 他の変数への値の再割り当て 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . シンタックスの貼り付け . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . クロス集計表のダイアログボックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . クロス集計表: 統計のダイアログボックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . クロス集計表: セルのダイアログボックス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 他の変数への値の再割り当て 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 今までの値と新しい値 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 今までの値と新しい値 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v 44 44 45 45 46 47 48 48 48 表目次 1.1 性別と事故の経験率のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 走行距離別男女の事故経験率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.3 就業形態 × 性別 × 収入 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4 被差別経験と民族的アイデンティティ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.5 自尊心 × 被差別経験 × アイデンティティのクロス表 . . . . . . . . . . . . . . . . . . . . . . . . 3 1.6 夫婦の宗派と出身地 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 出身家庭資産量と本人大学進学率のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 出生年 × 出身家庭資産 × 本人大学進学率の 3 重クロス表 2.3 出身家庭資産 と 本人大学進学 と 中 3 時成績自己評価 2.4 尤度比基準の計算表 . . . . . . . . . . . . . . . . . . . . . 6 . . . . . . . . . . . . . . . . . . . . . . . 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.5 出身家庭資産量と本人大学進学率(省略版) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.6 出生年 × 成績 × 資産 × 進学率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1 仮想のクロス表(男女比 5:5 の場合) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2 仮想のクロス表(男女比 8:2 の場合) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 高学歴化による相関係数への影響(データはデタラメ) . . . . . . . . . . . . . . . . . . . . . . . 14 3.4 仮想の大学での男女別大学院進学者数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.1 結婚年別夫婦学歴のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.2 夫婦学歴の順位相関係数 (Goodman & Kruskal’s γ ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.3 日本人と在日韓国人男性の本の読み聞かせの経験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.4 表 4.3 を対数線形モデルで分析した結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.5 表 1.3 を対数線形モデルで分析した結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.6 企業規模・雇用形態別の育児休業の有無 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.7 表 4.6 を対数線形モデルで分析した結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.8 表に独立モデルをあてはめた場合のパラメータ推定値 . . . . . . . . . . . . . . . . . . . . . . . . 23 4.9 表 4.3 に条件付き独立モデルを当てはめたときの交互作用パラメータの推定値 . . . . . . . . . . . 24 4.10 表 1.3 に対連関モデルをあてはめた場合のパラメータ推定値 . . . . . . . . . . . . . . . . . . . . 25 4.11 飽和モデルの 2 次の交互作用パラメータの推定値 . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.12 条件付き独立モデル [2,3] [3,1] の標準残差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.13 LEM における階層モデルの指定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5.1 仮想の 2 × 2 表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.2 繰り返し比例当てはめ法の初期値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.3 行周辺度数が一致したところ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.4 計算終了 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 vi 5.5 5.6 5.7 5.8 5.9 仮想の 3 重クロス表 . . . . . . . . . 繰り返し計算の初期値 . . . . . . . . 表 5.5 から作った 0 次のクロス表 . . 表 5.5 から作った 0 次のクロス表 . . 繰り返し計算一回目のプロセス終了後 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 30 30 30 31 5.10 繰り返し計算終了後の期待度数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 6.1 仮想のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 6.2 6.3 6.4 6.5 6.6 ゼロセルを多く含む仮想のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 34 36 36 37 表 6.2 の 0 次のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 価値観のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 繰り返し比例当てはめ法の初期値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1995 年 父・息子の階級移動表(橋本 (1998) より作成) . . . . . . . . . . . . . . . . . . . . . . . 6.7 6.8 表 6.6 の対角セルを先験的に 0 に固定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 7.1 7.2 性別と従業先の規模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . カテゴリ統合後の性別と規模のクロス表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 表 6.7 の調整済み残差 vii 表 1.1: 性別と事故の経験率のクロス表 事故経験 第 1 章 多重クロス表と 偏相関係数 性別 男 女 計 1.1 ポイント なし 計 312(44%) 226(32%) 538 396(56%) 470(68%) 866 708 696 1404 表 1.2: 走行距離別男女の事故経験率 多重クロス表を作り、読めるようになる。 男 1.2 あり 擬似的な関係と媒介的な関係 女 計 疑似関係 (spuriousness) の古典的な例を挙げよう。 走行距離長い 事故経験 あり 261 52 % 100 52 % 361 なし 240 48 % 92 48 % 332 計 501 男 192 女 693 計 走行距離短い 事故経験 あり 52 25 % 126 25 % 178 なし 155 75 % 378 75 % 533 イギリスでは、コウノトリの多い地域では、出生率が 高いという関連が発見された。この事実から、コウノ うな仮説も考えられる。 トリが赤ちゃんを運んできているといえるだろうか。 もちろん言えない。実は、地方では、コウノトリが多 仮説 1 男性のほうが走行距離が長いために、事故を経 く、出生率も高い。都心ではコウノトリが少なく、赤 験しやすい ちゃんも少ない。つまり、赤ちゃんの数に影響を及ぼ しているのは、その地域の都市化の程度であり、コウ ノトリではない。この因果関係を図示したのが図 1.1 この仮説を確かめるために、走行距離が長い人と短 である。 い人にサンプルを分け、その上でそれぞれに関して性 2 変数の間に連関はあるが、その連関は第 3 変数に よって引き起こされており、二つの変数の間には因果 関係はない場合、これを疑似関係と呼ぶ。 別と事故の経験のクロス表を作った(表 1.2)。表 1.2 媒介関係の例として、原・海野 1 は、性別と交通事 表 1.2 を見ると、走行距離が長い人は、女も男も は、いわば二つのクロス表を横にくっつけたようなも のである。 故経験率の関係をあげている。 52%が事故を経験しているのに対して、短い人は女で も男でも 25%にすぎない。つまり、走行距離が長いほ うが、事故経験率は高いが、走行距離別に見れば男女の 事故経験率に違いはない。また、周辺度数を見ると、男 性の 71% = 501/(501 + 207) が走行距離が長いのに対 して、走行距離の長い女性は、28% = 192/(192 + 504) にすぎない。この結果を母集団にまで一般化できるか ては、仮説1が正しかったことが分かる。 表 1.1 を見ると、男性のほうが、10 ポイント以上、 事故の経験率が高い。この結果から、男性のほうが運 転が乱暴だとか、運転が下手だと結論できるだろうか。 もちろんそのような可能性は否定できないが、次のよ どうかは別として2 、少なくともこのサンプルに関し この場合の因果関係は、図 1.2 のように示すことが できる。 図 1.1: 疑似関係の例 コウノトリと赤ちゃん 1 原純輔・海野道郎, 2 サンプル数がかなりおおいのでほぼ確実に一般化できるだろう が、いちおう検定や推定をするのが、一般化のための手続きである。 1984, 『社会調査演習』東京大学出版会. 1 計 207 504 711 表 1.3: 就業形態 × 性別 × 収入 就業形態 正規 雇用 図 1.2: 媒介関係の例 性別と事故の経験 1.2.1 非正規 雇用 第 3 変数のコントロールと多重クロ ス表 性別 合計 性別 男 女 男 女 合計 現在本人収入 400 万円未満 400 万円以上 64 144 64 26 128 170 44 4 136 1 180 5 合計 208 90 298 48 137 185 表 1.2 のように、三つの変数を組み合わせて作った 1.3 クロス表を三重クロス表(triple cross tabulation) とい う。表 2 は、走行距離別に男女の事故経験率を計算して 擬似関係、疑似無関係、交互作 用効果 いるわけだが、この場合、走行距離は、第三変数(third variable) とか、コントロール変数(control variable) と 表 1.2 の例は、第三変数をコントロールすることで、 か呼ばれる。また表 1.2 のように第三変数をコントロー 2 変数の関連が消えてしまう場合であるが、逆に第 3 変数をコントロールすることで、関連が強まる場合も ある。福岡・金(1997)をヒントにした仮想例を紹介 しよう。 ルした表を 1 次の表 (first-order table)、それに対して 表 1.1 のように第三変数をコントロールしていない表 を 0 次の表 (zero-order table) ということがある。 走行距離でコントロールしても、事故経験率の男女 差がなくならなければ、仮説 1 は間違っていたことに 表 1.4: 被差別経験と民族的アイデンティティ なる。しかし、表 2 のように第 3 変数の影響をコント 民族的アイデンティティ ロールすることで、男女差がなくなるならば、事故経 験率の男女差は、走行距離を媒介にして生じていたと 少ない 考えられる。 被差別 コントロール変数を一つだけでなく、二つ以上用い 経験 ることもできる。一般に、3 つ以上の変数を持つクロ ス表を多重クロス表 (multiple cross tabulation) と呼 多い 計 ぶ。第三変数を導入することで、変数間の関係を詳細 弱い 強い 計 55 51% 140 47% 52 49% 160 53% 107 195 212 407 300 に分析することを、P. F. Lazarsfeld にならってエラ ボレーション (elaboration) と呼ぶこともある。また、 差別に関する理論では、被差別体験が民族的アイデ 擬似的な関係の発見をエクスプラネーション、媒介的 ンティティを強めるという説がある一方で、逆に弱め な関係の発見をインタープリテーションともよぶ。 るという説もある。実際にクロス表を取ってみると、 表 1.4 のように、ほとんど関連がない。どちらの説も 1.2.2 まちがっていたということになるのだろうか。そこで、 練習問題 次のような仮説が考えられる。 表 1.3 から、就業形態をコントロールした上での高 仮説 2:民族的自尊心の強い人が差別を体験すると、 所得者率の男女差を計算したい。行パーセントまたは 民族的アイデンティティがつよまるが、自尊心の弱い 列パーセントを計算し、結果を解釈しなさい。また、 人が差別を体験すると、逆に民族的アイデンティティ 性別と収入の相関係数を、1) 正規雇用者だけで、2) 非 がよわまる。 正規雇用者だけで、3) 全体で、計算しなさい。図 1.1 被差別体験と民族的アイデンティティの強さの関係 , 図 1.2 と同じ要領で、就業形態、性別、収入の因果 関係を図示しなさい。 を民族的自尊心でコントロールしたのが表 1.5 である。 表 1.5 を見ると、自尊心の強い場合、被差別経験の 2 が考えられる。 表 1.5: 自尊心 × 被差別経験 × アイデンティティのク ロス表 民族的 自尊心 強い 少ない 被差別 経験 多い 計 民族的 自尊心 弱い 少ない 被差別 経験 多い 計 民族的アイデンティティ 弱い 強い 35 22 61 % 39 % 80 120 40 % 60 % 115 142 民族的アイデンティティ 弱い 強い 20 30 40 % 60 % 60 40 60 % 40 % 80 70 1.3.2 計 57 練習問題 内婚とは似通った社会的出身をもつものどうしの婚 姻を意味する。しかし、内婚の程度は社会的コンテキ 200 ストによって異なっている。ここで、表 1.6 のような 257 データが得られたとしよう。行パーセントまたは列パー セントを計算し、出身地が内婚に及ぼす影響を述べな 計 50 さい。 100 表 1.6: 夫婦の宗派と出身地 150 多い者の高アイデンティティ率は 60% であり、被差別 経験の少ない人々より 21 ポイント高い。それにたい 都市 出身 農村 出身 して、自尊心の弱い場合、被差別経験の多い者の高ア イデンティティ率は 40% であり、差別を経験していな 妻の 修派 妻の 修派 プロテスタント カトリック プロテスタント カトリック 夫の修派 カトリック プロテスタント 30 60 30 20 10 80 20 5 い人々より 20 ポイント低い。つまり、仮説 2 を支持 するような結果が出ている。 このように、2 変数間の関係を見ていただけでは、一 見関連がないように見えるが、第 3 変数をコントロー 1.4 ルすると関連が見つかる場合もある。 多重クロス表分析と検定 この例では、被差別体験がアイデンティティの強さに 多重クロス表分析の検定には、ログリニア分析かカ 及ぼす効果の向きが、自尊心の強さによって、異なっ イ二乗分布を使った分散分析が最適であると私は思う ている。このような場合、交互作用効果(interaction が、とりあえずは、第三変数で場合分けされたそれぞ effect) があるという。交互作用効果とは、一つの変数 の値だけでは生じないが、複数の変数の組み合わせに よって生じる効果のことである。 れのクロス表に関して、ふつうにカイ二乗検定や残差、 相関係数の分析をすればよい。例えば、表 1.5 に関し ては、まず、民族的自尊心が強い場合は、イエーツの 連続性の修正を施したカイ二乗値を計算すると 1.3.1 その他の場合 (|35 − 25.5| − 0.5)2 (|22 − 31.5| − 0.5)2 + 25.5 31.5 (|120 − 110.5| − 0.5)2 (|80 − 89.5| − 0.5)2 + + 89.5 110.5 = 7.38, χ2Y = 擬似的な関係/無関係のほかにも、3 変数の連関には いくつかのパターンが考えられる。例えば、 1. 第 3 変数をコントロールしても、0 次の連関が変 化しない場合、 自由度 1 で 1%水準で有意。民族的アイデンティティ が弱い場合は、簡便な公式を使って、 2. 第 3 変数をコントロールすると、0 次の連関より も、連関が弱まるが、有意な連関が残る場合、 2 150 (|20 · 40 − 30 · 60| − 0.5 · 150) = 4.58, 50 · 100 · 80 · 70 自由度 1 で 5%水準で有意である。 セル数が増えると、期待度数は減少するので、検定 が難しくなりやすい。十分なケース数を確保すること χ2Y = 3. 第 3 変数をコントロールすると、あるクロス表で は、連関があるが、別のクロス表では有意な連関 がない場合、 3 1.5.1 が望ましい。また、カテゴリーをうまく統合して、期 待度数を増やし、自由度を下げるのが、カイ二乗検定 表 1.3 と表 1.6 から第 3 変数をコントロールした場 のコツである。 1.4.1 合の偏相関係数を求めなさい。 練習問題 1.5.2 表 1.3 を二つのクロス表とみなして、イエーツの連 偏相関係数の検定 偏相関係数も相関係数やカイ二乗値と同様、サンプ 続性の補正をしてカイ二乗検定を行いなさい。同様の リングの際の偶然によって、母集団とサンプルの間で 作業を表 1.6 についても行いなさい。 1.5 練習問題 誤差が生じる。この誤差は相関係数と同様に正規分布 する。偏相関係数の標準誤差の推定値 se ˆ は、 s 2 1 − rxy·z se ˆ = N −3 偏相関係数 交互作用効果や非線形関係を無̇視̇で̇き̇る̇場̇合̇、偏相 関係数 (partial correlation coefficient) は、3 変数の である。相関係数の標準誤差とほぼ同じ式だが、自由 関係を見る上で便利な統計量である。この場合の変数 度が N − 3 になるため、式の分母の部分が N − 3 に は、二値変数か順序付け可能な変数でなければならな なっている。従って、偏相関係数をその標準誤差で割っ い。連続変数なら申し分ない。偏相関係数は、第三変 た値 数をコントロールしても残る二変数間の相関のことで t= ある。変数 x と y の相関係数を rxy 、第 3 変数 z をコ ントロールしたときの x と y の偏相関係数を rxy·z と は自由度 N − 3 で t 分布に従う。表 1.2 の例の場合、 すると、 rxy·z rxy·z se ˆ N = 1404, rxy·z = −0.00 だから、標準誤差は、 r 1 − 02 se ˆ = = 0.027 1404 − 3 rxy − rxz · rzy q =p 2 · 2 1 − rxz 1 − rzy で偏相関係数は定義される。x と y の間に相関がある である。この場合、t = 0 となるから、両側 5%水準の 場合、その相関係数は z を媒介にして生じている部分 限界値 1.97 より小さいので、帰無仮説は棄却できな と、z とは関係なく、直接 x と y が相関している部分 い。相関係数とまったく同じ要領で、区間推定をする に分割できる。偏相関係数はこの直接的な相関を示し こともできる。 たものである。計算してみよう。表 1.2 から、性別 (x) と事故経験 (y)、走行距離 (z) の間の相関係数を計算す 1.5.3 ると、 表 1.3 と表 1.6 からもとめた偏相関係数を両側検定 rxy = 0.119, rxz = 0.432, rzy = 0.278 しなさい。 である。これらから z をコントロールした際の x と y の偏相関係数は、 rxy·z = √ 練習問題 0.119 − 0.432 · 0.278 √ = −0.00 1 − 0.4322 · 1 − 0.2782 である。0 次の相関係数がすべて正ならば、rxy·z は、 rxy よりも、小さな値を必ずとる。rxz = 0 または、 rzy = 0 ならば rxy·z は? また、rxy = rxz · rzy ならば rxy·z は? 4 表 2.1: 出身家庭資産量と本人大学進学率のクロス表 本人大学進学 第 2 章 3 つ以上の変数 の因果関係 非進学 合計 進学 4 以下 721 68 789 出身 91.4% 8.6% 100% 家庭 5∼8 863 207 1070 資産 80.7% 19.3% 100% 9∼15 414 370 784 52.8% 47.2% 100% 合計 1998 645 2643 75.6% 24.4% 100% χ2 = 342.1, χ2L = 338.5 3 つ以上の変数の因果関係と、それに対応したクロス 表を作るのが肝要である。1 章で述べたように、多重 クロス表を作る主な理由は、媒介関係や擬似関係があ るかどうかを確認することである。このときに、問題 関心にあった多重クロス表を作り、それを適切に解釈 することが必要である。唯一の妥当な方法があるわけ ではないが、典型的な例を挙げて考えよう。 からである。第一に、出生コーホートの影響を除去す る必要がある。若いコーホートほど豊かな傾向があり、 2.1 若いコーホートほど大学数と定員が増えて進学が容易 擬似的な連関の検討 になっているので、経済的な豊かさが進学率を高めて いない可能性もある。 今、出身家庭の経済的豊かさと子供の大学進学率の ここで棄却しようとしている仮説(つまり帰無仮説) 間に連関があるかどうかを知りたいとしよう。とうぜ ん「経済的に豊かであるほど子供の大学進学率は高ま は、図 2.1 のように表される。もしも出生コーホート る」という仮説が考えられる。大学に通うためには、 でコントロールしたとき、カイ二乗検定が有意になら 学費や生活費などお金がかかるし、その間働くことが なければ、経済仮説は誤りであったと判断すべきであ できない。そのため経済的に余裕がなければ大学には る。それに対する対立仮説は、図 2.2 のように表され 進学することは難しい。このような仮説を経済仮説と る2 。出生コーホートでコントロールしても、出身家庭 呼ぶことにしよう。 の資産量と大学進学の間に有意な連関があれば、この 経済仮説のように、分析全体を通してその正しさを 分析結果は、出生コーホートの影響を除去しても、2 確かめようとする仮説を中心仮説と呼ぶことにしよう 変数の間に連関があることを示しており、経済仮説を 支持している。 (このような用語が一般的にあるわけではない)。中心 仮説は、単に二つの変数に連関があるというだけでは ここで注意しなければならないのは、仮に対立仮説 なく、なぜ、どのように連関が生じるのか、具体的に が正しくても、経済仮説が正しいと証明できたという 特定したものである。この中心仮説の正しさを以下で わけではない。出生コーホートのほかにも、擬似的な は考えていく。表 2.1 は、1995 年に 20∼69 歳の男女 連関を生み出しそうな第 3 変数は他にもある。例えば 1 に親の経済的豊かさ と本人の大学進学率をたずねた 父や母の学歴、職業がそうである。これらの変数をす 結果である。 べてコントロールしても、出身家庭の資産量と大学進 表 2.1 を見ると、資産が多いほど大学進学率が多い。 学の間に有意な連関があった場合、はじめて経済仮説 はかなり説得力を持ってくる。ここで検討しているの このことから、豊かさ仮説が正しいと考えていいだろ うか。もちろんこの表だけからでは、そうはいえない。 は、2 変数の連関は、出生コーホートによる擬似的な 擬似的な関係や媒介関係の有無を検討する必要がある 連関かどうかという点だけである。 それでは、本人の年齢でコントロールした表を見て 1 14 個の資産項目のうち本人が 15 歳のとき家にあったものの数 (持家、自家風呂、ラジオ、テレビ、冷蔵庫、自転車、自動車、ピア ノ、電話、応接セット、文学全集・図鑑、株券または債権、美術品・ 骨董品、別荘) 2 この図示の仕方は、不正確であるが、くわしい議論は、階層的 対数線形モデルの章を参照せよ。 5 図 2.1: 擬似的な関係(帰無仮説) 表 2.2: 出生年 × 出身家庭資産 × 本人大学進学率の 3 重クロス表 本人出生年 1926∼41 年 出身家庭 資産 図 2.2: コントロール後も残る連関(対立仮説) 4 以下 5∼8 9∼14 みよう。表 2.2 を見ると、三つの年齢コーホート3 にお 合計 χ2 = 46.0∗∗ , χ2L = 34.0∗∗ 1942∼58 年 4 以下 いて 1%水準で有意な連関が見られる。したがって、2 変数の連関は、出生コーホートによって生じた擬似的 な連関ではなかった(つまり対立仮説が正しかった) 出身家庭 資産 ということである。表 2.2 の 1926∼1941 年のコーホー 5∼8 9∼14 トの 1 次のクロス表に見出せる連関は、コーホートに よって生じたものではない。なぜなら、この 1 次のク 合計 χ2 = 119.9∗∗ , χ2L = 116.8∗∗ 1959 年∼75 年 4 以下 ロス表に属する人々は、すべて同じコーホートに属し ているのであり、したがってコーホートの違いが、資 出身家庭 資産 産や進学率の違いを生んでいるのではない。 ここで行った多重クロス表分析の手続きについてお 5∼8 9∼14 さらいしてみよう。 合計 χ2 = 27.9∗∗ , χ2L = 28.5∗∗ 1. 分析の焦点になる二つの変数を決め、その間の関 係について仮説をたてる。いま扱っている例では、 ∗∗ 1%水準で有意 出身家庭の資産量と大学進学の有無が焦点となる 二つの変数である。この二つの変数の間に仮説で 想定したような因果関係があるのかどうかが分析 の焦点になる。 2. 分析の焦点となる二変数の 0 次のクロス表を作り、 連関の有無をカイ二乗検定などを用いてチェック する。ここで連関がなければ、ふつうそこで帰無 仮説が採択されて分析は終わりだが、擬似的な無 3 本来ならもっと細かく分けたい(10 歳刻みにするのが普通)が、 紙幅の都合で 3 つに分けた。 6 本人大学進学 非進学 進学 527 48 91.7% 8.3% 224 36 86.2% 13.8% 30 20 60.0% 40.0% 781 104 88.2% 11.8% 187 17 91.7% 8.3% 462 101 82.1% 17.9% 167 142 54.0% 46.0% 816 260 75.8% 24.2% 7 3 70.0% 30.0% 177 70 71.7% 28.3% 217 208 51.1% 48.9% 401 281 58.8% 41.2% 合計 575 100 260 100 50 100 885 100 204 100 563 100 309 100 1076 100 10 100 247 100 425 100 682 100 連関(本当は因果的な連関があるのに第 3 変数の影響 的な関係を検討する場合、帰無仮説が正しかったとし で、その連関が 0 次のクロス表に現れていない) の可 ても、2 変数の間に因果的な連関があることには、変 能性もあるので、そのような場合は、さらなる検 わりはない。ただし、ここで問題となっているのは、 討が必要になる。連関があっても、やはり第 3 変 その因果的なメカニズムであり、どのような経路で資 数によって擬似的に生じた連関である可能性があ 産量が大学進学に影響を及ぼすかということである。 れば、さらなる検討が必要。 もしも帰無仮説が正しければ、経済仮説で想定してい たメカニズムは働いていなかったことになる。 3. 二変数の両方を因果的に規定していそうな変数を さがし、第 3 変数としてコントロールする。もし もそのような第 3 変数がなければ、焦点となる 2 変数の間になんらかの因果関係があることは、ほ ぼ確かだ。この例の場合は、出生コーホートが第 3 変数として用いられた。 4. 第 3 変数の値によって分けられた複数の 1 次のク ロス表に関して、カイ二乗検定などを用いて連関 の有無を検討する。すべての 1 次のクロス表で有 意な連関があれば、第 3 変数による擬似的な連関 であるという帰無仮説は棄却され、対立仮説が採 択される。 図 2.3: 媒介的関係(帰無仮説) 当たり前のことだが、クロス表は、連関の有無は教え てくれるが、因果の向きは教えてくれない。また、ど のような第 3 変数を検討すべきかは、一概には言えな い。ふつう年齢や性別がコントロールされることが多 いが、それ以外にも必要なものがあるかもしれない。 図 2.4: 間接効果と直接効果がある関係(対立仮説) 適切な第 3 変数を知るためには、研究している分野や 問題についての深い知識が要求されるし、探索的な分 本人が中学 3 年生のときの成績の自己評価4 を第 3 析も必要であろう。 変数としてコントロールしたのが、表 2.3 である。紙 幅が足りないので、セル度数を省略し、行パーセント 2.2 だけが表記してある。表 2.3 を見ると、三つの 1 次の 媒介的な連関の検討 表において 1%水準で有意な連関が見出せる。つまり、 帰無仮説は棄却される。 経済仮説は、豊かでないと大学に通うためのさまざ まな費用がまかなえないというメカニズムを想定する 仮説であった。しかし、別のメカニズムも想定できる。 2.2.1 お金があれば、塾や家庭教師を利用できるし、静かで 練習問題 1. 以下のような状況それぞれについて、次の三つの 快適な個室で勉強することもできる。そのため、成績 がよくなり、成績が良いから、大学に合格して進学し 問に答えなさい。(ア) 3 重クロス表を作る場合、 ているのかもしれない。ここでのメカニズムは、図 2.3 コントロール変数にすべき変数はどれか。 (イ) のように表せる。図 2.1 との違いは、第 3 変数と出身 検討しようとする帰無仮説と対立仮説を、3 変数 の間に矢印をひいて図示しなさい。(ウ) 検討して 家庭の資産量の間の因果の向きである。これが今から 検討する帰無仮説である。これに対して、対立仮説は、 4 中学 3 年のころ、あなたの成績はクラスや学年の中でどれくら いだったと思われますか。次の中からあてはまるものを選んでくだ さい。 1 上の方、2 やや上の方、3 真ん中のあたり、4 やや下の方、 5 下の方の 5 択。 成績でコントロールしても、2 変数の連関は存在する という仮説である。これは、図 2.4 で表される。媒介 7 通原因とする擬似関係でありうることを示せ。こ 表 2.3: 出身家庭資産 と 本人大学進学 と 中 3 時成績 の擬似関係がどのような因果的結びつきによって 自己評価 起こるか説明せよ。 中 3 時成績自己評価 4 以下 出身家庭 5∼8 資産 9∼14 合計 χ2 = 30.3∗∗ , χ2L = 26.0∗∗ 真ん中 4 以下 出身家庭 5∼8 資産 9∼14 合計 χ2 = 91.1∗∗ , χ2L = 89.4∗∗ 上・やや上 4 以下 出身家庭 5∼8 資産 9∼14 合計 χ2 = 81.4∗∗ , χ2L = 83.6∗∗ 下・やや下 本人大学進学 非進学 進学 99.2% 0.8% 96.4% 3.6% 82.2% 17.8% 382 人 24 人 94.1% 5.9% 92.2% 7.8% 85.8% 14.2% 62.9% 37.1% 802 人 206 人 79.6% 20.4% 73.6% 26.4% 59.8% 40.2% 32.1% 67.9% 380 人 373 人 50.5% 49.5% 合計 119 人 197 人 90 人 406 人 100% 232 人 436 人 340 人 1008 人 100 129 人 306 人 318 人 753 人 100 2.3 尤度比基準 これまで、すべての表で χ2 とならべて χ2L という 数値を表記してきた。これは尤度比基準 (likelihood ratio criterion) である。尤度比基準は、カイ二乗値 とほぼ同じ値をとり、同じようにカイ二乗分布するの で、カイ二乗値のかわりに、カイ二乗検定に用いるこ とができる。のちに述べるように、尤度比基準は便利 な性質を持っているので、ここで導入する。尤度比基 準の値は、 χ2L = 2 ∗∗ 1%水準で有意 r X c X nij loge i=1 j=1 nij Eij (2.1) で計算される。e は自然対数の底と呼ばれる無理数 いる関係は、媒介的関係か、それとも擬似的な関 で 2.7182818459. . . . である。 係か。 (a) 今、学歴と満足感の二つの変数の因果関係 を検討しているとしよう。0 次のクロス表で は、有意な連関が発見された。次に、第 3 変 数として、年齢を投入して、学歴と満足感の 間に、本当に直接的な連関があるか検討し たい。 2.3.1 対数の計算のおさらい 例えば、 23 = 8 である。これを逆に考える。2 を何 乗すれば、8 になるか? 答えは 3 である。2 を x 乗し たとき 8 になるとすると、x = log2 8 = 3 である。こ れが対数である。一般に (b) 今、職業とインターネットの利用度の二つの 変数の因果関係を検討しているとしよう。0 次のクロス表では、有意な連関が発見され た。次に、第 3 変数として、収入を投入し て、職業とインターネットの間に、本当に直 接的な連関があるか検討したい。 ax = y ⇐⇒ loga y = x (2.2) である。ここで a を底、y を真数とよぶ。一般に、 a0 = 1, (c) 今、性別と満足感の二つの変数の因果関係 loga 1 = 0 (2.3) loga a = 1 (2.4) loga (x × z) = loga x + loga z (2.5) 1 a = a, を検討しているとしよう。0 次のクロス表で は、有意な連関が発見された。次に、第 3 変 b loga x = b loga x loga x = logz x loga z 1 logz x = logx z 数として、収入を投入して、性別と満足感の 間に、本当に直接的な連関があるか検討し たい。 2. 働く女性の増加が離婚率の増大をもたらす因果的 な結びつきとして考えられる媒介関係を 3 つ示せ。 (2.6) (2.7) (2.8) 対数の計算はしばしば暗算では不可能である。その 3. 学歴と政治的保守主義との負の相関が、年齢を共 ため、自然対数変換表を用意した。正確な計算は無理だ 8 χ2L =2 nij loge 4 i=1 j=1 =2 r X c ³X nij log nij − 2 i=1 j=1 − 0 log (x) r X c X r X nij Eij ni· log ni· i=1 c X ´ n·j log n·j + N log N j=1 −2 表 2.2 の最初の 1 次のクロス表の尤度比基準を計算 してみよう。まず、すべてのセル度数と周辺度数の自 然対数を求め、もとの真数との積をとり、積を取った −4 ものを足し合わせる。これを計算して表にしたのが、 表 2.4 である。したがって、尤度比基準は、 0 20 40 60 80 100 x 表 2.4: 尤度比基準の計算表 度数 527 224 30 48 36 20 計 図 2.5: 対数のグラフ が、小数点以下第 1 位ぐらいまでは、確かな数値が得ら れる。尤度比基準の計算で e を底とした対数を計算した が、このような対数を自然対数 (natural logarithm) という。自然対数は、底を省略して log x と表記され 度数 781 104 たり、ln x と表記されたりする。x と log x の関係をグ ラフに表したのが、図 2.5 である。すでに述べたよう に、x = 1 のとき log x は 0 になる。0 < x < 1 のと セル度数 対数 度数×対数 6.3 3302.8 5.4 1212.2 3.4 102.0 3.9 185.8 3.6 129.0 3.0 59.9 4991.8 列周辺度数 対数 度数×対数 6.7 5201.9 4.6 483.0 5684.9 度数 575 260 50 行周辺度数 対数 度数×対数 6.4 3653.8 5.6 1445.8 3.9 195.6 度数 885 5295.1 総度数 対数 度数×対数 6.8 6005.2 き、log x は、マイナスの値をとる。x > 1 のとき log x はプラスの値を取る。 χ2L = 2(4991.8 − 5295.1 − 5684.9 + 6005.2) = 34.0 2.3.2 自由度は 2 だから、1%水準で有意である。2 倍するの 対数の計算の練習 をよく忘れるので注意。期待度数を計算する手間がな いので、計算の手間は、普通のカイ二乗値と大差ない。 次の対数を計算しなさい。 log2 12 , (a) log2 16, (b) log3 9, (c) log5 1, (d) √ 1 1 (e) log2 4 , (f) log3 27 , (g) log2 2, (h) log 0.1, (i) log 0.01, (j) log 9, (k) log 10.245 (l) 2.3.4 log 101 尤度比基準計算練習 表 2.2 の 2, 3 番目の 1 次のクロス表の尤度比基準を 求めなさい。 2.3.3 尤度比基準の計算 2.4 尤度比基準の計算はややこしく見えるが、実際の計 2 変数同時コントロール 第 3 変数の候補が複数ある場合、それらを同時にコ 算は意外と簡単である。式 2.1 は、以下のように書き ントロールするのが望ましい。現在扱っている例では、 直せる。 9 出生コーホートと成績を同時にコントロールするとい そのうち 8.6% が大学に進学していることがわかる。 うことになる。これは、十分にケース数がなければ難 したがって 91.4% は進学しなかったということもわか しい。しかし、可能ならばやってみるべきである。な る。また、789 人のうちの 8.6% は、789×0.086 = 67.9 ぜなら、表 2.2 で 1 次のクロス表に見出せた連関は、 人であるとわかる。人数が小数を取ることはありえな 成績を媒介として生じているのかもしれないし、表 2.3 いので、この場合、68 人が正しい。このようなことが で見出した連関はコーホートによって擬似的に生じた おきるのは、進学率を四捨五入しているからである。 以上のような表記法を用いて作った 4 重クロス表が、 ものかもしれないからである。ここで検討している帰 無仮説を図示すると、図 2.6 のようになる。この図は、 表 2.6 である。 資産と大学進学の間には、直接的な連関がなく、それ 以外の変数の間には、何らかの連関があることを仮定 表 2.5: 出身家庭資産量と本人大学進学率(省略版) したものである。これに対して、対立仮説は、図 2.7 のようになる。これは、すべての変数の間に直接的な 連関があることを仮定している。4 重クロス表を作り、 出身 すべての 2 次のクロス表で有意な連関が見られなけれ 家庭 ば、帰無仮説が支持され、有意な連関が見られれば、 4 以下 5∼8 9∼15 本人大学進学率 合計 8.6% 19.3% 47.2% 789 人 1070 人 784 人 合計 24.4% 2643 人 χ2 = 342.1, χ2L = 338.5 対立仮説が支持される。 表 2.6 を見ると、すべての 2 次のクロス表で有意な連 関があるわけではないことがわかる。最初のコーホー トの成績の低いグループは、大学進学者がゼロである ために、クロス表にならない。カイ二乗検定もできな い。残りの 8 つのクロス表のうち、4 つで有意な連関 図 2.6: 2 変数をコントロールした場合の帰無仮説 が見られる。どのクロス表も、資産が多い場合、進学 率が上がる傾向があるが、有意でないものも 4 つある。 また、最小期待度数が 1 未満のセルも 3 つあり、すべて の検定結果が信用できるわけではない。しかし、半分 のクロス表で有意な結果が出たことを考えれば、帰無 仮説は、棄却されたと考えてよさそうである。したがっ て対立仮説が支持されるが、資産の大学進学に及ぼす 効果は、それほど単純でないことがわかる。一番最近 のコーホートを見ると、低成績グループでは、資産の 図 2.7: 2 変数をコントロールした場合の対立仮説 多さが進学率を上げているような傾向は見られない。 ただし、紙幅が足りないので、4 重クロス表に関して 次のような省略を行う。今行っている分析の従属変数 2.4.1 は、大学進学の有無であるが、これは二値変数である。 練習問題 以下のような状況それぞれについて、次の三つの問 二値変数は、一方のカテゴリーに属する人の割合がわ かれば、他方に属する人の割合も判る。したがって一 に答えなさい。(a) 4 重クロス表を作る場合、コント 方のカテゴリーに属する人の割合だけ書けば、他方は ロール変数にすべき変数はどれか。 (b) 検討しようと 省略してもかまわない。例えば、表 2.1 は、表 2.5 の する帰無仮説と対立仮説を、3 変数の間を矢印で結ん ように省略して表記しても情報量としてはまったく変 で図示しなさい。(c) 検討している関係は、媒介的関 わらない。資産量が 4 以下の人は、合計で 789 人おり、 係か、それとも擬似的な関係か。 10 1. 今、学歴と満足感の二つの変数の因果関係を検討 しているとしよう。0 次のクロス表では、有意な 連関が発見された。次に、第 3 変数として、年齢 と性別を投入して、学歴と満足感の間に、本当に 直接的な連関があるか検討したい。 2. 今、職業とインターネットの利用度の二つの変数 の因果関係を検討しているとしよう。0 次のクロ ス表では、有意な連関が発見された。次に、第 3 変数として、収入と性別を投入して、職業とイン ターネット利用の間に、本当に直接的な連関があ るか検討したい。 表 2.6: 出生年 × 成績 × 資産 × 進学率 出生年 1926 ∼41 年 中 3 時成績 下・ やや下 真ん中 χ2L = .86 上・ やや上 1942 ∼58 年 χ2L = 3.8 下・ やや下 χ2L ∗∗ = 9.9 真ん中 χ2L = 33.3∗∗ 上・ やや上 χ2L = 46.5∗∗ 1959 下・ ∼75 年 やや下 χ2L = 5.5 真ん中 χ2L = 10.4∗∗ 上・ やや上 χ2L = 2.7 資産 4 以下 5∼8 合計 4 以下 5∼8 9∼14 合計 4 以下 5∼8 9∼14 合計 4 以下 5∼8 9∼14 合計 4 以下 5∼8 9∼14 合計 4 以下 5∼8 9∼14 合計 4 以下 5∼8 9∼14 合計 4 以下 5∼8 9∼14 合計 4 以下 5∼8 9∼14 合計 進学率 0.0 0.0 0.0 7.3 9.4 14.3 8.5 31.1 29.5 52.4 33.3 0.0 2.7 16.7 3.9 8.6 10.9 33.1 16.9 17.6 36.8 65.7 44.9 25.0 5.9 18.2 12.3 0.0 25.0 41.6 35.2 50.0 61.7 72.0 68.8 合計 70 人 19 人 89 人 137 人 85 人 14 人 236 人 74 人 61 人 21 人 156 人 45 人 110 人 24 人 179 人 93 人 239 人 136 人 468 人 51 人 185 人 140 人 376 人 4人 68 人 66 人 138 人 2人 112 人 190 人 304 人 4人 60 人 157 人 221 人 3. 今、性別と満足感の二つの変数の因果関係を検討 しているとしよう。0 次のクロス表では、有意な 連関が発見された。次に、第 3 変数として、収入 と余暇時間を投入して、性別と満足感の間に、本 当に直接的な連関があるか検討したい。 2.4.2 条件付き独立の検定 表 2.6 のように、個々の 2 次のクロス表で、検定結果 が異なる場合、その解釈は微妙である。まずその複雑 な現実を受け止め、クロス表を詳細に検討することが 必要だが、結局、帰無仮説を棄却すべきかどうか、あ る程度、客観的な基準が必要である。そこで、帰無仮 説を式で表してみよう。いくつかの変数でコントロー ルすることによってできた複数のクロス表の尤度比基 P 2 準の値を足しあわせる。これを χL と書くことにし よう。すると、帰無仮説は、 X H0 : χ2L = 0 と表せる。このような仮説を条件付き独立 (condi- tional independence) という。第三変数でコント ロールしたという条件のもとでは、二つの変数は独 立であるということである。したがって、これを帰無 仮説として検定すればいい。この場合、尤度比基準の 和もカイ二乗分布する。自由度は、それぞれのカイ二 乗値の自由度の和である。表 2.6 の場合、尤度比基準 の和は、 X χ2L = .86+3.8+9.9+33.3+46.5+5.5+10.4+2.7 = 112.96 である。自由度は、2 × 8 = 16 である。自由度 16 の 1% 水準の限界値は、32.0 であるから、やはり帰無仮 11 説は棄却できる。したがって資産と大学進学の間には、 コーホートと成績によって引き起こされたのではない、 何らかの直接的な連関があるといってよい。 2.4.3 期待度数の問題 すでに学んだように、期待度数が小さすぎると、カ イ二乗値は、カイ二乗分布しない。そのことは、尤度 比基準でも同様であるし、尤度比基準の和を検定する 場合にも同様の問題がある。Wickens (1989) は、カイ 二乗検定する場合、期待度数に関して、次のような条 件をつけている。 1. 自由度が 1 の場合、期待度数は、2 または 3 以上 であるべき。 2. 自由度が 2 以上の場合、少数のセルにおいて、1 ぐらいの期待度数を取ることは、許容できる。 3. 大きな表の場合、20 パーセントまでは、1 よりか なり少ない期待度数をとるセルがあっても良い。 4. サンプル全体の数は、セル数の少なくとも 4, 5 倍 はあるべき。 5. 周辺度数がかたよっている場合、サンプル数は、 かなり多くすべき。 曖昧な基準であるが、表 2.2 と表 2.3 は、明らかにこ の基準を満たしている。表 2.6 も、おおむね OK であ る。検定に用いたセル 48 のうち、1 前後の期待度数を とったのが5つ。全体の約 10% にあたる。これは、非 常に大きな表であるから、3 番目の基準を適用するこ とになるが、十分に満たしている。4 番目の基準にか んしては、セル数 48 に対して、度数は 2048 であるか ら、約 43 倍ある。5 番目の基準の「かなり多く」とい うのが、どれくらい多くすべきなのかにもよるが、そ の他の基準を大きくクリアしていることを考えても、 この検定は妥当であろう。 2.4.4 条件付き独立の練習問題 表 2.2 と表 2.3 に関して、2.4.2 節で述べた方法を用 いて、条件付独立を検定しなさい。 12 第 3 章 相関係数とガ ンマ 表 3.2: 仮想のクロス表(男女比 8:2 の場合) 民主党支持 No Yes 計 女 40% 80% 60% 20% 80 人 20 人 合計 48 人 52 人 100 人 男 3.1 相関係数と周辺度数の分布 相関係数は便利な統計量だが、場合によっては、お r = −0.32 かしな結果になる。次のような仮想データを考えてほ しい。表 3.1 は、男女別に民主党を支持するかどうか をたずねた結果である。選択肢は、Yes と No の二つ である。男性は 6 割が支持、女性は、2 割が支持してい るのがわかる。相関係数は、−0.41 である。表 3.2 も やはり、男性は 6 割、女性は 2 割が支持だが、相関係 数は、−0.32 である。二つの表の違いは、周辺度数で ある。表 3.1 では、男女比が半々だったが、表 3.2 で は、男性は女性の 4 倍になっている。このような違い が相関係数の大きさになって現れている。一概には言 えないが、周辺度数が均等に分布している場合のほう が、相関係数の絶対値は大きくなりやすい。全員の人 数を 100 人、男女の支持率をそれぞれ 6 割と 2 割に固 定し、男女比だけを 0 から 1 まで変化させたのが図 3.1 である。これをみると、まんなかあたりで、相関係数 が最大になることがわかる。 表 3.1: 仮想のクロス表(男女比 5:5 の場合) 民主党支持 No Yes 計 女 40% 80% 60% 20% 50 人 50 人 合計 60 人 40 人 100 人 男 r = −0.41 図 3.1: 表 3.2 の男性比だけを変化させたときの相関係 数の絶対値 このような相関係数の性質をよく考慮に入れて分析 を行う必要がある。例えば、次のようなケースに相関 係数を使うとおかしなことになる。中卒の者のうち 3 年以内に最初の職を辞めてしまう人が 7 割、高卒の場 合 5 割、大卒の場合 3 割といわれている。独立変数を 13 学歴、従属変数を 3 年以内に初職を辞めたかどうかと 定義はテキスト (p.64-65) にあるので、さっそく計 して、1950 年、1975、2000 年の三つの時点のデータ 算してみよう。表 3.1 の場合、まずセル度数を計算す を用いて相関係数を計算したとする。この 3 時点で、 ると下のようになる。 先の 7 割、5 割、3 割という割合は変化しなかったとし よう。しかし、この間、中卒の人の比率は、急激に減 男 少し、非常に少なくなった。このことが相関係数にど 女 のような影響を与えるか、計算してみた。それほど大 きな変化はないが、やはり変化している。このデータ No Yes 50 × 0.4 = 20 50 × 0.8 = 40 50 × 0.6 = 30 50 × 0.2 = 10 この度数をもとにガンマを計算すると、 をもとに学歴によって、初職を辞める確率の格差が変 化したと考えるのは問題があるように思える。それぞ れの学歴を持つ人々が初職を 3 年以内で辞める確率は P = 20 × 10 = 200 まったく変化していないのだから。以上のように、相 Q = 30 × 40 = 1200 S = P − Q = 200 − 1200 = −1000 表 3.3: 高学歴化による相関係数への影響(データは γ= デタラメ) 1950 1975 2000 大卒 90% 5% 5% 10% 55% 35% 5% 35% 60% 相関係数 0.20 0.25 0.22 中卒 高卒 S −1000 = = −0.71 P +Q 200 + 1200 である。表 3.2 の場合はどうだろうか。 P = 32 × 4 = 128 Q = 48 × 16 = 768 S = P − Q = 128 − 768 = −640 中高大卒が 3 年以内に初職を辞める確率を、0.7、0.5, 0.3 に固定 γ= し、学歴と初職を 3 年以内に辞めたかどうかの相関係数を計算 S −640 = = −0.71 P +Q 128 + 768 関係数で見ると、おかしなことが起きることもある。 で同じ値になる。このように、ガンマは、周辺度数 この理由の一つは、ほんらい連続変数どうしの線形の の比率だけを変化させても、まったく影響を受けない。 関係を見るための係数を離散変数どうしの関係を見る そして最大関連のとき +1 または −1 になる。最大関 ために転用していることにある。 連については、ついては、次の節で説明しよう。 3.2 3.3 ガンマ係数 前節で述べたように相関係数は万能ではない。周辺 最大関連と完全関連 完全関連とは、行数と列数の同じクロス表において、 度数の影響を受けないような係数が必要になる場合 対角線上のセル以外は、すべて 0 であるような場合を もある。ここでは、グッドマンとクラスカルのガンマ いう。例えば、次のようなクロス表がそうである。 (Goodman & Kruskal’s γ) をとりあげよう。ガン マは、順位相関係数の一種といわれている。順位相関 係数は、Pearson の積率相関係数と違い、カテゴリー に与える値に影響されない。二つの変数の値に順番が 25 0 0 0 0 40 0 0 16 あれば計算できる。一方の変数の値が大きくなるほど 完全関連の場合、相関係数は 1 または-1 になる。ガン 他方も大きくなる場合、正の値を、逆の場合は、負の マも 1 または-1 になる。 値をとり、2 変数が独立のとき、0 になり、最大値は-1、 最大関連とは、周辺度数が固定されている場合の最 最小値は、+1 であるという点では、Pearson の積率相 大の関連といった意味である。例えば、ある大学で、 関係数と同じである。検定も可能 (のはず) だが、省略。 男女別の大学院進学率を調べたとき、大学院の定数が 14 限定されているため、全体の 15%までしか進学できな うのが私のお勧めである。学歴と転職率の連関の大き いとしよう。このとき表 3.4 のような結果が得られた さを比較する場合のように、高学歴化の影響を連関の とする。男女比も定員も固定されている (変化しない) 大きさから除去したい場合は、ガンマを使うべきであ る。あるいは、次のようにも言える。表 3.4 のように、 表 3.4: 仮想の大学での男女別大学院進学者数 進学 非進学 合計 周辺度数があらかじめ固定してある場合はガンマを、 それ以外の場合は、相関係数を使うべきである。あら 15 0 50 50 かじめ固定してあるとは、2 変数の分布がお互いに関 女 35 50 合計 85 15 100 生の男女比と大学院の定員は、別々に決まっていると 男 r = −0.41, 係なく決まっているということである。ある大学の学 γ = −1 考えるのが自然である。しかし、政治的な保守主義と 性的な保守主義の間には、何か関係があるかも知れず、 一方の分布が変化すれば、他方も変化するかもしれな と考えてよいので、マイナスの方向でこれ以上の相関 い。このような場合は、相関係数を使って両者の関係 はありえない。しかし、相関係数は、-0.41 で-1 にはな を見るのが適当だろう。 らない。これに対してガンマは-1 である。ようするに また、次のように考えても良い。相関係数は、2 変 2 × 2 表では、どこか 1 つ (以上) のセルが 0 である場 合、最大関連である。もっと大きなクロス表において 最大関連を定義するのはめんどうなので省略するが、 基本的にはクロス表の四隅の対角対に 0 セルをできる だけ多くかためた状態が最大関連ということになるだ ろうか。 3.3.1 数が線形の関係にある度合いを測る場合に用いるが、 ガンマは、2 変数の順序の一致度を見る場合に用いる。 例えば、次のようなクロス表でもガンマは 1 である。 10 0 0 0 練習問題 連関があるのは間違いなさそうである。こういうデー 10 5 タの特徴をガンマはつかめる。 r = −0.14 2. 10 0 0 20 40 30 3.3.3 0 0 5 3. 20 15 数を用いるべきか、それともグッドマンとクラスカル のガンマを用いるべきか。 1. 仕事に対する満足度と家庭生活に対する満足度 10 35 2. 夫の年齢と妻の年齢 r = 0.66 3.3.2 練習問題 以下のような 2 変数の相関を検討する場合、相関係 r = 0.49 40 0 0 0 0 14 こういう関係は線形とはいえない。しかし、何かしら マを計算しなさい。 1. 0 0 0 15 r = 0.78 次のクロス表から、グッドマンとクラスカルのガン 40 45 9 8 7 6 3. 母の学歴と本人の学歴 4. エスニシティと職業 相関係数とガンマをどう使い分ける か 5. 年齢とインターネット利用 抽象的に言えば、周辺度数の効果を除去したいとき はガンマを、それ以外のときは相関係数を、使うとい 15 第 4 章 多重クロス表分 析から対数線形 モデルへ 4.1 多重クロス表分析の問題 表 4.1: 結婚年別夫婦学歴のクロス表 多重クロス表分析は、基本的な分析手法であり、社 結婚年 会学のデータ分析ではほとんど避けて通ることはでき 1955 年 以前 ない。しかし、多重クロス表分析だけでは 3 つ以上の 夫学歴 中・高 短大・ 4大 合計 変数間の連関のパターンをうまく記述できない場合が ある。また通常のカイ二乗検定だけでは、複雑な変数 間の関連をうまく母集団に一般化できない場合もある。 1956 -70 3 つの変数を連続変数とみなすことができ、なおかつ 一つの変数を従属変数とみなせる場合は、重回帰分析 を用いればよい。しかし、そうでない場合、対数線形 モデルを利用するとよい。 短大・ 4大 合計 1971 -1985 4.1.1 中・高 3 つ以上の変数の連関のパターンを簡 潔に記述する方法の欠如 中・高 短大・ 4大 合計 3 つ以上の離散変数の関係のパターンを見るのは、 1986 年 以降 意外にやっかいな問題である。通常、多重クロス表分 中・高 短大・ 4大 合計 析が用いられるが、これでは、煩雑になりすぎる場合 がある。例えば、表 4.1 は渡辺 (1998) から転載したも のである。この表は夫と妻の学歴のクロス表だが、結 婚した時期 (結婚コーホート) によってコントロールし てある 3 重クロス表である。夫と妻の学歴に有意な連 関があり、結婚コーホートでコントロールしてもその 連関が消えないことはほとんど自明である。しかし、 連関の強さやパターンが時代によって変化している可 能性がある。例えば、「かつては妻短大と夫短大・4 大の結びつきが強かったがしだいにその結びつきは弱 まっている」といった仮説が考えられる。クロス表を 丹念に読めば、この仮説が正しいかどうかをある程度 調べることができるだろう。しかし、みなさんは表 4.1 を丹念に読もうという気になるだろうか。私はならな 16 中・高 412 85 71 15 483 100 1355 87 200 13 1555 100 969 80 247 20 1216 100 358 73 131 27 489 100 妻学歴 短大 0 0 5 100 5 100 22 27 59 73 81 100 108 39 170 61 278 100 52 35 97 65 149 100 合計 4大 9 43 12 57 21 100 9 18 41 82 50 100 18 12 131 88 149 100 12 13 79 87 91 100 421 83 88 17 509 100 1386 82 300 18 1686 100 1095 67 548 33 1643 100 422 58 307 42 729 100 い。あまりに多くの数字に圧倒されてしまい、読む気 しく、適切なグラフを作ったり、何らかの連関/相関 がなくなるのである。もちろん、私も実際には表 4.1 係数を計算する必要がしばしばあるということ、そし を丹念に読むことになるのだが、読者にまでそれを要 て、2) 重要な特徴を取り出すことができても、その傾 求するのは無理である。わかりやすくデータの重要な 向を、それだけでは母集団に一般化できない場合があ 特徴を示すことは、データ分析において決定的に重要 るということである。 である。読者に理解してもらえなければ、せっかくの 分析も無意味である。 表 4.2: 夫婦学歴の順位相関係数 (Goodman & Kruskal’s γ ) 1955 年以前 0.82 表 4.1 のような場合、夫学歴は二値変数なので、短 大・4 大の比率を妻学歴別に計算し、それをすべての 1956-70 0.91 1971-1985 0.80 1986 年以降 0.75 γ はすべて 1%水準で有意 結婚時に関して算出し、グラフにすると見やすいだろ う。そのグラフが図 4.1 である。図 1 を見ると、高学 歴化が全般に進んでいるにもかかわらず、妻が短大卒 の場合だけ、夫の短大・四大率が上がっていないとい うことはよくわかる。しかし、図 4.1 から夫婦の学歴 の連関のパターンがこれでわかるだろうか。よくわか るとはいえないだろう。 4.1.2 みなさんは、帰無仮説の棄却という考え方に違和感 帰無仮説の棄却と言う考え方 を覚えたことはないだろうか。普通、論文やレポート の中で支持したいのは、帰無仮説ではなく、 「女性も男 !#" " 性も同程度の学歴の配偶者を選ぶ傾向がある」といっ た仮説である。しかし、一般の統計的検定でなされて いるのは、帰無仮説の棄却であり、そこから言えるの は、 「母集団でも二変数は独立ではない」といった控え めな主張だけである。もっと積極的に、 「この仮説が正 しい」といった議論ができないものだろうか。 図 4.1: 妻学歴別夫短大・4 大卒率のトレンド 4.2 そこでさらに結婚時別に夫婦の学歴の順位相関係数 (グッドマン・クラスカルの γ )を計算したのが、表 4.2 である。ガンマは周辺分布の影響を受けないので、 表 4.1 のように、結婚時によって周辺分布が大きく変化 するデータには最適であろう。表 4.2 を見ると、1956- 3 重クロス表のカイ二乗検定 カイ二乗検定は、二つの離散変数間の独立性を検定 するためにしばしば用いられるが、3 変数の関係を検 定するのにも拡張して用いることができる。実質的な 議論に入る前に記号の意味を定義していこう。r 行 c 列 70 年に結婚した夫婦の相関が最も高く、最近になるに したがって相関が小さくなる傾向がわかる。 図 4.1 と表 4.2 によって大雑把なトレンドは把握でき た。しかし、これまで確認したトレンドは母集団にも l 層のクロス表について考える。このクロス表の i 番 目の行の j 番目の列の k 番目の層のセル度数を nijk と 表記することにしよう。例えば、表 4.3 は、5 行 4 列 一般化できるのだろうか。γ が最近になるにしたがっ 2 層のクロス表である。この 1 行 2 列 1 層目のセル度 数 n121 は、19 である。次に行、列、層の単変数周辺 て小さくなると言ったが、それは本当に母集団にも一 度数 (single variable marginals) は、 般化できるのか。本当に母集団でも妻が短大卒の場合 だけ夫の学歴が上昇していないのだろうか。この節で 言いたかったのは、1) 多重クロス表の重要な特徴を取 ni•• = り出すためには、多重クロス表を見ているだけでは難 c X l X j=1 k=1 17 nijk , n•j• = r X l X i=1 k=1 nijk , n••k = r X c X i=1 j=1 nijk である。例えば、2 行目の周辺度数は、 である。同様にしてすべてのセルの期待度数を計算で きる。 n2•• = 122 + 38 + 53 + 40 + 24 + 0 + 3 + 1 = 281 このような考え方は、二変数のクロス表の独立の考 である。また、3 列目の周辺度数は、 え方を拡張したものである。例えば、性別と自衛隊イ ラク派遣への賛否の 2 × 2 クロス表を例に考えよう。 n•3• = 19+53+70+85+107+2+3+2+2+1 = 344 母集団からランダムに対象者(サンプル)を選んだ場 合、男である確率を p男 、その人が派遣に賛成である である。さらに 1 層目の周辺度数 n••1 = 1214 である。 確率を p賛成 としよう。男であるという事象と、賛成す るという事象が確率的に独立ならば、その人が、男で 表 4.3: 日本人と在日韓国人男性の本の読み聞かせの経験 日本人男性 子供のころ本を読み聞かされた経験 出生年 無し あまり無し 時々有り よく有り 1920 年代 65 19 19 21 以前 52.4% 15.3% 15.3% 16.9% 30 年代 122 38 53 40 48.2% 15.0% 20.9% 15.8% 40 年代 116 61 70 49 39.2% 20.6% 23.6% 16.6% 50 年代 79 62 85 34 30.4% 23.8% 32.7% 13.1% 60 年代 49 56 107 69 以降 17.4% 19.9% 38.1% 24.6% 合計 431 236 334 213 35.5% 19.4% 27.5% 17.5% 在日韓国人男性 1920 年代 9 1 2 4 以前 56.3% 6.3% 12.5% 25.0% 30 年代 24 0 3 1 85.7% .0% 10.7% 3.6% 40 年代 31 3 2 1 83.8% 8.1% 5.4% 2.7% 50 年代 13 7 2 3 52.0% 28.0% 8.0% 12.0% 60 年代 4 2 1 1 以降 50.0% 25.0% 12.5% 12.5% 合計 81 13 10 10 71.1% 11.4% 8.8% 8.8% 合計 しかも派遣に賛成している確率 p男∩賛成 は、 124 100.0% 253 100.0% 296 100.0% 260 100.0% 281 100.0% 1214 100.0% p男∩賛成 = p男 × p賛成 とあらわせる。サンプルを N 人とり、そのうち、男 が n男• 人、賛成が、n•賛成 人、いたとすると、p男 と p賛成 は、次の式で、推定できる。 16 100.0% 28 100.0% 37 100.0% 25 100.0% 8 100.0% 114 100.0% n男• N n = •賛成 N p̂男 = (4.2) p̂賛成 (4.3) p男 でなく、p̂男 となっているのは、本当の確率ではな くその推定値であることを示すためである。性別と自 衛隊派遣への賛否が独立であるとすると、N 人サンプ ルをとった場合、男でなおかつ派遣に賛成の人数の期 待度数 E男賛成 は、 E男賛成 = N × p男∩賛成 = N × p̂男 × p̂賛成 n n n ·n = N × 男• × •賛成 = 男• •賛成 N N N これが、2 重クロス表において 2 変数が独立の場合の 4.2.1 期待度数の公式の導き方である。これは 3 変数でも同 独立モデル {[1], [2], [3]} じことである。つまり、行の変数の値が、i である確 率を pi•• 、列の変数の値が、j である確率を p•j• 、層 期待度数 の変数の値が、k である確率を p••k とすると、もしも それでは、3 変数 [1], [2], [3] が独立である場合の期 3 変数が独立ならば、ある対象者(サンプル)が i 行 j 列 k 層に属す確率 pijk は、 待度数を計算しよう。i 行 j 列 k 層の期待度数を Eijk 、 3 重クロス表全体度数を N とすると、 n•j• n••k ni•• × × N N N ni•• n•j• n••k = N2 pijk = pi•• × p•j• × p••k Eijk = N × であらわせる。さらに、 (4.1) ルの期待度数は、 E132 = ni•• N n•j• p̂•j• = N n••k p̂••k = N p̂i•• = と定義される。例えば、表 4.3 の 1 行3列 2 層目のセ n1•• n•3• n••2 (124 + 16) (334 + 10) 114 = = 3.11 2 2 N (1214 + 114) 18 (4.4) (4.5) (4.6) だから、3 変数が独立の期待度数は、 における期待度数を計算する前に、2 変数周辺度数を 定義しておこう。2 変数周辺度数とは、 Eijk = N × ×pijk = N × p̂i•• × p•j• × p••k ni•• n•j• n••k =N× × × N N N ni•• · n•j• · n••k = N2 nij• = l X nijk , n•jk = r X nijk , ni•k = i=1 k=1 c X nijk j=1 で定義される。例えば、3 行 4 列目の 2 変数周辺度数 である。これが、4.1 式の導き方である。 は、n34• = 49 + 1 = 50 であるし、1 列 2 層の 2 変数周 辺度数は n•12 = 9 + 24 + 31 + 13 + 4 = 81、5行 1 層 の 2 変数周辺度数は、n5•1 = 49 + 56 + 107 + 69 = 281 カイ二乗値 である。 次にカイ二乗値を計算する。カイ二乗値の計算式は、 2 変数間の独立性の検定に用いられるものとほぼ同じ である。つまり、 χ2 = 期待度数 例えば、行と列が関連しているが、層は行とも列と r X c X l 2 X (nijk − Eijk ) i=1 j=1 k=1 も独立である場合、期待度数は、 Eijk Eijk = N × である。例えば、表 4.3 の 1 行 3 列 2 層の場合、 2 2 (2 − 3.11) (n132 − E132 ) = 0.398 E132 3.11 n••k nij• n••k nij• × = N N N で計算される。行と列は連関していると仮定するので、 行と列の 2 変数周辺度数をもちいる。しかし、層は行 である。これをすべてのセルに関して計算し、それら とも列とも連関していないので、i 行 j 列に属する確率 をたし合わせたものが、カイ二乗値である。表 4.3 の と、k 層に属する確率を掛け合わせれば、i 行 j 列 k 層 に属する確率が計算できる。例えば、表 4.3 の 5 行 1 場合、χ2 = 203 であった。 列 1 層の(1 変数独立モデルにおける)期待度数は、 これは、尤度比基準を用いても良い。というか、後 に述べる対数線形モデルでは、尤度比基準を用いるの E511 = が一般的である。 n51• n••1 49 · 1214 = = 44.79 N 1328 である。同じ要領ですべてのセルの期待値を計算で きる。 自由度 カイ二乗値の定義は、独立モデルと同じである。表 独立モデルの自由度 d.f. は下記の公式で計算できる。 4.3 の場合、1 変数独立モデルのカイ二乗値は、80.3 で ある。 d.f. = rcl − r − c − l + 2 4.3 の場合、5 行 4 列 2 層だから、d.f. = 5 · 4 · 2 − 5 − 4 − 2 + 2 = 31 である。 自由度 31 の 1 %水準のカイ二乗分布の限界値は 52.19 だから、 4.3 4.3 に関しては、1%水準で独立モデルは 自由度 この例のように、層が行と列から独立している場合、 モデルの自由度は、 棄却される。 4.2.2 d.f. = rcl − rc − l + 1 = (rc − 1) (l − 1) で計算される。表 4.3 の場合、542 − 54 − 2 + 1 = 19 1 変数独立モデル {[1,2], [3]} である。 1 変数独立モデルとは、3 つの変数のうち 1 つだけ 自由度 19 のカイ二乗分布の 5%水準の限界値は、 36.19 であるから、表 4.3 に関しては、1 変数独立モデ ルも棄却される。 は、残りの二つから独立しているが、残りの二つの間 には連関があると仮定するモデルである。このモデル 19 4.2.3 条件付独立モデル {[1,2], [2,3]} 4.2.4 対連関モデル {[1,2], [2,3], [3,1]} 条件付独立モデルとは、3 つの変数を [1], [2], [3] と 対連関モデルとは、3 変数がそれぞれ連関している 呼ぶとすると、[1] と [2]、[2] と [3] はそれぞれ連関し というモデルである。対連関モデルの期待度数は、繰 ているが、変数 [2] でコントロールした場合、[1] と [3] り返し計算をしないと求められないので割愛する。自 は独立していると仮定するモデルである。[1], [2], [3] 由度は、(r − 1) (c − 1) (l − 1) で与えられる。ちなみ は、行でも列でも層でもよい。以下では、表 4.3 に関 に 4.3 の場合、対連関モデルの自由度は 12、カイ二乗 して、出生年と読み聞かせの経験、エスニシティ(日 値は、19.17、有意確率は、0.085 である。このモデル 本人か在日韓国人か)と読み聞かせの経験は連関して は 5%水準でも棄却されない。 いるが、出生年とエスニシティは独立というモデルを 当てはめてみよう。 4.2.5 飽和モデル {[1,2,3]} 飽和モデルとは、3 変数が連関しているという点で 期待度数 は対連関モデルと同じであるが、より高次の交互作用 条件付独立モデルの期待度数は、行と列、列と層は を仮定している点で、対連関モデルと異なる。対連関 連関しているが、行と層は独立の場合、 nij• n•jk Eijk = n•j• モデル {[1,2], [2,3], [3,1]} の場合、[3] でコントロール である。条件付独立モデルは、第 3 変数でコントロー らず一定であると予測している。ところが、飽和モデ ルした場合、2 変数の連関が消えることを予測する。し ルの場合、[3] の値によって、[1,2] の連関の強さやパ たがって上のような式で計算することは、エラボレー ターンは異なると仮定する。これが飽和モデルである。 ションになれている読者にはわかりやすいと思われる。 飽和モデル期待度数は、 して [1,2] のクロス表を作ると、[1,2] は連関している が、その連関の強さやパターンは変数 [3] の値に関わ この場合は、 4.3 の列変数に当たる読み聞かせの経験 Eijk = nijk でコントロールする形になるので、ちょっとわかりに くいかもしれないが、列と層の変数を入れ替えて考え であり、セル度数と期待度数が一致するので、カイ二 ればよい。 乗値は必ず 0、自由度も 0、有意確率を計算する意味 はない。飽和モデルが棄却されることはない。 4.3 の場合、例えば、4 行 3 列 2 層の期待度数は、 E432 = n43• n•32 (85 + 2) · 10 = = 2.53 n•3• 334 + 10 4.2.6 となる。カイ二乗値の定義は、独立モデルと同じであ る。 4.3 の場合、条件付き独立モデルのカイ二乗値は、 練習問題 2 ページの表 1.3 に、独立モデル、[就業形態 · 収入] [性別] の 1 変数独立モデル、[就業形態 · 収入] [性別 · 30.241 である。 この条件付き独立モデルの検定は、11 ページの 2.4.2 就業形態] の条件つき独立モデルをあてはめ、カイ二 節で行ったものと同じである。 乗値と自由度を求め、それぞれ検定しなさい。 自由度 4.3 層と行が条件付きで独立している場合の自由度は、 モデルの選択 以上 5 種類のモデルを概観してきたが、どのモデル d.f. = rcl − rc − cl + c = c (r − 1) (l − 1) がデータの特徴をうまくつかんでいると言えるだろう か。一般にモデル選択の基準は、 である。 4.3 の場合、16 である。自由度 16、カイ二乗 値 30.241 の有意確率は、0.017 である。したがって条 • 有意確率が低すぎてはいけない。例えば、1%水準 件付き独立モデルは、1 %水準では棄却されないが、5 で棄却されてしまうようなモデルは採択すべきで %水準では棄却される。 はない。 20 検討することがある。G2 は帰無仮説 G2 =0 のもとで、 • できるだけ単純なものが良い。モデルのデータに 対するあてはまりが大差ないならば、より単純な モデルを選ぶべきである。つまり自由度の大きな モデルということになる。 自由度=二つのモデルの自由度の差のカイ二乗分布を する。モデル [1,2] [2,3] [3,1] と、[2,3] [3,1] を比較する 場合、それぞれの尤度比基準の差は、28.7-19.2=9.5 で ある。自由度の差は、12-16=4。自由度 4 のカイ二乗 上の二つの基準は、トレードオフの関係にある。複 分布の 5%水準の限界値は、9.49 なので、5%水準では 雑なモデルほど有意確率は大きいし、単純なモデルほ 有意だが、1%水準では有意ではない。この二つのモデ ど有意確率は小さくなる傾向がある。したがって一般 ルの選択はかなり微妙だが、とりあえず、1%水準を基 には、一定の有意水準で棄却されないモデルのうちか 準にして、 [2,3] [3,1] を採択することにしよう1 。 ら、できるだけ単純なモデルを選ぶことが多い。一つ の目安は、赤池情報量基準 AIC (Akaike Information Criterion) という数値である。AIC は、 4.3.1 AIC = χ2L − 2d.f. 練習問題 表 4.5 は、2 ページの表 1.3 に対数線形モデルをあて で定義される。この数値が小さいモデルほど、母集団 はめた結果である。それぞれのモデルの自由度と AIC、 の分布に良くあてはまっていると考えられる。したがっ そして 5%および 1%水準で有意かどうかを述べなさい。 て、考えられるモデルの中から、いちばん AIC の小 また、それらの結果から、最も適当なモデルを選びそ さいモデルを採択すればよいということになる。しか の理由を述べなさい。 し、AIC も一つの基準にすぎず、わかりやすさ、解釈 のしやすさなどを総合的に勘案して、モデルは選択す べきであろう。 表 4.5: 表 1.3 を対数線形モデルで分析した結果 χ2L df p AIC [1,2,3] 0 0 0 [1,2] [2,3] [3,1] 0.5 [1,2] [2,3] 109.9 [2,3] [3,1] 21.5 [3,1] [1,2] 48.8 1 変数独立 [1,2] [3] 228.1 モデル [2,3] [1] 200.8 [3,1] [2] 139.7 独立モデル [1] [2] [3] 319.1 3=収入, 2=性別, 1=就業形態 4.3 にすべてのモデルを当てはめてみて、有意確率 p と AIC を計算したのが表 4.4 である。分析には、LEM というフリーウェアを使う。 モデル 飽和モデル 対連関モデル 条件付き 独立モデル 表 4.4: 表 4.3 を対数線形モデルで分析した結果 χ2L df p [1,2,3] 0 0 [1,2] [2,3] [3,1] 19.2 12 0.082 [1,2] [2,3] 64.0 15 0.000 [2,3] [3,1] 28.7 16 0.024 [3,1] [1,2] 122.4 24 0.000 1 変数独立 [1,2] [3] 168.0 27 0.000 モデル [2,3] [1] 85.1 19 0.000 [3,1] [2] 143.5 28 0.000 独立モデル [1] [2] [3] 199.9 31 0.000 3=読み聞かせの経験, 2=出生年, 1=エスニシティ モデル 飽和モデル 対連関モデル 条件付き 独立モデル AIC 0 −4.8 34.0 −3.3 74.4 114.0 47.1 87.5 137.9 表 4.6 に階層的対数線形モデルを当てはめた結果が 表 4.7 である。それぞれのモデルの自由度と AIC、そ して 5%および 1%水準で有意かどうかを述べなさい。 また、それらの結果から、最も適当なモデルを選びそ の理由を述べなさい。 表 4.4 を見ると、飽和モデルのほかにも、対連関モ デルが 5%水準でも棄却されていないし、[2,3] [3,1] も 1 問題は、出生年とエスニシティの間の連関を仮定するかどうか だが、実はこのケースでは、連関を仮定すべきである。本文での手 続きが最も一般的だが、この場合、在日韓国人男性のほうが、若干 高齢なのだが、これは母集団の特性ではなく、単にデータを集める 際に生じたバイアスである。つまり、在日韓国人男性のサンプリン グ台帳が古かったため、若い対象者が相対的に多くたずねあたらな かったのである。そもそも日本と在日の男性を比べて年齢の分布を 比較することは分析の趣旨ではない。このように関心のない変数間 の連関はあらかじめ仮定しておくのが一般的である。 1%水準では棄却されていない。モデルはできるだけ単 純なモデルを採用するのがよい。精度だけで考えれば、 飽和モデルがもっともよいが、1%または 5%水準で棄 却されていなければ、できるだけ単純なモデルを選ぶ のが一般的である。また、複数のモデルを比較する場 合、尤度比基準の値の差 G2 の大きさが有意かどうかを 21 重回帰式と同じである。しかし、このままでは扱いが 表 4.6: 企業規模・雇用形態別の育児休業の有無 A 企業規模 B 雇用形態 育児休業 30 人未満 非正規雇用 正規雇用 30∼999 人 非正規雇用 正規雇用 1000 人以上 ・官公庁 非正規雇用 正規雇用 無し 有り 67 100 6 28 38 50 16 57 8 8 8 81 難しいので、両辺の自然対数をとって ni•• n•j• n••k N2 = −2 log N + log ni•• + log n•j• + log n••k log Eijk = log (4.7) というカタチで考える。この式は、右辺の各項に比例 して期待度数の対数も変化すると予測するモデルであ る。これは、重回帰分析と同じ線形加法モデル (linear- additive model) である。対数変換して、線形モデル にするので、対数線形モデルあるいはログリニア・モ デルと呼ばれている。重回帰式が、従属変数の値を予 測するモデルをたてるのにたいして、対数線形モデル では、多重クロス表のセルの度数を予測する。(4.7) 式 の右辺を見ると、すべてのセルに共通の項、各行に共 通の項、各列に共通の項、各層に共通の項の 4 つの項 からなっていることがわかる。 表 4.7: 表 4.6 を対数線形モデルで分析した結果 χ2L df p AIC [ABC] 0 0 0 [AB] [BC] [AC] 3.5 [AB] [BC] 130.4 [BC] [CA] 6.2 [CA] [AB] 28.7 1 変数独立 [AB] [C] 169.9 モデル [BC] [A] 147.3 [CA] [B] 45.6 独立モデル [A] [B] [C] 186.8 A=企業規模, B=就業形態, C=育児休業の有無 モデル 飽和モデル 対連関モデル 条件付き 独立モデル 対数線形モデルでは、母集団でのセル度数を推測す るのが目的である。もしも独立モデルが正しければ、 母集団でも実際のセル度数とその期待度数が一致する 4.4 はずである。つまり、母集団での i 行 j 列 k 層のセル 階層的対数線形モデルとは? 度数2 を Fijk 、周辺度数を Fi•• , F•j• , F••k とすると、 (4.7) 式より、 これまでの議論で、おおよその目的は達成したのだ が、さらに知りたいことがある。例えば、表 4.7 で [AB] [AC] を採択したとしよう。A と B に連関があるとし ても、連関の強さは、すべてのセルで一定ではない。 大企業では中小企業に比べて非正規雇用が少ないとい うことかもしれないし、その他のセルで強い連関があ るのかもしれない。このような連関のパターンを細か く見ていくためには、いわゆる対数線形モデルのパラ log Fijk = −2 log N + log ni•• + log n•j• + log n••k (4.8) となるはずである。(4.8) 式は、さらに以下のように 書き換えるのが、一般的である。 メータの推定値を計算し、その大きさや符号の向きを 検討する必要がある。 4.4.1 log Fijk = u + u1(i) + u2(j) + u3(k) ただし、 セル度数を予測するモデル r P c l P P 独立モデルを例に考えよう。独立モデルの場合の期 u= 待度数は、 Eijk = (4.9) ni•• n•j• n••k N2 i=1 j=1 k=1 u2(j) = rcl l r P P k=1 i=1 c l P P log nijk , log nijk lr u1(i) = −u, j=1 k=1 u3(k) = log nijk cl r P c P i=1 j=1 −u, log nijk rc −u, (4.10) であった。これは、i 行 j 列 k 層のセル度数を予測する 2 正確に言うと、母集団において i 行 j 列 k 層に属するケースの 割合の予測値を pijk とすると、Fijk = pijk × N で定義される。 ための式であるとも考えられる。そういう意味では、 22 である。上の 4 つの式を (4.9) 式に代入し、テキスト 表 4.8: 表に独立モデルをあてはめた場合のパラメー の (5.4), (5.5), (5.6) 式を参考に計算すれば、(4.8) 式 タ推定値 が得られる。u は、すべてのセルに共通の効果なので、 û 全平均効果、あるいは総効果と呼ばれる。残りの項は、 総平均効果 変数 [1], [2], [3] の主効果と呼ばれる。また、これらの 1.18 在日 -1.18 20 年代 30 年代 40 年代 50 年代 60 年代 -0.60 0.10 0.27 0.11 0.13 定するモデルであるとも言える。対数線形モデルとは、 i=1 u2(j) = 0, j=1 l X u3(k) = 0 (4.11) k=1 16.92 0.05 24.15 3.26 0.31 0.07 0.05 0.05 0.05 -8.39 1.78 5.20 2.05 0.55 1.10 1.31 1.12 1.13 0.04 0.05 0.05 11.45 -4.38 1.88 1.63 0.79 1.09 0.71 読み聞かされた経験 となる。 無し あまり無し 4.4.2 exp(û) 出生年 (4.9) 式のように、対数セル度数を複数のパラメータの 和であらわすモデルであるとも考えられる。(4.10) の ようにパラメータを計算する場合、 c X 2.83 日本 と呼ばれる。独立モデルとは、(4.9) 式のような式を仮 u1(i) = 0, z-value エスニシティ 項はすべて母集団の値であるという意味でパラメータ r X SE パラメータの推定 時々あり よく有り 独立モデルが正しければ、サンプルにおいてもセル 0.49 -0.23 0.09 -0.34 û: u の推定値, SE: û の標準誤差, z-value: û/SE, exp(u): eû 度数 nijk と独立モデルの下での期待度数 Eijk はかな り一致するはずだろう。そこで、尤度比基準かカイ二 がない人の数の対数は、 乗値を計算し、検定をすれば、独立モデルが正しいか どうか判断できる。仮に検定が有意ならば、独立モデ ルは棄却されるし、有意でなければ、独立モデルが採 logE111 = û + u1(1) ˆ + u2(1) ˆ + u3(1) ˆ 択される。モデルを選択したら、選択したモデルのパ = 2.83 + 1.18 + (−0.60) + (0.49) = 3.9 (4.12) ラメータの推定値を計算し、その値を解釈する。 独立モデルの場合、ほとんど解釈しても意味はない と推定される。したがって、期待度数そのものは、8 が、あえて解釈すればこうである。全平均効果とは、 ページの (2.2) 式より セル度数の自然対数の平均値である。この値の大きさ E111 = eû+û1(1) +û2(1) +û3(1) を解釈することはない。主効果とは、周辺度数の効果 である。例えば、表 4.3 では、日本人と在日韓国人で = 2.7183.9 = 49.4 (4.13) は、日本人のほうが圧倒的に人数が多い。つまりエス ニシティという変数の値が日本人だと平均の対数セル である。実際のセル度数は、65 であるから、かなり外 度数よりも、度数が大きくなる傾向がある、と独立モ れているのがわかる。 デルからは予測できる。逆に在日韓国人だと対数セル パラメータの推定値は、帰無仮説 u = 0 のもとで正 度数は小さくなる傾向があるはずである。他の変数に 規分布する。その標準誤差も計算できるので (計算法 関しても同様の議論が成り立つ。パラメータの値がプ は省略) 、û/SE を計算し、それが 1.96 以上ならば、 ラスならば、平均のセル度数よりも大きくなると予測 5% 水準で有意ということになる。 しているということであるし、マイナスならば小さく なると予測していることになる。 4.4.3 ちなみに、表 4.3 に独立モデルを当てはめてパラメー タを推定すると、表 4.8 の 1 列目の値のようになる。 交互作用項 対数線形モデルにおいて興味があるのは、ふつう独 日本人で 1920 年代に生まれ本を読み聞かされた経験 立モデルではなく、一定の連関を仮定するモデルであ 23 る。例えば、1 変数独立モデルの場合、 表 4.9: 表 4.3 に条件付き独立モデルを当てはめたとき log Fijk = u + u1(i) + u2(j) + u3(k) + u12(ij) (4.14) の交互作用パラメータの推定値 [1,3] 無し あまり無し 日本人男性 -0.56** 0.06ns 在日韓国人男性 0.56 -0.06 [2,3] 1920 年代以前 0.41** -0.16ns 30 年代 0.39** -0.22ns 40 年代 0.15ns 0.06ns 50 年代 -0.19* 0.26** 60 年代以降 -0.77 0.06 ** 1%水準で有意 * 5%水準で有意, ns となる。(4.9) 式との違いは、u12(ij) という項が加わっ たことである。パラメータの計算式は省略するが、条 件付き独立モデルは、 log Fijk = u + u1(i) + u2(j) + u3(k) + u12(ij) + u23(jk) で、対連関モデルは、 log Fijk = u+u1(i) +u2(j) +u3(k) +u12(ij) +u23(jk) +u31(ki) 時々有り よく有り 0.36** 0.14 -0.36 -0.14 -0.39** 0.14 -0.11ns -0.06 -0.10ns -0.11 0.21* -0.29 0.40 0.32 有意でない(その他 は確率変数ではないとみなしている) で、そして最後に飽和モデルは、 それでは、実際のパラメータ推定値を見ながら考え log Fijk = u + u1(i) + u2(j) + u3(k) よう。表 4.9 は、表 4.3 に条件付き独立モデルを当て +u12(ij) + u23(jk) + u31(ki) + u123(ijk) はめた場合の交互作用パラメータの値である。例えば、 でセル度数(の対数)を予測する。パラメータを増や 「日本人男性」で「無し」のパラメータは、-0.56 と推 せば、ふつう予測の精度は上がる。少なくとも下がる 定されている。すると、(4.15) 式の制約から、日本人 ことはない。u12(ij) , u23(jk) , u31(ki) は、1 次の交互作 男性のパラメータが推定されば、 「在日韓国人」 「なし」 用項、または交互作用効果と呼ばれ、u123(ijk) は 2 次 のパラメータは自動的に決まってしまうのである。同 の交互作用効果と呼ばれることがある。これらの交互 様に「日本人男性」の「無し」「あまり無し」「時々有 作用項の計算も(計算に時間がかかりすぎるので)割 り」のパラメータが推定されると、 「よく有り」のパラ 愛する。詳しくはテキストを参照。交互作用項が有意 メータは、u13(15) = 0 − (−0.56 + 0.06 + 0.36) = 0.14 であるということは、そのセルに関しては、交互作用 となる。このパラメータ推定値は独立に分布していな を仮定したほうが、モデルの予測精度が有意に上がる いとここではみなしているので、この値に関しては、 ということである。逆に有意でなければ、そのセルに 検定を行わないのが慣習のようである。そもそも対数 関しては、交互作用を仮定してもほとんど予測制度は 線形モデルでは、個々のパラメータの有意性を細かく 上がらないということである。 検討することはあまりないようである。 表 4.9 をみると、日本人男性は在日韓国人男性に比 4.4.4 べて「無し」が相対的に少なく、 「時々有り」が相対的 パラメータの制約 に多いことがわかる。これはコーホートの効果をコン パラメータは行、列、または層で合計すると必ず 0 トロールしてもそうだということである。また、古い になるように制約するのが普通である。そうしないと、 コーホートでは、 「無し」が相対的に多かったが、最近 パラメータの値が定まらないのである。主効果につい になるにつれて減る傾向が見られる。全般に、最近に てはすでにこの傾向を確認したが、交互作用項に関し なるにしたがって読み聞かせてもらった経験が増える ても同様である。例えば、 傾向が読み取れる。 r X i=1 u12(ij) = 0 , c X u12(ij) = 0 (4.15) 4.4.5 j=1 モデルの階層性 である。このような制約のために、(r-1)(c-1) 個のパラ 3 変数の階層的ログリニア・モデルにおいては、独立 メータを推定すると、残りのパラメータ推定値は自動 モデル、1 変数独立モデル、条件付独立モデル、対連 的に決まってしまうのである。 関モデル、飽和モデルの 5 種類のみを扱う。“階層的” 24 とは、変数 [1, 2] の交互作用効果をモデルに投入する (b) [AB] [CA] ときは、必ず [1] と [2] の主効果もモデルに投入すると (c) [ABC] いう意味である。二次の交互作用項をモデルに投入す 2. 2 行 3 列 4 層からなる三重クロス表に、階層的対 数線形モデル [AB] [BC] [CA] をあてはめるとし よう。このとき、以下の対数セル度数をパラメー タの和で示しなさい。 るならば、残りすべての項をモデルに投入する。技術 的には、主効果を入れずに交互作用効果だけ入れるこ とは可能である。しかし、一般には、主効果とは区別 された交互作用効果の大きさが問題になるので、階層 性の仮定を置くことは一般的には理にかなっている。 (a) log F123 3 変数で階層的対数線形モデルを検討する場合、表 4.4 や表 4.5 のように 9 個のモデルが考えられる。これ らのモデルの間には、図 4.2 のような階層的関係があ るといわれる。例えば、[AB] [C] が持つパラメータは、 すべて [AB] [BC] も持っている。階層的な関係とはそ ういう意味である。直接・間接を問わず、矢印でつな がっている場合、その二つのモデルの間には、階層的 (b) log F214 (c) log F132 3. 次の対数線形モデルのうちから、階層性の仮定を 満たさないものを選びなさい (a) log Fijk = u + u1(i) + u2(j) + u12(ij) + u31(ki) な関係があることを示す。逆に [AB] [C] と [AC] [BC] (b) log Fijk = u + u1(i) + u2(j) + u3(k) + u31(ki) の間には、階層的な関係はない。なぜなら、[AB] [C] (c) log Fijk = u + u1(i) + u2(j) + u3(k) + u12(ij) + u31(ki) には、A と B の交互作用項が含まれているが、[AC] [BC] にはないからだ。 二つのモデルが階層的な関係にある場合だけ、4.3 節 でふれたように、尤度比基準の値の差 G2 を検定でき る。逆に言えば、階層的関係にない場合、できない。 (d) log Fijk = u + u1(i) + u2(j) + u3(k) + u12(ij) + u31(ki) + u123(ijk) (e) loge Fijk = u + u1(i) + u2(j) 4. 表 4.10 は、表 1.3 に対連関モデルを当てはめた場 合のパラメータの推定値である。1 行 1 列 1 層、1 行 2 列1層、2 行 2 列 2 層の期待度数の対数を求 めよ。 表 4.10: 表 1.3 に対連関モデルをあてはめた場合のパ ラメータ推定値 図 4.2: 階層的対数線形モデル 1 2 A B 0.76** 0.16* -0.76 -0.16 C 0.89** -0.89 11 12 21 22 0.27** -0.44** -0.27 0.44 -0.27 0.44 0.27 -0.44 AB BC 4.4.6 練習問題 CA -0.86** 0.86 0.86 -0.86 ** 1%水準で有意、 * 5%水準で有意 1. 3 つの変数 A, B, C からなる三重クロス表に階 A: 就業形態, B: 性別, C: 収入 層的対数線形モデルを当てはめる。下記のよう なモデルを当てはめる場合、それぞれのモデルを “log Fijk =” のかたちで表しなさい。 5. 表 4.11 は、表 4.1 に飽和モデルを当てはめた場合 の 2 次の交互作用パラメータの推定値である。こ (a) [A] [B] [C] 25 の値から、夫婦の学歴の連関がどのように変化し 表 4.12: 条件付き独立モデル [2,3] [3,1] の標準残差 たか述べなさい。 子供のころ本を読み聞かされた経験 表 4.11: 飽和モデルの 2 次の交互作用パラメータの推 日本人男性 定値 1920 年代以前 30 年代 40 年代 50 年代 60 年代以降 妻学歴 1 2 3 1 2 -0.4165 0.4165 0 -0.1261 0.0251 -0.0251 2 1 2 0.3037 -0.3037 -0.2268 0.2689 0.0536 -0.0536 3 1 2 0.1109 -0.1109 0.1199 -0.0779 -0.1003 0.1003 4 1 2 0.0019 -0.0019 0.1069 -0.0648 0.0217 -0.0217 出生年 夫学歴 1 4.5 0.343 -0.081 -0.696 0.177 0.656 0.01 0.331 0.044 -0.42 0.139 -0.308 -0.186 0.011 0.058 0.209 -0.589 0.134 0.18 -0.226 0.262 -0.043 -1.409 1.778 1.075 2.719 -0.618 -0.187 1.79 -0.064 -0.333 -0.83 1.041 -1.514 -0.591 -1.207 1.5 より大きい値には網掛け -1.207 在日韓国人男性 1920 年代以前 -0.791 30 年代 0.188 40 年代 1.606 50 年代 -0.408 60 年代以降 4.6 標準残差 対数線形モデルの手続き 以下にこれまでのまとめをしておこう。3 変数の階 採択したモデルから予測される期待度数と、実際の 層的対数線形モデルは以下の手続きで行えばよい。 セル度数の乖離の度合いを見ておく必要がある。モデ 1. まず多重クロス表を作り、行パーセントや順位相 関係数など適切な数値を計算して、3 変数の連関 のパターンを概観する。 ル全体としては棄却されなくても、特定のセルで大き く乖離が生じている場合もある。また、何らかの有意 味な解釈のできるようなパターンで乖離が生じている 2. 次に、9 種類のモデルの尤度比基準、自由度、有意 確率、AIC を計算し、適当なモデルを選択する。 必要ならば G2 を計算するのも良い。 場合もある。場合によっては、より複雑なモデルをも う一度検討してみることも必要になる。このような期 待度数と実際のセル度数の乖離の指標として標準残差 が用いられる。i 行 j 列 k 層の標準残差を eijk とす 3. 選んだモデルのパラメータの推定値と標準残差を 概観し、解釈してみる。うまく解釈できなかった り、標準残差からより複雑なモデルが必要と判断 される場合は、別のモデルを検討してみる。 ると、 eijk = 無し あまり無し 時々有り よく有り nijk − Eijk p Eijk である。母集団で eijk = 0 ならば、eijk も標準正規分 数値の計算は、手計算では時間がかかりすぎてとうて 布する。したがって標準残差が 1.96 より大きければ、 いできない。対数線形モデルの計算は、SPSS, SAS, R 両側 5%水準で有意である。 のいずれでも簡単にできる。ここでは、LEM の使い 方を簡単に紹介しておこう。 表 4.3 に条件付き独立モデル [2,3] [3,1] を当てはめ た場合の標準残差が、表 4.12 である。標準残差の計算 は 0 次のクロス表の場合と同じで、帰無仮説のもとで 4.7 標準正規分布する。5%水準の両側の限界値 1.96 以上 LEM の使い方 LEM は、http://www.uvt.nl/faculteiten/fsw /organisatie/departementen/mto/software2.html で入手 の絶対値を取っているセルは、ひとつだけであり、モ デルの当てはまりはそれほど悪くない。 26 できる。 ペース、タブ、または改行で区切る。プログラム全般 LEM で階層対数線形モデルの分析をする場合、 に言えることだが、全角文字は使わないほうがよい。 アウトプットの見方は省略。 man 変数の数 dim 各変数のカテゴリの数 mod { モデル } dat[クロス表の度数] 4.8 というかたちのプログラムを input ウィンドウに入 力し、ctrl+R とすると、output ウィンドウに分析結 4 変数以上を使った階層的対数 線形モデル 階層性を仮定すれば 3 変数までなら、すべてのモデ 果が表示される。 4.3 を分析したプログラムの例を挙 ルを検討するのは簡単である。しかし、変数が 4 つ以 げよう。 上になると、すべてのモデルを検討するのは、かなり man 3 dim 2 5 4 mod {AC BC} dat[ 65 19 19 21 122 38 53 40 116 61 70 49 79 62 85 34 49 56 107 69 9124 24 0 3 1 31 3 2 1 13 7 2 3 4211 ] たいへんである。例えば、A, B, C, D という 4 つの変 数に関して、1 次以下の交互作用を仮定するモデルだ けでも、 [A][B][C][D], [AB][C][D], [AC][B][D], [AD][B][C], [A][BC][D], [A][BD][C], [A][B][CD], [AB][AC][D], [AB][AD][C], [AB][BC][D], [AB][BD][C], [AB][CD], [AC][BC][D], [AC][BD], [AC][B][CD], [AB][AC][AD], [AB][AC][BC][D], [AB][AC][BD], [AB][AC][CD], [AB][AD][BC], [AB][AD][BD], [AB][AD][CD], [AB][BC][BD], [AB][BC][CD], [AB][BD][CD], [AC][AD][BC], [AC][AD][BD], [AC][BC][BD], [AC][BC][CD], [AD][BC][BD], [AD][BC][CD], [BC][BD][CD]. . . . . . . . . . まだ続く。 この場合は変数が 3 つで、それぞれカテゴリ数が 2, 5, 4 となっている。LEM は特に指定しなければ、勝 手に変数の名前を最初から A, B, C, D. . . と名づけて いく(LEM は大文字と小文字を区別しているので注 意)。この場合、変数 A は二値で、B は 5 つ、C は 4 つのカテゴリを持つと指定している。モデルの指定は 表 4.13 のようにする。 [AC][AD][CD], [AC][BD][CD], [AD][BD][CD], といった具合で、とてもいちいちチェックしていら れない。変数が 5 つ以上になれば、さらに可能なモデ ルは増えていく。チェックすべきモデルを減らすには、 3 つの方法があるといわれている。 1. 9 ページの 2.4 節で行ったように、検証すべき仮 説を特定し、その仮説の検証に関係のあるモデル だけを検討する。2.4 節では、焦点となる 2 変数 表 4.13: LEM における階層モデルの指定 飽和モデル mod {ABC} の連関が存在するかどうかが問題となっていた。 その場合コントロール変数間の交互作用は必ず仮 条件付き独立モデル mod {AB BC CA} mod {AB CA} 1 変数独立モデル 独立モデル mod {A BC } mod {A B C } ロール変数を C, D とすると、条件付き独立モデ 対連関モデル 定する。焦点となっている変数を A, B, コント ル [ACD][BCD] が棄却できるかどうかが問題で あり、一つのモデルだけ検討すれば、一応の目的 は達せられる。 A が i 番目のカテゴリで、B は j 番目、C は k 番目の カテゴリに該当するセル度数を nijk とすると、セル度 2. 独立変数と従属変数に分けて、独立変数間の交互 数の入力は n111 , n112 , n113 , n114 , n121 ,. . . という順番 作用を仮定する。例えば、従属変数が Y, 独立変数 で入力していく。セル度数とセル度数の間は、半角ス が、A, B, C だとすると、いちばん単純なモデルは、 27 [Y][ABC] である。ここから出発して [YA][ABC], [YB][ABC]. . . . . . と、順次モデルを検討する。 3. ステップワイズ法を用いる。詳細は省略。 1 番目の方法がもっとも好ましく、最後の方法がもっと もまずい。ステップワイズ法は最良のモデルを選んで くれる保障はない。2 番目の方法もかなりモデルを絞 り込めるが、それでもかなりの試行錯誤が必要になる。 4 つ以上の変数の関係はかなり複雑であり、探索的 に分析するだけでは限界がある。先行研究のレビュー と中心仮説の理論的な検討なくしては、満足のいく分 析を行うことは難しい。 28 させるためには、表 5.2 の 1 行目のセル度数に 50 をか ければよい。すると、 50 1 第 5 章 繰り返し比例当 てはめ法 となる。同様にして 2 行目の周辺度数はそれぞれ 90 と 2 だから、2 行目は 90/2 = 45 倍して、である。次に 表 5.3: 行周辺度数が一致したところ 50 50 対連関モデルの期待度数は、簡単には計算できなかっ た。この章では、繰り返し比例当てはめ法 (method 45 of iterative proportional fitting) を実際にやって みる。一般的な議論は、テキストの 95∼98 ページを 参照。 5.1 50 1 45 1 列目に注目する。もとのクロス表 5.1 の 1 列目の周辺 度数は 30+50 = 80、表 5.3 は 50+45 = 95 である。し たがって、表 5.3 の 1 列目のセル度数を 80/95 = 0.842 倍して “2 重” クロス表の場合 42.1 37.9 次のような仮想の “2 重” クロス表の独立モデルにお ける期待度数を計算する。 50 45 同様にして、2 列目はそれぞれ、110, 95 だから、 110/95 = 1.16 倍して、 表 5.1: 仮想の 2 × 2 表 30 70 50 40 表 5.4: 計算終了 42.1 57.9 37.9 52.1 もちろん繰り返し比例当てはめ法を使わなくても、 すでに習った公式を用いれば、期待度数は計算できる が、繰り返し比例当てはめ法の考え方を理解するため となる。表 5.1 と表 5.4 の周辺度数を比べると、完 に、簡単な例から考えてみよう。繰り返し比例当ては 全に一致しているので、計算はこれで終わりである。 め法を用いる場合、まず、初期値として各セルに 1 を もしも一致しなければ、今のプロセスを一致するまで あたえる。 繰り返す。一般に、公式で期待値を計算できる場合、1 回のプロセスで期待度数が得られるが、そうでない場 合は、複数回繰り返す必要がある。当然のことだが、 表 5.2: 繰り返し比例当てはめ法の初期値 1 1 1 表 5.4 の数値は、公式を使って期待度数を求めた場合 とまったく同じである。 1 5.1.1 次に、この初期値の表の周辺度数が、表 5.1 の周辺度 数と一致するように、適当な数値を表 5.2 に掛け合わせ 練習問題 次の表に、独立モデルを当てはめ、繰り返し比例当 ていく。まず 1 行目の周辺度数は、表 5.1 は 30 + 70 = てはめ法で期待度数を計算せよ。 100、表 5.2 は 1 + 1 = 2 である。つまり 1 行目に 関しては、表 5.1 の周辺度数は、表 5.2 の周辺度数の 100/2 = 50 倍であるから、二つの表の周辺度数を一致 29 80 20 30 60 5.2 対連関モデルの期待度数 それでは、A, B, C 三つの変数の三重クロス表に対 A=1 A=2 連関モデル [AB][BC][CA] を当てはめた場合の期待度 数を、繰り返し比例当てはめ法を使って計算してみよ C=1 B=1 B=2 C=2 B=1 B=2 17.5 1 17.5 1 1 1 1 1 う。次のような仮想のクロス表に対連関モデルを当て 同様にして n12· はそれぞれ、60, 2、n21• はそれぞれ、 はめる。 100, 2、n22• はそれぞれ、15, 2 だから、A=1, B=2 の セルは、60/2 = 30 倍、A=2, B=1 は 100/2 = 50 倍、 A=2, B=2 のセルは、15/2 = 7.5 倍すると、 表 5.5: 仮想の 3 重クロス表 C=1 C=2 A=1 A=2 B=1 B=2 B=1 B=2 20 60 25 10 15 40 35 5 表 5.8: 表 5.5 から作った 0 次のクロス表 C=1 C=2 A=1 A=2 初期値はやはり 1 だから、表 5.6 のようになる。 表 5.6: 繰り返し計算の初期値 C=1 C=2 A=1 A=2 B=1 B=2 17.5 50 30 7.5 17.5 50 30 7.5 となる。次に、B と C の 2 変数周辺度数を一致させ B=1 B=2 B=1 B=2 それぞれ B=1, C=1 のとき 80 と 17.5 + 50 = 67.5 だ 1 1 1 1 1 1 1 1 から、B=1, C=1 の各セルを 80/67.5 = 1.185 倍して、 A=1 A=2 60 15 A=1 A=2 C=1 80 55 C=2 C=1 C=2 45 70 50 45 35 40 C=1 B=1 B=2 C=2 B=1 B=2 20.7 59.3 17.5 50 30 7.5 30 7.5 B=1, C=2 のとき 55 と 17.5+50 = 67.5, B=2, C=1 のとき 35 と 30 + 7.5 = 37.5, B=2, C=2 のとき 40 と 30 + 7.5 = 37.5 だから、それぞれ、55/67.5 = 0.815 倍、35/37.5 = 0.933 倍、40/37.5 = 1.067 倍すると、 表 5.7: 表 5.5 から作った 0 次のクロス表 B=1 B=2 B=1 B=2 35 100 B=2 ていく。表 5.5 と表 5.8 の B, C の 2 変数周辺度数は、 “2 重” クロス表に独立モデルを当てはめる場合、1 変数の周辺度数を使って期待度数を計算したが、3 つ 以上の変数を含むモデルで交互作用を仮定する場合、 交互作用を仮定した二つの変数に関しては、2 変数周 辺度数を使う。そこで、A × B, B × C, C × A の 0 次 のクロス表を作ると、 A=1 A=2 B=1 A=1 A=2 C=1 B=1 B=2 C=2 B=1 B=2 20.7 59.3 14.2 40.7 28 7 32 8 おなじ計算を C と A の周辺度数に関しても行うと、 となる。これで、1 回目の計算が終わりである。 表 5.9 の AB 周辺度数と BC 周辺度数を計算する となる。この 2 変数周辺度数に合うように、初期値 と、サンプルの周辺度数とピッタリとは一致しない。 に適当な数値を掛け合わせて行く。まず A と B の 2 変 そこで、これまでの計算プロセスをもう一度繰り返 数周辺度数にあてはめていく。表 5.5 と表 5.6 の 2 変 す。まず、表 5.9 の AB 周辺度数は、順に 19.1 + 数周辺度数 n11· はそれぞれ、35, 2 だから、表の A=1, 15.4 = 34.5, 25.9 + 34.6 = 60.5, 62.6 + 37.6 = 100.2, 7.4 + 7.4 = 14.8 だから、対応するセルをそれぞ B=1 のセルを 35/2 = 17.5 倍して、 30 表 5.9: 繰り返し計算一回目のプロセス終了後 C=1 C=2 A=1 A=2 B=1 B=2 B=1 B=2 19.1 62.6 25.9 7.4 15.4 37.6 34.6 7.4 れ 35/34.5, 60/60.5, 100/100.2, 15/14.8 倍すればいい。 以下同様の計算を続ける。 このような計算を期待度数が一定の基準をみたすま で計算を続ける。ここでは、データの周辺度数と期待 度数の周辺度数の差の最大値が 0.1 未満になるまで計 算を続けた。5 回続けた結果が、表 5.10 である。 表 5.10: 繰り返し計算終了後の期待度数 C=1 C=2 A=1 A=2 B=1 B=2 B=1 B=2 18.2 61.8 26.8 8.2 16.8 38.2 33.2 6.8 どの 2 変数周辺度数もぴったり一致しているはずで ある。こういった計算を手計算で行うのは現実的ではな い。実際には、コンピュータを使うことになるだろう。 5.2.1 練習問題 次の表に、対連関モデル [AB] [BC] [CA] を当ては め、繰り返し比例当てはめ法で期待度数を計算せよ。 繰り返し計算は、周辺度数の誤差が 1 未満になるまで 続けよ。 C=1 B=1 B=2 C=2 B=1 B=2 A=1 5 28 10 18 A=2 17 11 30 6 31 この例の肝は、周辺度数がゼロならば、その行また は、列は除外して考えるべきだということである。カ イ二乗検定は、周辺度数を固定されたものとみなし、 第 6 章 セル/周辺度数が 0 のとき 期待度数と実際の度数の乖離の程度を見る。ところが 周辺度数が 0(または 0 に近い)と、期待度数も実際 の度数も 0(またはほとんど 0) になってしまい、乖離 しようがない。また、もしも母集団で、ある列の周辺 度数が本当に 0 ならば、サンプルにおいてもその列の 度数は絶対に 0 になるのであり、サンプリングの際の セルまたは周辺度数が 0 のとき、分析に特別な工夫が 偶然によって、期待度数と実際のセル度数が乖離する 必要な場合がある。以下では、どのような場合に、ど ことなどありえないのである。このようなセルに関し のような工夫が必要か論じていこう。 てカイ二乗検定をすることはまったく無意味であるば かりか、自由度を誤って増やしてしまい、検定を不正 6.1 確にしてしまうことになる。 “2 重” クロス表の場合 繰り返すが、問題なのは、自由度の計算である。こ の節の例では、ゼロの列を除いた場合の自由度は 2、 クロス表に度数がゼロのセルがあるからといって、 必ずしも問題ではない。例えば、親の学歴と子供の学歴 そのままの場合は 4 であった。自由度が 2 と 4 では限 のクロス表を作ったら下の表のようになったとしよう。 界値の大きさが違ってくるので、検定を誤る可能性が ある。 10 15 1 6 16 9 0 5 17 カイ二乗値の計算そのものは、ゼロの列を含めてい ても、いなくても結果には変わりはない。0 の列の期待 度数もセル度数も 0 なので、この列は、カイ二乗値の 大きさに影響しないし、0 の列を含めても含めなくて このような場合、右上のゼロセルは、2 変数の連関の強 もその他のセルの期待度数に影響はないからである。 さを示しこそすれ、これが特に問題というわけではな い。自由度は 4、カイ二乗値は、31.5 で有意な連関が 見られる。しかし、次のようなケースはどうだろうか。 15 12 5 6 10 17 6.2 0 0 0 多重クロス表の場合 3 重クロス表でも同様の問題がある。というか、こ の問題は、多重クロス表の検定においてこそ、注意を 要するのである。 まず、1 変数の周辺度数が 0 の場合を考えよう。例 えば、 3 列目がすべて 0 である。この表を 3 行 × 3 列、自由 度 4 のクロス表と考えるのは、おかしな話である。3 列目に該当する人は一人もいないのであり、事実上、3 C=1 行 × 2 列、自由度 2 のクロス表と考えるほうが適当 であろう。つまり、 15 12 6 10 5 17 C=2 B=1 B=2 B=1 B=2 A=1 A=2 15 0 6 0 20 0 12 0 A=3 5 17 4 12 のような場合、2 行目を取り除いて 2 × 2 × 2 のクロ である。こういうことは、起こりうる。例えば、列が ス表と考えればいい。この場合、独立モデルの自由度 子供の学歴で 3 列目が中卒だとすると、現在中卒の人 は、2 · 2 · 2 − 2 − 2 − 2 + 2 = 4 である。それでは、表 の比率は低いので、たまたまサンプルの中に含まれて 6.1 はどうだろうか。この表に独立モデルをあてはめ るだけならば、まったく問題はない。いずれの 1 変数 いなかったということは、起こりうることである。 32 自由に推定されたパラメータの数のことである。例え 表 6.1: 仮想のクロス表 ば、表 6.1 に [AC][B] をゼロセルを無視して当てはめ る場合、モデルは、 高学歴 低学歴 log Fijk = u + uA(i) + uB(j) + uC(k) + uAC(ik) 自民支持 不支持 自民支持 不支持 ブルーカラー ホワイトカラー 医者 15 5 4 6 17 3 20 4 0 12 12 0 だから、パラメータは全部で uA(ブルー) uA(ホワイト) uA(医者) A: 職業, B: 自民支持/不支持, C: 学歴 周辺度数もゼロではないので、普通の 3 × 2 × 2 表とし uB(支持) uB(不支持) uC(高) uC(低) u て処理すればよい。問題は、A: 職業と C: 学歴の交互 作用を仮定するモデルを当てはめる場合である。例え uAC(ブルー, 高) uAC(ブルー, 低) uAC(ホワイト, 高) uAC(ホワイト, 低) uAC(医者, 高) uAC(医者, 低) の 14 個である。ただし、自由パラメータの数はこれよ ば、[AC][B] というモデルを当てはめるとしよう。こ りももっと少ない。24 ページの 4.4.4 節で述べたよう のとき期待度数の計算に A と C の 2 変数周辺度数を に、パラメータには制約がある。例えば、uA(ブルー) + 用いる。しかし、n医者•低学歴 = 0、つまり、2 変数周辺 uA(ホワイト) + uA(医者) = 0 である。この三つのパラメー タのうち、自由に推定できるのは、二つだけである。残 りの一つは、二つのパラメータが決まった時点で自動 的に決定される。例えば、uA(ブルー) = −uA(ホワイト) − uA(医者) である。B も C も同様である。交互作用効果 に関しても同様で、職業に関して足しても、学歴に関 して足してもパラメータの和はゼロでなければならな い。つまり、 度数の一つが 0 である。この場合、2 重クロス表の場 合と同様、医者で低学歴のセルは除外して自由度を計 算する必要がある。もしも母集団において低学歴の医 者が存在しないとすれば、サンプルにおいても存在す るわけがないのであり、低学歴の医者に対応する二つ のセルは、期待度数も実際のセル度数も、0 以外には ならない。この場合、期待度数とセル度数がサンプリ ングのさいの偶然によって乖離することもありえない ので、検定に含めて考えるのは不適切なのである。 uAC(ブルー, 高) + uAC(ブルー, 低) = 0 カイ二乗値は、そのまま計算しても、ゼロセルを除 uAC(ホワイト, 高) + uAC(ホワイト, 低) = 0 外して計算しても値はおなじなので気にする必要はな uAC(医者, 高) + uAC(医者, 低) = 0 い。しかし、自由度の計算は少しやっかいである。 uAC(ブルー, 高) + uAC(ホワイト, 高) + uAC(医者, 高) = 0 6.3 uAC(ブルー, 低) + uAC(ホワイト, 低) + uAC(医者, 低) = 0 対数線形モデルにおける自由度 の計算 6.3.1 である。したがって自由パラメータの数は、この交互 ゼロセルを無視する場合 作用効果については、二つしかないことになる。結局 モデルの自由パラメータの数は全部で、総平均効果が 結論だけ言うと、対数線形モデルにおける自由度 df 1、主効果が、2 + 1 + 1 = 4、交互作用効果が 2、だか ら合計 7 になる。したがってこのモデルの自由度は、 は、 df = 総セル数 − 自由パラメータ数 総セル数 12 から 7 をひいて 5 ということになる。 (6.1) 飽和モデルの場合、必ず 総セル数 = 自由パラメー タ数 となり、自由度は必ず 0 になる。 である。総セル数とは、クロス表のセルの数である。 表 6.1 の場合、総セル数は、3 × 2 × 2 = 12 である。自 以上は、一般的な自由度の数え方である。しかし、 ゼロセルを考慮する場合、多少の変更が必要である。 由パラメータとは、パラメータの制約とは関係なく、 33 6.3.2 練習問題 表 6.3: 表 6.2 の 0 次のクロス表 次のそれぞれに関して、モデルの自由パラメータの 数と自由度を数えなさい。 B=1 B=2 B=3 27 0 17 3 5 0 24 6 13 A=1 A=2 A=3 1. 3 × 4 × 5 表に [A][B][C] 2. 2 × 3 × 5 表に [AB][C] A=1 A=2 A=3 3. 2 × 3 × 4 表に [AB][BC] 6.3.3 C=1 C=2 35 0 9 19 11 21 ゼロセルを考慮する場合 ゼロセルを考慮する場合も、6.1 式を基本的には使 B=1 えばよい。ただし、総セル数と自由パラメータの数を A=1 A=2 A=3 若干調整する。つまりまず総セル数から、周辺度数が 0 であるせいで、期待度数が 0 になっているセルの数 をひく。表 6.1 の場合 12 − 2 = 10 が調整済み総セル 数である。パラメータの数からは、0 になっている周 辺度数の数を引く。これを調整済み自由パラメータ数 と呼んでおこう。表 6.1 に [AC][B] を当てはめた場合 は、7 − 1 = 6 である。したがって 0 C=1 B=2 0 0 B=3 B=1 0 0 C=2 B=2 B=3 0 となり、総セル数は、6 個減らすことになる。したがっ て表 6.2 に [AB][AC] を当てはめる場合、 総セル数 = 3 × 3 × 2 = 18 修正済み総セル数 = 18 − 6 = 12 df = 調整済み総セル数 − 調整済み自由パラメータ数 自由パラメータ数 = 1 + 2 + 2 + 1 + 4 + 2 = 12 = 10 − 6 = 4 修正済み自由パラメータ数 = 12 − 3 = 9 df = 12 − 9 = 3 である。例をもう一つあげておこう。表 6.2 に、 である。 [AB][AC] を当てはめる場合、 前述のように、どのようなモデルを当てはめるかに よって、自由度の修正の仕方も変わってくる。例えば、 表 6.2: ゼロセルを多く含む仮想のクロス表 B=1 C=1 B=2 B=3 B=1 C=2 B=2 表 6.2 に [AB][C] を当てはめる場合、A, B, C と AB の周辺度数だけを考慮すればよい。したがって周辺度 数が 0 のセルは二つ、それによって期待度数が 0 にな B=3 A=1 A=2 15 0 0 0 20 0 12 0 3 5 4 6 A=3 5 0 4 12 0 9 るセルは 4 つだから、 総セル数 = 3 × 3 × 2 = 18 修正済み総セル数 = 18 − 4 = 14 自由パラメータ数 = 1 + 2 + 2 + 1 + 4 = 10 A × B, A × C の 0 次のクロス表を作って、2 変数周 修正済み自由パラメータ数 = 10 − 2 = 8 辺度数が 0 になるセルの数を数える。 df = 14 − 8 = 6 したがって、自由パラメータの数は、三つ減らすこ とになる。期待度数が 0 になるセルを表で表すと、 となる。 34 こういった修正を行う統計ソフトもあるし、しない この章で解説してきた原則に従えば、除外した 2 次の ものもある。ただし、期待度数が 0 になると、必ずソ クロス表も含めて、モデル [ACD][BCD] の自由度とカ フトが何らかの警告を行うので、それに注意しておけ イ二乗値を検討することができる。まずカイ二乗値だ ばよい。そもそも、期待度数が小さすぎる場合、カイ が、除外した表を含めてもカイ二乗値は変化しないの 二乗値がカイ二乗分布に従わないのだから、期待度数 で 112.96 でよい。モデルは、 =0 のセルが問題なのは明らかである。しかし、上記 log Fijk = u + uA(i) + uB(j) + uC(k) + uD(l) + uAC(ik) + uAD(il) のような自由度の修正で、問題は解決できる。結局、 +uBC(jk) + uBD(jl) + uCD(kl) + uACD(ikl) + uBCD(jkl) 期待度数が 0 になるセルだけをカイ二乗値の計算や検 定から除外して検定しようということである。 自由度は、 6.3.4 総セル数 = 3 × 2 × 3 × 3 = 54 練習問題 修正済み総セル数 = 54 − 4 = 50 次 の 二 つ の ク ロ ス 表 に 、そ れ ぞ れ [A][BC] と 自由パラメータ数 [AB][BC] のモデルを当てはめた場合のモデルの自由 度を、期待度数が 0 のセルを考慮して計算せよ。 C=1 B=1 B=2 A=1 A=2 A=3 15 1 5 6 0 17 u uA(i) uB(j) uC(k) uD(l) uAC(ik) C=2 B=1 B=2 0 0 0 12 0 12 B=3 4 6 9 1 1 2 1 2 2 4 uAD(il) uBC(jk) uBD(jl) uCD(kl) uACD(ikl) uBCD(jkl) 合計 4 2 2 4 8 4 36 修正済み自由パラメータ数 = 36 − 4 = 32 A=1 A=2 A=3 A=4 6.4 B=1 C=1 B=2 B=3 B=1 C=2 B=2 15 0 5 1 0 0 0 0 20 0 4 1 12 0 12 1 0 5 0 1 df = 50 − 32 = 18 で、2.4 節での計算よりも自由度が 2 だけ大きくな る。この場合、自由度が 16 でも 18 でもカイ二乗値は、 その限界値をはるかに超えているので、いずれにせよ モデル [ACD][BCD] は、棄却される。 分析例 6.5 変数の数を増やすと、周辺度数が 0 のために期待度 先験的ゼロ 6.5.1 数が 0 になるケースがしばしば生じる。このとき、分 問題 これまでのゼロセルは、周辺度数が 0 であるために、 析をあきらめず 6.3.3 のような方法で自由度を調整す ることは、有効な方法の一つであろう。2.4 節で検討 期待度数も実際のセル度数も 0 になるというケースで した 4 重クロス表、表 2.6(11 ページ)の検討をもう あった。しかし、別のケースも考えられる。先験的ゼ 一度やってみよう。この例で問題だったのは、出生年 ロ (a priori zero)、または構造的ゼロ (structural (D) と成績 (C) でコントロールしても出身家庭の資産 (A) と大学進学 (B) の間に連関があるかどうかであっ zero) と呼ばれるケースである。以下でそのようなケー た。そこで条件付き独立モデル [ACD][BCD] を棄却で 意識調査では、いくつかの選択肢の中から、一つだ きるかどうかが検討された。C と D でコントロールす けあてはまる選択肢を選んでもらうものが多いが、ふ ると、9 個の 2 次のクロス表ができた。そのうち一つ たつ選んでもらうこともある。例えば次のような質問 は、周辺度数が 0 になるために、分析から除外した。 である。 スを考えていこう。 35 1. この中では何が最も重要だと思いますか。 の期待度数を計算し、ほんとうに二つの変数が実質的 に連関しているのかどうかを検定することが必要なの 2. では、2 番目に重要だと思うのはどれですか。 である。 (a) 国家の秩序の維持 (b) 重要な政府決定に関してもっと国民に発言権 を与える 6.5.2 期待度数は、5 章で紹介した繰り返し比例当てはめ (c) 物価の抑制 法を使えば、推定できる。先験的にゼロのセル以外に (d) 言論の自由の擁護 関して、独立モデルを当てはめればよい。つまり、 log Fij = u + uA(i) + uB(j) , 1 番目に選んだ項目と 2 番目に選んだ項目の間に何か 連関があるだろうか。2002 年に実際に行った調査の結 果が表 6.4 である。この種の表の特徴は、対角セルが 必ず 0 になるという点である。最も重要なものと 2 番 目に重要なものが同じものであることはありえない。 そのため対角セルが 0 になる。このクロス表に関して 普通にカイ二乗検定をすれば、よほどケース数が少な くない限り有意な結果が得られる。この表の場合も自 由度 9 でカイ二乗値は 455、1% 水準で帰無仮説=独立 モデルは棄却される。前の節のように期待度数が 0 に なるセルもないし、統計学的には、このカイ二乗検定 には何の問題もない。 秩序維持 0 0 発言権 129 30% 物価抑制 115 46% 言論自由 35 35% 合計 279 25% 秩序維持 (i 6= j) ただし、初期値が少し違う。先見的にゼロのセルは、 初期値もゼロにする。その他のセルの初期値は、普通 の繰り返し比例当てはめ法と同様に、1 にする。この 場合、表 6.5 が初期値になる。 表 6.5: 繰り返し比例当てはめ法の初期値 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 これに繰り返し比例当てはめ法を用いる。初期値の周 表 6.4: 価値観のクロス表 最も重要 期待度数の推定 2 番目に重要 合計 発言権 物価抑制 言論自由 140 132 72 344 41% 38% 21% 0 175 129 433 0 40% 30% 90 0 43 248 36% 0 17% 45 21 0 101 45% 21% 0 275 328 244 1126 24% 29% 22% 辺度数はすべて 3 だから、行周辺度数を比例させると、 344/3 = 114.7, 433/3 = 144.3, 248/3 = 82.7, 101/3 = 33.7 だから、 0 144.3 82.7 33.7 114.7 0 82.7 33.7 114.7 144.3 0 33.7 114.7 144.3 82.7 0 となる。この表の列の周辺度数を、表 6.4 の列周辺度 数に一致するように、適当な数値をかければよいから、 しかし、この検定の結果に満足する社会学者はまず 各列を 279/260.7, 275/231, 328/292.7, 244/341.7 倍す いない。対角セルが 0 になるのは当たり前のことであ ると、 り、そのせいで検定が有意になっても、それは最も重 要なことと 2 番目に重要なことのあいだの実質的な連 関を示しているわけではない。何とか対角線上のゼロ セルの影響を取り除いて 2 変数の連関を検定すること はできないだろうか。このように、クロス表を作る前 0.0 154.5 136.5 0.0 128.5 161.8 81.9 103.1 88.5 36.0 98.4 40.1 0.0 37.7 59.0 0.0 から、あらかじめ 0 になることがわかっているような となる。これではまだ完全に周辺度数が一致しない 場合、そのセルは、先験的にゼロ、または構造的にゼ ので、さらに 5 回繰り返し計算した結果が下の表で ロであるという。構造的ゼロの効果を取り除いてセル ある。 36 0.0 159.2 88.2 31.5 137.6 0.0 101.2 36.2 126.7 168.0 0.0 33.3 まず主対角線上のセル度数を 0 に置き換える。 79.7 105.7 58.6 0.0 表 6.7: 表 6.6 の対角セルを先験的に 0 に固定 0 31 25 87 ほぼ周辺度数が一致しているのがわかるだろう。こ れで期待度数が計算できた。あとは普通にカイ二乗値 を計算すればよい。この場合のカイ二乗値は、32.7 で 48 0 146 243 36 105 0 337 24 37 35 0 ある。対角線上の先験的ゼロのセルをのぞいた総セル 数が 12、自由パラメータ数が 7 なので、自由度は 5 で ある。自由度 5 の 1% 水準の限界値が 15.0 なので、独 この表に先験的にゼロのセルをのぞいて独立モデル 立モデルは棄却される。総セル数を計算する場合、や を当てはめると、自由度は 5 で、カイ二乗値は、24.6 はり先見的にゼロのセルは除く。自由パラメータ数は、 で対角セルを除いても有意な連関がある。どのセルで 普通の独立モデルと同じなのでそのままでよい。 特に連関が強いかを見るために、調整済み残差を計算 したのが、表 6.8 である。 6.5.3 応用例 表 6.8: 表 6.7 の調整済み残差 以上のような方法は、特定のセルを除外して期待度 1.13 数を計算するのに役立つ。例えば、父の職業と息子の 0.75 −2.21 1.46 職業のクロス表を作ると、主対角線上にケースが集ま りやすい。つまり、父と息子は同じ種類の職業につく 傾向が強い。このことは、社会階層論の研究者にとっ −2.70 −0.77 2.76 −3.26 2.32 0.44 −1.82 2.21 ては、自明であり、分析するまでもない。しかし、こ の主対角線の効果を取り除いても、父職と息子職の間 資本家の親からは旧中間階級へ、労働者からは新中 に有意な連関があるかどうかは、検討の余地があるか 間階級へ、旧中間階級からは労働者へと移動しやすい もしれない。この場合、もとのクロス表の主対角線上 ことがわかる。そのことが独立モデルを棄却させたの のセルを先験的に 0 に置き換え、この節で用いたのと だろう。 同じ方法を適用すればよい。例えば、橋本 (1998) は、 これまで扱った例では、先験的にゼロのセルはすべ 職業を、資本家階級、新中間階級、労働者階級、旧中 て対角線上にあったが、先験的にゼロのセルは、必ず 間階級の四つに分けて、父職と息子職のクロス表を検 しも対角線上にある必要はない。どこでもかまわない。 討している(表 6.6)。 文字通りあらかじめ、0 であることを仮定することに 意味があるならば、どのセルでもかまわない。 表 6.6: 1995 年 父・息子の階級移動表(橋本 (1998) よ り作成) 6.5.4 父階級 息子階級 資本家 新中間 労働者 旧中間 資本家 69 48 36 24 新中間 労働者 31 25 190 146 105 229 37 35 旧中間 87 243 337 304 練習問題 次のクロス表に関して、主対角線上のセルを先験的 に 0 と仮定して、独立モデルを当てはめ、カイ二乗検 定を行いなさい。繰り返し計算は、周辺度数の誤差が 1 未満になるまで続けなさい。 この表の連関を主対角線の効果を除いて検討する。 37 0 5 5 0 10 15 20 30 0 第 7 章 SPSS について SPSS は社会学の世界では、データ分析の事実上の標 準になっている。データ分析用のソフトでは、SAS が SPSS と双璧であるが、GUI の導入や個人向けの販売 で SPSS に遅れをとり、SPSS ユーザの人口のほうが圧 倒的に多い。私は現在、R というフリーウェアの利用 を検討しているが、初学者には、SPSS のほうが使いや すいと思われる。 SPSS を自宅のパソコンにインス トールする場合、CD-ROM つきの書籍 [6] が売ってい るので、それを使うと良いかもしれない。ただし、変 数の数やケース数に制約があるので、注意。詳しくは、 SPSS 社のホームページで確認されたい。 SPSS の解 説書は山のように出版されているが、例えば、『SPSS for Windows 入門』 [7] がある。SPSS はある程度慣 れれば、解説書なしでも使える。以下の記述は、SPSS 12.0J for Windows について行うが、SPSS は ver. 10 以降ほとんどユーザ・インターフェイスは変わってい ないので、ほかのヴァージョンでも参考になるだろう。 7.1 図 7.1: SPSS 起動後最初のダイアログボックス SPSS の起動 普通のソフトウェアと同じように、起動すればよ い。SPSS をスタートメニューから起動する場合、 [ス タート] [すべてのプラグラム] [SPSS for Windows] [SPSS 12.0J for Windows]を選ぶ。デフォルトでは、 図 7.1 のように表示される。 普通は、データを入力するか、すでに入力済みのデー タのファイルを開くので、 [データに入力]か[既存の データソースを開く]をえらんで、 [OK]をクリック する。ここでは、データを入力してみよう。 [データに 図 7.2: SPSS のデータ入力画面 入力]をえらんで[OK]をクリックすると図 7.2 の ようなウィンドウが表示される。以下では、いくつか の国の GDP と民主化度得点を入力してみよう。 38 7.2 ば、”父 年齢”や”GDP?” といった変数名は使え 変数の定義 ない。 データを入力する前に変数を定義したほうがよいだ 5. SPSS シンタックスで使う予約キーワードは変数 名として使えない。 例えば、ALL、AND、BY、 EQ、GE、GT、LE、LT、NE、NOT、OR、TO、 WITH は変数名として使えない。 ろう。例えば、国別の GDP と民主化の度合いを入力 するとしよう。そこで、まずウィンドウの左下辺りに ある[変数ビュー]というタブをクリックする。する と図 7.3 のような画面になる。 6. SPSS は 大 文 字 と 小 文 字 を 区 別 し な い 。例 え ば、”AGE” も ”age” も同じ変数名として認識 される。 変数名を[名前]の列に三つ入力した結果が、図 7.4 である。変数名を入力すると、自動的にほかのいくつ かの列もデフォルトの値が入力される。 図 7.4: SPSS 変数名の入力 図 7.3: SPSS 変数ビュー 図 7.3 の[名前]の列に変数名を入力していく。 SPSS12.0J では、全角文字も使えるし、かなり長い(半 角で 64 文字まで)変数名も使える。しかし、以前の ヴァージョンでは、半角で 8 文字以内という制約があ るので注意。シンタックスを書くことを考えると、変 数名は半角英数字にしておくのが無難かもしれない。 個人的には、英数半角で 8 文字以内で変数名はつける ようにしている。いくつか変数名のルールを列挙して 7.2.1 変数の型、幅、少数桁 変数の型は、デフォルトで数値になる。ほとんどの 場合、数値のままでよいが、文字をデータとして入力 したいときは、変更したい部分をクリックする。例え ば、国名は文字で入力したいので、 [国名]のとなりに ある[数値]をクリックする。すると、図 7.5 のよう おこう。 なダイアログボックスが開く。 1. 半角 64 文字以内(全角なら 32 文字以内) 2. 半 角 の 数 字 か ら 始 ま る 変 数 名 は 不 可 。例 え ば、”2003 年収入” という変数名は使えない。 3. 半 角 ピ リ オ ド で 終 わ る 変 数 名 は 不 可 。例 え ば、”age.” という変数名は使えない。 4. スペースおよびいくつかの特殊記号(例えば、! ? ’ *)は、変数名の中に使うことができない。例え 図 7.5: SPSS 変数の型の指定 39 7.4 図 7.5 から、[文字型]をえらび、[OK]をクリッ 欠損値 クする。文字と数値以外を使うことは、社会学ではほ とんどないだろう。 [幅]は変数の値の半角での文字数 場合によっては、変数の値がわからなかったり、存在 である。全角文字を変数の値として入力する場合、全 しなかったりすることがある。このような場合、欠損 角文字 1 字は半角 2 字に換算される。デフォルトで 8 値を割り振る。例えば、アンケートで対象者が「わか 桁/文字だが、8 桁/文字以上の値を入力したいときは、 らない」とか「答えたくない」と答える場合がある。こ 適当な値を入力する。8 桁以下ならばそのままで良い。 の場合、当然、変数の値はわからないので、欠損値にな [少数桁]も少数点以下何桁まで入力するかを指定す る。これを特に DK NA (Don’t Know, No Answer) る欄である。国名は長めに取るために、 [幅]を 20 に ということがある。また、国によっては、GDP の正 しておこう。ここまで入力した結果が図 7.6 である。 確な値がわからない場合もある。この場合も欠損値と なる。さらに、有職者だけにたずねる質問(例えば職 種や役職)が質問紙の中に含まれている場合、無職の 人は、このような質問に答える必要がない(あるいは 答えようがない)。これを非該当という。これも欠損 値になるケースである。 欠損値の処理は二通りのやり方がある。簡単なのは、 データを入力せずに、そのまま空白にしておくという 方法である。例えば、ブルガリアの GDP が不明なら ば、図 7.8 のように該当するセルに何も入力しなけれ ばよい。しかし、場合によっては、DK NA と非該当を 図 7.6: SPSS 変数の指定 7.3 データの入力 あとはデータを入力していけばよい。ウィンドウ左下 辺りにある[データ ビュー]をクリックする。10 ケー スほど入力した結果が図 7.7 である。 [データ ビュー] では、行がケース、列が変数に対応する。 図 7.8: データの入力 区別したい場合がある。例えば、どんな人が DK NA になりやすいのかを分析する場合、DK NA と非該当 が区別されなければならない。このような場合は、例 えば、DK NA に 99、非該当に 98 というように、欠 損値に適当な値をわりふってやる必要がある。また今 回はデータを直接 SPSS に入力したが、テキストファ イルにデータをまず入力し、それから SPSS にデータ を読み込むような場合、やはり欠損値には適当な値を わりふってやる必要がある場合がある。このようなと 図 7.7: データの入力 きには、欠損値の指定をしなければならない。欠損値 の指定にもいくつかの方法があるが、7.11 節で解説し 40 そして[OK]をクリックすると、[出力 1 - SPSS よう。 ビューア]というウィンドウが開いて、指定した変数 7.5 の度数分布表が表示される(図 7.11)。 度数分布表 以下では、SSM 調査の 2003 年の国内予備調査デー タを例に解説していく。データの開き方は、普通のソ フトと同じである。ただし、SPSS のメニューから開 く場合、[ファイル][開く][データ]を選ぶ。 単純な度数分布表をまず作ってみよう。度数分布表 を作るには、メニューから[分析] [記述統計] [度数 分布表]を選ぶ。SPSS のバージョンによって場所や 名前が多少違うかもしれないが、 [分析]の下のどこか に度数分布表のメニューがあるのはまちがいない。さ て、 [度数分布表]を選ぶと図 7.9 のようなダイアログ ボックスが開く。 図 7.11: 度数分布表の出力 図 7.9: 度数分布表のダイアログボックス q06#a1 は育児休業制度の有無を示す変数だが、い 左側に並んでいるのが、変数のリストである。この ちばん左の列の 1 が「有り」、2 が「無し」、8 が、 「非 リストの中から度数分布表を作りたい変数を選択して 該当」、9 が「DK NA」である。その右にそれぞれに ダブルクリックするか、真ん中のやじるしボタンをク 該当する対象者の数と割合が表示される。だがこれで リックする。すると、選択した変数が右側の欄に移動 はいかにもわかりにくい表である。そこで、ひと手間 する(図 7.10)。ここでは、q06#a1, q06#a2 という かけて、わかりやすくしてみよう。 2 つの変数を選択した。これらは、それぞれ職場に育 児休業制度、介護休業制度があるかどうかを訪ねた質 7.6 問に対する答えである。 7.6.1 欠損値の処理とラベル 変数ラベル データのウィンドウに戻り、 [変数ビュー]を表示す る。まず変数にラベルをつける。ラベルをつけると、 SPSS の出力には、変数名の代わりにラベルを出力す ることができる。q06#a1 の行を見つけ、その行の[ラ ベル]の列に、 「育児休業制度」と入力する。日本語を 入力する場合、インラインで直接入力されないかもし 図 7.10: 変数の選択 れないが、インプット用のウィンドウが別に開いてい 41 るので、あわてず入力する(図 7.12)。 図 7.15: 値ラベルの入力 に、1=” 有り” と入力される。続けて[値]の欄に、半 図 7.12: 変数ラベルの入力 角 で「2」と入力し、それに対応するラベル「無し」を [値ラベル]の欄に入力し、 [追加]ボタンをクリック する。もしも間違って入力した場合は、まちがってい 7.6.2 値ラベル るラベルを修正したり除去したりすることもできる。 例えばもしもまちがって 1=” 無し” としてしまった場 次に、06#a1 の[値]の列をクリックする。セルが 合、[1=” 無し”]をクリックし、値ラベルを「有り」 アクティブになると、右側に「...」と表示されるので、 に書き換えて、 [変更]ボタンを押す。ラベルそのもの これをクリックする(図 7.13)。 を消したい場合は、[1=” 無し”]を選択した状態で、 [除去]のボタンを押す。注意すべきなのは、[値ラベ ル]を書いただけでは、ラベルはつかないということ である。必ず[追加]ボタンや[変更]ボタンを押す こと。さもないと[値ラベル]欄に入力したラベルは、 データに反映されない。ラベルが正しくついているこ とを確認し、[OK]ボタンをクリックする。すると、 図 7.16 のように変数ビューの画面に表示されるはず である。 図 7.13: 値のセルをアクティブにした図 すると、図 7.14 のようなダイアログボックスが開く ので、値とその値のラベルを入力していく。まず[値] の欄に、半角 で「1」と入力し、それに対応するラベ ル「有り」を[値ラベル]の欄に入力する。そして[追 図 7.16: ラベル入力後の変数ビュー 7.6.3 欠損値の指定 最後に、欠損値を指定する。q06#a1 の欠損値の欄 図 7.14: 値ラベルのダイアログボックス は、 [なし]になっているはずである。ここをクリック 加]ボタンをクリックする。すると、図 7.15 のよう すると、図 7.17 のようにセルの右のほうに「...」を表 42 示されるので、この「...」をクリックする。 ベルをつけると、変数のリストにもラベルが優先的に 表示されるので注意。度数分布表を作ると、図 7.21 の ようになる。 図 7.17: 欠損値の欄をクリックしたところ 図 7.20: 度数分布表ダイアログボックス中での変数ラ 表示されたダイアログボックスを見ると、最初は、 ベルの表示 [欠損値なし]となっているので、図 7.18 のように[個 別の欠損値]をクリックし、空欄に、8 と 9 を入力し、 [OK]をクリックする。うまくいけば、図 7.19 のよ うに表示されるはずである。 図 7.18: 欠損値の欄をクリックしたところ 図 7.21: ラベルと欠損値処理後の度数分布表 図 7.21 で注意すべきは、 「パーセント」と「有効パー セント」の違いである。パーセントは、合計の人数/度 数で、個々の値をとる人/ケースの数を割ったものであ る。例えば、 「有り」のパーセントは、18.4 となってい るが、これは「有り」の度数 213 を合計の度数 1155 で 割った値である。これに対して「有効パーセント」は、 欠損値を除いた残りの合計(これを有効ケース数とい 図 7.19: 欠損値指定後の変数ビュー うこともある)で、個々の値の度数を割ったものであ る。例えば、 「有り」の有効パーセントは、31.2 となっ ているが、これは「有り」の度数 213 を有効ケース数 7.6.4 の合計 683 で割った値である。ふつうのデータ分析で ラベルと欠損値の確認 は、欠損値は除外して考えるので、 「有効パーセント」 ここで、7.5 節の要領で、もう一度、q06#a1 の度数 のほうを見るべきである。ただし、DK NA が著しく 分布表を作ってみよう。図 7.20 のように、変数にラ 多い場合は、分析結果の一般性や妥当性に問題が生じ 43 るので、DK NA の割合には注意が必要である。 7.7 シンタックスの利用 SPSS の利点は、マウスをクリックしていくだけで、 分析ができるところにある。ふつうの統計ソフトなら ば、プログラムを書いてそれを実行させることで、い ろいろな計算ができるのだが、それでは、さまざまな コマンドを覚えていないと、データ分析ができない。 それに対して SPSS を使う場合、コマンドを覚えてい なくても、適当にクリックを繰り返せば、大抵のこと 図 7.22: シンタックスの貼り付け はできてしまう。しかし、同じ作業を繰り返し行った り、データの処理や分析を複数の人と分担する場合、 プログラムを書いたほうが効率が良い。また、分析を も、これなら[Ctrl]+[R]のワンストロークで度数 してから時間がたつと、ある値を計算するために、自 分布表を作れる。 分がどんな計算をしたか思い出せないことが多いが、 プログラムを書く/理解できると、自分のやった操作が プログラムという形で残るので便利である。そういう わけで、私は、ほとんど必ずプログラムを書いて SPSS を実行している。 7.7.1 シンタックスの貼り付け SPSS ではプログラムをシンタックスと呼ぶ。SPSS の便利なところは、シンタックスを必ずしも覚える必 要がないということである。例をあげて解説しよう。 q06#a1 の度数分布表をもう一度作ってみよう。ただ し、ダイアログボックスで変数を指定したら、最後に 図 7.23: シンタックスの貼り付け [OK]ではなく [貼り付け]ボタンをクリックする (図 7.22)。すると、図 7.23 のようなウィンドウが開 き、q06#a1 の度数分布表を作るシンタックスが自動的 7.7.2 に貼り付けられる。このシンタックスを実行するには、 プロンプトを実行したいシンタックスと同じ行におい Frequency シンタックスの入力 それでは、貼り付けたシンタックスを書き直してみ てから、 よう。度数分布表のシンタックスは、基本的には、 FREQUENCIES VARIABLES=変数リスト. 1. [Ctrl]キーを押しながら[R]キーを打つ 2. 実行ボタン(図 7.23 を参照)をクリックする と書けばよい。例えば、 FREQUENCIES VARIABLES=q06#a1. FREQUENCIES VARIABLES=q06#a1 q06#a2. FREQUENCIES VARIABLES=q06#a1 to q06#a5. 3. メニューから[実行][現在の位置]を選ぶ のいずれかを行う。7.6.4 節と同じように度数分布表が 作られたはずである。ラベルや欠損値の処理を誤って、 もう一度、度数分布表を作らなければいけなくなって 44 といった具合である。3 つ目の例は、q06#a1 から q06#a5 までのすべての変数を指定している。 SPSS のシンタックスは、必ず半角ピリオド . で終 わらなければならない。また、キーワードの間に、半 角スペースや改行が入るのはかまわないが、コマンド の途中で空の行が入ってはいけない。例えば、 FREQUENCIES VARIABLES=q06#a1 . とするとエラーが出る。 シンタックスのウィンドウに直接コマンドを書き込 図 7.24: クロス集計表のダイアログボックス んでもよい。シンタックスは、キーワードの最初の 3 文 字だけを書けば、後は省略することができる。例えば、 指定する。3 重クロス表を作る場合、コントロール変数 freq var q06#a1. を[層]の欄に移動させる。図 7.24 では、q06#a1 を 行に、q06#a2 を列に、指定している。さらに必要に としても、同じ結果が得られる。 応じてオプションをつける。カイ二乗値や相関係数の ような、クロス表全体に対して計算する数値を表示さ 7.8 せたい場合、 [統計]ボタンをクリックする。すると、 ファイルの保存 図 7.25 のようなダイアログボックスが表示される。 SPSS は 3 種類のファイルをあつかう。データ、出 力、シンタックスの 3 つである。いずれもふつうに、 [ファイル]から[上書き保存]や[名前をつけて保存] を選べばよい。それぞれ ”.sav”, ”.spo”. ”.sps” とい う拡張子がつく。必要に応じて保存すればよい。私は、 出力のファイルはめったに保存しない。シンタックス のファイルを残しておけば、いつでも出力はすぐに作 れるからだ。また、データも、欠損値やラベルのつい ていないファイルを保存しておき、分析を始める前に、 ラベルや欠損値を毎回つけることが多い。したがって、 分析が終わって、データのファイルや出力のファイル 図 7.25: クロス集計表: 統計のダイアログボックス を保存するかどうかをたずねるダイアログボックスが 表示されるが、私は、シンタックス以外はほとんど保 ここで、出力したい統計量をチェックする。図 7.25 で 存しない。とはいえ、ファイルの管理に王道はないの は、カイ二乗、相関係数、ガンマ、相対リスクをチェッ で、個人の好みで行えばよい。 クしている。必要な統計量をチェックしたら、[続行] ボタンをクリックする。すると、図 7.24 のダイアログ 7.9 ボックスに戻る。さらに行パーセントや調整済み残差 クロス表の作成 のように、セルごとに計算する数値を指定したい場合 は、[セル]ボタンをクリックする。すると、図 7.26 クロス表を作るときは、データを開いたあと、メニ のようなダイアログボックスが開く。 ューから[分析] [記述統計] [クロス集計表]を選ぶ。 すると、図 7.24 のようなダイアログボックスが開く。 [観測]とは、いわゆる各セルの度数であり、[期 まず[行]の欄に行側に配置する変数を左側の変数 待]は 2 変数が独立の場合の期待度数、[調整済み標 一覧から移動させ、列側に配置する変数も同様にして 準化]は、調整済み残差のことである。ここでは、観 45 が 5% 水準の限界値より大きいかどうかで、有意性を 判断していたが、SPSS をふくめてたいていの統計ソ フトでは、統計量に対応する有意確率を計算してくれ る。これは手計算では手間がかかるが、コンピュータ ならば、すぐにできる。 7.9.2 Crosstabs シンタックス 7.9 節のクロス表作成のシンタックスを貼り付ける と、以下のようになる。 CROSSTABS /TABLES=q06#a1 BY q06#a2 /FORMAT= AVALUE TABLES /STATISTIC=CHISQ CORR GAMMA RISK /CELLS= COUNT ROW ASRESID /COUNT ROUND CELL . 図 7.26: クロス集計表: セルのダイアログボックス 測度数、行パーセント、調整済み残差を指定している。 必要な項目をチェックしたら、 [続行]ボタンをクリッ クし、図 7.24 のようなクロス集計表のダイアログボッ クスに戻る。すべての指定を終えたら、 [貼り付け]ボ クロス表で最低限書かなければいけないのは、 タンか、 [OK]ボタンをクリックする。シンタックス CRO TAB 行変数リスト BY 列変数リスト. に貼り付けたならば、7.7.1 節の要領で、シンタックス を実行する。うまくいけば、クロス集計表と、それに である。ふつう行パーセントとカイ二乗値ぐらいは計 対するさまざまな統計量の表が出力のウィンドウに表 算させるので、 示されるはずである。統計量の意味は、ここでは解説 しないが、この本のこれまでの章をきちんと理解して CRO TAB 行変数リスト BY 列変数リスト いれば、どれもほとんど推測できるはずである。すべ /STA CHI /CEL COU ROW. てではないが、ほとんどすでに解説した統計量ばかり 行変数や列変数を一つではなく複数指定すると、いち である。 どに複数のクロス表が作れる。 7.9.1 有意確率 7.9.3 一つだけ統計量について、解説しておくべきことが 多重クロス表 多重クロス表の分析では、コントロール変数を加え ある。統計量を表示させると、[漸近有意確率]とか てやればよい。シンタックスでは、 [正確有意確率]、 [近似有意確率]といった数値がしば cro tab 行変数 BY 列変数 BY コントロー ル変数. しば表示される。有意確率とは、帰無仮説が正しい場 合に、計算した統計量以上の値が得られる確率を示し ている。例えば、カイ二乗検定をして、カイ二乗値が である。4 重クロス表を作りたければ、さらに、”BY 1.552 で自由度 1、有意確率が .245 であったとする。 コントロール変数” を加えればよい。 帰無仮説が正しい場合に、カイ二乗値が 1.552 以上の 値をとる確率は、24.5% あるということである。有意 水準を 5% に設定するならば、5% 水準では有意では 7.9.4 ない。つまり、有意確率が 1% 未満ならば 1% 水準で 欠損値の処理 有意、5% 未満ならば 5% 水準で有意である。電卓や クロス集計表の場合、使っている変数のうち、どれか 手計算で検定を行う場合、カイ二乗値のような統計量 ひとつでも欠損値のあるケースは分析から除外される。 46 7.10 新しい変数の作成 7.10.1 カテゴリの統合 1. データエディタのメニューから(ほかのウィンド ウからは不可) [変換 (T)][値の再割り当て (R)] [他の変数へ (D)] を選ぶ。 表 7.1 は、性別と従業先の企業規模のクロス表であ 2. ダイアログボックスが開くので(図 7.27 )、ま ず変換もとの変数を選んでダブルクリックする。 表 7.1 の例で考えると、企業規模を示す変数は、 q4#d であるから、これをクリックする。すると、 [数値型変数 − > 出力変数]の欄に q4#d が移動 する。 る。この表はいささか大きすぎる。企業規模のカテゴ リを統合して、カテゴリの数を減らしたい。カテゴリ 数を下手に減らすと、重要な情報を消去してしまうの で、注意が必要だが、私の読みでは、男性のほうが 1 人の比率は高いが、2∼29 人の比率は女性のほうが高 く、30∼499 人ではほとんど大差なく、500 人以上、官 公庁の比率は、男性のほうが高い。このような 4 つの カテゴリに区分しなおしたのが、表 7.2 である。 表 7.1: 性別と従業先の規模 性別 男 女 合計 度数 36 10 46 性別 の % 8.9% 3.4% 6.5% 2∼4 人 度数 83 73 156 性別 の % 20.5% 24.5% 22.2% 5∼9 人 度数 39 39 78 性別 の % 9.6% 13.1% 11.1% 10∼29 人 度数 53 55 108 性別 の % 13.1% 18.5% 15.4% 30∼99 人 度数 52 40 92 性別 の % 12.8% 13.4% 13.1% 100∼299 人 度数 29 31 60 性別 の % 7.2% 10.4% 8.5% 300∼499 人 度数 10 7 17 性別 の % 2.5% 2.3% 2.4% 500∼599 人 度数 18 8 26 性別 の % 4.4% 2.7% 3.7% 1000 人 度数 60 24 84 性別 の % 14.8% 8.1% 11.9% 官公庁 度数 25 11 36 性別 の % 6.2% 3.7% 5.1% 合計 度数 405 298 703 性別 の % 100.0% 100.0% 100.0% 1人 企 業 規 模 図 7.27: 他の変数への値の再割り当て 1 3. 変換先の変数名とラベルを指定して(図 7.28 )、 [変更 (C)] ボタンをクリックする。[変更 (C)] ボタンのクリックは忘れやすいので注意。これを クリックしないとうまくいかない。 4. [今までの値と新しい値 (O)] ボタンをクリック する。すると図 7.29 のようなダイアログボック スが開く。 5. これに今までの値とそれに対応する新しい値を入 力していく。企業規模の例では、q4#d の今まで の値は、1 ’1 人’, 2 ’2∼4 人’, 3 ’5∼9 人’, 4 ’10 ∼29 人’, 5 ’30∼99 人’, 6 ’100∼299 人’, 7 ’300∼ 表 7.2: カテゴリ統合後の性別と規模のクロス表 男 度数 36 9% 企 2∼29 人 度数 175 業 43% 規 30∼499 人 度数 91 模 22% 500 人以上・ 度数 103 官公庁 25% 合計 度数 405 100% 1人 女 10 3% 167 56% 78 26% 43 14% 298 100% 499 人’, 8 ’500∼599 人’, 9 ’1000 人’, 10 ’ 官公庁’ である。これを新しい変数では表 7.2 と同じカテ 合計 46 6% 342 49% 169 24% 146 21% 703 100% ゴリー分けにして、1 ’1 人’, 2 ’2∼29 人’, 3 ’30∼ 499 人’, 4 ’500 人以上・官公庁’ にしたい。だか ら、図 7.29 の今までの値の欄に 1、新しい値の欄 に 1 を入力し、[追加]ボタンを押す。次に今ま での値は、 [範囲]を選択し、2 から 4 を指定し、 新しい値は、2 にし、 [追加]ボタンを押す。同じ 要領で、5 から 7 は 3、8 から 10 は 4 とする。 SPSS でのカテゴリの統合は、以下の順序で行う。 そして最後に[その他のすべての値]をえらび、 47 図 7.30: 今までの値と新しい値 2 図 7.28: 他の変数への値の再割り当て 2 7.10.2 recode シンタックス 値の割り当てのダイアログボックスをもう一度開き、 新しい値は、[システム欠損値]を選んで、やは [OK]のかわりに[貼り付け]ボタンをクリックする り最後に追加ボタンを押す。 と、シンタックスウィンドウに、以下のようなシンタッ クスが貼り付けられるはずである。 RECODE q04#d (1=1) (2 thru 4=2) (5 thru 7=3) (8 thru 10=4) (ELSE=SYSMIS) INTO CompSize . VARIABLE LABELS CompSize ’ 企業規模’. EXECUTE . 値の割り当ては一般的には、 RECODE 今までの変数名 (今までの値 = 新 しい値) (今までの値 = 新しい値) ...... INTO 新しい変数名 . 図 7.29: 今までの値と新しい値 1 という形をとる。今までの値が一定の範囲にある場合、 貼り付けたシンタックスのように、(5 thru 7 =3) また 6. 指定し終わったら、[続行] [OK] をクリック は、(5,6,7=3) とすればよい。指定していないその他の 今までの変数は、else 欠損値は、sysmis で指定する。 していく。 48 7.11 7.12.2 欠損値の指定 do repeat シンタックス 同じ作業を何度も繰り返す場合、do repeat, end 欠損値の指定をシンタックスで行う場合、 repeat シンタックスを使う。例えば、q26#1 から、 q26#8 までぜんぶ尺度を反転させる場合、 do repeat x=q26#1 to q26#8 /y=q26r1 to q26r8. compute y=4-x. end repeat. MISSING VALUES 変 数 リ ス ト (欠 損 値 リ ス ト ) / 変 数リスト(欠損値リスト)... . と入力すればよい。例えば、q04#d の場合、DK NA が 19、非該当が 88 なので、 mis val q04#d(19,88). とすれば、一括して反転した変数 q26r1∼q26r8 ま でができる。そのほかにもいろいろなことができるが、 とすればよい。また、 くわしくは SPSS のマニュアルなどを参照されたい。 mis val q04#d(19,88) /q06#a1 to q06#b9, q16 q31(8, 9). 7.12.3 とすると、q04#d にくわえて、q06#a1 から q06#b9 まですべてと q16, q31 の欠損値は 8 と 9 に指定される。 if シンタックス 未婚、既婚で無職、既婚で有職、離死別の 4 つの値 をとる変数を作りたい場合、recode や compute を組 7.12 み合わせてもできないことはないが、if シンタックス 新しい変数の作成 を使うほうがわかりやすい。この例の場合、 recode q16 (1=1)(2=2)(3,4=3)(else=sysmis) into marriage /q04#a (1 thru 8=0)(9,10=1)(else=sysmis) into jobless. recode コマンド(値の再割り当て)を使えば、たい ていのことはできるが、以下のようなシンタックスが 必要、または便利な場合があるので、紹介する。 7.12.1 compute([変換 (T)][計算 (C)]) 一般には、 compute 目標変数 = 計算式. if(marriage=1) Lcourse=1. if(marriage=2 and jobless=1) Lcourse=2. if(marriage=2 and jobless=0) Lcourse=3. if(marriage=3) Lcourse=4. とすれば、Lcourse という 4 つの値をとる変数を作 となる。よく使うのは、q14#1 のように、 「そう思う」 が 1 で、「そう思わない」が 5 になっているような場 ることができる。 合である。このとき、たとえば、 compute q14#1r=6-q14#1. 7.12.4 count ([変換][出現数の計算]) とすれば、 「そう思う」が、5、以下順に、4, 3, 2, 1 と ある値をとる変数の数を数えるシンタックス。例え 値が変換された変数 q14#1r が新しくできる。四則演 ば、問 3 で ° をつけた資産の数を表す変数を作りた 算 +, -, *, / のほかにも、さまざまな関数を使うこと い場合、 count property=q03 1 to q03 21(1). ができる。そのなかでも、sum(変数リスト) 関数は比 較的使える関数である。例えば、q3 1 から q3 21 まで とすると、q3 1 から q3 21 までの中で、1 の値をと を足し合わせて資産の個数を示す変数を作る場合、 る変数の数を示す変数 property を新しく作ってくれ compute property=sum(q3 1 to q3 21). 「大いにあ る。また、q23 1 から q23 4 までのなかで、 る」または「ある」に ° をつけている項目の数を示 す変数 fair を作りたければ、 とする。 49 count fair=q23 1 to q23 4(1,2). とする。 プログラムは後で見たとき意味がわかるように、“ わ かりやすく” 書くことが肝要である。コメント文をつ けるのもよい。/* ではじまる行は、コメント文として 認識される。たとえば、 /* 株 か 別 荘 を 持って い る か ど う か compute prop=0. if(q03 20=1 or q03 20=1)prop=1. というぐあいに、コメントをつけるとわかりやすいか もしれない。 7.13 練習問題 以下のような変数を作り、そのシンタックスと作っ た変数の度数分布表を出しなさい。 1. q8 1a から q8 1k の反転尺度(度数分布表は q8 1c だけでよい)。 2. 「未婚」「既婚子供なし」「末子未就学」「末子就 学以降」の四つの値をとるライフコース変数。 3. ホームページ利用目的の多様性をあらわす変数を 作りたい。q9 で 1,2,3,4 のいずれかに ° をつ けている項目の数を表す変数を作りなさい。 4. ビデオと DVD にかんして「どちらか(または両 方)をもっている」か、 「どちらももっていない」 の二値を取る変数。 50 [13] 渡辺秀樹, 1998, 「結婚と階層の趨勢分析」渡辺 秀樹・志田基与師編『1995 年 SSM 調査シリーズ 15 階層と結婚・家族』1995 年 SSM 調査研究会, 113-130. 関連図書 [14] Wickens, Thomas, D., 1989, Multiway Contingency Tables Analysis for the Social Sciences, Lawrence Erlbaum Associations. [1] Alan Agresti(渡邉裕之・菅波秀規・吉田光宏・角 野修司・寒水孝司・松永信人訳), 2003, 『カテゴ リカルデータ解析入門』サイエンティスト社. [15] T.H. ウォナコット, R.J. ウォナコット; 国府田恒 夫〔ほか〕共訳, 1978, 『統計学序説』培風館. [2] ボーンシュテット&ノーキ(海野道郎・中村隆監 訳), 1990, 『社会統計学』ハーベスト社. [3] B. S. エヴェリット, 1980, 『質的データの解析』 新曜社. [4] 原純輔・海野道郎, 1984, 『 社会調査演習』東京 大学出版会. [5] 橋本健二, 1998, 「戦後日本の階級構造: 基本構造 と変動過程石田浩編『社会階層移動の基礎分析と 国際比較』1995 年 SSM 調査研究会, pp. 43-75. [6] 石村貞夫, 2003, 『統計ソフト SPSS Student Version 11.0』東京図書. [7] 新村秀一, 2002, 『SPSS for Windows 入門』丸善. [8] マリア・ノルシス(山本嘉一郎・森際孝司・藤本 和子訳), 1994, 『SPSS による統計学入門』東洋 経済新報社. [9] R Development Core Team, 2004, R: A language and environment for statistical computing, R Foundation for Statistical Computing, URL http://www.R-project.org. [10] Rudas, Tamas Odds Ratios in the Analysis of Contingency Tables, Sage University Papers Series 119. [11] 盛山和夫・近藤博之・岩永雅也, 1992, 『社会調査 法』日本放送出版協会. [12] 佐藤裕, 1995, 「クロス表とログリニアモデル」 『理 論と方法』10(1): 77-90. 51