Comments
Description
Transcript
配付資料まとめ(pdf)
や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.4.11 第 1回 「 導 入 : な ぜ 社 会 を 数 値 に す る の か 」 ■全体的な目標 計 量 社 会 学 ( quantitative sociology) と は 、 社 会 を 知 る た め に 積 極 的 に 数 値 ( 統 計 デ ータ)を活用する社会学の一分野である。社会へのアプローチ方法によって分類した呼び 方で、理論によるアプローチ(理論社会学)や歴史によるアプローチ(歴史社会学)と対 比される。家族や組織、教育など、対象とする社会現象の領域は問わない。 この講義では、ⅠとⅡを合わせて計量社会学の基本的な考え方を使いこなせるようにな る こ と を め ざ す 。 大 き く 考 え る と 、 Iで は 記 述 統 計 ( descriptive statistics) の 活 用 を 、 Ⅱ は 推 測 統 計 ( inferential statistics) の 活 用 を 学 修 す る 。 合 わ せ て 修 得 す る こ と が 望 ましいが、一方だけでも理解できるように講義する。 記述統計……データがもつ情報を要約して記述する統計的方法 例 ) 関 大 生 100人 の 調 査 を 集 計 す る と 、 1ヶ 月 の 読 書 冊 数 は 平 均 10.2冊 だ っ た 推測統計……一部のデータから調べてもいない全体を推し測る統計的方法 例 )関 大 生 100人 の 調 査 か ら 、大 学 全 体 で バ イ ト を し て い る の は 55~ 65% と 予 想 さ れ る 計 量 社 会 学 Ⅰ の 具 体 的 な 目 標 は 以 下 の 3点 で あ る 。 1) 基 本 的 な 記 述 統 計 の 数 値 を 算 出 し 、 そ の 意 味 を 読 み 取 れ る よ う に な る 2) 関 心 に 即 し て 、 調 査 デ ー タ の 集 計 方 法 を 立 案 で き る よ う に な る 3) 計 量 社 会 学 の 意 義 を 理 解 す る ただ単に「○○を算出しなさい」と言われて計算できるのではなく、置かれている状況に 応 じ て ど ん な 数 値 を 整 理 す べ き か 自 分 で 考 え 、他 人 に そ の 意 味 を 説 明 で き る こ と を 求 め る 。 逆に、 ( Ⅱ も 含 め て )こ の 講 義 を 終 え て も 、以 下 の 点 は 限 界 と し て 残 る こ と を 了 承 し て ほ しい。あくまで「考え方」を身につけてもらう。 1) 数 学 的 な 理 解 は 最 小 限 に 留 ま る 2) 逆 に 、 実 際 的 な 統 計 分 析 ソ フ ト の 操 作 を 練 習 す る わ け で も な い 3) デ ー タ の 集 め 方 ( 社 会 調 査 の 方 法 ) に つ い て は 解 説 し な い ※ 1) に つ い て は 、 関 心 が あ れ ば 授 業 外 で 教 え る 。 2) に つ い て は 、「 社 会 学 研 究 法 a」( 2年 生 以 上 配 当 ) で 、 あ る 程 度 触 れ る 。 3) に つ い て は 、「 社 会 調 査 方 法 論 」「 社 会 調 査 論 」 で 学 べ る 。 「 社 会 調 査 演 習 」「 社 会 調 査 実 習 」( 2年 生 以 上 配 当 ) で は 全 体 を 深 く 経 験 で き る 。 以 上 の 科 目 + 社 会 学 研 究 法 bが 社 会 調 査 士 資 格 の 取 得 の た め に 必 要 な 科 目 ( 社 会 学 研 究 法 a,bは 一 応 ど ち ら か 一 方 で も 可 だ が 、 両 方 の 履 修 を 強 く 奨 め る )。 1 ■計量社会学の意義 今 回 は 、は じ め に「 な ぜ 社 会 を 数 値 に す る の か 」、つ ま り「 な ぜ 社 会 学 に 統 計 を 使 わ な け ればならないのか」ということについて、簡単に解説する。 大雑把にいえば、社会学に関心のある人々の中で数字を扱うことが好きな人は、そう多 く は な い( と い う か 、相 当 に 少 な い )。皆 さ ん の 中 に は 、統 計 と い う と 難 し そ う で 、自 分 の 手に負えるようなものではない、と感じている人もいるだろう。また、数値で示されるよ うな薄っぺらい内容には興味がもてない、と否定的な印象をもつ人もいるだろう。 にもかかわらず、社会学部の科目として計量分析や統計的調査に関する科目が多く設け ら れ て い る の は な ぜ だ ろ う か 。そ し て 、そ の 多 く が「 1年 生 の 配 当 科 目 に な っ て い る 」の は なぜだろうか。それはもちろん役立つからではあるのだが、いろいろな分野で役立つ統計 学 を 、と く に 社 会 学 に 活 用 す る こ と に は「 特 別 な 意 義 」が あ る 。こ こ で は 、次 の 2つ の 意 義 に注目しよう。 ・数値を使えば、社会に実態を与えることができる ・数値を使えば、他人と協力できる これらの意義があるからこそ、自らは理論的考察や質的調査(観察や聞き取りによるフ ィールドワーク)に取り組む研究者であっても、計量社会学の取り組みを軽視することは ない。また、その意義があるからこそ、計量社会学からは、ただの技術を超えた学問的な お も し ろ さ が 感 じ ら れ る ( は ず )。 ■数値で社会に実態を与える それぞれ、もう少しきちんと説明しよう。社会学はいろいろな現象を扱う学問だが、と も か く「 社 会 」 ( 人 間 関 係 の 集 ま り )を 対 象 に し て い る 。と こ ろ が 、社 会 を 科 学 的 に 扱 お う としたとき重大な問題にぶつかる。当たり前のことであるが、社会は目に見えない。科学 の基本姿勢は「まず観察し、次に観察された不思議なことを説明すること」であるが、そ の 第 一 歩 で あ る「 観 察 」が で き な い の で あ る 。 「 い や 、私 は 社 会 で 暮 ら し て い る 人 々 を 見 た り、その人たちから話を聞いたりすることができる」と思う人もいるかもしれないが、そ こで見ているのは社会の影響を受けた(あるいは社会を作り出している)人々の様子であ って、社会そのものではない。また、聞くことのできる話は、その人が感じている社会の あり方であって、やはり社会そのものではない。 この難しさを克服するために、社会学者は観察可能な情報から理論的に社会のあり方を 予想したり、関心のある社会集団に深く関わっている人々の話に深く耳を傾けたり、ある いはその社会の中に自ら飛び込んだり(参与観察)と、実にさまざまな手段でアプローチ する。社会学の方法が何でもありになることの一因は、この「社会が観察困難」というこ とへのチャレンジの結果なのである。 その中で、計量社会学のアプローチは、見えるもの(測定できる個人レベルの情報)を 集計すれば、見えない社会も見えるようになるはずだ、というものである。たとえば「日 本 社 会 で 夫 婦 別 姓 に 賛 成 の 人 は 50% で す 」と い う 統 計 は 、1人 ひ と り が 夫 婦 別 姓 に 賛 成 し て い る 、あ る い は 反 対 し て い る 、と い う 観 察 可 能 な 情 報 を 集 め て 、 「 賛 成 の 割 合 」と い う 社 会 の数値を作ることで、社会に実態を与えているわけである。 2 このアプローチがもつとりわけ強力な点は、その社会について誰も知らない新たな事実 を「発見できる」ということにある。インタビューの結果は、当事者にとっては自明です で に 知 っ て い る こ と で あ る( 一 般 の 人 に は 知 れ わ た っ て い な い か も し れ な い が )。ま た 、研 究者の理論的な考察は、その研究者が頭の中で知っている事実にもとづいている(甚大な 苦 労 の 末 に た ど り 着 い た も の で は あ る が )。 こ れ に 対 し て 、 数 値 で 表 さ れ る 社 会 の 様 子 は 、 ときに、本当に世の中の誰一人として考え及ばなかった意外な事実を教えてくれる。計量 社会学者はよく「データに語らせる」という言い方をするが、まさに人工的に実態を与え られた社会が、自分のことをしゃべりだすわけである。この未知の発見が、計量社会学の 第一の意義、魅力である。 例 ) 夫 婦 別 姓 に つ い て 「 平 成 24年 度 家 族 の 法 制 に 関 す る 世 論 調 査 」( 内 閣 府 2012) 渡 辺 ( 2011) p.18 事 実 婚 ・ 同 棲 の 割 合 の 国 際 比 較 p.29 生 涯 未 婚 率 の 推 移 ■数値にすれば協力できる 数値によって表現された社会は、通常、ほかの手段よりも客観的なものである。客観的 であることは何となくよいことと感じられるだろうが、実際には、客観的な情報よりも主 観的な助言の方が、人の心を深く打ったり、より役に立ったりすることが多い。そもそも 客 観 性 と は 何 だ ろ う か 。 主 観 ( subjectivity) が 観 察 を す る 側 を メ イ ン に し て い る の に 対 し て 、客 観( objectivity)は 観 察 さ れ る 側 が メ イ ン に な っ て い る 状 態 を 指 す 。つ ま り 、主 観的な観察は見る人によって見え方が違う(それゆえに、より適切な観察に近づける可能 性を秘めているともいえる)が、客観的な観察は誰が見ても同じということである。 客観 主観 誰が見ても同じ数値であるという事実は、ひとりよがりではない、といった消極的な利 点を超えて非常に重要な意味をもっている。すなわち、誰が行っても同じということは、 無 限 に 多 く の 研 究 の 間 で 協 力 す る こ と が で き る と い う こ と を 意 味 し て い る 。1980年 代 に「 新 人類」と呼ばれた若者がどのような価値観を持っていたのか数値化した研究があったとす る 。こ の と き 、同 じ 方 法 で 現 在 の 若 者 を 数 値 化 す れ ば 、2つ の 若 者 社 会 を 時 空 を 超 え て 比 較 研究できる。誰が見ても同じであるから、すでにこの世にいない研究者とも協力できる。 多様で変化の激しい社会現象を研究する上で、この無限の協力は強い武器となる。 ※もちろん、実際には「同じ方法で数値化」することが、そんなに容易なわけではない が、その問題は調査法の課題なので、この講義では追求しない。社会科学における客観 性 の 利 点 と 問 題 点 に つ い て は 、 竹 内 ( 1971) が 深 く 考 察 し て い る 。 例 ) 片 桐 ( 2009) の 5年 お き の 学 生 調 査 極旨醤油らーめん一刻堂 お客様アンケート 3 計量社会学のこれらの利点は、当たり前のように感じられるかもしれないが、我々凡人 が社会学という難しい課題に立ち向かうためには、極めてありがたい。計量社会学は、捉 えがたい社会の姿を直接的に観察することを可能にし、薄っぺらい数値を(他人といっし ょに)無数に積み重ねることで重厚な社会認識に地道に近づくことを可能にする。 やや長 い 道 の り に な る が 、計 量 社 会 学 の 考 え 方 を 1つ で も 多 く 身 に つ け て 、そ の 共 同 作 業 に 参 加 し てほしい。そして、皆さん自身の「社会学」の役に立ててほしい。 今日のポイント ①計量社会学は、研究対象ではなく、アプローチ法による社会学の分類 ②数値を使って社会学をすることの意義 ・数値を使えば、社会に実態を与えることができる ・数値を使えば、他人と協力できる ■授業の予定 1. 導 入 : な ぜ 社 会 を 数 値 に す る の か 2. 計 量 社 会 学 で 扱 う デ ー タ 3~ 4. 分 布 の 読 み 方 ( 1) 度 数 分 布 ( 2) 代 表 値 と ば ら つ き 5~ 7. 関 係 の 読 み 方 ( 1) 散 布 図 と ク ロ ス 表 ( 2) 相 関 係 数 ( 3) ク ロ ス 表 の 連 関 係 数 8~ 10. 記 述 の 実 践 ( 1) PPDACサ イ ク ル ( 2) 比 較 の プ ラ ン と 作 表 ( 3) グ ラ フ の 描 き 方 11~ 12. 因 果 関 係 へ の 注 意 ( 1) 相 関 と 因 果 ( 2) 見 せ か け の 関 係 の 追 求 13~ 14. 経 年 変 化 へ の 注 意 ( 1) 白 書 と 政 府 統 計 ( 2) 変 化 の 意 味 15. ま と め : 発 見 を 共 有 す る 学期末試験 ■事務連絡 ・ 第 3回 以 降 、 毎 回 、 √ の 計 算 で き る 電 卓 を 持 参 の こ と 。 ・成績評価について 学 期 末 の 試 験 の み で 評 価 ( 持 ち 込 み 全 て 可 )、 出 席 に よ る 加 点 ・ 減 点 な し 60点 以 上 で 合 格 ( 60~ 69点 = C可 、 70~ 79点 = B良 、 80~ 89点 = A優 、 90~ 100点 = S秀 ) た だ し 、 事 前 の 4回 の 小 テ ス ト で 60% 得 点 し て い な い 者 は 学 期 末 試 験 を 受 験 で き な い 小 テ ス ト は 、 A4用 紙 1枚 を 持 ち 込 み 可 。 最 終 日 に は 小 テ ス ト の 追 試 も お こ な う ・ 質 問 は 授 業 後 か 、 研 究 室 ( C605)、 メ ー ル ( [email protected]) で ・ テ キ ス ト は 用 い な い が 、 岩 井 ・ 保 田 ( 2007) な ど で 自 学 す る こ と も で き る ( と 思 う ) <文献> 岩 井 紀 子 ・ 保 田 時 男 2007 『 調 査 デ ー タ 分 析 の 基 礎 』 有 斐 閣 . 片 桐 新 自 2009 『 不 安 定 社 会 の 中 の 若 者 た ち : 大 学 生 調 査 か ら 見 る こ の 20年 』 世 界 思 想 社 . 竹 内 啓 2013[1971] 『 社 会 科 学 に お け る 数 と 量 増 補 新 装 版 』 東 京 大 学 出 版 会( と く に 第 1、2章 ). 保 田 時 男 2014 「 計 量 社 会 学 の 考 え 方 」 永 井 良 和 ・ 間 淵 領 吾 ・ 大 和 礼 子 編 『 基 礎 社 会 学 新 訂 第 3 版 』 世 界 思 想 社 , pp.43-54( 4章 ) . 渡 辺 淳 一 2011 『 事 実 婚 新 し い 愛 の 形 』 集 英 社 新 書 . 4 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.4.18 第 2回 「 計 量 社 会 学 で 扱 う デ ー タ 」 ■社会学のデータは多様 前回解説したとおり、社会学の対象である「社会」は直接見たり触ったりすることがで きない。そのため、社会学者はありとあらゆる手段で、社会を知るための根拠、すなわち 「データ」を集めようとする。社会学でいうデータには、数値で整理される統計的なデー タだけではなく、人々を観察したりインタビューで話を聞いたりした記録や、日記など の 歴史的な資料など、幅広いものが含まれる。大量の対象について一定の単純な方法で測定 を 繰 り 返 し て 集 め る い わ ゆ る 統 計 デ ー タ の こ と を 、一 般 に 量 的 デ ー タ( quantitative data) と呼ぶ。一方、少量の事例について会話や映像、文章やなど比較的自由度の高い方法で集 め ら れ た デ ー タ を 質 的 デ ー タ ( qualitative data) と 呼 ぶ 。 計量社会学では、量的データを分析して利用するが、質的データの重要性も忘れてはな ら な い 。大 切 な こ と は 、困 難 に 立 ち 向 か う た め に あ ら ゆ る 手 段 を 尽 く す と い う 姿 勢 で あ り 、 逆に言えば、量的データは使わないという拒絶もあってはならない。 量的データの例 001 002 003 004 005 006 007 2 1 1 1 2 2 1 31 29 33 30 28 35 30 3 2 2 2 1 1 2 1 3 2 2 1 1 1 …… 2 2 2 1 1 2 1 2001 2000 1998 2003 2003 1999 2002 質的データの例 2012年 10月 23日 13:00か ら の イ ン タ ビ ュ ー 校長「私は子どもが何を求めているのかは突き 詰めると大人にはわからないものだと思 っ て る ん で す よ 。そ う い う と 誤 解 さ れ る か もしれませんが」 調査者「もう少し詳しくその考えを聞かせてくだ さい」 校長「私が言いたいのは子どもの世界には子ど も の 世 界 の ル ー ル が あ っ て 、大 人 の も の と は 違 う 。そ れ を 大 人 が 知 ろ う と し て も 子 ど もは明かしてはくれない…… 4 3 2 4 4 1 1 ■計量社会学で扱うデータ 次の表は、計量社会学で扱われる典型的な量的データを例示している。ある大学の学生 120人 に つ い て 、性 別 、や る 気 、家 庭 学 習 時 間 の 違 い が 、あ る 科 目 の 成 績 に ど の よ う な 影 響 を 与 え る の か を 調 べ よ う と し て い る 。1行 1行 に 対 し て 1人 1人 の 学 生 の 情 報 が 対 応 し て い る 。 性 別 、 IQ等 は 、 そ れ ぞ れ の 生 徒 が さ ま ざ ま な 値 を と る の で 、 デ ー タ の 変 数 ( variable) と 呼 ば れ る 。 そ れ ぞ れ の 変 数 に 対 し て 1つ の 決 ま っ た 値 を 持 つ 単 位 を ケ ー ス ( case) と 呼 ぶ 。 こ こ で は 、 1人 1人 の 学 生 が ケ ー ス で あ る 。 そ れ ぞ れ の ケ ー ス に 対 し て 、 そ れ ぞ れ の 変 数 の 値が記されているものがデータである。通常、社会調査のデータでは、変数は個々の質問 項 目 に 対 応 し 、 ケ ー ス は 1人 1人 の 回 答 者 に 対 応 す る こ と が 多 い 。 このようなデータを集計して、たとえばクラス別の平均値をまとめたような情報もデー タ と 呼 ぶ こ と が あ る 。区 別 の た め に 、1ケ ー ス ご と の 細 か い 情 報 が 揃 っ て い る デ ー タ を 素 デ ー タ[ ロ ー デ ー タ ] ( raw data)と 呼 び 、一 定 の グ ル ー プ で 情 報 を ま と め た デ ー タ を 集 計 デ ー タ ( aggregate data) と 呼 ぶ 。 5 1人 目 2人 目 3人 目 4人 目 性別 女 女 男 女 やる気 非常に強い やや強い やや弱い やや弱い 家庭学習時間 4時 間 5時 間 30分 2時 間 4時 間 成績 優 秀 可 可 119人 目 120人 目 女 男 ふつう 非常に弱い 2時 間 4時 間 30分 不可 良 Ai Bi Ci Di i=1 i=2 i=3 i=4 2 2 1 2 5 4 2 2 4.0 5.5 2.0 4.0 3 4 1 1 i=119 i=120 2 1 3 1 2.0 4.5 0 2 い ず れ に し て も 、 統 計 デ ー タ は ま ず 複 数 の 数 値 情 報 で な け れ ば な ら な い ( dataは datum の 複 数 形 )。 た と え ば 、「 山 田 君 の 身 長 は 150cm」 と い う 情 報 や 「 中 学 2年 生 男 子 の 平 均 身 長 は 159.9cm」 と い う 集 計 値 は 、 単 独 で は デ ー タ で は な い 。 ま た 、 1つ の ケ ー ス に つ い て 様 々 な事柄を調べて多くの数値情報を集めているのではなく、同じ事柄(変数)について、複 数のケースから情報を集めていることが重要である。そうでなければ、統計的に扱うこと ができない。だから、まずデータは縦に長くなければならない。 通常、あらゆるデータは統計学で扱いやすいように、すべて記号と数字に置き換えて扱 わ れ る 。 上 の 場 合 、 家 庭 学 習 時 間 と い う 変 数 を C と い う 記 号 で 表 し た 。 C i は 特 に i番 目 の 学 生 の 家 庭 学 習 時 間 を 表 し 、iに 具 体 的 な 数 値 を 入 れ る と 、そ れ は 特 定 の 値 を 表 す よ う に な る 。 た と え ば 、 C 2 は 2番 目 の 学 生 の 家 庭 学 習 時 間 を 表 し 、 C 2 =5.5と 書 け る 。 もともと数字で表されていなかったデータも数字に置き換えて扱われる。たとえば性別 A i は 男 を 1、 女 を 2で 表 す こ と に し た 。 同 じ よ う に 成 績 D i は { 秀 ,優 ,良 ,可 ,不 可 } を そ れ ぞ れ { 4,3,2,1,0} で 表 し て い る 。 ■質的変数と量的変数の区別 このように全ての変数のデータを数字にしてしまうと、全ての変数を同じように扱える ような気分になってしまうが、それは誤りである。ある変数の数字がもともとどのように 作られたのかによって、その変数の扱いは変える必要がある。特に、質的変数と量的変数 の 区 別 は 非 常 に 重 要 で あ る 。 質 的 変 数 [ カ テ ゴ リ ー 変 数 ]( qualitative variable; categorical variable ) と は 、 数 量 的 な 特 色 が な い た め 計 算 が で き な い 変 数 を 指 す 。 こ れ に 対 し て 、 量 的 変 数 ( quantitative variable ) は 、 数 量 的 な 計 算 が 可 能 な 変 数 で あ る 。 ※テキストによっては、質的変数/量的変数という用語の代わりに、質的データ/量 的データという用語を使っている。このような表現は、データといえば統計的なデータ に決まっているような(いわゆる理系の)分野を前提とする場合によく使われる。我々 にとっては紛らわしいので、この用法は避けた方がよい。 6 たとえば、先のデータでは性別や成績は質的変数であり、家庭学習時間は量的変数であ る 。 成 績 は 量 的 変 数 じ ゃ な い の か 、 と 思 う か も し れ な い が 、 不 可 が 可 に な る こ と ( 0→ 1) と 可 が 良 に な る こ と( 1→ 2)は 、ど ち ら も 差 が 1で あ る が 、全 然 意 味 が 違 う の で 数 量 と し て 計 算 は 成 り 立 っ て い な い 。と い う こ と は 、本 来 、成 績 の 平 均 値 を 出 す よ う な こ と は で な い 。 統 計 的 な 視 点 か ら は 、推 薦 入 試 の「 評 定 平 均 4.0以 上 」と か「 GPA3.2」と い う 計 算 は 不 適 切 である。この計算が適切になるような成績の付け方をしているという前提が必要になる。 質的変数と量的変数の区別は、どのような統計的分析が可能かを決定する重要な別れ目 である。当然のことながら、ふつうは計算ができる方が分析しやすい。質的変数と量的変 数をしっかりと区別して、可能であれば質的変数ではなく量的変数にすることがで きない か考えることが重要である。データの集め方を変更して量的変数にできないか、あるいは 集めた後でデータを加工して量的変数を作り出すことはできないか、という発想が必要に なる。 と こ ろ で 、 も う 1つ の 変 数 「 や る 気 」 が 質 的 変 数 か 量 的 変 数 か は や や 大 切 な 問 題 な の で 、 授業の最後に改めて考える。 「 や る 気 」の よ う に 、5段 階 や 4段 階 で 意 見 や 意 識 の 強 さ を 測 る 尺 度 を と く に 評 定 尺 度( rating scale)と 呼 ぶ 。( 例 : 5 非 常 に 賛 成 、 4 賛 成 、3 ど ち ら と もいえない、2 反対、1 非常に反対) ■測定尺度 ある変数が質的変数か量的変数かは、その変数の数値がどのようなものさしで測定され たものであるかによって判断される。もう少し細かくこの辺りの事情を見てみよう。 ス テ ィ ー ブ ン ス ( Stanley S. Stevens) は 1946年 に 測 定 の も の さ し 、 つ ま り 測 定 尺 度 ( measurement scale) の 水 準 を 名 義 、 順 序 、 間 隔 、 比 率 の 4段 階 に 分 類 す る こ と を 提 案 し ているが、現在もこの考え方は有効である。一般に、名義、順序尺度により測定された変 数を質的変数、間隔、比率尺度により測定された変数を量的変数と呼ぶ(この辺りのこと は 多 く の 入 門 書 に 記 さ れ て い る が 、小 田( 2009)や 轟・杉 野( 2010)な ど が わ か り や す い )。 測 定 尺 度 の 4つ の 水 準 名 義 尺 度 ( nominal scale) 順 序 尺 度 ( ordinal scale) 間 隔 尺 度 ( interval scale) 比 率 尺 度 [比 例 尺 度 ] ( ratio scale) 数字は名札替わりの記号として使っているだけで、まったく計 算はできない変数 (例:性別、学科、職業) 1よ り 2が 大 き い な ど 、数 字 の 順 序・大 小 関 係 に は 意 味 が あ る が 、 実際的にはほとんど計算のできない変数 ( 例 : 学 年 内 の 成 績 順 位 、) 数字の間隔(差)が同じなら同じ数量とみなせるので、平均を 出すなど、ほとんどの計算ができる変数 ( 例 : 気 温 、 5点 満 点 の 意 識 評 定 ) 数 字 が 2倍 な ら 、 数 量 も 2倍 と み な せ る の で 、 ど ん な 計 算 で も で きる変数 (例:体重、年収、通勤時間) ※測定尺度の違いは、かなりの程度、絶対的な基準により判断される。しかし、測定尺 度 の 水 準 が 必 ず し も は っ き り し な い 場 合 も あ る の で 注 意 は 必 要 で あ る ( 例 : 教 育 年 数 )。 7 質的変数と量的変数の区別は最も基礎的な区別として重要であるが、ある変数に対して あ る 統 計 的 な 手 続 き を 当 て は め る こ と が で き る か ど う か を 、よ り 細 か く 判 断 す る た め に は 、 4つ の 測 定 尺 度 の 違 い に 注 意 し な け れ ば な ら な い 。 ■離散変数と連続変数 量 的 変 数 は 、 測 定 尺 度 と は 別 の 視 点 か ら 離 散 変 数 ( discrete variable) と 連 続 変 数 ( continuous variable )に 分 類 で き る 。離 散 変 数 と は 、取 り う る 値 が い く つ か の 点 で 定 ま っ て お り 、間 の 値 を 取 り え な い 変 数 で あ る 。た と え ば 、家 族 の 人 数 は 、3.5人 の よ う な 値 は 取りえないので、離散変数である。これに対して、連続変数は理論上、無限に細かい測定 が可能である。たとえば、家の広さ(㎡)は連続変数である。家族の人数も家の広さも、 測定尺度の視点からは、比率尺度による量的変数で変わりはない。 離散変数と連続変数の区別は、当面取り組むデータの整理・要約の視点からはあまり重 要でないが、確率論との結びつきを考える際には重要となるので、概念としては覚えてお こう。 今日のポイント ①計量社会学で扱う量的データ(統計データ)は、同じ変数について、多くのケー スから情報を集めて積み重ねたもの ②計算できる「量的変数」と計算できない「質的変数」の区別は重要 ( よ り 細 か く は 、 測 定 尺 度 の 4段 階 [ 名 義 ・ 順 序 ・ 間 隔 ・ 比 率 ] に も 注 意 ) (問題) 1. 次 の よ う な 変 数 は 、 名 義 ・ 順 序 ・ 間 隔 ・ 比 率 の ど の 尺 度 で 測 ら れ た 変 数 だ ろ う ? ( 1) 4年 間 の 取 得 単 位 数 ( 2) 好 き な ス ポ ー ツ 選 手 ( 1= イ チ ロ ー 、 2= 浅 田 真 央 、 3= … … ) ( 3) オ リ ン ピ ッ ク で の 国 別 メ ダ ル 獲 得 数 の 順 位 ( 1位 = ア メ リ カ 、 2位 = ロ シ ア 、 … … ) ( 4) 西 暦 ○ ○ 年 生 ま れ 2.評 定 尺 度 を 順 序 尺 度 と み な す か 、間 隔 尺 度 と み な す か は 、社 会 調 査 の デ ー タ 分 析 で は 非 常に重大な問題である。どちらで考えるべきか、自分の意見をまとめてみよう。 <文献> 小 田 利 勝 2009 『 社 会 調 査 法 の 基 礎 』 プ レ ア デ ス 出 版 . 轟 亮 ・ 杉 野 勇 編 2010 『 入 門 ・ 社 会 調 査 法 : 2ス テ ッ プ で 基 礎 か ら 学 ぶ 』 法 律 文 化 社 . ※ 過 去 の 配 付 資 料 は webに 置 い て い ま す 。 欠 席 時 は 各 自 で 補 充 を 。 http://www2.itc.kansai-u.ac.jp/~tyasuda/ 8 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.4.25 第 3回 「 分 布 の 読 み 方 ( 1) 度 数 分 布 と 代 表 値 」 ■度数分布表 調査データの分析の第一歩は通常、それぞれの変数に対してそれぞれの値を取るケース の 数 、つ ま り 度 数( frequency)を 数 え る こ と か ら 始 ま る 。非 常 に 単 純 な 作 業 で あ る が 、あ る側面から見てどのような人々が何人いるかという度数分布は、その社会の姿をもっとも 端的に表しておりばかにできない。 表1 2014年 度 計 量 社 会 学 Ⅰ 履 修 者 の 「 数 字 の 好 き 嫌 い 」 1 2 3 4 5 計 度数 6 24 23 27 3 83 大嫌い まあ嫌い ふつう まあ好き 大好き % 7.2 28.9 27.7 32.5 3.6 100.0 そ れ ぞ れ の 変 数 の 集 計 結 果 を 上 の よ う な 度 数 分 布 表 ( frequency distribution table ) に ま と め て お く と 、分 布 状 態 が 大 ま か に 分 か る の で 、便 利 で あ る( 表 1)。度 数 分 布 表 で は 、 人数そのもの(度数)に加えてパーセント(%)などを示すことがよくある。%は全体を 100人 に 統 一 し た 場 合 の 相 対 的 な 人 数 を 示 す の で 、相 対 度 数( relative frequency )と 呼 ば れ る 。 犯 罪 被 害 率 な ど 出 現 頻 度 の 低 い 現 象 に つ い は 、 1000人 あ た り の 人 数 ( パ ー ミ ル ‰ ) や 10万 人 あ た り の 人 数 な ど 、全 体 を 100に し な い 相 対 度 数 も 用 い ら れ る 。相 対 度 数 は 必 要 に 応じて付け加えたり省いたりしてもかまわないが、あくまで調査結果の基本は度数だ、と い う こ と を 忘 れ て は な ら な い 。 た と え ば 同 じ 相 対 度 数 50% で も 、 600人 中 300人 の 場 合 と 4 人 中 2人 の 場 合 で は 結 果 の 読 み 取 り が 当 然 異 な る 。だ か ら 、基 本 と な る 度 数 が 不 明 に な る よ うな表(%のみの表)は、通常作成してはならない。少なくとも全体のケース数は明記し な け れ ば な ら な い 。全 体 の 人 数 は「 n= 103」の よ う に 、 「 n」で 表 記 す る 約 束 に な っ て い る 。 ■取りうる値が多い場合の度数分布表の作り方 上の例のように、扱う変数で選択肢の限られている場合には、そのままそれぞれの値ご とにケース数を数えればよい。しかし、取りうる値の数が多い場合には、全ての値につ い て 度 数 分 布 表 を 作 っ て も 、 ほ と ん ど 役 に 立 た な い ( 例 : 身 長 142.6cm 1人 、 142.7cm 1人 、 142.8cm 2人 、… … )。一 定 の 範 囲 の 階 級( class)を 作 成 し 、各 階 級 の 範 囲 に 入 る 回 答 の 数 を数えるのが一般的である。 そ れ ぞ れ の 階 級 に つ い て 、級 間 の 中 心 の 値 を 階 級 値[ 中 心 点 ] ( midpoint)と 呼 ぶ 。中 心 点を示しておくとグラフを作成する際や、平均などの統計値を計算する際に便利である。 9 表2 通 勤 時 間 の 度 数 分 布 表 ( 第 2回 全 国 家 族 調 査 NFRJ03若 年 デ ー タ ) 中心点 度数 % 7分 以 下 - 344 13.6 約 15分 ( 8~ 22分 ) 15 636 25.2 約 30分 ( 23~ 37分 ) 30 319 12.6 約 45分 ( 38~ 52分 ) 45 177 7.0 約 60分 ( 53~ 67分 ) 60 182 7.2 約 75分 ( 68~ 82分 ) 75 54 2.1 約 90分 ( 83~ 97分 ) 90 49 1.9 98分 以 上 - 計 28 1.1 1789 70.9 階 級 の 幅 を 自 分 で 設 定 す る の は 意 外 と 難 し い 。厳 密 な 規 則 は な い が 、次 の 3点 く ら い に 注 意 し な が ら 、 5~ 10個 程 度 の 階 級 に わ け る こ と が 原 則 で あ る 。 1) 全 て の ケ ー ス が い ず れ か 1つ の 階 級 に 収 ま る よ う に 、 階 級 幅 は 互 い に 排 他 的 ( exclusive) で 、全 体 と し て 包 括 的( exhaustive)に 定 め な け れ ば な ら な い 。2つ の 階 級 に ま た が ら な い よ う に 、「 以 上 」「 未 満 」 を 用 い る な ど す る 。 2) そ れ ぞ れ の 階 級 幅 は 等 し く す る 。 幅 が 異 な る と 、 分 布 が 把 握 し に く い 。 た だ し 、 一 番 上 や 一番下の階級の幅は等しくできないことが多い。 3)キ リ の よ い 数 値 の 扱 い に は 注 意 す る 。社 会 調 査 の デ ー タ で は 、例 え ば 通 勤 時 間 の 分 布 が「 15 分」 「 30分 」な ど キ リ の よ い 値 に 集 中 す る こ と が あ る の で 、階 級 を キ リ の よ い 数 値 で 区 切 る と 分 布 が 歪 ん で 表 れ る こ と が あ る ( 表 2)。 ■集計結果の図示 集計の結果は表ではなく、図(グラフ)で表した方が、分布の状態がよく分かることが ある。グラフを作成すると見栄えがよくなることが多いが、見栄えをよくすることが作図 の目的ではない。比較したい統計量を視覚情報に置き換えることで、直感的な判断ができ る よ う に す る こ と が 目 的 な の で 、 次 の 2点 を は っ き り と 意 識 す る 必 要 が あ る 。 1) ど ん な 統 計 量 を 比 較 し よ う と し て い る の か 。 2) 比 較 の た め に ど ん な 視 覚 情 報 を 利 用 し て い る の か 。 逆 の 言 い 方 を す れ ば 、 1) 比 較 し た い も の 以 外 の 余 分 な 情 報 は 排 除 す る ( 例 え ば 、 2次 元 で 表 現 で き る 図 を 立 体 化 す る な ど 、 余 分 な 情 報 を 加 え な い )、 2) 錯 覚 に よ る 誤 解 を 誘 う 表 現をしない、といったことが重要になる。 例 え ば 、 代 表 的 な 5種 類 の グ ラ フ の 特 徴 は 表 3の よ う に ま と め ら れ る 。 グ ラ フ 作 成 の 詳 細 は、後の回で改めて触れる。 表3 棒グラフ 折れ線グラフ 円グラフ 帯グラフ ヒストグラム 代表的なグラフのポイント 比較の対象 利用する視覚情報 ある数量の大きさ ある数量の連続的な変化 全体に占める構成比 グループ別の構成比 連続した階級の度数 棒の長さ 線の傾き パイの面積 帯の面積 柱の面積 10 ■基本統計量 度数分布表は、データのおおまかな分布を知るために作成するものであった。いろいろ なデータの度数分布表を作ってみれば分かることであるが、多くの量的変数は、どこかの 点を中心にして多くの度数が分布し、中心から離れるとだんだん度数が少なくなるという 形で分布する。したがって、 1) 中 心 が ど の 辺 り に あ る の か 2) 中 心 か ら ど の 程 度 ば ら つ い て い る の か さえ数値で表せば、度数分布表を作成する手間をかけることなく、およその分布を把握で き る ( 図 1)。 中 心 を 表 現 す る 一 連 の 統 計 量 を 代 表 値 [ 中 心 傾 向 ]( average; measure of central tendency)、 ば ら つ い て い る 程 度 を 表 現 す る 一 連 の 統 計 量 を ば ら つ き [ 散 ら ば り 、 散 布 度 ] ( variability; measure of dispersion) と 呼 ぶ 。 代 表 値 と ば ら つ き は ま と め て 基 本 統 計 量 [ 要 約 統 計 量 、 記 述 統 計 量 ]( basic statistics; summary statistics; descriptive statistics) な ど と 呼 ば れ る 。 代 表 値 も ば ら つ き も 、 具 体 的 な 計 算 方 法 ( 統 計 量 ) は 複 数 のやり方がある。 ばらつきは同じで、中心傾向の異なる分布 図1 中心傾向は同じで、ばらつきの異なる分布 代表値とばらつき ■さまざまな代表値 今 回 は 代 表 値 に つ い て の み 解 説 す る( ば ら つ き に つ い て は 次 回 )。代 表 値 と し て は 、以 下 の 3つ が よ く 使 用 さ れ る 。デ ー タ の 分 布 が き れ い に 左 右 対 称 で あ る 場 合 に は 、こ れ ら は い ず れも同じ値を取る。しかし、実際の分布には多かれ少なかれ歪みがあるので、これらの 3 つの代表値は異なった値になる。代表値の種類によって、捉えることのできる特性が異な るので、場合によって使い分けなければならない。 最 頻 値 ( mode) ······· も っ と も 度 数 の 多 い 測 定 値 ま た は 階 級 中 央 値 ( median) ····· 測 定 値 を 大 き さ の 順 に 並 べ た と き 真 ん 中 番 目 に く る 値 (ケース数が偶数のときは 平 均 値 ( mean) ······· x 1 xi n 11 n 2 番目と n 2 + 1 番目の数値の平均) mean (26.5) median(25) mode(24) → → → ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ☆ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ 年齢 20 度数 累積度数 3 5 7 8 9 7 6 5 4 3 3 3 2 3 2 2 0 0 0 2 1 3 8 15 23 32 39 45 50 54 57 60 63 65 68 70 72 72 72 72 74 75 25 30 図2 35 40 計 75 代表値の模式図 もっともよく用いられる代表値は平均値であり、数学的に非常に扱いやすい。ただし、 平 均 は は ず れ 値( outlier)の 影 響 を 受 け や す い( 図 2)。中 央 値 は は ず れ 値 の 影 響 を 受 け に くく、情報が完結していない場合でも算出できる(例:半数が死亡した時点で寿命の中央 値 は 確 定 す る )。し か し 、そ れ は 逆 に デ ー タ の 全 情 報 を 代 表 し て い な い と も 言 え る 。最 頻 値 は他のカテゴリーの分布について情報が全く繁栄されていないが、一方で「多数を占める ものが中心」という日常的な代表性感覚に見合う。 また、測定尺度の水準によって、用いることのできる代表値の限界があることにも、注 意が必要である。たとえば、中央値は順序尺度でも算出できるが、平均値は数値の間隔が 一定でなければ意味がないので、間隔尺度か比率尺度でなければ算出できない。それぞれ の意味と限界を正確に理解して、用いる代表値を選ぶことが肝要である。 今日のポイント ①調査データの分析は、まず各変数の度数分布をよく観察すること 度 数 分 布 表 の 基 本 ル ー ル は 守 ろ う ( nの 提 示 、 階 級 の 区 切 り 方 ) ②度数分布の概要は、基本統計量(代表値とばらつき)で示せる ③代表値の種類(平均値、中央値、最頻値)は、長所と短所を考えて使い分ける (問題) 1. バ イ ト 時 給 の デ ー タ { 820,900,850,1100,2300,870 } に つ い て 、 平 均 値 と 中 央 値 を 示 そ う ( す べ て 1ケ ー ス ず つ な の で 、 最 頻 値 は 出 せ な い )。 2. 表 1の デ ー タ を 間 隔 尺 度 と み な し て 、 平 均 値 、 中 央 値 、 最 頻 値 を 示 そ う 。 3.結 婚 年 齢 の 平 均 値 の 代 わ り に 、中 央 値 や 最 頻 値 を 大 き く 報 道 す れ ば 、人 々 の 結 婚 行 動 に 何 ら か の 社 会 的 影 響 が あ る だ ろ う か ( あ る い は 、 な い だ ろ う か )。 自 分 の 予 想 を 論 じ て みよう。 12 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.5.2 第 4回 「 分 布 の 読 み 方 ( 2) ば ら つ き 」 ■さまざまなばらつき 基 本 統 計 量 は 、代 表 値 と ば ら つ き と い う 2つ の 数 値 で 、度 数 分 布 の お お ま か な 状 態 を 表 現 するものであった。今回は、分布の裾野がどの程度広がっているのか、つまり分布のばら つきの程度を示す統計量について解説する。量的変数のばらつきの指標としては、一般に 次 の 5つ が よ く 用 い ら れ る 。 範囲 R= 最 大 値 - 最 小 値 Q 四分領域 分散 s2 1 n Q3 Q1 2 xi x 標準偏差 s s2 変動係数 C.V . 2 ただし、一般には不偏分散 s2 1 n 1 xi x を 用 い る 2 s x ■範囲 範 囲( range)の 意 味 は す ぐ 分 か る で あ ろ う 。最 大 値 と 最 小 値 の 間 の 幅 は 、も っ と も 直 感 的 に デ ー タ の ば ら つ き の 程 度 を 示 し て い る 。 た と え ば 、「 先 月 、 何 日 ア ル バ イ ト を し た か 」 と い う 学 生 調 査 で 下 の よ う な デ ー タ Aが 得 ら れ た と す る と 、 範 囲 R = 21- 5= 16で あ る 。 デ ー タ A{ 5,8,12,19,21} (単位:日) 一 方 、下 の デ ー タ Bで あ れ ば 、範 囲 R = 24- 2= 22で 、こ ち ら の 方 が ア ル バ イ ト 日 数 の ば ら つ き が 大 き い こ と を 1つ の 数 値 で わ か る 。ち な み に 、ど ち ら の デ ー タ も 平 均 値 は 13.0、中 央 値 は 12で あ る 。 2つ の デ ー タ は 分 布 の 中 心 が 同 じ で 、 ば ら つ き 具 合 だ け が 異 な る 。 デ ー タ B{ 2,7,12,20,24} (単位:日) 範囲はもっとも単純なばらつきの指標なので、もっとも単純な代表値である最頻値とセ ットで用いられることが多い。代表値とばらつきの種類の中で何を用いるかは、基本的に 図 1の よ う な 対 応 が あ る 。 長 所 と 短 所 も 、 対 応 す る 代 表 値 と 同 様 と 考 え て よ い 。 代表値 最頻値 中央値 平均値 図1 ばらつき 対 応 範囲 四分領域 分散/標準偏差/変動係数 代表値とばらつきの指標の対応 13 ■四分領域 中 央 値 と セ ッ ト で 用 い ら れ る の は 四 分 領 域 ( quartile range; semi-inter-quartile range)で あ る 。中 央 値 は 分 布 全 体 を 二 等 分 す る 点 で あ る が 、全 体 を 4等 分 す る 3つ の 点 を 四 分 位 数 ( quartile) と 呼 び 、 小 さ い 方 か ら 第 1四 分 位 数 ( Q 1 )、 第 2四 分 位 数 ( Q 2 )、 第 3四 分 位 数( Q 3 )と 呼 ぶ 。25パ ー セ ン タ イ ル 点 、50パ ー セ ン タ イ ル 点 、… … も 同 じ 意 味 で あ る( 図 2)。 四 分 領 域 は 、 全 体 の 分 布 を ケ ー ス 数 で 4等 分 に 分 割 し た 場 合 に 、 1番 目 の 区 切 り 点 で あ る 第 1四 分 位 数 ( Q 1 ) と 3番 目 の 区 切 り 点 で あ る 第 3四 分 位 数 ( Q 3 ) と の 間 の 幅 を 2で 割 っ た も の で あ る 。つ ま り 、中 央 値( 第 2四 分 位 数 )を 中 心 と 考 え た 場 合 に 、中 心 か ら ど の 程 度 離 れ れば、分布の端までの半分に至るかということで、中心からの標準的なばらつきの程度を 表している。 Q 1 … … 第 1四 分 位 数 = 25パ ー セ ン タ イ ル 点 Q Q1 Q 3 2 25% 25% 25% Q1 図2 Q2 Q 2 … … 第 2四 分 位 数 = 50パ ー セ ン タ イ ル 点 = 中 央 値 Q 3 … … 第 3四 分 位 数 = 75パ ー セ ン タ イ ル 点 25% Q3 四分位数と四分領域 ※四分領域と同じものを四分位偏差と呼んだり、四分偏差と呼んだりすることもある。 ま た 、 Q 3 -Q 1 を 2で 割 ら な い 値 を 四 分 位 範 囲 ( inter-quartile range) と い う 指 標 で 用 い る こ と も あ る 。 quartile関 連 の 用 語 、 訳 語 は や や 混 乱 し が ち な の で 注 意 し よ う 。 ( 問 題 1) 2009年 の 第 3回 全 国 家 族 調 査( NFRJ08)の デ ー タ を 使 っ て 、働 い て い る 40歳 の 人 々 の 通 勤 時 間 を 男 女 で 比 較 し て み た ( 自 営 を 除 く )。 そ の 結 果 は 、 以 下 の と お り で あ る 。 男性 女性 ケ ー ス 数 ( n) 44 36 平均値 28.7分 17.3分 中央値 20分 15分 最頻値 20分 10分 最小値 3分 0分 最大値 90分 45分 第 1四 分 位 数( Q 1 ) 15分 10分 第 2四 分 位 数( Q 2 ) 20分 15分 第 3四 分 位 数( Q 3 ) 40分 25分 分散 475.7 148.8 標準偏差 21.8 12.2 ( 1) 男 女 別 に 通 勤 時 間 の 「 範 囲 」 を 求 め て み よ う 。 ( 2)男 女 別 に 通 勤 時 間 の「 四 分 領 域 」を 求 め て み よ う 。 ( 3)こ れ ら の 数 値 で 男 女 の 通 勤 時 間 に つ い て ど の よ う な 違 い が わ か る の か 。「 範 囲 」 や 「 四 分 領 域 」 と いう用語を知らない人に説明してみよう。 14 ■分散・標準偏差・変動係数 残りのばらつきの指標である分散、標準偏差、変動係数は一連のものである。平均を中 心 と 考 え る と 、各 ケ ー ス の ば ら つ き は 平 均 と の 偏 差 xi x で 表 せ る 。ば ら つ き の 大 き さ を 示 す 上 で 、偏 差 の 正 負 に は 意 味 が な い の で 、偏 差 を 2乗 し て 符 号 を 消 し て や る 。そ の 上 で 全 ケ ー ス を 合 計 す れ ば 、全 体 的 な ば ら つ き の 量 が 1つ の 数 字 に な る 。こ の 合 計 を 全 体 の ケ ー ス 数 n で 割 っ て 平 均 化 し た 値 が 分 散( variance)で あ る 。た だ し 、一 般 に は n の 代 わ り に n -1で 割 る こ と が 多 い( 特 に 区 別 す る 場 合 に は 、n -1で 割 る 方 を 不 偏 分 散 と 呼 ぶ )。n -1で 割 る 理 由 は 全く数学的な都合のためである。現時点でその理由を理解する必要はない。実際的には、 扱 う ケ ー ス 数 が 大 き け れ ば 、 nで 割 る 結 果 と n-1で 割 る 結 果 は ほ と ん ど 変 わ ら な い 。 上 の 5ケ ー ス の デ ー タ Aで は 、 平 均 x = 13.0な の で 、 不 偏 分 散 s 2= ( xi x ) 2 n 1 = (5 13) 2 (8 13) 2 (12 13) 2 (19 13) 2 (21 13) 2 = 47.5 5 1 と計算できる。 同 じ よ う に デ ー タ Bに つ い て 不 偏 分 散 を 計 算 す る と ( や は り 平 均 x = 13.0な の で )、 不 偏 分 散 s 2= ( xi x ) 2 n 1 = ( 2 13) 2 (7 13) 2 (12 13) 2 ( 20 13) 2 ( 24 13) 2 = 82.0 5 1 と な る 。デ ー タ Bの 方 が ば ら つ き の 程 度 が 大 き い こ と が 数 値 に 反 映 さ れ て い る( 82.0> 47.5)。 た だ し 、分 散 は 計 算 の 過 程 で 単 位 も 2乗 さ れ て い る の で 、数 値 の 大 き さ が 具 体 的 に 何 を 意 味 す る の か わ か り に く い( デ ー タ Aの 分 散 は「 82.0日 2 」な ど )。そ こ で 分 散 の 正 の 平 方 根 を 取 る こ と で 単 位 を 戻 し て わ か り や す く し た も の が 標 準 偏 差 ( standard deviation; SD) で あ る 。た と え ば デ ー タ Aの 標 準 偏 差 は s= s 2 = 47.5 ≒ 6.89と 計 算 で き る 。こ の と き 、単 位 は「 6.89日 」と と な り 、標 準 的 に は 平 均 値 ±標 準 偏 差 、つ ま り 13.0±6.89日( 6.11~ 19.89 日)くらいの間に多くの人々がばらついていることが、具体的にわかる。標準偏差はもっ ともポピュラーに用いられるばらつきの指標である。 感覚的にはわかりやすい標準偏差も、目的によっては欠点を持っている。例えば、幼稚 園 児 の 身 長 の 標 準 偏 差 が 4.5cmで 、 20歳 の 成 人 の 身 長 の 標 準 偏 差 が 5.0cmで あ っ た と す る 。 この場合、絶対的な量としては成人の方が身長のばらつきが大きい。しかし、幼稚園児は 成 人 よ り も は る か に 平 均 身 長 が 低 い に も か か わ ら ず 、4.5cmも の 標 準 偏 差 を 示 し て お り 、相 対的には、成人よりもむしろ大きくばらついている。このようなときに用いるのが変動係 数 ( coefficient of variation) で あ る 。 変 動 係 数 は 平 均 的 な 規 模 の 違 い を 相 殺 す る た め に 、 標 準 偏 差 を 平 均 値 で 割 っ た 値 を 用 い る 。 仮 に い ま の 例 で 幼 稚 園 児 の 平 均 身 長 が 100cm、 成 人 の 平 均 身 長 が 165cmで あ っ た と す る と 、そ れ ぞ れ の 変 動 係 数 は 、4.5÷100≒ 0.045、5.0 ÷165≒ 0.030...と 算 出 さ れ 、幼 稚 園 児 の 方 が 相 対 的 に は ば ら つ き が 大 き い こ と が 示 さ れ る 。 こ れ ら の 数 値 は つ ま り 、幼 稚 園 児 は 平 均 身 長 の 4.5% 程 度 の 幅 で ば ら つ い て い る の に 対 し て 、 成 人 は 平 均 身 長 の 3.0% 程 度 の 幅 で し か ば ら つ い て い な い 、 と い う 意 味 で あ る 。 ■Σの計算 分 散 な ど の 計 算 で は 、 記 号 「 Σ 」( シ グ マ ) が 用 い ら れ る 。 Σ は ア ル フ ァ ベ ッ ト の 「 S」 に 当 た る ギ リ シ ャ 文 字 で 、「 合 計 」 を 表 す 英 単 語 「 sum」 の 頭 文 字 を 示 し て い る 。 そ の 由 来 から分かるように、Σの意味は「計算結果を合計する」という意味で、統計学ではほとん 15 ど 1つ の 使 い 方 し か し な い 。 す な わ ち 、「 す べ て の ケ ー ス に つ い て 同 じ 計 算 を 行 い 、 そ の 結 果を全員について合計する」という意味である。この用い方しかしないので、Σの上下の 表記は通常、省略される。 例) Ai Bi Ci Di 2 2 1 2 105 110 97 115 4 5.5 2 4 4 5 3 3 i=1 i=2 i=3 i=4 (n=4) (C 5) = { (4+5)+(5.5+5)+(2+5)+(4+5) } = i 1 n B 1 n (B i = i 35.5 1 ( 105 + 110 + 97 + 115) = 106.75 4 1 (105 100) 2 (110 100) 2 (97 100) 2 (115 100) 2 4 1 (25 100 9 225) 89.75 4 100) 2 Σを用いた分散の計算式がしっくりこない場合には、 「すべてのケースについて同じ計算 をする」という過程を下のように表にしてみるとよい。 𝑥 1 人目 25 2 人目 29 3 人目 32 4 人目 25 5 人目 21 (𝑥𝑖 − 𝑥̅ )2 合計 ÷(n-1) 不 偏 分 散 s 2= ∑(𝑥𝑖 − 𝑥̅ )2 = ( 問 題 2) 上 の デ ー タ { 25,29,32,25,21} は 、 あ る 調 査 で 5 人 の 女 性 に 理 想 の 結 婚 年 齢 を 尋 ね た 結 果である。 ( 1) 平 均 値 と 中 央 値 を 算 出 し よ う ( 復 習 )。 ( 2) 表 を 使 っ て 、 分 散 ( 不 偏 分 散 の 方 ) を 計 算 し て み よ う 。 ( 3) 標 準 偏 差 を 算 出 し て み よ う 。 ( 4)算 出 し た 標 準 偏 差 を デ ー タ と 照 ら し 合 わ せ て 、計 算 が お よ そ 間 違 い な い か 確 認 し よ う 。 16 ( 問 題 3) 「 問 題 1」( 40歳 の 男 女 別 の 通 勤 時 間 ) の 表 を 参 照 。 ( 1) 男 女 別 に 、 通 勤 時 間 の 変 動 係 数 を 算 出 し よ う 。 ( 2) 変 動 係 数 は 比 率 尺 度 の 変 数 に し か 使 え な い ( 間 隔 尺 度 の 変 数 で は ダ メ )。 な ぜ か 。 ( 3)表 に 示 さ れ て い る 統 計 量 や 、こ れ ま で に 算 出 し た ば ら つ き の 統 計 量 か ら 、男 女 の 通 勤 時間の分布を、およそのグラフで描いてみよう。 ( 4)40歳 の 男 女 で 、な ぜ こ の よ う な 通 勤 時 間 の 違 い が 出 る の か 、そ の 社 会 的 な 理 由 を 予 想 してみよう。 ■歪度と尖度 代表値やばらつきと比べれば重要度は落ちるものの、分布を要約する指標として歪度と 尖度という統計量が存在する。実際に数値を計算することはあまりないが、分布の形につ いて議論をするために知っておかなければいけない概念である。 わ い ど 歪 度 ( skewness) は 、 分 布 の 形 が ど の 程 度 左 右 対 称 に 近 い か ( あ る い は 左 右 対 称 か ら か け 離 れ て い る か ) を 示 す 統 計 量 で あ る 。 左 右 対 称 の 場 合 に は 0と な る 。 右 ( 値 が 大 き い 方 ) に裾を引いている場合には正の値となり、左(値が小さい方)に裾を引いている場合には 負の値となる。 せ ん ど 尖 度 ( kurtosis) は 分 布 の 尖 り 度 合 い を 表 す 統 計 量 で あ る 。 き れ い な ベ ル 型 の 正 規 分 布 の 場 合 に は 、 尖 度 は ち ょ う ど 3と な る 。 よ り 尖 っ て い る 場 合 に は 3よ り 大 き な 値 を 取 り 、 尖 り 方 が 緩 や か な 場 合 に は 3よ り 小 さ な 値 を と る 。正 規 分 布 を 基 準 と し て 考 え る た め に 、初 め か ら 3を 引 い た 値 を 尖 度 と し て 表 す こ と も あ る 。 1 歪度 n x i x 3 1 尖度 n s3 x i x 4 s4 今日のポイント ①ばらつきの各指標は、それぞれ代表値の種類と対応している。 ② ば ら つ き の 各 指 標 は 、そ れ ぞ れ 計 算 で き る よ う に な っ て お こ う( と く に 標 準 偏 差 )。 ③基本統計量の数値から、具体的な分布の形が想像できるようになろう。 ※ 次 回 ( 5/ 9) の 授 業 初 め に 1 回 目 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 第 1~ 4 回 の 内 容 に つ い て 、 基 本 統 計 量 の 計 算 や 語 句 の 意 味 な ど を 確 認 。 √ が 計 算 で き る 電 卓 必 須 。 小 テ ス ト で は 携 帯 電 話 の 電 卓 機 能 で も よ い ( 学 期 末 試 験 で は 不 可 )。 17 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.5.9 第 5回 「 関 係 の 読 み 方 ( 1) 散 布 図 と ク ロ ス 表 」 ■変数間の関係を読む こ れ ま で 、度 数 分 布 表 や 基 本 統 計 量 の 解 説 に お い て は 、1つ の 変 数 の 分 布 に つ い て 考 え る ことを前提に話を進めてきた。しかし、社会学的に意味のあるデータの読み取りをするに は 、2つ 以 上 の 変 数 の 分 布 を 同 時 に 観 察 し 、そ の 関 係 性 を 捉 え る こ と が 有 効 で あ る こ と が 多 い 。 2つ 以 上 の 変 数 を 同 時 に 考 慮 す る も っ と も 基 本 的 な 方 法 は 、 ク ロ ス 集 計 表 [ ク ロ ス 表 、 分 割 表 ]( cross tabulation; cross table; contingency table ) を 作 成 す る こ と で あ る 。 クロス表は非常によく目にするもので、基本的な作り方も簡単である。例えば、次のよ う な 質 問 に よ っ て 捉 え ら れ る「 三 世 代 同 居 へ の 賛 否 」が 、 「 性 別 」に よ っ て ど う 異 な る の か 、 に関心を持っているとしよう。 問 あなたは一般に、三世代同居(親・子・孫の同居)は望ましいことだと考えますか。 1 望ましい 2 望ましくない こ の 場 合 、 下 の よ う な 「 性 別 」 と 「 三 世 代 同 居 へ の 賛 否 」 の ク ロ ス 表 を 作 成 す る ( 表 1)。 条件が交差(クロス)したマスの中にそれぞれの度数を書き入れるので、クロス表と呼ば れ る 。ク ロ ス 表 の 1つ 1つ の マ ス は セ ル( cell)と 呼 ぶ 。例 え ば 、左 上 の セ ル の「 927」と い う 数 値 は「 男 性 」で 、か つ 三 世 代 同 居 に「 賛 成 」と い う ケ ー ス が 927人 い た こ と を 示 す 。通 常 は 周 り に 合 計 の 人 数 を 書 き 入 れ る が 、 こ の 部 分 を 周 辺 度 数 ( marginal frequency ) と 呼 ぶ。周辺度数は場合によっては省略する。 表1 男女別の三世代同居への賛否 賛成 反対 計 男性 927 366 1293 女性 950 600 1550 1877 966 2843 計 注 : JGSS-2000の デ ー タ か ら 作 成 表 1の ク ロ ス 表 を よ く 見 れ ば 、「 男 性 の 方 が 三 世 代 同 居 に 賛 成 し や す く 、 女 性 の 方 が 反 対 しやすい」という傾向がわかるはずである。つまり、性別と三世代同居の賛否は無関係で は な く 、 2つ の 変 数 に は 関 係 が あ る 。 こ こ で 、「 男 性 も 女 性 も 、 反 対 よ り 賛 成 の 方 が 多 い の だから性別は関係なかった」と読んではならない。統計的な社会調査データは、常に相対 的 な 視 点 か ら 読 み 取 る 。つ ま り 、 「 比 較 的 ○ ○ だ 」と い う 読 み 方 が 重 視 さ れ る 。男 性 で は 反 対 よ り も 賛 成 が 約 2.5倍 も い る の に 対 し て 、 女 性 で は 約 1.5倍 し か い な い 。 女 性 の 方 が 相 対 的に賛成しにくい(反対しやすい)という関係は明らかである。 計量社会学でこのような相対的な見方が重視されるのは、調べている変数の分布に絶対 18 的な意味がないことが多いためである。たとえば、全体的に見ると三世代同居に賛成して い る 人 は 反 対 の 2倍 く ら い い る が 、こ の 結 果 か ら「 日 本 人 は 三 世 代 同 居 を 支 持 反 対 の 2倍 ! 」 といった見出しの新聞記事を書くことはおかしい。なぜならば、これは「三世代同居は望 ま し い こ と だ と 考 え ま す か 」と い う 聞 き 方 を し た ら そ う な っ た だ け で 、 「三世代同居はすば ら し い と 思 い ま す か 」と か 、 「 三 世 代 同 居 を 積 極 的 に 支 持 し ま す か 」と い っ た 別 の 聞 き 方 で 基 準 が 変 わ れ ば 、簡 単 に 数 値 が 違 っ て く る か ら で あ る( お そ ら く 賛 成 が 減 る )。一 方 で 、聞 き方によって基準が変わっても、 「 男 性 の 方 が 女 性 よ り も 三 世 代 同 居 に 賛 成 で あ る 」と い う 関係性には、違いが出ないはずである。 ■ 3つ の パ ー セ ン ト さて、いまの例の場合はかなり男女の違いがはっきりしていたが、もう少し微妙な傾向 を 即 座 に 判 断 し た い と き に は 、や は り 相 対 度 数( % )を 併 記 す る こ と が 望 ま し い 。た だ し 、 ク ロ ス 集 計 表 に は 、% の 算 出 の 仕 方 が 複 数 あ り う る 。1行 1行 を 100% と し た と き の 相 対 度 数 で あ る 行 % ( row percent)、 1列 1列 を 100% と し た と き の 列 % ( column percent)、 全 体 を 100% と し た と き の 全 体 % ( total percent) の 3つ で あ る ( 図 1)。 列 賛成 行 反対 計 男性 100% 男性 女性 100% 女性 計 計 図1 賛成 反対 100% 100% 計 行%と列% 3つ の % を す べ て 併 記 し て ク ロ ス 表 を 作 っ て み る と 、 下 の よ う に な る ( 表 2)。 表2 3種 類 の % 付 き の ク ロ ス 表 三世代同居への賛否 賛成 反対 計 男性 度数 行% 列% 全体% 927 71.7 49.4 32.6 366 28.3 37.9 12.9 1293 100.0 45.5 45.5 女性 度数 行% 列% 全体% 950 61.3 50.6 33.4 600 38.7 62.1 21.1 1550 100.0 54.5 54.5 計 度数 行% 列% 全体% 1877 66.0 100.0 66.0 966 34.0 100.0 34.0 2843 100.0 100.0 100.0 19 し か し 、実 際 に は こ の よ う な ク ロ ス 表 は 作 成 し な い 。3種 類 の % の 意 味 を 考 え て 、必 要 と さ れ る も の だ け を 残 し 、不 要 な も の は 省 く べ き で あ る 。こ の ク ロ ス 表 の 場 合 、そ れ ぞ れ の % は以下の情報を表している。 行 %:男性の中での賛否の分布と、女性の中での賛否の分布を比べる 列 %:賛成の人の中での男女の分布と、反対の人の中での男女の分布を比べる 全体%:全回答者の中での性別と賛否の組み合わせの分布(各割合を比べる) いまここでクロス表を作っている目的を思い出してみると、三世代同居への賛否の分布が 男女でどう違っているのかを確かめることであった。つまり、男性の中での賛否の分布と 女性の中での賛否の分布を比較して違いを見つけたいわけである。すると当然、必要な% の種類は行%であり、それ以外の列%、合計%は不要である。結局、例えば次のような形 で ク ロ ス 表 を 作 成 す る こ と が 適 切 と い う こ と に な る ( 表 3)。 表3 男女別の三世代同居への賛否 賛成 反対 計 男性 927 (71.7% ) 366 (28.3% ) 1293 (100% ) 女性 950 (61.3% ) 600 (38.7% ) 1550 (100% ) 計 1877 (66.0% ) 966 (34.0% ) 2843 (100% ) 注 : JGSS-2000の デ ー タ か ら 作 成 どの%が適切かピンときにくい場合は、その%からできあがるグラフを考えてみるとわ か り や す い 。こ の 場 合 、図 2の よ う に 比 べ て み る と 、行 % の グ ラ フ こ そ 知 り た い 情 報 で あ る ことが理解できるのではないだろうか。 100% 80% 0% 20% 40% 60% 80% 100% 男性 n=1293 女性 n=1550 賛成, 71.7 賛成, 61.3 反対, 28.3 反対, 38.7 ( a) 行 % の 場 合 図2 60% 40% 20% 男性, 37.9 男性, 49.4 女性, 62.1 女性, 50.6 0% 賛成 n=1877 女性× 反対, 21.1% 女性× 賛成, 33.4% 反対 n=966 ( b) 列 % の 場 合 男性× 賛成, 32.6% 男性× 反対, 12.9% (n=2843) ( c) 全 体 % の 場 合 それぞれの%に対応するグラフ表現 な お 、一 般 的 に は 、列 % で は な く 行 % を 書 き 入 れ る よ う に 想 定 し て 、2つ の 変 数 を 配 置 す る方がわかりやすいクロス表になる。つまり、分布に関心のある中心的な変数(ここでは 三世代同居への賛否)を列側に配置して、グループ分けのための変数(ここでは性別)を 20 行側に配置し、行%を比較することで関係性を読み取る。レイアウトなどの都合で特別な 事 情 が な い 限 り 、こ の 配 置 の 方 が 自 然 に 数 値 を 読 み 取 る こ と が で き る 。言 い 方 を 変 え れ ば 、 最終的に大事な「結果」の変数を列側に、その分布を左右する「原因」の変数を行側に配 置して、行%を記すことがふつう、ということである(後の回で触れるが、原因・結果と いう言い方は、統計データを見る際にはやや語弊があるが、考える際にはこの方がわかり や す い )。 ま た 、 ク ロ ス 表 の 表 現 の 仕 方 は 、 細 か く 見 れ ば 千 差 万 別 で あ る が ( 図 3)、 表 面 的 な 違 い に惑わされず、示すべき%を示すことに注意を払おう。また、度数分布表と同様に相対度 数(%)は副次的な統計量に過ぎないので、基本となる度数を必ず示すこと(または再現 可 能 で あ る こ と )も 重 要 な 注 意 点 で あ る 。図 3( d)の よ う に 、各 セ ル の 度 数 は 示 さ ず に 行 % だ け を 示 す 表 現 も 有 効 で あ る が 、 そ れ ぞ れ の 100% に 相 当 す る 合 計 ケ ー ス 数 ( n) を 記 し て おかなければならない。 こ れ は ク ロ ス 表 を も と に し て グ ラ フ を 作 成 す る 際 に も 同 じ で あ る 。100% に 相 当 す る 合 計 ケ ー ス 数 ( n) だ け は 明 記 し な け れ ば な ら な い 。 (a) (c) 三世代同居 性別 賛成 反対 計 男性 男性 927 366 1293 女性 950 600 1550 1877 966 2843 計 女性 賛成 反対 合計 927 366 1293 (71.7 %) (28.3 %) (100.0 %) 950 600 1550 (61.3 %) (38.7 %) (100.0 %) (d) (b) 三世代同居への賛否 性別 男性 女性 合計 賛成 賛成 反対 合計 927 366 1293 71.7 % 28.3 % 100.0 % 950 600 1550 61.3 % 38.7 % 100.0 % 1877 966 2843 66.0 % 34.0 % 100.0 % 図3 反対 n 男性 71.7% 28.3% 1293 女性 61.3% 38.7% 1550 この度数が必要な ことに注意 クロス表のいろいろな表現 21 (問題) 下の表は、 「 婚 姻 状 態( 既 婚 / 未 婚 )」と「 欲 し い 子 ど も の 性 別( 男 の 子 / 女 の 子 )」の ク ロ ス 表 で あ る ( JGSS-2000の デ ー タ )。 こ の ク ロ ス 表 を ( 1) ~ ( 4) の 目 的 で 作 っ て い る と すると、それぞれの場合について望まれる%の種類は行%、列%、全体%のいずれか。ま た、実際に%を算出して、それぞれの疑問に回答せよ。 欲しい子ども 婚 姻 状 態 男の子 女の子 計 既婚 992 1359 2351 未婚 219 211 430 計 1211 1570 2781 ( 1) 男 の 子 を 欲 し い 人 と 女 の 子 を 欲 し い 人 で 、 既 婚 者 の 割 合 が 高 い の は ど ち ら な の か 。 ( 2) 既 婚 者 と 未 婚 者 で 欲 し い 子 ど も の 性 別 に 違 い が あ る の だ ろ う か 。 ( 3) 全 体 に 占 め る 未 婚 で 女 の 子 を 欲 し が っ て い る 人 の 割 合 は ど の く ら い な の か 。 ( 4) 女 の 子 を 欲 し が っ て い る 人 の 割 合 が 高 い の は 、 既 婚 者 な の か 、 未 婚 者 な の か 。 ■散布図 2つ の 変 数 の 間 の 関 係 性 を 調 べ る た め に ク ロ ス 表 の 作 成 に つ い て 学 習 し た が 、量 的 変 数 の 場 合 は 同 じ 目 的 で し ば し ば 散 布 図 ( scatter plot; scattergram; scatter diagram) が 作 成 さ れ る 。散 布 図 は 、2つ の 変 数 を そ れ ぞ れ X軸 、Y軸 と し て 1人 1人 の 回 答 を 対 応 す る 座 標 に 点 で 記 し た 図 で あ る ( 図 4)。 90 体重(kg) 80 70 60 50 40 30 130 140 150 160 170 180 190 身長(cm) 図4 散布図の例 散 布 図 は 、 ク ロ ス 表 よ り も 直 感 的 に 2つ の 変 数 の 関 係 性 を 理 解 で き 便 利 な も の で あ る が 、 残念ながら計量社会学で扱う調査データでは散布図を活用できる機会は多くない。なぜな らば、社会調査のデータに含まれる変数は、多くの場合、回答選択肢の数が少なく、散布 図 を 描 く の に 適 し て い な い か ら で あ る ( 5段 階 の 評 定 尺 度 な ど )。 そ の た め 、 や は り 関 係 性 22 を表わす場合の基本は、クロス表になる。クロス表の作成、%の使い分けを確実に理解し よう。 散布図がその力をもっとも発揮するのは、十分に多くの値を取り得るときである。年齢 など多様な値を取り得る変数、複数の変数から作成した合計得点、集計データにおける平 均値や比率など、多様な値を取り得る変数を分析する際には、散布図が非常に有効であろ う。 (問題) 以下のようなことが調べたいとき、どのようなクロス表を作成すればよいか、表の枠組 みを提案しなさい。また、仮にこのクラスで調査をすれば、おそらくこのような結果にな るという架空の度数を各セルに記入し、必要なパーセントを計算しなさい。その上で、そ の結果が仮説を支持する結果なのか、支持しない結果なのかを明記しなさい。 ( 1) 男 子 学 生 と 女 子 学 生 で は 、 男 子 学 生 の 方 が 一 人 暮 ら し を し て い る 割 合 が 高 い だ ろ う 。 ( 2) ア ル バ イ ト を し て い る 比 率 が 大 き い の は 、 1年 生 よ り も 2年 生 以 上 の 方 だ ろ う 。 今日のポイント ① 2変 数 間 の 関 係 性 の 分 析 は 、 ク ロ ス 表 の % を 相 対 的 に 比 べ る こ と が 基 本 。 ② 目 的 に 応 じ て 3つ の % ( 行 % 、 列 % 、 全 体 % ) を 使 い 分 け る 。 ③ 使 え る 場 面 は 限 定 的 だ が 、 散 布 図 で も 2変 数 間 の 関 係 性 が 読 み 取 れ る 。 23 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.5.16 第 6回 「 関 係 の 読 み 方 ( 2) 相 関 係 数 」 ■復習 数 回 に わ た っ て 統 計 操 作 の 説 明 が 積 み 重 な っ て き た の で 、ポ イ ン ト を 整 理 し て お こ う( 表 1)。 計 量 社 会 学 で 扱 う デ ー タ は 、 複 数 の 変 数 に つ い て 多 く の ケ ー ス を 調 べ た 統 計 デ ー タ で あ る ( 第 2回 )。 いろいろと複雑な分析技法も存在するが、まず大切なことは各変数(各調査項目)の分 布 を よ く 観 察 す る こ と で あ る 。度 数 分 布 表 や グ ラ フ を 用 い て 1変 数 の 分 布 を 観 察 す る 際 の 注 意 を ま ず 学 習 し た ( 第 3回 )。 し か し 、 実 際 に は 多 く の 度 数 分 布 表 を 素 朴 に 観 察 す る こ と は 大変である。そこで、分布の中心と散らばり具合だけを基本統計量で要約する方法を学習 し た ( 第 4回 )。 次 に 、 2つ 以 上 の 変 数 の 関 係 を 読 み 取 る 話 で あ る 。 2変 数 の 関 係 は 、 散 布 図 や ク ロ ス 表 で 読 み 取 る ( 第 5回 )。 ク ロ ス 表 で は 、 適 切 な % を 算 出 し て 比 較 し な れ ば な ら な い が 、 関 心 の 中心となる変数を列側に、比較するグループを示す変数を行側に配置して、行%を読むこ とが基本である。やや不適切な表現だが、原因と考える変数を行に配置し、結果と考える 変数を列に配置するといってもよい。 表1 いま学習していること 1つ の 変 数 の 分布を調べる → 素朴な観察 度数分布表 単純なグラフ 2つ の 変 数 の 関係を調べる → クロス表 散布図 統計量による要約 基本統計量 代表値(最頻値、中央値、平均値) ば ら つ き( 範 囲 、四 分 領 域 、分 散 ・ 標 準 偏 差 ・ 変 動 係 数 ) 関係性を表わす統計量 相関係数 連 関 係 数 ( ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 な ど ) 順序相関係数(ガンマ、ロー、タウなど) ■ 「 2変 数 の 関 係 性 」 を さ ら に 比 較 す る さ て 、で は こ こ で「 2変 数 の 関 係 性 を さ ら に 比 較 す る 」と い う 状 況 を 考 え て み よ う 。た と えば、 「 授 業 へ の 出 席 率 が 高 い ほ ど 成 績 が よ い 」と い う 関 係 が あ る と し て 、1年 生 の 場 合 と 2 年生の場合では、このような関係性の強さに違いが出るのか、といった疑問が浮かぶこと が あ る か も し れ な い 。 た と え ば 、 1年 生 の と き の 出 席 は 義 務 感 で 出 て い る だ け で 、 2年 生 の 出 席 の 方 が や る 気 が 反 映 さ れ て い る の で 、2年 生 の 方 が 、出 席 率 と 成 績 の 関 係 が 強 く な る の で は な い か 、 と い っ た 仮 説 が 考 え ら れ る 。 こ の こ と を 確 認 す る た め に は 、 1年 生 と 2年 生 で 別 々 に 、「 出 席 率 と 成 績 の ク ロ ス 表 ( ま た は 散 布 図 )」 を 作 成 し て 、 比 較 す れ ば よ い 。 と こ ろ が 、 2学 年 な ら ま だ よ い が 、 4つ の 学 年 で 比 べ て み よ う と か 、 13個 の 学 部 で 違 い を 調べようとか考えると、クロス表や散布図を読み取るだけでも大変である。そこで、自然 な 発 想 と し て 、 2変 数 の 関 係 性 の 強 さ や 方 向 性 を 1つ の 数 字 に 要 約 す る こ と が で き れ ば 、 比 較が簡単になるはずだ、という考えが思い浮かぶ。度数分布表を読み取る代わりに、平均 24 や標準偏差といった数値(基本統計量)に要約したのと同じことである。 クロス表を要約する統計量は、よく使われるものが複数あり、やや複雑である。一方、 散 布 図 を 要 約 す る 統 計 量 で は 、圧 倒 的 に よ く 使 わ れ る も の が 1つ だ け あ る 。今 回 は 、散 布 図 を 要 約 す る 、 ピ ア ソ ン の 相 関 係 数 ( correlation coefficient ) に 絞 っ て 、 2変 数 の 関 係 性 を要約する意味を学習しよう。クロス表を要約する統計量は、次回解説する。 ■相関係数の意味 ピ ア ソ ン の 相 関 係 数( ふ つ う 、単 に 相 関 係 数 と い え ば ピ ア ソ ン の 相 関 係 数 の こ と で あ る ) は 、量 的 変 数 同 士 の 関 係 性 に つ い て 、散 布 図 に 現 れ る 関 係 性 の 方 向 性 と 強 さ を 1つ の 数 値 に 要約する。社会学で扱う調査データには質的変数が多いものの、相関係数の考え方は全体 の基礎として確実に理解しなければならない。 2つ の 量 的 変 数 Xと Yの 間 で 、一 方 の 変 化 に 対 し て 他 方 が 比 例 的 に 変 化 す る 傾 向 を も つ と き 、 2つ の 変 数 は 相 関( correlation)す る 、と い う 。散 布 図 で 描 け ば 、図 1( a) ( b)の よ う に 、 直 線 傾 向 の 関 係 を も つ 場 合 が 相 関 で あ る 。( a) は Xが 増 え れ ば Yも 増 え 、 Xが 減 れ ば Yも 減 る の で 、2つ の 変 数 が 同 じ 方 向 に 動 く 。こ の 場 合 を 正 の 相 関 と 呼 ぶ 。一 方 、 ( b)は 、Xと Yが 逆 方 向 の 動 く ( Xが 増 え れ ば Yは 減 り 、 Xが 減 れ ば Yは 増 え る ) の で 、 負 の 相 関 と 呼 ん で 区 別 す る。たとえば、読書量と成績は正の相関をもつ、とか、仕事へのやる気と疲労感は負の相 関を示す、とかいう使い方をする。 ( a) 正 の 相 関 r= 0.804 ( b) 負 の 相 関 r= - 0.697 図1 ( c) 無 相 関 r= 0.066 相関関係 さ て 、 関 係 の 方 向 性 を 無 視 す る と 、( a) と ( b) で は ど ち ら の 方 が 強 い 相 関 で あ ろ う か 。 ピ ア ソ ン の 相 関 係 数( correlation coefficient )を 用 い れ ば 、一 見 し た だ け で は 判 断 し に く い 関 係 の 強 さ を 数 値 で 比 較 で き る 。 相 関 係 数 は 一 般 に 記 号 「 r」 で 表 記 さ れ 、 必 ず - 1か ら + 1の 間 の 値 を と る 。 正 の 相 関 が 強 い ほ ど + 1に 近 い 値 に な り 、 負 の 相 関 が 強 い ほ ど - 1 に 近 い 値 に な る 。相 関 関 係 が な い 場 合 に は 0に 近 い 値 に な る 。図 1の 場 合 、 ( a)と( b)で は ( a)の 方 が r= 0.804と サ イ ズ が 大 き い の で 、よ り 強 い 相 関 と い う こ と に な る 。か り に( b) が r= -0.9で あ れ ば 、( b) の 方 が 相 対 的 に 強 い 相 関 で あ る 。 絶 対 量 と し て 相 関 係 数 の 大 き さ が ど の 程 度 あ れ ば 、「 強 い 」 相 関 と 考 え れ ば よ い の か は 、 一概には言えない。ただ、社会学的なトピックの場合、およそ次のようにみなされる。± 0.2を 越 え る と 弱 い 相 関 が あ る と 見 ら れ る こ と が 多 い 。 さ ら に ± 0.4を 越 え て い れ ば 、 は っ き り と 相 関 が あ る と 見 ら れ る 。 ±0.7を 越 え て い る と 、 か な り 強 い 相 関 と 見 ら れ る 。 25 ■相関係数の計算 2つ の 変 数 Xと Yの 相 関 係 数 の 計 算 式 は 、 次 の と お り で あ る 。 ( X X )(Y Y ) 相関係数 r XはXの 平 均 値 Y はYの 平 均 値 nは 全 回 答 者 数 n 1 ( X X ) (Y Y ) 2 n 1 2 n 1 数学的な理解はこの講義の目的ではないが、それほど複雑なことを考えているわけではな い 。 相 関 係 数 の 分 子 は 共 分 散 と 呼 ば れ る 数 値 で 、 2つ の 変 数 で の 2次 元 の 散 ら ば り 具 合 を 示 している。平均を中心にして右上や左下への散らばりが大きいほど、大きなサイズの正の 値になり、右下や左上への散らばりが大きいと、大きなサイズの負の値になる。 分散 s 2 ( X X ) n 1 2 ( X X )( X X ) n 1 ←似ている→ ( X X )(Y Y ) n 1 共 分 散 自 体 を 相 関 の 指 標 と す る こ と も で き る が 、 共 分 散 は Xと Yの 各 変 数 が も つ そ も そ も の 散 ら ば り 具 合 が 大 き け れ ば 、 大 き な サ イ ズ の 値 に な っ て し ま う 。 そ こ で 、 共 分 散 を Xと Yの 標準偏差で割ってやり、各変数の散らばりの影響をキャンセルして純粋に相関の強さだけ を示すようにしたものが相関係数である。 相関係数r s xy XとYの共分散 Xの標準偏差・Yの標準偏差 s x s y 例) 右 の デ ー タ か ら 相 関 係 数 を 算 出 し た い 。( 高 齢 者 の 友 人 関 係 に つ い て の 仮 想 デ ー タ ) ① Xと Yの 基 本 統 計 量 を 算 出 Xの 平 均 = 59 Yの 平 均 = 3.9 Xの 標 準 偏 差 = 6.86 Yの 標 準 偏 差 = 0.49 1人 目 2人 目 3人 目 4人 目 5人 目 ② Xと Yの 共 分 散 を 算 出 s xy ( X X )(Y Y ) X= 年 齢 (歳 ) 50 55 62 60 68 Y= 友 人 と の 会 話 時 間 (hour) 4.2 4.5 3.3 4.0 3.5 n 1 1 (50 59)(4.2 3.9) (55 59)(4.5 3.9) (62 59)(3.3 3.9) (60 59)(4.0 3.9) (68 59)(3.5 3.9) 5 1 1 ( 2.7 2.4 1.8 0.1 3.6) 2.6 4 ③相関係数を算出 r 2.6 0.77 6.86 0.49 ④意味を読み取る 「 r= - 0.77な の で 、 2つ の 変 数 は 強 い 負 の 相 関 を 示 し て い る 。 つ ま り 、 年 齢 が 高 い ほ ど 友 人との会話時間は短くなる傾向がある」 26 ■相関係数の注意点 相関係数は非常に頻繁に用いられるが、万能ではないことに注意が必要である。相関係 数 は 2つ の 変 数 の 間 の 直 線 的 な 関 係 性 し か 表 し て い な い 。規 則 的 で は あ る け れ ど も 、直 線 的 で な い 関 係 性 ( 曲 線 的 な 関 係 な ど ) に は 反 応 し な い ( 図 2の a、 b)。 140 120 160 120 100 140 100 120 80 80 100 60 60 80 60 40 40 20 20 0 0 0 10 20 30 40 50 60 ( a) r = -0.32 40 20 0 0 10 20 30 ( b) r = 0.15 0 10 20 30 ( c) r = -0.36 ※ 外 れ 値 が な け れ ば 、 -0.91 図2 相関係数に反映されない関係性のパターン も う 1つ の 注 意 点 は 、 外 れ 値 の 影 響 を 非 常 に 受 け や す い と い う こ と で あ る ( 図 2の c)。 こ れは、平均値が持っていた欠点と同様であり、データが持つすべての情報を利用するタイ プの統計量が持つ宿命のようなものである。 (問題) 問 1. あ る 大 学 生 の 調 査 で 、 ア ル バ イ ト の 量 ( 時 間 / 月 ) と 読 書 冊 数 ( 冊 / 月 ) の 相 関 係 数 を 調 べ る と 、 r= - 0.55だ っ た と い う 。 こ の 結 果 の 正 し い 読 み 取 り す べ て に ○ を 付 け な さ い 。 ( )アルバイトが多いほど読書が多い傾向がある ( )アルバイトが多いほど読書が少ない傾向がある ( )アルバイトが少ないほど読書が多い傾向がある ( )アルバイトが少ないほど読書が少ない傾向がある 問 2. あ る 研 究 で 、 若 い 女 性 が 「 ど の く ら い 趣 味 に お 金 を 使 う か 」 を 調 べ て い る ( 1ヶ 月 当 た り の 教 養 娯 楽 費 の 支 出 額 で 測 定 す る )。い く つ か の 事 柄 と 関 係 性 が 強 い の で は な い か と 考 え て 、相 関 係 数 を 調 べ て み た 結 果 が 下 の 表 で あ る( 仮 想 デ ー タ )。相 関 係 数 か ら 読 み 取 れ る こ と を 文 章 で 整 理 し よ う 。 関 係 の 方 向 性 ( ±) と 強 さ ( 数 値 の サ イ ズ ) に 注 意 す る こ と 。 例)……な女性ほど、趣味に費やすお金が多い。一番関係が強いのは……である。 相関係数 世帯収入(税込みの年収) 0.540 労 働 時 間 ( 1週 間 の 平 均 時 間 ) -0.228 テ レ ビ 視 聴 時 間 ( 1週 間 の 平 均 時 間 ) 0.044 結 婚 し て い る こ と ( 0=結 婚 し て い な い 、 1=結 婚 し て い る ) -0.656 親 と 同 居 し て い る こ と( 0=同 居 し て い な い 、1=同 居 し て い る ) 0.352 今日のポイント ①「 2変 数 の 関 係 性 」を さ ら に 比 較 す る た め に は 、ク ロ ス 表 or散 布 図 を 1つ の 数 値 に 要約できれば便利である。 ②散布図を要約する統計量は、相関係数。 +1に 近 い ほ ど 正 の 相 関 。 -1に 近 い ほ ど 負 の 相 関 。 0に 近 い ほ ど 無 相 関 。 27 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.5.23 第 7回 「 関 係 の 読 み 方 ( 3) ク ロ ス 表 の 連 関 係 数 」 ■ 2×2の ク ロ ス 表 に お け る 3つ の 連 関 係 数 ピアソンの相関係数は、量的変数同士の関係性を表わす散布図を要約した数値である。 しかし、社会調査のデータには質的変数が多く含まれ、変数間の関係性はクロス表で表さ れ る こ と が 多 い 。ク ロ ス 表 に 示 さ れ る 関 係 性 も 、相 関 係 数 と 同 じ よ う に 1つ の 統 計 量 で 表 す ことができる。このような統計量にはいくつかの種類があるが、総称して連関係数 ( association coefficient; coefficient of association )、 関 連 性 の 指 標 、 関 連 性 の 統 計量などと呼ばれる。 ク ロ ス 表 の 基 本 は 2×2の 配 置 で あ る 。2×2の ク ロ ス 表 の 各 セ ル の 度 数 を 下 の よ う に a、b、 c、 dで 表 す な ら ば 、 よ く 用 い ら れ る 連 関 係 数 は 次 の よ う に 算 出 さ れ る 。 a b c d ユールのQ 図1 ファイ係数 オッズ比 ad bc ad bc Q OR = ad bc (a b)(c d )(a c)(b d ) ad bc 2×2の ク ロ ス 表 に お け る 連 関 係 数 ■ ユ ー ル の Qと フ ァ イ 係 数 い ず れ の 連 関 係 数 で も 、2つ の 変 数 の 間 に 関 連 が ま っ た く な い 状 態 の 定 義 は 共 通 し て い る 。 2つ の 変 数 の 間 に 関 連 が な い 状 態 と は 、一 方 の 変 数 の 値 が 違 っ て も 他 方 の 変 数 の 分 布 に 変 動 が な い 状 態 の こ と で あ る 。 つ ま り 、 1行 目 の グ ル ー プ で も 2行 目 の グ ル ー プ で も 、 も う 一 方 の 変 数 の 分 布 に 違 い が な い 。こ の と き 、a:b=c:dで 、変 形 す る と ad=bcと な る 。す な わ ち 、2 つ の 変 数 に ま っ た く 関 連 が な い 状 態 と は 「 a×d」 と 「 b×c」 が 一 致 す る ク ロ ス 表 で あ る 。 ユ ー ル の Q( Yule’s Q)と フ ァ イ 係 数( phi coefficient)の 式 に 注 目 す る と 、分 子 が ad-bc な の で 、関 連 が ま っ た く な い 場 合 に は 値 が 0に な る こ と が わ か る 。ま た 、aや dが 大 き い 関 連 で は + の 値 、 bや cが 大 き い 関 連 で は - の 値 を 取 る 。 相 関 と 同 じ よ う に 、 前 者 を 正 の 関 連 、 後 者 を 負 の 関 連 と 呼 ぶ ※ 。さ ま ざ ま な 例 で 確 認 す る と わ か る が 、ユ ー ル の Qも フ ァ イ 係 数 も - 1~ + 1の 値 し か 取 ら な い 。つ ま り 、い ず れ も 相 関 係 数 と ま っ た く 同 じ 読 み 方 が で き る( + 1に 近 い ほ ど 正 の 関 係 が 強 く 、 - 1に 近 い ほ ど 負 の 関 係 が 強 い )。 非 常 に 簡 単 で あ る 。 ※ 質 的 変 数 で は 、「 賛 成 /反 対 」 の よ う に ど ち ら が プ ラ ス 側 な の か は っ き り し て い る 変 数 も あ る が 、「 男 性 /女 性 」 の よ う に ど ち ら が プ ラ ス 側 な の か は っ き り し な い 変 数 も 多 い 。こ の 場 合 も 便 宜 的 に セ ル aや セ ル dが 多 い こ と を 正 の 関 連 と 呼 ぶ こ と に す る 。 少 し 前 の 回 で あ げ た「 性 別 」と「 三 世 代 同 居 へ の 賛 否 」の ク ロ ス 表 で 、ユ ー ル の Qと フ ァ イ 係 数 を 算 出 し て み よ う ( 表 1)。 程 度 は 強 い と は い え な い が 、 い ず れ も 正 の 値 な の で 、 ク ロス表に見られる正の関係性を適切に反映している。 28 表1 男女別の三世代同居への賛否 賛成 反対 計 男性 927 (71.7% ) 366 (28.3% ) 1293 (100% ) 女性 950 (61.3% ) 600 (38.7% ) 1550 (100% ) 計 1877 (66.0% ) 966 (34.0% ) 2843 (100% ) 注 : JGSS-2000の デ ー タ か ら 作 成 Q= ϕ= ad − bc 927 × 600 − 366 × 950 = = 0.231 ad + bc 927 × 600 + 366 × 950 ad − bc √(a + b)(c + d)(a + c)(b + d) = 927 × 600 − 366 × 950 √1293 × 1550 × 1877 × 966 = 0.109 読 み 取 り 方 が 同 じ な の に 、ユ ー ル の Qと フ ァ イ 係 数 で 数 値 が 異 な る の は な ぜ だ ろ う か 。デ ー タ に よ っ て は 、そ の サ イ ズ が も っ と 大 き く 異 な る と き も あ る( た と え ば 、ユ ー ル の Qで は 0.8な の に 、 フ ァ イ 係 数 で は 0.4し か な い 、 と い っ た よ う に )。 こ の よ う な 違 い が 出 る の は 、 両 者 の 間 で 「 最 大 の 関 連 」 の 定 義 が 異 な る か ら で あ る 。 フ ァ イ 係 数 で は 2つ の 変 数 の 値 が 1 対 1に 対 応 す る こ と が 最 大 の 関 連 と み な す 。 た と え ば 、 男 性 は こ の 法 案 に 全 員 賛 成 す る が 、 女 性 は 全 員 反 対 と い っ た 場 合 で あ る 。そ の た め 、フ ァ イ 係 数 は 、b=c=0の と き が 最 大 の 正 の 関 連 で 「 + 1」 と な り 、 a=d=0の と き が 最 大 の 負 の 関 連 で 「 -1」 と な る 。 こ れ に 対 し て ユ ー ル の Qで は 最 大 の 関 連 を も っ と 緩 や か に 考 え る 。男 性 は 法 案 に 全 員 賛 成 し て い る が 、女 性 は 賛 否 が 分 か れ て い る と い う 場 合 で も 、ユ ー ル の Qは 性 別 と 賛 否 の 間 に 最 大 の 関 連 が あ る と 考 え る( 男 性 は 全 員 賛 成 な の だ か ら 、性 別 の 関 連 は 最 大 )。つ ま り 、b=0ま た は c=0の と き「 + 1」 と な り 、 a=0ま た は d=0の と き 「 - 1」 に な る 。 こ れ は ど ち ら が 正 し い と い う 問 題 で は な い が 、社 会 調 査 で 扱 わ れ る 変 数 は 、多 く の 場 合 、 「 相 対 的 な 」測 定 の 結 果 に す ぎ な い 。そ の 意 味 か ら は 、2つ の 選 択 肢 の 間 に 絶 対 的 な 断 絶 を 認 め な い ユ ー ル の Qの 方 が ふ さ わ し い 場 面 は 、 自 然 科 学 に 比 べ れ ば 多 い と い え る 。 ■オッズ比 別 の 統 計 量 で あ る オ ッ ズ 比( odds ratio)は 、「 オ ッ ズ 」と い う 概 念 に 基 づ い て い る 。オ ッ ズ と は あ る こ と が 起 こ る「 見 込 み 」の こ と で あ り 、正 確 に 記 す と 、 「あることが起こらな い 確 率 に 対 し て 、あ る こ と が 起 こ る 確 率 が 何 倍 あ る か 」を 表 わ す 。少 し 前 の 回 で あ げ た「 性 別 」と「 三 世 代 同 居 へ の 賛 否 」の ク ロ ス 表 で 考 え よ う( 表 1)。男 性 グ ル ー プ に 注 目 す る と 、 三世代同居に賛成する確率は 同居に賛成するオッズは 𝑎 𝑎+𝑏 𝑏 𝑎+𝑏 𝑎 𝑎+𝑏 = で あ り 、賛 成 し な い 確 率 は 𝑎 𝑏 = 927 366 𝑏 𝑎+𝑏 で あ る 。し た が っ て 、三 世 代 = 2.53と 算 出 で き る 。つ ま り 、男 性 は 、三 世 代 同 居 に 反 対 す る 確 率 に 比 し て 賛 成 す る 確 率 が 2.53倍 あ る ( 男 性 の 賛 成 オ ッ ズ は 2.53)。 同じように、女性グループでは、三世代同居に賛成するオッズが 29 𝑐 𝑑 = 1.58で あ る 。 こ れ ら 2つ の オ ッ ズ の 比 𝑎 𝑏 𝑐 𝑑 = 2.53 1.58 = 1.60が 、オ ッ ズ 比 で あ る 。つ ま り 、女 性 に 比 べ て 男 性 は 、1.6 倍ほど三世代同居に賛成する見込み(オッズ)が大きいことを示す。オッズ比の式は、結 局、 𝑎 𝑏 𝑐 𝑑 = 𝑎𝑑 𝑏𝑐 と 非 常 に 簡 単 な も の に 整 理 で き る 。 変 数 間 に ま っ た く 関 連 が な け れ ば 𝑎𝑑 = 𝑏𝑐 な の で 、オ ッ ズ 比 は 𝑎𝑑 𝑏𝑐 = 1に な る が 、こ れ は 2つ の オ ッ ズ に 違 い が な け れ ば 、当 然 、そ の 比 が 1に な る こ と か ら も わ か る 。 正 の 関 連 が 強 い ほ ど オ ッ ズ 比 は 1よ り 大 き く な り 、 負 の 関 連 が 強 い ほ ど 1よ り 小 さ く な る 。 そ れ ぞ れ の 連 関 係 数 は 、ク ロ ス 表 が も つ 完 全 な 情 報 を 削 ぎ 落 と し て 、関 連 性 の 一 側 面 を 1 つの数値に要約している。どの要約が分析の目的に見合うかを考えて利用する統計量を選 択しなければならない。オッズ比は「見込みが○倍」という具体性をもつのでわかりやす い 。 し か し 、 ユ ー ル の Qや フ ァ イ 係 数 は 最 大 の 関 連 が ±1で 、 プ ラ ス 側 と マ イ ナ ス 側 で 対 称 に な る と い う 抽 象 的 な わ か り や す さ を も つ 。さ ら に 、ユ ー ル の Qと フ ァ イ 係 数 の 間 で は 、そ の抽象的な最大関連の定義が異なるので、この点に注意して使い分ける。 ■連関係数の値を比較する 連関係数は単独の数値だけで読むのではなく、複数のクロス表で関係性の方向や強さを 相対的に比較するためのものである。多くのクロス表を比較するときにこそ、連関係数が 真 価 を 発 揮 す る 。た と え ば 、表 1で は 男 性 の 方 が 三 世 代 同 居 に 賛 成 し 、女 性 の 方 が 反 対 す る という傾向が確かめられたが、 「 こ の 関 係 性 は 、若 者 で も 中 年 で も 高 齢 者 で も 同 じ な の だ ろ うか」という疑問をもったとしよう。 このことを確認するためには、人々を年齢層で分けて、複数のクロス表を作成し、各ク ロ ス 表 の 行 % か ら 2変 数 の 関 係 性 を 慎 重 に 読 み 取 れ ば よ い 。し か し 、表 が 多 く な っ て く る と 、 そ の 読 み 取 り も 簡 単 で は な い 。そ こ で ユ ー ル の Q等 の 連 関 係 数 を 算 出 し て 、こ れ を 比 較 す れ ば 、 よ り 確 実 で 簡 便 に ク ロ ス 表 間 の 比 較 が で き る ( 図 2)。 20代 30代 → 40代 50代 60代 70代 図2 ユールのQ 0.14 0.30 0.37 0.28 0.24 -0.01 0.4 0.3 0.2 → 0.1 0 -0.1 20代 30代 40代 50代 60代 70代 年 齢 層 別 に 、「 性 別 と 三 世 代 同 居 の 関 連 性 」 を 比 較 し た 結 果 注 : JGSS-2000の デ ー タ か ら 作 成 。 ユ ー ル の Qが 大 き い ほ ど 「 男 性 の 方 が 同 居 に 賛 成 し 、 女 性 の 方 が 反対する傾向」が強いことを意味する。 30 (問題) ( 1) 図 2の よ う な ユ ー ル の Qの 比 較 か ら 、 何 が わ か っ た こ と に な る の か 、 連 関 係 数 の 意 味 を 知 ら な い人にも通じるように、結果を読み取りなさい。 ( 2) な ぜ こ の よ う な 結 果 に な っ た の か 、 そ の 社 会 的 な 理 由 を 自 分 な り に 解 釈 し て み よ う 。 ■大きなクロス表における連関係数 2×2よ り 大 き な ク ロ ス 表 で の 連 関 係 数 と し て は 、 ク ラ メ ー ル の V( Cramer’s V) が も っ と もよく利用される。 ク ラ メ ー ル の 𝑉 = √χ2 /𝑛(k − 1) ※ k は ク ロ ス 表 の 行 数 と 列 数 の う ち 小 さ い 方 の 数 。 χ 2( カ イ 二 乗 値 ) は 推 測 統 計 で よ く 用いられる統計値。この授業では追求しないことにする。 大きなクロス表では関係性の方向が多様にありえるので(正の関係、負の関係と要約でき な い )、そ の 方 向 を 特 定 せ ず に 関 係 の 大 き さ の み を 示 す 。ク ラ メ ー ル の Vは 0~ 1の 値 を 取 り 、 1に 近 い ほ ど 関 係 性 が 強 い 。た だ し 、こ の 数 値 で は 、ク ロ ス 表 の ど の 部 分 の 度 数 が 大 き い こ とを表わしているのか、関係性の中身がまったくわからないことに注意が必要である。 ■順序尺度の変数同士の関連性の指標 ピ ア ソ ン の 相 関 係 数 は 平 均 値 を 基 準 に し た 指 標 な の で 、平 均 値 が 計 算 で き る 量 的 変 数( つ まり、間隔尺度か比率尺度の変数)に対してしか用いることができない。しかし、数値の 間が等間隔でなくとも、少なくとも順序尺度の変数であれば、順序相関係数[順位相関係 数 ]( rank correlation coefficient ) と 総 称 さ れ る 似 た よ う な 統 計 量 を 用 い る こ と が で き る。つまり、順序が決まっている選択肢(例:これまでに海外に行ったことが「1 まった くない」 「2 一度はある」 「 3 何 度 も あ る 」)で で き て い る 変 数 同 士 で あ れ ば 、大 き な ク ロ ス 表 を そ の ま ま 用 い て - 1~ + 1の 値 で 関 係 性 を 要 約 す る こ と が で き る 。 ロー 比較的よく用いられる順序相関係数には次のようなものがある。スピアマンのρ ( Spearman’s rho) は 値 を 全 ケ ー ス の 中 で の 順 位 に 変 換 し て か ら ピ ア ソ ン の 相 関 係 数 を 求 ガンマ め る 。 グ ッ ド マ ン と ク ラ ス カ ル の γ ( Goodman-Kruskal’s gamma) は 、 あ ら ゆ る ケ ー ス の ペ ア か ら 、2変 数 の 大 小 関 係 が 一 致 す る ペ ア の 数 Pと 一 致 し な い ペ ア の 数 Qを 求 め( い ず れ か の 変 数 の 値 が 同 じ に な る ペ ア は 集 計 か ら 除 く )、 γ =(P- Q)/(P+Q)と そ の 相 対 比 を 指 標 と す タウ る。γで集計から除いていた「値が同じになるペア」も分母に加えるとケンドールのτa ( Kendall’s Tau-a) に な り 、 別 の や り 方 で 取 り 除 く と ケ ン ド ー ル の τ b に な る 。 社 会 調 査 の デ ー タ 分 析 で は 順 序 相 関 係 数 は し ば し ば 有 効 な の で 、細 か な 計 算 方 法 は と も か く と し て 、 値の読み方とそれが用いられる理由は理解しておこう。 31 (問題) 問 1.次 の 統 計 量 の 中 か ら 、相 関 係 数 と 同 じ 読 み 取 り 方 が で き る も の を す べ て 選 び な さ い( - 1~ + 1の 値 を 取 り 、 + 1に 近 い ほ ど 正 の 関 係 が 強 く 、 - 1に 近 い ほ ど 負 の 関 係 が 強 い )。 ア ユールのQ イ ファイ係数 ウ オッズ比 問 2.右 の ク ロ ス 表 は 、20代 の 若 者 に「 新 聞を信頼するか」 「テレビを信頼す る か 」を 尋 ね た 調 査 結 果 で あ る( J GSS-2000,2005,2010)。 エ スピアマンのρ オ グッドマンとクラスカルのγ カ ケンドールのτa テレビへの信頼 少しは 信頼し ている 調査年 新聞への信頼 20 0 0 2つ の 変 数 の 関 係 性 に つ い て 、順 序 相関係数(グッドマンとクラスカ ルのγ)を算出すると、調査年ご とに、 2000年 … … 0.528 → 2005年 … … 0.911 → 2010年 … … 0.815 で あ っ た 。 20 0 5 20 1 0 とても 信頼し ている とても信頼している 少しは信頼している ほとんど信頼していない 計 とても信頼している 少しは信頼している ほとんど信頼していない 計 とても信頼している 少しは信頼している ほとんど信頼していない 計 21 9 0 30 12 7 0 19 14 4 0 18 51 18 8 3 24 2 24 11 8 3 14 5 27 11 5 4 14 6 ほとん ど信頼 計 してい ない 16 56 16 88 0 27 18 45 4 25 26 55 88 25 3 19 36 0 36 15 2 21 20 9 45 14 4 30 21 9 ( 1) 順 序 相 関 係 数 ( γ ) か ら 読 み 取 れ る こ と と し て 正 し い も の す べ て に ○ を つ け な さ い 。 ( ) 2000年 よ り も 2010年 の 方 が テ レ ビ を 信 頼 す る 若 者 が 増 え た ( ) 2000年 か ら 2005年 に か け て 新 聞 を 信 頼 す る 若 者 が 増 え た が 、 2010年 に は や や 減 っ た ( )どの年でも、新聞を信頼する人の方がテレビも信頼する傾向がある ( ) 新 聞 を 信 頼 し な い 人 ほ ど テ レ ビ も 信 頼 し な い と い う 傾 向 が 一 番 強 い の は 2005年 だ ( ) 2000年 に は 、 新 聞 を 信 頼 す る 人 ほ ど テ レ ビ は 信 頼 し な い と い う 関 係 性 が あ っ た ( 2)新 聞・テ レ ビ を 信 頼 す る こ と に つ い て 、若 者 の 間 で な ぜ こ の よ う な 時 代 的 変 化 が 生 じ た の か 、 理由を解釈してみよう。 今日のポイント ① 2×2の ク ロ ス 表 で は 、 2変 数 の 関 係 性 を 要 約 す る た め に 連 関 係 数 を 使 う 。 主 な 連 関 係 数 は 、 ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 └→相関係数と同じ読み方 └→関連がないとき値が1 ② 大 き な ク ロ ス 表 で は 、 ク ラ メ ー ル の Vが 有 名 。 0( 無 関 連 ) ~ 1( 最 大 関 連 ) の 値 を 示 す ③順序尺度の変数同士の場合には、特殊な順序相関係数も有効。 ス ピ ア マ ン の ρ 、 グ ッ ド マ ン と ク ラ ス カ ル の γ 、 ケ ン ド ー ル の τ aな ど いずれも、読み取り方は相関係数と同じ ※ 次 回 ( 5/ 30) の 授 業 初 め に 2 回 目 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 第 5~ 7回 の 内 容 に つ い て 、 ク ロ ス 表 の 作 り 方 と 読 み 方 、 相 関 係 数 や 順 序 相 関 係 数 の 読 み 取 り 、各 種の連関係数の読み取りと計算、語句の意味などを確認。 32 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.5.30 第 8回 「 小 休 止 」 ■難しかった? 前回尋ねた「これまでの授業で難しかった点」で多かった意見。 ・ 相 関 係 数 や 連 関 係 数 ( ユ ー ル の Qな ど ) が 何 を 表 わ し て い る の か ? ・相関係数の計算 ・連関係数の計算 ・ 連 関 係 数 の 使 い 分 け ( ど ん な と き に ユ ー ル の Qで 、 ど ん な と き に フ ァ イ 係 数 ? ) ・順序相関係数の読み方 ・ 相 関 係 数 や 連 関 係 数 を 比 較 す る と い う 意 味 ( 前 回 の 図 2は 何 だ ? ) ・行%、列%、全体%の使い分け ・ばらつきの指標(標準偏差など)の計算 ・ばらつきの指標の使い分け ・数式が(いっぱい)出てくるとわからない ・用語がいっぱい出てくると混乱する ・数値の意味を言葉にすること ・計量社会学の知識がない人に説明する、という問題 ・聞き逃したところがわからない (以下、比較的少数意見) ・質的変数と量的変数の区別 ・間隔尺度等の変数の種類 ・変動係数の意味 ・はずれ値という概念 ・結果から社会的な理由を解釈すること ・連関係数はΣが出てこないからよくわからない 33 ■ 行 % 、 列 % 、 全 体 % ( p.22の 問 題 再 掲 ) 下 の 表 1は 、「 婚 姻 状 態 ( 既 婚 / 未 婚 )」 と 「 欲 し い 子 ど も の 性 別 ( 男 の 子 / 女 の 子 )」 の ク ロ ス 表 で あ る ( JGSS-2000の デ ー タ )。 こ の ク ロ ス 表 を ( 1) ~ ( 4) の 目 的 で 作 っ て い る とすると、それぞれの場合について望まれる%の種類は行%、列%、全体%のいずれか。 また、実際に%を算出して、それぞれの疑問に回答せよ。 欲しい子ども 婚 姻 状 態 男の子 女の子 計 既婚 992 1359 2351 未婚 219 211 430 計 1211 1570 2781 ( 1) 男 の 子 を 欲 し い 人 と 女 の 子 を 欲 し い 人 で 、 既 婚 者 の 割 合 が 高 い の は ど ち ら な の か 。 ( 2) 既 婚 者 と 未 婚 者 で 欲 し い 子 ど も の 性 別 に 違 い が あ る の だ ろ う か 。 ( 3) 全 体 に 占 め る 未 婚 で 女 の 子 を 欲 し が っ て い る 人 の 割 合 は ど の く ら い な の か 。 ( 4) 女 の 子 を 欲 し が っ て い る 人 の 割 合 が 高 い の は 、 既 婚 者 な の か 、 未 婚 者 な の か 。 も し も 世 界 全 体 が 100人 の 村 だ っ た ら … … と 考 え た い →全体% も し も 世 界 が 「 既 婚 者 ば か り の 100人 の 村 」 と 「 未 婚 者 ば か り の 100人 の 村 」 で で き て い た ら……と考えたい (既婚者村と、未婚者村で、ほしい子どもの違いを比べたい) ( 1行 目 と 2行 目 の グ ル ー プ を 100人 ず つ 調 べ て 、 ○ ○ の 分 布 の 違 い を 比 べ た い ) →行% も し も 世 界 が 「 男 の 子 が ほ し い 100人 の 村 」 と 「 女 の 子 が ほ し い 100人 の 村 」 で で き て い た ら……と考えたい (男の子ほしがり村と、女の子ほしがり村で、婚姻状態の違いを比べたい) ( 1列 目 と 2列 目 の グ ル ー プ を 100人 ず つ 調 べ て 、 ○ ○ の 分 布 の 違 い を 比 べ た い ) →列% 自分でクロス表を作るときには、行%を出せばいいようにすることが基本 ①回答の分布を知りたい、関心の中心となる変数 →列側に配置 ② 比 べ や す い よ う に 、 100 人 ず つ に 統 一 す る グ ル ー プ を 表 わ す 変 数 ③グループ間で行%を比較 34 →行側に配置 ■「関係」を要約するとは? 相 関 係 数 ( r) は 、 2つ の 変 数 の 関 係 性 を 「 方 向 性 」 と 「 強 さ 」 に 絞 っ て 要 約 す る 。 ① 関 係 の 方 向 性 ( → ±で 表 わ す ) Xが 増 え れ ば 、 Yは 増 え る の か 、 そ れ と も 減 る の か 10 10 8 8 6 6 4 4 2 2 Xが 年 収 ( 万 円 ) 0 0 Yが 幸 福 感 ( 10点 満 点 ) 仮想データ 1400 1200 1000 800 600 400 200 0 1400 1200 1000 800 600 400 200 0 r= 0.80 (正の相関) r= - 0.55 (負の相関) ② 関 係 の 強 さ ( → 数 値 の サ イ ズ が ±1に ど れ だ け 近 い か で 表 わ す ) Xの 値 に よ っ て 、 Yは ど れ だ け は っ き り 予 測 で き る の か Xが 1増 え た と き に Yが ど れ だ け 多 く 増 え る の か 、 で は な い 10 10 8 8 6 6 4 4 2 2 0 0 1400 1200 1000 800 600 400 200 0 1400 1200 1000 800 600 400 200 0 r= 0.80 r= 0.81 はっきり予測できるというのは、比例関係(直線)にどれだけ近いかということ 10 10 10 8 8 8 6 6 6 4 4 4 2 2 2 0 0 0 1400 1200 1000 800 600 400 35 200 r= 0.56 (直線からややずれている) 0 1400 1200 1000 800 600 400 200 0 1400 1200 1000 800 600 400 200 0 r= 0.96 (直線に非常に近い) r= - 0.95 (直線に非常に近い) ■関係を比べるとは? 散布図で 2 つの変数(世帯年収と幸福感)の関係はわかる。 幸福感(10点満点) 世帯年収×幸福感の散布図 (20代女性) 10 8 6 4 2 0 0 200 400 600 800 1000 1200 1400 世帯収入(万円) ↓ では、世帯年収と幸福感の関係は、性別や年齢層によってどう違うのか? こ ん な の を 「 20 代 男 性 の 場 合 」「 30 代 女 性 の 場 合 」 … … と い く つ も 見 比 べ る の は 大 変 。 0 4 2 0 6 4 2 8 6 4 2 0 0 200 400 600 800 1000 1200 1400 世帯収入(万円) 幸福感(10点満点) 8 6 4 2 0 200 400 600 800 1000 1200 1400 8 6 4 2 10 8 6 4 2 0 0 200 400 600 800 1000 1200 1400 2 200 400 600 800 1000 1200 1400 世帯収入(万円) 10 8 6 4 2 0 0 200 400 600 800 1000 1200 1400 世帯収入(万円) 8 6 4 2 200 400 600 800 1000 1200 1400 世帯収入(万円) 世帯年収×幸福感の散布図 (60代女性) 10 0 0 世帯収入(万円) 世帯収入(万円) 4 0 世帯年収×幸福感の散布図 (50代女性) 10 0 0 6 世帯収入(万円) 世帯年収×幸福感の散布図 (40代女性) 世帯年収×幸福感の散布図 (30代女性) 8 200 400 600 800 1000 1200 1400 世帯収入(万円) 10 10 0 0 200 400 600 800 1000 1200 1400 世帯収入(万円) 幸福感(10点満点) 10 0 0 200 400 600 800 1000 1200 1400 8 幸福感(10点満点) 0 10 幸福感(10点満点) 6 世帯年収×幸福感の散布図 (70代男性) 世帯年収×幸福感の散布図 (70代女性) 幸福感(10点満点) 2 8 幸福感(10点満点) 4 10 世帯年収×幸福感の散布図 (60代男性) 幸福感(10点満点) 6 幸福感(10点満点) 8 幸福感(10点満点) 10 世帯年収×幸福感の散布図 (50代男性) 世帯年収×幸福感の散布図 (40代男性) 世帯年収×幸福感の散布図 (30代男性) 幸福感(10点満点) 幸福感(10点満点) 世帯年収×幸福感の散布図 (20代男性) 10 8 6 4 2 0 0 200 400 600 800 1000 1200 1400 世帯収入(万円) 0 200 400 600 800 1000 1200 1400 世帯収入(万円) ↓ 世帯年収と幸福感の関係性だけを 1 つの数値(相関係数)に要約する ↓ 相関係数を見比べれば、どのグループで幸福感と世帯年収の関係が強いのか一目瞭然 20 代 30 代 40 代 50 代 60 代 70 代 男性 -0.122 -0.031 0.196 0.221 0.180 0.227 女性 0.254 0.167 0.223 0.270 0.227 0.171 注 : JGSS-2010 の 実 際 の 分 析 結 果 ↓ さらにグラフにすれば、全体的にパッと見て比較できる 幸福感と世帯年収の相関係数 0.3 0.2 0.1 0 20代 30代 40代 50代 男性 女性 60代 70代 -0.1 -0.2 36 ■連関係数の場合も考え方はまったく同じ フ ァ イ 係 数 は 、ク ロ ス 表 に お け る 2つ の 変 数 の 関 係 性 を「 方 向 性 」と「 強 さ 」に 絞 っ て 要 約する。 ( ※ 実 は 、ク ロ ス 表 の 選 択 肢 を 0と 1の 値 で 表 わ し て 相 関 係 数 を 無 理 や り 計 算 す る と 、 ファイ係数と一致する。ファイ係数は相関係数のクロス表版で、数学的にも扱いやすい) ① 関 係 の 方 向 性 ( → ±で 表 わ す ) Xが ポ ジ テ ィ ブ な ら ば 、 Yは ポ ジ テ ィ ブ な の か 、 そ れ と も ネ ガ テ ィ ブ な の か 週末に 出かける 恋人がいる 出かけない 週末に 出かける 計 35 15 50 ( 70.0% ) ( 30.0% ) ( 100% ) 恋人がいる い な い 50 100 150 ( 33.3% ) ( 66.6% ) ( 100% ) 計 85 115 出かけない 計 10 40 50 ( 20.0% ) ( 80.0% ) ( 100% ) い な い 120 30 150 ( 80.0% ) ( 20.0% ) ( 100% ) 200 計 130 70 200 フ ァ イ 係 数 = 0.32 フ ァ イ 係 数 = - 0.54 (正の関連) (負の関連) (恋人がいる方が週末に出かけやすい) (恋人がいる方が週末に出かけにくい) ② 関 係 の 強 さ ( → 数 値 の サ イ ズ が ±1に ど れ だ け 近 い か で 表 わ す ) Xの 値 に よ っ て 、 Yは ど れ だ け は っ き り 予 測 で き る の か 恋人がいる 週末に 出かける 出かけない 50 0 50 150 150 150 200 いない 0 計 50 計 恋人がいる 週末に 出かける 出かけない 計 0 50 50 0 150 50 200 い な い 150 計 150 フ ァ イ 係 数 = 1.00 フ ァ イ 係 数 = - 1.00 (完全に予測できる) (こちらも完全に予測できる) ただし、社会調査の回答は質問文が違えば、容易に動くなど、測定の曖昧さがある。 例 )「 週 末 に 出 か け る 予 定 が あ り ま す か 」 を 「 週 末 に で か け よ う と 思 い ま す か 」 に 変 更 →「 出 か け る 」 と い う 回 答 が 増 え る ユ ー ル の Qで あ れ ば 、 こ う し た 影 響 を 受 け に く い 。 回 答 が 絶 対 的 な も の で な い 場 合 、ユ ー ル の Qの 方 が 関 連 性 の 強 さ を 妥 当 に 表 せ る こ と が 多 い 。 恋人がいる 週末に 出かける 出かけない 50 0 50 150 150 150 200 いない 0 計 50 計 恋人がいる 週末に 出かける 出かけない 計 50 0 50 110 150 165 200 い な い 40 計 50 フ ァ イ 係 数 = 1.00 フ ァ イ 係 数 = 0.64 ユ ー ル の Q= 1.00 ユ ー ル の Q= 1.00 クロス表の関連性を具体的に「見込み(オッズ)が何倍」と表わしたいならばオッズ比。 37 (問題) 高齢女性の医療不安について分析している。一人暮らしの女性の方が、将来の医療に不 安を感じているのではないか、という仮説を考えて、下のようなクロス表を作成した。 不安がある 不安がない 計 一人暮らし 18 14 32 一人暮らしでない 56 73 129 計 74 87 161 注 : JGSS-2008の デ ー タ か ら 70代 女 性 の み 抽 出 し て 集 計 。 質 問 文 は 「 ご 自 身 や ご 家 族 の 将 来 の こ と を 考 え た と き 、「 必 要 な と き に 医 療 を 受 け ら れ な い 」 と い う 不 安 を ど の く ら い 感 じ ま す か 」 ( 1) 回 答 の 分 布 を 知 り た い 、 関 心 の 中 心 と な る 変 数 は ? →{一人暮らしかどうか・不安があるかどうか} 比 べ や す い よ う に 、 100 人 ず つ に 統 一 す る グ ル ー プ を 表 わ す 変 数 は ? →{一人暮らしかどうか・不安があるかどうか} ( 2) こ の と き 、 必 要 な パ ー セ ン ト は 行 % か 列 % か 。 ( 3) 実 際 に 必 要 な % を 計 算 し て 、「 仮 説 は 正 し い 」 と い え る か 結 果 を 読 み 取 り な さ い 。 ( 4) フ ァ イ 係 数 、 ユ ー ル の Q、 オ ッ ズ 比 を そ れ ぞ れ 算 出 し な さ い 。 38 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.6.6 第 9回 「 記 述 の 実 践 ( 1) PPDACサ イ ク ル 」 ■個別の技術をつなげる ここまでに、計量社会学で必要になるデータ記述について、基本的な方法を学習し終わ った。すなわち、数値を用いることで社会に客観的な形を与えるための方法として、 1) 1つ の 変 数 の 分 布 の 示 し 方 ( 度 数 分 布 表 、 基 本 統 計 量 [ 代 表 値 と ば ら つ き ]) 2) 2つ の 変 数 の 関 係 の 示 し 方 ( 散 布 図 、 ク ロ ス 表 、 相 関 係 数 、 連 関 係 数 ) を学習した。より高度な分析技法も多く存在するが、ここまでで学習してきた基本的な方 法をうまく組み合わせて駆使するだけでも、大部分の目的は十分に果たすことができる。 この授業の後半部分は、個別に学習してきたことを使って、統計データによる社会の記 述の「実践」に可能な限り触れてもらう。それぞれの作業を全体の目的とつなげて理解す ることを意識してもらいたい。 ■ PPDACサ イ ク ル と は ? 計 量 社 会 学 に 限 ら ず 、 統 計 的 な 証 拠 に 基 づ い て 何 ら か の 問 題 解 決 を 探 る 手 順 を PPDACサ イ ク ル と 呼 ぶ ※ 。PPDACサ イ ク ル と は 、ニ ュ ー ジ ー ラ ン ド の 統 計 教 育 学 者 が 90年 代 後 半 に 提 唱 し た 考 え 方 で ( Wild & Pfannkuch 1999)、 ニ ュ ー ジ ー ラ ン ド で は 小 中 学 生 の う ち か ら 、 下のようなポスターでその枠組みが叩き込まれているという。 ※ 似 た よ う な 言 葉 に 、経 営 学 や 品 質 管 理 で 用 い る PDCAサ イ ク ル が あ る が 、別 も の で あ る 。 問題 計画 まとめ 分析 データ 図 1 PPDACサ イ ク ル 39 P、P、D、A、Cは 、そ れ ぞ れ Problem( 問 題 )、Plan( 計 画 )、Data( デ ー タ )、Analysis( 分 析 )、 Conclusion( ま と め ) の 頭 文 字 で あ る 。 簡 単 に そ の 手 順 を 追 っ て み よ う ( よ り 細 か く は 表 1の と お り )。 [P]最 初 の 大 事 な ス テ ッ プ は 、自 分 が 取 り 組 も う と し て い る 問 題・疑 問 が 何 な の か 、は っ きりとさせることである。問題があいまいなまま調査を始めても、けっしてうまく いくことはない。 [P]第 2の ス テ ッ プ は 、 ど う す れ ば 疑 問 が 解 け る の か 、 計 画 を 立 て る こ と で あ る 。 ど こ か らどのようなデータを取ってきて、どう並べるのか、大雑把な全体像を描く。 [D]第 3の ス テ ッ プ は 、 計 画 に 沿 っ た デ ー タ 収 集 で あ る 。 社 会 調 査 に よ っ て 新 し い デ ー タ を集めるべき場合もあれば、すでに存在するデータをインターネットなどで集める 方が有効な場合もある。 [A]第 4の ス テ ッ プ で は 、 収 集 し た デ ー タ を 計 画 ど お り に 分 析 す る 。 分 析 と い っ て も 大 げ さに考える必要はない。集めた数値をわかりやすい表に並び替えることや、グラフ に整理することも、分析に含まれる。 [C]第 5の ス テ ッ プ で は 、 分 析 に よ っ て わ か っ た こ と を ま と め て 、 最 初 に 設 定 し た 疑 問 へ の解答を示す。ここでは、自分の答えを間違いなく他人に伝えるコミュニケーショ ンの技術も重要となる。 こ う し て 当 初 の 問 題 の 解 答 が 得 ら れ る と 、そ れ に よ っ て 新 た な 疑 問 が 生 じ る こ と が あ る 。 あるいは、当初の計画通りに疑問が解き明かされずに、問題の一部が取り残されてしまう こ と も あ る 。い ず れ の 場 合 も 、そ の 問 題 に 取 り 組 む た め 、最 初 の Pに 立 ち 戻 る サ イ ク ル と な る 。 PPDACサ イ ク ル を 回 し 続 け る こ と で 、 状 況 の 改 善 や 理 解 が 進 む と 期 待 で き る 。 ■文章・グラフ・表の選択 計 量 社 会 学 の 初 学 者 は 、 PPDACサ イ ク ル の 最 後 の 段 階 に あ た る 「 ま と め ( Conclusion)」 を明確にイメージすることが、まず大切である。この段階で意識すべきことは、他者への 伝達、広い意味でのプレゼンテーションの仕方である。統計情報は、扱いを誤るとむしろ 伝わりにくい種類の情報である。単に自分が正しい情報を得るだけではなく、それを適切 に伝達することに腐心しなければならない。 統計的な分析結果は、文章・グラフ・表のいずれかで表現される。どれを用いても表現 で き る が 、3つ の 中 か ら も っ と も 状 況 に 適 し た ツ ー ル を「 自 覚 的 に 」選 択 す る こ と が 大 切 で ある。大まかに以下のような点に留意して判断するとよい。 ・伝達したい数値はいくつあるのか? ・伝達時間はどのくらいあるのか? ・正確な値を伝える必要があるか? 40 伝 達 し た い 数 値 が 2、 3個 し か な い の で あ れ ば 、 図 表 は 大 げ さ で 、 文 章 の 中 に 数 値 を 含 め た方がよい。多くの数値を表現したいときには図表を用いるが、グラフと表の役割は大き く 異 な る 。短 い 時 間 で 多 く の 情 報 が 伝 わ る の は グ ラ フ で あ る 。ま た 、1つ ひ と つ の 正 確 な 値 を伝える必要がなく、大まかなパターンを伝えたい場合にはグラフの方が適切である。 1 つずつの値を正確に伝えたい場合は表を用いる。このような側面から総合的に判断する。 (問題) 次 の そ れ ぞ れ の 統 計 表 は 、「 表 の ま ま 」「 文 章 の 中 に 埋 め 込 む 」「 グ ラ フ に す る 」 の う ち 、 どれがもっとも適切だろうか。理由といっしょに考えてみよう。 ( 1) 野 球 部 の ピ ッ チ ャ ー Aに つ い て 、 球 速 の 推 移 を 部 内 で 検 討 中 。 各 投 球 回 の 平 均 急 速 ( km/h) 1回 2回 3回 4回 5回 6回 7回 8回 9回 第 1試 合 135 133 134 130 121 124 120 118 120 第 2試 合 130 130 128 131 122 120 118 119 118 第 3試 合 132 131 130 129 128 129 131 127 125 第 4試 合 134 132 131 130 115 121 115 120 118 第 5試 合 133 130 131 128 115 121 120 121 117 ( 2) 各 工 場 で の 不 良 品 率 を 、 部 長 に 報 告 中 。 商品A 商品B 商品C 商品D 吹田工場 2.54‰ 1.31‰ 0.15‰ 1.44‰ 堺工場 2.77‰ 1.29‰ 0.22‰ 1.56‰ 松坂工場 3.10‰ 1.44‰ 0.98‰ 1.89‰ ( 3) 学 園 祭 の 入 場 者 の 内 訳 を 、 実 行 委 員 会 で 報 告 中 。 関大生 68% 他学の学生 12% 一般の人 20% n=7,250 ( 4) 営 業 の た め 、 パ ワ ー ポ イ ン ト で 商 品 の 購 買 層 を 説 明 中 。 新商品を選択 従来品を選択 計 男 性 客 ( n=352) 71.3% 28.7% 100% 女 性 客 ( n=198) 44.6% 55.4% 100% ■パターンの要約 分析結果をただ図表などで提示するだけでは、プレゼンテーションとしては不十分であ る。その図表で数値のどのようなパターンを記述しているつもりなのか、必ず「言葉で」 説明する必要がある。 41 記述したい情報は、ほとんどの場合、何らかの変数間の「関係性」である。変数間の関 係 性 は 、非 常 に 広 い 内 容 を 指 す 。た と え ば 、 「 国 際 化 」と い う 時 系 列 的 な ト レ ン ド( 時 代 の 変 化 ) は 、「 時 間 ( 年 次 )」 と い う 変 数 と 「 国 際 性 の 重 要 度 」 と い う 変 数 の 間 の 関 係 性 で あ る。したがって、関係性の記述に慣れることは、一般に重要である。 よくある悪い例は「死亡率は年齢と関係する」というように関係の有無にだけ言及して し ま う 記 述 で あ る 。 関 係 の 方 向 性 ( ±) と 強 さ ( サ イ ズ ) を 示 さ な け れ ば 、 十 分 な 記 述 で は な い 。こ れ ら は 両 方 そ ろ っ て 示 さ な け れ ば な ら な い 。た と え ば 、 「年齢が上がるにつれて 死 亡 率 も 上 が る 」は 、関 係 の 方 向 性 は 示 し て い る が 強 さ を 示 し て い な い 。適 切 な 記 述 は「 年 齢 が 5歳 上 が る ご と に 死 亡 率 は ほ ぼ 倍 増 す る 」 と い っ た よ う に 方 向 性 と 強 さ を 含 ん だ 上 で 、 なるべく簡潔な表現である。 ■ GEEア プ ロ ー チ また、関係性を記述するといっても、分析の結果はそれほどきれいに一貫したパターン を示すわけではない。このときよくある間違いは、細かな点を一つずつ並べて記述してし まい、結局まとめになっていないというものである。また逆に、注目したいパターンのみ を抜き出して記述して、都合のよい数値だけを紹介しているようになってしまうこともあ る。 複 雑 に な り が ち な パ タ ー ン を バ ラ ン ス よ く 要 約 す る に は GEEア プ ロ ー チ ( GEE approach) が 効 果 的 で あ る ( Miller 2004)。 ま ず 、 細 か い こ と は 無 視 し て 図 表 の 一 番 大 き な パ タ ー ン を 記 述 す る ( 一 般 化 generalization)。 次 に 、 そ の パ タ ー ン が 具 体 的 に 図 表 の ど こ か ら ど の よ う に 読 み 取 ら れ た の か 、い く つ か の 数 値 で 例 を 示 す( 例 示 example)。最 後 に 、そ の パ ターンが当てはまらない箇所が図表の中にある場合には、その箇所について言い訳をする ( 例 外 exception)。 こ の 枠 組 み を 意 識 す れ ば 、 正 確 な 情 報 を わ か り や す く 伝 え や す い 。 ( GEEア プ ロ ー チ に よ る 記 述 の 例 ) 60 大 学 進 学 率 ( % ) 56.0 男子 50 45.8 40 女子 30 20 13.1 10 0 1945 2.3 1955 1965 1975 1985 1995 2005 2015 進学年度 図2 男女別大学への進学率の推移(短期大学は除く) 出 典 : 学 校 基 本 調 査 ( 文 部 科 学 省 1955~ 2012) 図 2の よ う に 、 男 子 も 女 子 も 大 学 進 学 率 は 急 上 昇 し て お り 、 10年 ご と に 約 7ポ イ ン ト の ペ ー ス で 進 学 が 増 え て い る [G]。 そ の 結 果 、 最 新 の 2012年 調 査 で は 、 男 子 は 56.0% 、 女 子 も 45.8% と 半 数 程 度 が 大 学 に 進 学 し て い る こ と に な る [E]。 た だ し 、 1975~ 90年 ご ろ は 例 外 で 、 進 学 率 の 上 昇 が 停 滞 し て お り 、 男 子 の 進 学 率 は む し ろ 低 下 し て い た [E]。 男 女 の 差 に 注 目 す る と 、 男 子 の 方 が 10ポ イ ン ト 程 度 進 学 率 が 高 い と い う 傾 向 は 全 体 的 に 変 わ っ て い な い [G]。 た と え ば 、 1955年 で 10.8ポ イ ン ト の 差 だ っ た の が 、 2012年 調 査 で も 10.2% の 差 が 維 持 さ れ て い る [E]。 例 外 は や は り 1975~ 90年 ご ろ で 、 こ の 時 期 は 男 子 の 進 学 率 だ け が 急 上 昇 し た た め 、 男 女 差 が 最 大 で 約 30ポ イ ン ト に 広 が っ て い た [E]。 42 (問題) ( 1)「 関 係 の 方 向 性 と 強 さ 」 と い う 視 点 か ら 、 次 の 記 述 の 悪 い 点 を 指 摘 し よ う 。 ・アンケートの結果、食堂の満足度は値段と関係することがわかりました。 ・この大学生調査から、飲酒の翌日はケガをしやすいことが明らかになった。 ( 2)「 GEEア プ ロ ー チ 」 と い う 視 点 か ら 、 次 の 記 述 を よ り よ い も の に 書 き 換 え よ う 。 通路に置くゴミ箱の数を増やせばゴミのポイ捨てが減るか、実験してみました。ゴミ箱を5 個 に し た 月 曜 日 は 、 ゴ ミ の ポ イ 捨 て が 25か 所 で み つ か り ま し た 。 ゴ ミ 箱 を 6個 に し た 火 曜 日 は 22か 所 で 、 ゴ ミ 箱 7個 の 水 曜 日 は 20か 所 、 ゴ ミ 箱 8個 の 木 曜 日 は 10か 所 、 ゴ ミ 箱 9個 の 金 曜 日 は 11か 所 で し た 。 ゴ ミ 箱 の 数 と ポ イ 捨 て の 量 が 関 係 す る こ と が わ か り ま す 。 月 火 水 木 金 ゴミ箱の数 5 6 7 8 9 ポイ捨ての数 25 22 20 10 11 今日のポイント ①統計的な問題解決は、データの収集・分析の技術があるだけではだめ PPDACサ イ ク ル を 意 識 し よ う ②分析結果の表現では、以下の点にとくに気をつけよう ・文章/表/グラフのどれを使うのが一番よいか、自覚的に判断する ・ 変 数 間 の 関 係 は 、 関 係 の 方 向 性 ( ±) と 強 さ ( サ イ ズ ) を 両 方 と も 示 そ う ・ 複 雑 な パ タ ー ン は 、 GEEア プ ロ ー チ で 文 章 を 整 理 し よ う <文献> C.J. Wild and M. Pfannkuch . 1999. “Statistical Thinking in Empirical Enquiry,” International Statistical Review , 67(3):223-265. 渡 辺 美 智 子 . 2007. 「 統 計 教 育 の 新 し い 枠 組 み : 新 し い 学 習 指 導 要 領 で 求 め ら れ て い る も の 」 『 数 学 教 育 学 会 論 文 誌 』 48(3,4):39-51. Miller, Jane E. 2004. The Chicago Guide to Writing about Numbers . The University of Chicago Press.( = 長 塚 隆 監 訳 . 2006. 『 数 を 表 現 す る 技 術 : 伝 わ る レ ポ ー ト ・ 論 文 ・ プ レ ゼ ン テ ー シ ョ ン 』 オ ー ム 社 .) 43 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.6.13 第 10回 「 記 述 の 実 践 ( 2) 比 較 の プ ラ ン と 作 表 」 ■統計分析≒作表 前 回 、PPDACサ イ ク ル と い う 考 え 方 に 触 れ 、と く に 最 後 の 段 階( Conclusion: ま と め )の 注意点について解説した。プレゼンテーションしたい分析結果をどのように表現するかと いう話である。 しかし、当然ながら、表現方法を考える以前に、まず表現すべき結果を分析で出さなけ れ ば な ら な い 。統 計 的 な 分 析 技 法 は 、さ ま ざ ま に 存 在 す る が 、基 本 的 に 考 え る べ き こ と は 、 作 表 ( tabulation) で あ る 。 つ ま り 、 ど ん な 分 析 を す る か を 考 え る と い う こ と は 、 突 き 詰 めると「どんな表を作るかを考えること」といってよい。最終的に「表」ではなく「グラ フ」や「文章」で数値を表現するとしても、その元は「表」だからである。 PPDACサ イ ク ル の「 Plan」の 段 階 で は 、作 表 の イ メ ー ジ を 中 心 に 考 え る と よ い 。目 的 を 果 たすためにはどのような表が必要か、その表を作るためにはどのような変数群が必要か、 そ れ ら の 変 数 は ど の よ う な 質 問 項 目 で 測 定 で き る か 、と い っ た こ と を さ か の ぼ っ て 考 え る 。 ■基本:まず度数分布表とクロス表 一口に作表といっても、いろいろな種類の表があるが、私たちは少なくとも度数分布表 とクロス表の作成について学んでいる。まずは、これらを確実に作れるようになろう。下 .. . . . の よ う に 、 目 的 に 沿 っ た 表 の イ メ ー ジ か ら 1人 で 実 践 で き な け れ ば な ら な い 。 「 学 園 祭 に は 何 年 生 が 多 く 来 て い る の だ ろ う か 」( 目 的 ) →参加者を調査して「学年の度数分布表」を作ろう(抽象的な作表イメージ) → 具 体 的 に は こ ん な 形 の 表 で 、た と え ば こ ん な 数 値 が 入 る は ず だ( 作 表 イ メ ー ジ の 具 体 化 ) 「 自 宅 生 よ り 下 宿 生 の 方 が 学 園 祭 に 参 加 し て い そ う だ が 、 本 当 に そ う だ ろ う か 」( 目 的 ) → 在 学 生 を 調 査 し て 「 住 居 ×学 園 祭 参 加 の ク ロ ス 表 」 を 作 ろ う ( 抽 象 的 な 作 表 イ メ ー ジ ) → 仮 説 ど お り な ら ば 、ク ロ ス 表 に こ ん な 数 値( % )が 入 る は ず だ( 作 表 イ メ ー ジ の 具 体 化 ) これらに十分理解した上で、さらに一変数の分布を要約した基本統計量(平均値や標準 偏差)を整理した作表や、二変数の関係を要約した相関係数や連関係数を整理した作表に も慣れてほしい。 も ち ろ ん 、実 際 に 作 表 を す る た め に は 、SPSSな ど 何 ら か の 統 計 分 析 ソ フ ト を 使 用 し な け れ ば な ら な い( 使 用 し な い と 大 変 で あ る )。し か し 、ど ん な 表 が 作 り た い か と い う こ と が 手 書きでもはっきりとイメージできていれば、ソフトの操作はまったく難しくない(楽に集 計 を す る た め の ソ フ ト な の だ か ら 、難 し い わ け が な い )。実 際 に 集 計 を し な く て も 練 習 は で きる。こういうことを知りたいとすると、どんな表を作ればよいことになるのか、まずは コンピューターやデータを離れてイメージする力を鍛えよう。 44 ■補足:比較の重要性を再び 改めて強調しておくが、計量社会学のデータから適切に意味を読み取るには、比較の視 点が大切になる。単純な度数分布表やクロス表を作成しているときも、どんな人々とどん な人々のグループを比べているのか(何を比較の軸にしているのか)をはっきりと意識し よ う 。 た と え ば 、「 未 婚 男 性 の 生 活 満 足 度 が 低 い ( 5点 満 点 中 、 平 均 2.2点 )」 と 分 析 し た と き、それは既婚の男性と比較しているのか、未婚女性と比較しているのか、はたまた数年 前の未婚男性と比較しているのか、外国の未婚男性と比較しているのか、比較対象をはっ き り さ せ な け れ ば 、数 値 に は 意 味 が な い( 1変 数 の 度 数 分 布 表 を 読 み 取 る 場 合 も 、あ る 選 択 肢 の 度 数 を 他 の 選 択 肢 の 度 数 と 比 較 し て い る 。)。 こ の た め 、 ど の よ う な 目 的 の 分 析 で あ っ て も 1つ の 数 値 だ け を 算 出 す る こ と は 、ほ と ん ど 考 え ら れ ず 、複 数 の グ ル ー プ に つ い て 、同 じ種類の数値を算出して比較するはずである。したがって、必然的に、分析結果は複数の 数値を併記した「作表」になる。作表のプランは、同時に比較のプランなのである。 ■補足:クロス表の縮約 10個 の 選 択 肢 か ら な る 度 数 分 布 表 は わ り と 簡 単 に 読 み 取 る こ と が で き る が 、 10×10の ク ロ ス 表 は 100個 の セ ル が あ る の で 読 み 取 り に か な り 骨 が 折 れ る 。ま た 、し ば し ば そ の よ う な 表を作ること自体が無意味である。社会調査のデータで作るクロス表は、調査項目の選択 肢をそのまま用いるのではなく、行や列の数を減らして、縮約したクロス表を作ることが 必 要 に な っ て く る 場 合 が 意 外 と 多 い ( 表 1、 2が 縮 約 の 例 )。 縮 約 し た ク ロ ス 表 を 作 ら な け れ ば な ら な い 状 況 は 、 大 き く 2通 り あ る 。 1つ は 、 確 認 し た い事柄に対して、選択肢の数が不必要に多い場合である。たとえば、内閣を支持するかし な い か と い う YES/ NOの 区 別 だ け が 関 心 の 対 象 で あ る の に 、 「強く支持する」 「ある程度支持 する」 「 ど ち ら か と い え ば 支 持 す る 」… … な ど 、支 持・不 支 持 の 程 度 が 細 か く 分 か れ て い る ときには、単純に支持と不支持に二分して縮約したクロス表を示す方が分かりやすい。 も う 1つ の 状 況 は 、 で き あ が っ た 表 の 中 に 度 数 が 0で あ っ た り 非 常 に 小 さ か っ た り す る セ ルが多く、すかすかのクロス表になってしまう場合である。ない袖は振れないので、いく つ か の 似 た よ う な 選 択 肢 を ま と め て 、可 能 な 範 囲 で 意 味 の あ る 集 計 を す る 方 が 賢 明 で あ る 。 表1 世帯収入と貧富解消政策への賛否(縮約前) 注 : デ ー タ は JGSS-2000 45 表2 世帯収入と貧富解消政策への賛否(縮約後) 賛否 世帯収入 少ない ほぼ平均 多い 計 どちらとも いえない 賛成 反対 計 725 384 100 1209 60.0% 31.8% 8.3% 100% 613 522 166 1301 47.1% 40.1% 12.8% 100% 134 123 65 322 41.6% 38.2% 20.2% 100% 1472 1029 331 2832 52.0% 36.3% 11.7% 100% 今日のポイント ①どんな分析でも、とにかく、最終的に作る「表の形」をイメージしよう ②データを集める「前に」作表のプランを立てることが大切。トレーニングしよう (問題) 右 の よ う な 質 問 紙 調 査 を 90名 の 大 学 生に対して行ったとする。 次のようなことを知りたいときに、 どのような表を作成すればよいか。そ れぞれイメージする表を作成して、数 値は予想で書き入れなさい。 ( 1) こ の 学 生 た ち は 「 お 金 」 を ど の く ら い重要と考えているか? ( 2) 男 子 と 女 子 で は 、 ど ち ら の 方 が 大 阪 を「 住 み や す い 」と 感 じ て い る の だ ろ う 。 46 ( 3) 大 阪 び い き な 人 は 東 京 を 目 の 敵 に す る こ ( 6) 自 分 が 重 要 視 し て い る 事 柄 ほ ど 、 力 を 入 と が あ る と 聞 く 。た と え ば 、大 阪 を「 楽 し い 」 れているので満足しているとも考えられる と 主 張 す る 人 は 、東 京 を 楽 し く な い と 主 張 す し 、逆 に 要 求 水 準 が 高 ま っ て 不 満 を 抱 え て い る傾向があるのか? る と も 考 え ら れ る 。 た と え ば 、「 趣 味 」 が 重 要 と 考 え て い る 人 は 、そ う で な い 人 よ り も 自 分 の 趣 味 へ の 満 足 度 が 高 い の か 、低 い の か ? ( 4) 結 局 の 所 、 学 生 は 全 体 的 に 見 て 大 学 生 活 ( 7) 重 要 に 思 っ て い る こ と と 満 足 し て い る こ の何を重要視しているのかを要約したい。a とがマッチしている項目とマッチしていな ~ nの 中 で 、重 要 度 が 高 い 項 目 は ど れ な の か 、 い項目(重要だけど満足できていないなど) 教えてほしい。 を 知 り た い 。a~ nの そ れ ぞ れ に つ い て 、重 要 度 と 満 足 度 の 間 の 関 係 が 強 い 項 目 、弱 い 項 目 はどれなのか? ( 5) 誰 で も 同 じ く ら い 満 足 し て い る 項 目 も あ れ ば 、人 に よ っ て 満 足 ・ 不 満 が 大 き く 分 か れ る 項 目 も あ る 。a~ nの 中 で 、満 足 度 の 格 差 が 大きい項目がどれなのかを知りたい。 ( 8) 男 子 と 女 子 で は 東 京 の イ メ ー ジ が い く ら か 違 う だ ろ う が 、ど の 選 択 肢 に つ い て 、と く に イ メ ー ジ が 違 っ て い る の か 、男 女 差 が 大 き い ベ ス ト 3を 特 定 し た い 。 ( 9) 自 由 な 分 析 視 点 か ら 、 こ の デ ー タ を 使 っ てできる面白い「作表」を提案てほしい。 47 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.6.20 第 11回 「 記 述 の 実 践 ( 3) グ ラ フ の 描 き 方 」 ■データ分析を実践するということ 繰 り 返 す が 、統 計 的 な デ ー タ 分 析 の 基 本 は 作 表 で あ る 。 「社会についてどのようなことを 知りたいか?」→「どのような表を作ればそれがわかるか?」という発想が自然にできれ ば 、計 量 社 会 学 は 間 違 い な く 楽 し い 。自 分 が イ メ ー ジ し た 表 の 中 に 入 る 数 値 さ え 調 べ れ ば 、 知らなかったこと、予想しなかったことが次々に「自分の手元で」明らかになるからであ る 。誰 か が 本 に 書 い て い た こ と で も な い 。誰 か が 教 え て く れ た こ と で も な い 。い ま ま さ に 、 自分が社会(社会調査データ)と直接対話して得られた情報である。 作表のための道具は、まずは簡単なものでよい。実際、我々が知りたいことの多くは、 度 数 分 布 表 と ク ロ ス 表 だ け で 知 る こ と が で き る 。と に か く 、1つ の 変 数( 調 査 項 目 )の 分 布 が 知 り た い と き は 度 数 分 布 表 、2つ の 変 数 の 関 係 が 知 り た い と き は ク ロ ス 表 で あ る 。平 均 値 や標準偏差、相関係数など要約のための統計量を使えば、複数の度数分布表、クロス表の 結 果 を ま と め て 1つ に で き る の で 、 作 表 の 幅 は さ ら に 大 き く 広 が る 。 工夫をすれば、これらのわずかな道具立てだけで、本当に多様なことを知ることができ る 。前 回 練 習 に 使 っ た デ ー タ を 用 い て 例 を 示 そ う 。表 1は 、大 学 生 活 に 関 す る 14個 の 項 目 そ れぞれについて、重要度と満足度の分布を平均値で要約して、横に並べたものである。つ ま り 、 14×2= 28個 の 度 数 分 布 表 の そ れ ぞ れ を 要 約 し た 数 値 ( 平 均 値 ) を 改 め て 1つ の 表 に 作 表 し 直 し た 。こ れ を 見 る と 、同 じ 項 目 の 重 要 度 と 満 足 度 を 比 較 で き る 。グ ラ フ に し た 図 1 を見るともっと意味がわかりやすいだろう(このような図示を重要度-満足度分析と呼ぶ こ と が あ る )。( e) 十 分 な 睡 眠 や ( m) 就 職 の 見 込 み 、( a) 目 標 を 立 て る こ と に つ い て は 、 重要だと思っているが、現状に満足していないということなどが一目瞭然になる。この作 表の元になっているのは、度数分布表(およびそれを要約した平均値)だけである。クロ ス表すら使っていない。 (a)目 標 を 立 て る こ と (b)授 業 で の 勉 強 (c)授 業 外 の 勉 強 (d)家 族 か ら の 支 援 (e)十 分 な 睡 眠 (f)よ い 食 事 (g)お 金 (h)趣 味 (i)資 格 の 取 得 (j)ア ル バ イ ト (k)一 人 の 時 間 (l)友 人 関 係 (m)就 職 の 見 込 み (n)部 活 ・ サ ー ク ル 重要度 3.94 3.78 3.81 3.63 3.88 3.75 4.17 3.76 3.38 3.53 3.56 4.08 4.11 3.84 満足度 2.79 3.10 2.75 4.05 2.86 3.31 3.10 3.17 2.48 2.74 3.57 3.59 2.61 3.49 図1 大学生活の重要度―満足度分析 4.5 (d)家族からの支援 4 (k)一人の時間 3.5 満足度 表1 大学生活の重要度と満足度の比較(平均値) (n)部活・サークル (l)友人関係 (f)よい食事 (h)趣味 3 (j)アルバイト (g)お金 (b)授業での勉強 (e)十分な睡眠 (a)目標を立てること (c)授業外の勉強 (m)就職の見込み 2.5 2 3.5 4 重要度 48 4.5 同じように、大阪と東京のイメージに当てはまるものを複数回答で尋ねた結果は、表 2 の よ う に 比 較 で き る 。こ れ も 15×2= 30個 の 度 数 分 布 表( そ れ ぞ れ に ○ が あ っ た か な か っ た か が 1つ の 変 数 に な る の で 、項 目 の 数 だ け 度 数 分 布 表 が で き る )の 結 果 を 単 純 に ま と め た も の で あ る 。図 2の よ う に 図 示 す る と 、対 角 線 で 区 切 っ て 右 下 は 大 阪 の 方 が イ メ ー ジ の 強 い 項 目、左上は東京の方がイメージの強い項目であることがすぐにわかる(このような図示を 競 合 分 析 と 呼 ぶ こ と が あ る )。 こ れ も 度 数 分 布 表 を 元 に し た だ け だ が 、 十 分 に 興 味 深 い 。 大阪と東京のイメージの比較(選択割合) ごみごみしている 好ましい 活気がある 怖い 楽しい 住みやすい 華々しい 息苦しい 安らか かっこいい 悲しい すばらしい 忙しい さみしい 恥ずかしい 大阪 東京 78.1 14.1 79.7 35.9 59.4 26.6 15.6 25.0 4.7 0.0 1.6 7.8 37.5 3.1 1.6 62.5 6.3 31.3 34.4 29.7 10.9 57.8 50.0 3.1 43.8 1.6 4.7 68.8 18.8 0.0 図2 大阪と東京の競合分析 100.0 90.0 80.0 70.0 東京のイメージ 表2 忙しい 60.0 ごみごみしてい る 華々しい 息苦しい 50.0 かっこいい 40.0 怖い 楽しい 30.0 20.0 活気がある さみしい 住みやすい 悲しい すばらしい 好ましい 安らか 10.0 0.0 0.0 10.0 20.0 恥ずかしい 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 大阪のイメージ ま ず は 簡 単 な 道 具 立 て だ け で よ い 。多 く の 高 度 な 分 析 技 法 を 学 習 す る よ り も 、 「自分で作 表するのだ」という姿勢でさまざまなデータに臨もう。アンケート用紙を見たら、どのよ うな表が作れそうか想像しよう。素データが扱えるならば、実際に作表してみよう。新聞 や雑誌で表やグラフを見たら、自分で同じものを作るときの手順を思い浮かべてみよう。 ■グラフの必要性 先の例からもわかるように、グラフによる提示はしばしば強力である。とくに、多くの 数値からパターンを読み取る場合には、表のままよりも情報が伝わりやすい。グラフの元 になる表を適切に作ることがもっとも大切であるが、その上でグラフの適切な作り方を知 ることは非常に役立つ。何より、情報が視覚化されるグラフ作りは単純に楽しい。 第 3回 で 少 し 触 れ た が 、 グ ラ フ 作 成 の 際 に 気 を つ け な け れ ば な ら な い 基 本 原 則 は 次 の 2点 である。 ・グラフは何らかの数値を比較する。 ・グラフはそのために何らかの視覚情報を利用する。 これらは当たり前のように思えるかもしれないが、どの「種類」のグラフがどのような 数値の比較をするために、どのような視覚情報を利用しているのかは、意外と意識されて い な い 。 表 3は 代 表 的 な 5種 類 の グ ラ フ に つ い て 、 こ れ ら の 情 報 を ま と め て い る 。 49 表3 棒グラフ 折れ線グラフ 円グラフ 帯グラフ ヒストグラム 代 表 的 な グ ラ フ の ポ イ ン ト ( 第 3回 の 再 掲 ) 比較の対象 利用する視覚情報 ある数量の大きさ ある数量の連続的な変化 全体に占める構成比 グループ別の構成比 連続した階級の度数 棒の長さ 線の傾き パイの面積 帯の面積 柱の面積 棒グラフは何らかの数量の大きさを比較するために、棒の長さでその数量の大きさを表 ........ し た も の で あ る 。比 較 す る も の は 、度 数 の 他 に 相 対 度 数( % )や 比 率 尺 度 の 変 数 の * 注 平 均 値 な ど 、そ の 絶 対 的 な 大 き さ に 意 味 が あ る も の で あ れ ば 何 で も よ い( 図 3)。 〔 ※ 注:間 隔 尺 度の変数は数値の絶対量を比べられないので、棒グラフはおかしいことに注意〕 一方、折れ線グラフで比較すべきなのは、それぞれの頂点の高さではない。比較すべき 単位は、頂点と頂点を結ぶそれぞれの線分である。線分の傾き方を比較することで、変化 の 傾 向 が 読 み 取 れ る ( 図 4)。 円グラフと帯グラフは両方とも、全体に占めるそれぞれのカテゴリーの構成比を示す。 帯 グ ラ フ は 、 特 に そ の 構 成 比 を グ ル ー プ 間 で 比 較 す る の に 向 い て い る ( 図 5、 6)。 ヒストグラムは、棒グラフの棒と棒の間の隙間をなくしただけに見えるが、その意味合 いは全く異なる。棒グラフがその長さに意味があるのに対して、ヒストグラムはその「面 積」に意味がある。ヒストグラムの柱と柱がくっついているのは、隣の区分と連続的に繋 がっているからである。したがって、隣あった柱の面積を合わせて、より広い範囲の度数 を 一 目 で 把 握 す る こ と も で き る ( 図 7)。 図 3 人 口 10万 人 あ た り の バ ス ケ 競 技 者 人 口 0 20 40 60 80 1位 新潟 2位 長野 3位 秋田 55.5 4位 静岡 53.1 5位 沖縄 52.0 100 (人) 81.5 60.8 …… 43位 大阪 16.5 44位 山梨 15.9 45位 東京 13.9 46位 福井 13.5 47位 三重 7.7 出 所 : 2009年 度 「 バ ス ケ ッ ト ボ ー ル 競 技 者 登 録 者 数 」( 財 団 法人日本バスケットボール協会) 都道府県別人口は、 「 平 成 21年 3月 31日 現 在 、住 民 基 本 台 帳 に 基 づ く 人 口 、 人 口 動 態 及 び 世 帯 数 」( 総 務 省 ) に よ る 50 図4 世代によるカラオケをする割合の変化 (%) 70 60 50 40 30 20 10 0 80代 70代 60代 50代 40代 30代 20代 1つ 1つ の 線 分 の 傾きに注目する 出 所 : JGSS-2000 図5 宝くじはどのくらいの人が買っているの? よくする 無回答 全くしない /知らない 時々する あまり しない 出 所 : JGSS-2000 図6 ふつうの収入の人が宝くじを買う(収入と宝くじ購入頻度の関係) 収入が平均よりかなり多い(n=26) 収入が平均より多い(n=299) 収入がほぼ平均(n=1,306) 収入が平均より少ない(n=930) 収入が平均よりかなり少ない(n=293) (%) 0 よくする 時々する 10 20 30 40 50 60 70 80 90 100 あまりしない 全くしない/知らない 出 所 : JGSS-2000 図 7 ペ ッ ト を 飼 っ て い る 人 が 1日 に ペ ッ ト と 過 ご す 時 間 8時間以上 7~8時間未満 6~7時間未満 5~6時間未満 4~5時間未満 3~4時間未満 2~3時間未満 1~2時間未満 1時間未満 600 500 400 度300 数200 100 0 出 所 : JGSS-2000 51 無回答 ■グラフのパーツ グラフのパーツに注目した場合、グラフ作りの基本原則として以下のような点があげら れる。 ・ 必 ず タ イ ト ル を 付 け る 。( 図 表 番 号 を 含 む ) ・ ど こ か か ら デ ー タ を 取 っ た 場 合 、 出 所 を 示 す 。( 何 年 に 誰 が し た 何 と い う 調 査 か ) ・軸には必ず軸ラベル、目盛りラベルを付ける。 ・プロットエリアには、極力プロット以外(凡例など)を含めない。 ・ 1つ の グ ラ フ で 多 く の こ と を 表 そ う と し な い 。 ・不必要な装飾は避ける。 タイトル (title) 図8 縦軸 (vertical scale) プロットエリア (plot rectangle) 伸びる大学進学率 60 51.3 軸ラベル (scale label) マーカー (plot symbol) 50 目盛り (tick mark) 目盛り線 (reference line) 進学率(%) 41.0 36.8 40 データラベル (data label) 30 20 13.0 13.1 10 目盛りラベル (tick mark label) 2.4 0 1950 1960 横軸 (horizontal scale) 1970 1980 進学年度 男子 1990 2000 女子 出 所 : 1954~ 2006年 度 「 学 校 基 本 調 査 」( 文 部 科 学 省 ) 凡例 (key) 注釈 (caption) ■グラフの誤用 比較のために利用する重要な視覚情報を混乱させるようなグラフは作成してはならない。 例 え ば 、 図 9の よ う に 目 盛 り が 0か ら 始 ま っ て い な い 棒 グ ラ フ が 不 適 切 な の は 、 数 値 の 大 き さを表すはずの「棒の長さ」を混乱させるからである。折れ線グラフであれば目盛りが 0 から始まっていないことに問題はない。折れ線グラフではむしろ、目盛りの範囲を調整し て 折 れ 線 の お よ そ の 角 度 が 45度 に な る よ う に す る の が 適 切 と さ れ て い る ( 人 間 は 45度 付 近 の 角 度 を も っ と も 敏 感 に 感 知 で き る )。 図9 不適切な棒グラフ(打ち切り) 52 ま た 、 図 10の よ う な 立 体 の 棒 グ ラ フ が 不 適 切 と さ れ る の も 、 棒 の 長 さ が わ か り に く く な る か ら で あ る 。そ の 意 味 で 、 ( a)よ り も( b)の 方 が 混 乱 が 大 き く な る 。こ れ に 対 し て( c) の 立 体 棒 グ ラ フ に は ほ と ん ど 問 題 は な い ( 棒 の 長 さ が わ か り や す い た め )。 ( a) 図 10 ( b) ( c) 不適切な棒グラフ(立体) 視覚情報の混乱ではなく、そもそもそのグラフで比較できない数値をグラフ化してしま うことにも注意しなければならない。例えば、間隔尺度の変数の平均値を棒グラフで比較 し て い る 誤 り を よ く 見 か け る 。0か ら の 距 離 に 意 味 が な い 間 隔 尺 度 の 平 均 値 は そ の サ イ ズ に 意味がない。直感に訴えるグラフは強い力を持つだけに扱いに注意を要する。 ■文献紹介 通 り 一 遍 の こ と が 知 り た け れ ば 、 山 本 ( 2005) が コ ン パ ク ト で あ る 。 上 田 ( 2005) は 基 本を押さえつつも、グラフの研究者としてマニアックな指摘もあり、おもしろい。ジョー ン ズ( 2007= 2008)は 一 見 す る と た だ の ビ ジ ネ ス 書 だ が 、意 外 と 内 容 が し っ か り し て い る 。 実 践 的 な Excelに よ る グ ラ フ 作 成 の 本 は 、早 坂 清 志 の も の が 圧 倒 的 に よ い 。ハ ウ ツ ー と し て優れているだけでなく、統計学的な視点をふまえて適切なグラフ作成を促している。基 本 的 な も の は 早 坂( 2009)、マ ニ ア ッ ク な も の は 早 坂( 2008)で 解 説 さ れ て い る( 早 坂( 2011) は 、 た ぶ ん 早 坂 ( 2008) の 改 訂 版 。 内 容 を 未 確 認 )。 〈文献〉 ジ ェ ラ ル ド ・ E・ ジ ョ ー ン ズ 著 、 夏 目 大 訳 2008 『 チ ャ ー ト ・ 図 解 の す ご い 技 』 日 本 実 業 出 版 社 .( 原 著 2007年 刊 行 ) 早 坂 清 志 2008 『 Excelの 極 意 4 「 魅 せ る グ ラ フ 」を 極 め る 』 毎 日 コ ミ ュ ニ ケ ー シ ョ ン ズ . 早 坂 清 志 2009 『 達 人 が 教 え る Excelグ ラ フ テ ク ニ ッ ク 101』 毎 日 コ ミ ュ ニ ケ ー シ ョ ン ズ . 早 坂 清 志 2011 『 Excelの 極 意 2 グラフ』 毎日コミュニケーションズ. 上 田 尚 一 2005 『 統 計 グ ラ フ の ウ ラ ・ オ モ テ 』 ブ ル ー バ ッ ク ス . 山 本 義 郎 2005 『 グ ラ フ の 表 現 術 』 講 談 社 現 代 新 書 . 53 今日のポイント ①単純な集計で作表のプランを立てることにひたすら慣れよう ② グ ラ フ は 「 何 の 数 値 を 比 較 す る の か 」「 ど ん な 資 格 情 報 で 比 較 す る の か 」 に 注 意 ③ 基 本 の 5つ の グ ラ フ か ら 、 意 識 的 に 最 適 な グ ラ フ を 選 ぼ う (前回の問題の模範解答) ※当然、他のやり方もある。数値は実際の調査結果。 ( 1)表 Aの よ う に 、お 金 の 重 要 度 は 非 常 に 高 く 評 定 さ れ て い る 。半 数 近 く の 人 が 5点 満 点 で の「 4点 」と い う 回答で、 「 1点 」や「 2点 」と い う 人 は 5% 程 度 し か い な い。 ( 4) 表 Dは 各 項 目 の 重 要 度 の 高 さ を 平 均 値 で 要 約 し て 、数 値 が 高 い 順 に 並 べ 直 し た も の で あ る 。お 金 ~ 友 人 関 係 ま で が 4点 以 上 の 高 い 平 均 値 を 示 し て い る 。 表D 表A 度数 重要度 1 2 3 4 5 計 1 2 7 29 25 64 (g)お金 (m)就職の見込み (l)友人関係 (a)目標を立てること (e)十分な睡眠 (n)部活・サークル (c)授業外の勉強 (b)授業での勉強 (h)趣味 (f)よい食事 (d)家族からの支援 (k)一人の時間 (j)アルバイト (i)資格の取得 % 1.6 3.1 10.9 45.3 39.1 100.0 ( 2)表 Bの ク ロ ス 表 で わ か る と お り 、女 子 の 方 が わ ず かに大阪が「住みやすい」と○している割合が高い。 た だ し 、 6% 程 度 の 違 い で 差 は 大 き く な い 。 表B 重要度の平均値 4.17 4.11 4.08 3.94 3.88 3.84 3.81 3.78 3.76 3.75 3.63 3.56 3.53 3.38 性別と「大阪は住みやすい」のクロス表 男子 女子 計 学生生活の各項目の重要度の平均値 お金の重要度の度数分布表 住みやすいに ○あり 8 23.5% 9 30.0% 17 26.6% ○無し 26 76.5% 21 70.0% 47 73.4% ( 5)表 Eは 各 項 目 の 回 答 の ば ら つ き 具 合 を 標 準 偏 差 で 要 約 し て 、高 い 順 に 項 目 を 並 べ た リ ス ト で あ る 。数 値 が 高 い こ と は 、人 に よ っ て 満 足・不 満 の 回 答 が 分 か れ や す い こ と を 意 味 し て い る 。極 端 な 違 い は な い が 、よ い 食 事 、ア ル バ イ ト 、趣 味 な ど で 、満 足 度 の 格 差 が 大 きい。 計 34 100% 30 100% 64 100% 表E 学生生活の各項目の満足度の標準偏差 満足度の標準偏差 (f)よい食事 (j)アルバイト (h)趣味 (d)家族からの支援 (n)部活・サークル (g)お金 (i)資格の取得 (e)十分な睡眠 (c)授業外の勉強 (k)一人の時間 (l)友人関係 (b)授業での勉強 (a)目標を立てること (m)就職の見込み ( 3)表 Cの と お り 、大 阪 が 楽 し い と 思 う 人 は 、東 京 も 楽 し い と 思 う 割 合 が 相 対 的 に 高 い の で 、仮 説 は 否 定 さ れ る 。た だ し 、大 阪 は 楽 し い が 東 京 は 楽 し く な い と い う 人 が 22人 い る の に 対 し て 、逆 に 東 京 だ け が 楽 し い と い う 人 が 3人 し か い な い こ と に は 注 目 す べ き で あ る 。 表 C 「 大 阪 は 楽 し い 」と「 東 京 は 楽 し い 」の ク ロ ス 表 東京:楽しいに ○あり 大阪:楽しいに 16 ○あり 42.1% 3 ○無し 11.5% 19 計 29.7% ○無し 22 57.9% 23% 88.5% 45 70.3% 計 38 100% 26 100% 64 100% 54 1.14 1.13 1.09 1.05 1.05 1.03 1.01 0.98 0.97 0.91 0.89 0.86 0.85 0.73 ( 6)表 Fは 趣 味 の 重 要 度 に よ っ て 満 足 度 が ど う 異 な る か ク ロ ス 集 計 し た も の で あ る 。 選 択 肢 が 5つ で 煩 雑 な の で 、点 数 が 高 い グ ル ー プ と 低 い グ ル ー プ に 分 割 し 直 し た 。趣 味 を 重 要 と 思 っ て い る 学 生 の 方 が 、趣 味 へ の 満 足 度 も 高 い こ と が わ か る 。単 純 に パ ー セ ン ト で 見 る と 40% 程 度 の 差 が あ り 、 関 係 が 非 常 に 強 い 。 表F ( 8) 性 別 と 東 京 の イ メ ー ジ の 各 項 目 で 15個 の ク ロ ス 表 を 作 り 、各 表 で 男 女 の 選 択 割 合 を 比 較 す れ ば 、イ メ ー ジ の 違 い を 特 定 で き る 。男 女 差 が 大 き か っ た 順 に 並 べ 直 し た リ ス ト が 表 Hで あ る 。 活 気 が あ る 、 住 み や す い な ど の イ メ ー ジ は 男 子 の 方 が 強 く 、さ み し い 、忙 し い 、怖 い と い っ た イ メ ー ジ は や や 女 子 に 強 い こ と が わ かる。 た だ し 、選 択 率 で 比 較 す る と 、性 別 と は 関 係 な く そ もそも選択率が高い項目では男女差も大きくなりや す く 、選 択 率 が 低 い 項 目 で は 男 女 差 が 小 さ く な り や す く な っ て し ま う 。こ の こ と を 問 題 と 考 え る な ら ば 、各 クロス表での関係性を連関係数で要約して比較する 方 が よ い 。表 Iは ユ ー ル の Qで 比 較 し た 結 果 で あ る 。結 果 は 表 Hと 似 通 っ て い る 。 趣味の重要度と満足度のクロス表(縮約) 趣味の満足度 高い(4・5) 低い(1・2・3) 趣味の重要度 19 18 高い(4・5) 51.3% 48.7% 3 22 低い(1・2・3) 12.0% 88.0% 22 40 計 35.5% 64.5% 計 37 100% 25 100% 62 100% 表H 東京のイメージの男女差(選択率で比較) 東京は…… ( 7)表 Gは 各 項 目 の 重 要 度 と 満 足 度 の 関 係 性 を 相 関 係 数 で 要 約 し た も の で あ る 。値 が 大 き い 順 に 並 べ 替 え て い る 。つ ま り 、部 活 ・ サ ー ク ル や 趣 味 で は 、正 の 相 関 が強いので、重要と考えている人ほど満足度も高く、 両 者 が マ ッ チ し て い る 。一 方 、お 金 や 家 族 か ら の 支 援 では負の相関であり、お金を重要と思っている人ほ ど、満足度が低いということである。 表G 3 活気がある 6 住みやすい 1 ごみごみしている 8 息苦しい 12 すばらしい 7 華々しい 15 恥ずかしい 9 安らか 2 好ましい 11 悲しい 10 かっこいい 5 楽しい 14 さみしい 13 忙しい 4 怖い n 学生生活の各項目の重要度と満足度の相関係数 (n)部活・サークル (h)趣味 (k)一人の時間 (l)友人関係 (j)アルバイト (a)目標を立てること (c)授業外の勉強 (i)資格の取得 (e)十分な睡眠 (f)よい食事 (m)就職の見込み (b)授業での勉強 (g)お金 (d)家族からの支援 重要度と満足度の 相関係数 0.419 0.335 0.312 0.246 0.138 -0.042 -0.080 -0.090 -0.095 -0.109 -0.123 -0.146 -0.181 -0.246 表I 男子の 女子の 男女差 選択率 選択率 (男-女) 38.2 23.3 14.9 17.6 3.3 14.3 67.6 56.7 11.0 52.9 46.7 6.3 5.9 3.3 2.5 58.8 56.7 2.2 0.0 0.0 0.0 2.9 3.3 -0.4 5.9 6.7 -0.8 0.0 3.3 -3.3 41.2 46.7 -5.5 26.5 33.3 -6.9 11.8 26.7 -14.9 61.8 76.7 -14.9 20.6 50.0 -29.4 34 30 東 京 の イ メ ー ジ の 男 女 差 ( ユ ー ル の Qで 比 較 ) 東京は…… 6 住みやすい 3 活気がある 12 すばらしい 1 ごみごみしている 8 息苦しい 7 華々しい 9 安らか 2 好ましい 10 かっこいい 5 楽しい 13 忙しい 14 さみしい 4 怖い 11 悲しい 15 恥ずかしい 性別と各項目の関 連性(ユールのQ) 0.723 0.341 0.289 0.230 0.125 0.044 -0.065 -0.067 -0.111 -0.163 -0.341 -0.463 -0.588 -1.000 -- (問題) 上 記 の( 1)~( 8)の 表 を グ ラ フ 化 す る と す れ ば 、基 本 の 5種 類 の グ ラ フ( 棒 グ ラ フ・折 れ線グラフ・円グラフ・帯グラフ・ヒストグラム)の中でどれが最適か。その理由も説明 しなさい。 ※ 次 回 ( 6/ 27) の 授 業 初 め に 3 回 目 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 第 9~ 11回 の 内 容 に つ い て 確 認 。 結 果 を 伝 え る 文 章 の 書 き 方 、 必 要 な 作 表 の 判 断 、 グ ラ フ の 適 切 な使用など。 55 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.6.27 第 12回 「 因 果 関 係 へ の 注 意 ( 1) 相 関 と 因 果 」 ■シンプソンのパラドックス 1つ の 調 査 デ ー タ の 中 で 、次 の よ う な 矛 盾 す る よ う な 結 果 が 得 ら れ る こ と は 、あ り え る だ ろうか。 1)男 子 学 生 の 中 で 、自 宅 生 と 下 宿 生 で ど ち ら の 方 が 自 分 で 料 理 を し て い る か を 調 べ る と 、( 当 然 で あ る が ) 下 宿 生 の 方 が 料 理 を し て い た 。 2) 女 子 学 生 の 中 で 調 べ て も 、 や は り 下 宿 生 の 方 が 料 理 を し て い た 。 ...... 3) と こ ろ が 、 男 女 を 合 わ せ た 全 体 で み る と 、 自 宅 生 の 方 が 料 理 を し て い た 。 結論を言ってしまうと、このようなパラドックス(逆説)は起こりうる。下のようにやや 極端な数値で例をあげてみれば、そのことはすぐわかるであろう。 表1 男女別のクロス表 表2 自分で料理をするか する 男 性 女 性 自宅生 3( 10% ) 一人暮らし 20( 20% ) 計 23 自宅生 一人暮らし 計 97 男女を合わせたクロス表 自分で料理をするか しない 計 27 30 自宅生 73( 56% ) する しない 57 130 計 80 100 一人暮らし 47( 36% ) 83 130 107 130 計 120 140 260 70( 70% ) 30 100 27( 90% ) 3 30 33 130 このように、集団に分けた場合と全体で観察した場合で認められる関連性が大きく異な る 現 象 を 、 シ ン プ ソ ン の パ ラ ド ッ ク ス ( Simpson’s paradox) と 呼 ぶ 。 統 計 的 な 調 査 で 非 常 によく見られる現象で、解釈を誤りやすいので、確実にその意味を理解する必要がある。 ■シンプソンのパラドックスの原理 この一見すると奇妙な現象は、言葉で書けば次のように説明できる。全体として見たと きに自宅生に料理をする人が多くなっているのは、ただ単に女子学生に自宅生が多いため である。女子学生の方が男子学生よりも料理をしているので、集計上は、自宅生に料理を している人が多いことになる。 も う 少 し シ ス テ マ テ ィ ッ ク に は 、3つ の 変 数 の 関 係 図 式 か ら 理 解 で き る 。も と も と 観 察 し て い る 2つ の 変 数 を X と Y 、 集 団 に 分 け る た め の 変 数 を Z と す る 。 集 団 に 分 け た 3重 ク ロ ス 表 で 見 え て い る X と Y の 関 係 性 は 、 図 1( a) の 太 線 の 部 分 の み を 純 粋 に 表 し て い る 。 こ れ に対して、変数Zで分けずに全体で観察しているXとYの関係性は、純粋なXY間の関係 性に加えて、XZ間の関係性とYZ間の関係性が折り重なって見える関係性が、いっしょ く た に 混 ざ っ た も の を 表 し て い る こ と に な る ( b)。 56 (a) (b) Z Z こうなって… わからない X 図1 Y X 合わさる Y X Y X Y シンプソンのパラドックスの原理 ■見せかけの関係 こ の と き 混 ざ り あ っ た 関 連 性 の 組 み 合 わ せ に よ っ て 、い ろ い ろ と 不 思 議 な 現 象 が 起 こ る 。 この現象を正しく解釈するためのもっとも重要なキーワードが、見せかけの関係[擬似相 関 ]( spurious relation; spurious correlation) で あ る 。 見 せ か け の 関 係 と は 、 適 切 な グ ル ー プ 分 け を し な い で 全 体 を 見 る と 、2つ の 変 数 の 間 に あ た か も 重 要 な 関 係 が あ る か の よ う に 見 え る が 、そ れ は 共 通 の 原 因 で あ る 第 3の 変 数 に よ っ て 引 き 起 こ さ れ て い る に す ぎ な い 、 という場合を指している。このとき、本質的には意味がない歪んだ関係が観察されること に な る 。最 初 に あ げ た 例 は 、 「 性 別 」と い う 共 通 原 因 に よ っ て 、 「 自 宅 生 で あ る こ と 」と「 料 理をすること」の間に、見せかけの正の関係が発生して、本来の負の関係を覆い隠してし まったのである。ここでは質的変数(カテゴリー変数)によるクロス表で例を示したが、 量的変数であっても、考え方はまったく変わらない。 この現象は、計量社会学にとって極めて重要な問題を示唆している。我々が統計的な調 査 デ ー タ か ら 知 り た い こ と は 、ほ と ん ど の 場 合 、何 ら か の 因 果 関 係( causal relation)の 有無やその大きさである。統計は、その因果関係を客観的に示す、と多くの人々が信じて い る 。 つ ま り 、「 自 宅 生 の 方 が 料 理 を し て い る 」 と い う 統 計 デ ー タ は 、「 自 宅 生 で あ る こ と が料理をすることを引き起こす」証拠である、と考えてしまう。ところが、見せかけの関 係 が 存 在 す る 以 上 、た だ 単 に 2つ の 変 数( Xと Y)の 関 係 を 統 計 的 に 調 べ て も 、そ れ で 因 果 関 係がわかるわけではない。一般に、この事実は「相関と因果は異なる」という戒めとして 徹底的に注意される(ここで用いられる「相関」は、相関係数に表される直線的な関係に 限 定 せ ず に 、統 計 デ ー タ の 表 面 的 な 関 係 全 般 を 指 す 広 義 の 相 関 で あ る )。こ の 戒 め を 忘 れ る と、完全に間違ったデータ解釈を次々におこなってしまうことになる。 ■共通の原因への注目 一方で、この問題を回避する方法は難しいわけではない。先の例からもわかるように、 問 題 を 引 き 起 こ す 第 3の 変 数 さ え 自 覚 し て い れ ば 、そ の 変 数 で グ ル ー プ 分 け し た 上 で 、も と も と 関 心 の あ っ た 2つ の 変 数 の 関 係 を 調 べ れ ば よ い 。も し 、見 せ か け の 関 係 で あ れ ば 、グ ル ー プ 別 の 観 察 で は 関 係 性 が 見 ら れ な く な る は ず で あ る し 、見 せ か け の 関 係 で な い の な ら ば 、 グループ分けしても同様の関係性が残るはずである。 具 体 例 を 示 そ う 。表 3は 、実 際 の 調 査 デ ー タ で の 見 せ か け の 関 係 の 例 で あ る 。 「子どもを1 人 だ け も つ と し た ら 、 男 の 子 が ほ し い か 、 女 の 子 が ほ し い か 」 を 尋 ね て い る 。 表 3( a) か らは、 「 タ バ コ を 吸 う 人 の 方 が 男 の 子 を ほ し が る 傾 向 が 強 い 」と い う こ と が わ か る 。こ の 関 係性は客観的な事実であるが、このことから「タバコを吸えば、男の子がほしい気持ちが 引 き 起 こ さ れ る 」、つ ま り 因 果 関 係 が あ る 、と 解 釈 す る こ と は 思 考 が 飛 躍 し て い る 。少 し 考 57 え れ ば わ か る よ う に 、こ れ は 性 別 と い う 共 通 の 原 因 に よ る 見 せ か け の 関 係 で あ る 。一 般 に 、 現代日本人は自分と同性の子どもをほしがる傾向があるので、男性は男の子をほしがり、 女性は女の子をほしがりやすい。また、男性の方が喫煙率が高い。このことから、本質的 な 因 果 関 係 が な い 2つ の 変 数 の 間 に 見 せ か け の 関 係 が 観 察 さ れ る こ と に な る 。 そ こ で 、 本 当 に 見 せ か け の 関 係 か ど う か を 確 認 す る た め に 、 表 3( b) の よ う に 男 女 別 に して集計をやり直してみると、 「 喫 煙 」と「 ほ し い 子 ど も の 性 別 」の 間 に は ほ と ん ど 何 の 関 係もなくなった。同じ性別の中では、何の関係性も観察されないという結果が、性別が重 要な共通原因であったことを示している。もし、男女別でもまだ関係性が観察されるなら ば、性別が引き起こす見せかけの関係以外の意味が残されていることを意味する(本質的 な 因 果 関 係 か も し れ な い し 、 ま た 別 の 原 因 に よ る 見 せ か け の 関 係 か も し れ な い )。 表3 実 際 の 見 せ か け の 関 係 の 例 ( 喫 煙 ×ほ し い 子 ど も の 性 別 : JGSS-2000) ( a) グ ル ー プ 分 け し な い 場 合 男の子が 女の子が ほしい ほしい 喫煙する 479 54 . 8 % 395 45 . 2 % 874 喫煙しない 729 38 . 5 % 1164 61 . 5 % 1893 計 1208 1559 計 2767 ( b) 性 別 で グ ル ー プ 分 け し た 場 合 → 「 喫 煙 」 と 「 ほ し い 子 ど も の 性 別 」 の 関 係 が 消 滅 男性 女性 男の子が 女の子が 欲しい 欲しい 喫煙する 411 65 . 2 % 219 34 . 8 % 630 喫煙しない 384 61 . 3 % 242 38 . 7 % 626 計 795 喫煙する 68 27 . 9 % 176 72 . 1 % 244 喫煙しない 345 27 . 2 % 922 72 . 8 % 1267 計 413 461 1098 計 1256 1511 このように見せかけの関係を引き起こす共通原因のことを、先行変数[交絡変数] ( antecedent variable; confounding variable ) と 呼 ぶ ※ 。 ※ 本 来 の 用 語 の 意 味 か ら は 、「 交 絡 変 数 」 の 方 が 正 確 な 用 語 で あ る が 、 社 会 学 で は 当 初 こ の 考 え 方 が 紹 介 さ れ た と き に 、「 先 行 変 数 」 の 呼 び 方 が 広 ま っ て し ま っ た の で 、 伝 統 的 にこちらをよく用いる。先行変数は、本来、ある変数よりも先に起こると想定される変 数のことを指す。だから、正確には、先行変数の一部が交絡変数として見せかけの関係 を引き起こす、といえる。 と に も か く に も 重 要 な こ と は 、社 会 現 象 を 観 察 す る と き に 、積 極 的 に 第 3の 変 数 に よ る 見 せかけの関係の可能性を考慮することである。統計調査の結果を用いて新聞等でなされる 主張の中には、見せかけの関係を示しているにすぎない可能性が高いものが頻繁に見受け 58 ら れ る( 例: 別 資 料 の「 コ ー ヒ ー と 肝 が ん 」 「 朝 食 と 成 績 」)。も ち ろ ん 、本 当 に 見 せ か け の 関係かどうかは、データによって検証しなければはっきりとした結論を下すことはできな い。しかし、大部分の過ちは、慎重な思考だけで十分に看破できる。常に、見せかけの関 係の可能性を疑って、先行変数[交絡変数]を頭の中で探すクセを付けることである。そ れだけで一段階も二段階も上の水準で社会現象について考えることができる。 (問題) 1. 次 の よ う な 2変 数 に つ い て 調 査 デ ー タ で 関 係 性 を 調 べ る と 、 ま ず 間 違 い な く 強 い 関 係 性 が観察される。しかし、この関係性は見せかけの関係の可能性がある。どのような共通原 因が見せかけの可能性を引き起こすと考えられるか、先行変数を想像してみよう。 ( 1) ( 2) 四 十 代 の 男 性 小 学 体重 生 × (+ ) 足の速さ ( 3) の 各 年 統 計 家に灰皿 がある × 肺がん × 給料 (+ ) ( 4) 九 十 年 代 の 日 本 携帯電話 の普及率 × (- ) 三 十 代 の 就 労 者 出生率 手の 大きさ (+ ) 2.身 近 な こ と で 、見 せ か け の 関 係 が 観 察 さ れ る で あ ろ う 現 象 を 、何 か 1 つ 想 像 し 、共 通 原 因を含めた 3 つの変数の関係を図示しなさい。矢印には正の関係か負の関係かがわかるよ うに+-の記号を付けること。 今日のポイント ①統計でわかるのは相関関係。因果関係とは違う ②見せかけの関係(疑似相関)にだまされないためには、関係を引き起こす共通原 因(先行変数、交絡変数)を想像することが大切 〈文献〉 ボ ー ン シ ュ テ ッ ド & ノ ー キ 著 海 野 道 郎 ・ 中 村 隆 監 訳 1990 『 社 会 統 計 学 』 ハ ー ベ ス ト 社 . 保 田 時 男 2014 「 見 せ か け の 関 係 に だ ま さ れ な い 」 関 西 大 学 WEB 版 模 擬 講 義 http://www. kansai-u.ac.jp/koudai/movie/index.html ( 2014 年 6 月 13 日 取 得 )( iTunesU で も配信) 59 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.7.4 第 13回 「 因 果 関 係 へ の 注 意 ( 2) 見 せ か け の 関 係 の 追 求 」 ■相関関係と因果関係は異なる(復習) 前回、 「 相 関 関 係 と 因 果 関 係 は 異 な る 」と い う こ と を 学 習 し た 。つ ま り 、ク ロ ス 表 や 散 布 図 、あ る い は そ れ を 要 約 し た 相 関 係 数 や 連 関 係 数 で 2つ の 変 数 に 関 係 性 が あ る こ と が わ か っ た と し て も 、そ れ は そ の ま ま 因 果 関 係 が 存 在 す る こ と の 証 明 に は な ら な い 。た と え ば 、 「友 人が多い学生の方が、大学生活に満足している」ということが調査でわかったとしても、 それは「友人の数」という原因が「大学生活の満足」という結果を引き起こす因果関係を 示すことにはならない(友人の少ない学生に強制的に友人を作らせても、大学生活の満足 度 の 分 布 が 上 昇 し な い 可 能 性 が あ る )。 そ の 理 由 は 、2つ の 変 数 の 相 関 関 係 が 共 通 の 原 因( 先 行 変 数 )に よ る 見 せ か け の 関 係 で あ る 可 能 性 が あ る か ら で あ っ た 。た と え ば 、 「 部 活 や サ ー ク ル に 入 っ た 」と い う こ と が 、友 人 を 増 や し 、同 時 に 大 学 生 活 の 満 足 度 を 高 め て い る の か も し れ な い 。あ る い は 、 「適応力の高 い性格」が共通の原因なのかもしれない。 ■因果関係は証明できるのか 相関関係は因果関係の存在を保証してはくれない。では、因果関係の存在を証明するた め に は 、ど う す れ ば よ い の か 。こ の 辺 り の 事 情 に つ い て 詳 し い 書 籍 と し て は 、久 米( 2013) をお勧めする。政治学の例が中心だが、社会科学全般に通用する優れたテキストである。 結論を述べてしまうと、究極的には統計データから因果関係を証明することは、不可能 である。なぜならば、統計データからは社会で起こっていることについて、何らかの原因 が何らかの効果を「引き起こしていることそのもの」を観察することができないからであ る。観察できるのは、何らかの原因(と考えられるもの)と何らかの結果(と考えられる もの)がよくいっしょに発生しているという事実に過ぎない。したがって、相関関係の存 在は示せるが、因果関係の存在は証明できない。 し た が っ て 、因 果 関 係 の 存 在 を 主 張 す る た め に 満 た さ な け れ ば な ら な い 最 低 限 の 条 件( 因 果関係の必要条件)に注意を払いながら、常に間違えている可能性を頭に置いておかなけ れ ば な ら な い 。あ ら た め て 因 果 関 係 が 成 立 す る た め の 必 要 条 件 を 整 理 す る と 、以 下 の 3点 に まとめられる。 条件① 統計的関係性の存在 条件② 時間順序が正しい 条件③ 見せかけの関係でないこと ま ず 、2つ の 変 数 の 間 に 統 計 的 な 関 係 性 が 存 在 し な け れ ば な ら な い 。こ れ は 当 た り 前 の こ と で あ っ て 、ク ロ ス 表 や 散 布 図 で ま っ た く 何 の 関 係 性 も 見 ら れ な い 2つ の 変 数 の 間 に 因 果 関 係があると考えることはできない(ただし、本来の因果関係とは逆方向の見せかけの関係 60 が存在することで、両者が打ち消し合って何の関係性も見出せなることが理論上はありえ る 。 現 実 的 に は 、 そ の よ う な 偶 然 は 滅 多 に 発 生 し な い )。 次に、時間順序を考えたときに、原因の方が結果に先行していなければならない。前回 は注目しなかったが、因果関係の誤解として、単純に原因と結果を逆に考えてしまう、と いう可能性もある。たとえば、友人が多いから大学生活に満足しているのではなく、大学 生活に満足しているからよく学校に脚を運び、友人が増えているのかもしれない。 この条 件のポイントは、 「 時 間 順 序 が 分 か ら な け れ ば 、因 果 関 係 を は っ き り さ せ る こ と は で き な い 」 と い う こ と で あ る 。先 ほ ど も 例 に あ げ た と お り 、 「 友 人 が 多 い 学 生 ほ ど 、大 学 生 活 に 満 足 し ている」ということが観察されても、友人が多いことと、大学生活に満足していることの どちらが時間的に先行しているのかわからない。そのため、この情報だけでは、どちらが 原因かを特定して因果関係を定めることはできない。 も し 、 5月 に 友 人 が 増 え た 学 生 ほ ど 6月 に 大 学 生 活 へ の 満 足 度 が 上 昇 し て い た 、 と い っ た データであれば、時間順序がはっきりしているので、この条件を満たすことになる。この ような理由から、因果関係に関心の強い調査では同じ人を何回かの時点で繰り返し調査す る方法(パネル調査と呼ぶ)が好まれる。あるいは、データ上の保証がなくても、理論的 に 考 え て ど ち ら が 時 間 的 に 先 か 自 明 だ 、と 考 え る 場 合 も あ る 。た と え ば 、 「天気が晴れてい る方が、来客が多い」という相関関係は、データ上どちらが先かわからなくても、天気の 方 が 先 で あ る こ と は 自 明 だ ろ う( あ る 店 の 来 客 者 数 に よ っ て 天 気 が 変 わ る わ け が な い )。た だし、本当に自明なのか、判断を間違えないように慎重な注意は必要である。 く り か え す が 、 3つ 目 の 条 件 を 理 解 す る こ と は 、 も っ と も 重 要 で あ る 。 た と え 、 2つ の 変 数 Xと Yの 間 に 統 計 的 な 関 係 性 が 存 在 し 、時 間 順 序 が 確 認 さ れ た と し て も 、Xと Yの 関 係 性 が 、 「 Xと Yに 共 通 の 原 因 」 に よ っ て も た ら さ れ た も の で あ っ て は な ら な い 。 も し 、 共 通 の 原 因 が 存 在 す る の な ら ば 、 Xと Yの 関 係 は 見 せ か け の 関 係 ( 擬 似 相 関 ) に す ぎ な い こ と に な る 。 そうでないことを確認するためには、その共通原因(先行変数)でグループ分けをした上 で も う 一 度 2つ の 変 数 の 関 係 性 を 調 べ れ ば よ い 。 しかし、実際的に考えると、どこまで確認すれば「見せかけの関係ではない」というこ と を 示 し た こ と に な る の で あ ろ う か 。AI研 究 者 の ジ ュ デ ィ ア・パ ー ル は( Pearl 2000= 2009) は、そのような統計的な条件をはじめて体系的に整理した。これは大変興味深い研究であ るが、同時に、現在の社会調査のデータは、因果関係の特定に必要とされる精巧なデータ から大きくかけ離れていることを示している。残念ながら、我々は統計データだけでは社 会事象の因果関係を特定できないと考えた方がよいだろう。そのため、統計的なデータだ けでなく質的調査(観察やインタビュー)や理論的な考察にも取り組むことが非常に大切 になる。 前回からの繰り返しになるが、見せかけの関係に惑わされないためには、常識的な知識 や 理 論 的 な 考 察 を も と に 、2つ の 変 数 に は「 共 通 の 原 因 が あ る か も し れ な い 」と 常 に 注 意 を 払うことが、もっとも大切である。統計的なデータ分析の結果を待つまでもなく、大部分 の見せかけの関係は頭の中だけで駆逐できる。新聞や雑誌、インターネットには、調査結 果をもとにして因果関係を示唆する記事がよく掲載されている。それは本当に因果関係な のか。因果が逆の可能性、見せかけの関係である可能性に常に注意を払い、批判的に検討 する姿勢を日々訓練しよう。 61 ( 問 題 1) 「家族といっしょの方が自殺する?」 高齢者の自殺というと一人暮らしの孤独な老人というイメージを持ちがちだが、上野 ( 2007= 2011) に よ る と 、 高 齢 者 の 自 殺 率 は 、 意 外 な こ と に 一 人 暮 ら し の 老 人 よ り も 同 居 家族がいる老人の方が高い。上野はこのことを一人暮らしの老人が「さみしい」わけでは ない証拠としている。ここで根拠としている調査データは明記されていないが、福島県精 神保健福祉センターの調査や秋田県の調査などいくつかのデータで、このような事実が確 認されているので、 「 一 人 暮 ら し の 高 齢 者 よ り も 、家 族 と 同 居 し て い る 高 齢 者 の 方 が 、自 殺 率が高い」ことは安定的な客観的事実のようである。 ( 1) こ の 事 実 か ら 、 次 の よ う な 述 べ る こ と は 適 切 か 、 そ れ ぞ れ ○ ×を 付 け な さ い 。 ( )家族と同居している老人は、一人暮らしに変えた方が自殺の可能性が減る ( )いま家族と同居している老人は、いま一人暮らしの老人よりも自殺する可能性が高い ( )家族との同居は、老人が自殺する原因の一つである ( )「 家 族 と 同 居 す る こ と 」 と 「 自 殺 」 は 、 因 果 が 逆 の 可 能 性 が あ る ( 2)「 家 族 と の 同 居 」 と 「 自 殺 」 の 間 に は 、 ど ん な 見 せ か け の 関 係 が 発 生 し て い る 可 能 性 が あ る か 。( で き れ ば 複 数 の 可 能 性 を 考 え よ う ) ヒ ン ト ① 自 殺 は 女 性 よ り 男 性 に 圧 倒 的 に 多 い ( 7割 が 男 性 )。 ヒント②現在の日本社会では、経済的に許されれば一人暮らしをする老人が多い。 ( 問 題 2) あ な た の 友 人 が 新 聞 記 事「 父 親 と 長 く 過 ご す ほ ど 我 慢 強 い 子 に 」 ( 別 資 料 )を 読 ん で 、次 のように主張している。見せかけの関係の視点から、できるだけ簡単な言葉で(中学生で もわかる程度の言葉で)この主張を批判しなさい。 「新聞で見たけど、赤ちゃんの時に父親と過ごす時間が長かった子どもは、大きくなって から我慢強かったり、集中力が高かったりするらしいよ。ていうことは、法律で強制的に 『父親は週に○○時間以上子どもと過ごすこと』とか決めれば、我慢強い子どもが増える ってことだよね。日本の将来を考えたら、そのくらいやっちゃった方がいいんじゃないか な 。 国 が 何 年 も か け て や っ た 調 査 で わ か っ た こ と な ん だ か ら 、 活 か さ な い と 。」 ■補論:何でもグループ分けすればよいのか 見せかけの関係による混乱を避けるために、とにかく何でもかんでも細かくグループ分 けして集計すればよいのかというと、それは間違いである。 あ る 関 係 が 見 せ か け の 関 係 で あ る 、と い う 場 合 に 大 切 な こ と は 、第 3の 変 数 Z が X に 因 果 関 係 上 で 先 行 し て い る こ と で あ る( 図 1の a)。Z → X と い う 方 向 の 因 果 だ か ら こ そ 、X の 値 を人為的に操作したとしても、Yの値が変化することはない(X→Z→Yという流れはで き な い の で )。一 方 で 、X の 方 が Z に 因 果 関 係 上 で 先 行 し て い る と き に は 、X の 値 が 変 わ れ ば Z の 値 の 変 化 を 介 し て Y の 値 も 変 化 す る( 図 1の b)。し た が っ て 、 ( a)は 見 せ か け の 関 係 62 .... だが、 ( b)は 見 せ か け の 関 係 で は な い 。第 3の 変 数 Z を 加 え る こ と で 、X と Y の 関 係 の 道 筋 を よ り 詳 し く 示 し た こ と に な る 。2つ の 変 数 の 共 通 の 原 因 と し て 見 せ か け の 関 係 を 作 っ て い る 変 数 の こ と を 先 行 変 数[ 交 絡 変 数 ]と 呼 ぶ の に 対 し て 、2つ の 変 数 の 間 に 入 っ て 関 係 を 仲 介 す る 変 数 の こ と を 媒 介 変 数 ( intervening variable) と 呼 ん で 区 別 す る 。 ここで重要なことは、ZとXの因果の方向が逆であっても(Zが先行変数であっても、 媒 介 変 数 で あ っ て も )、 統 計 デ ー タ が 示 す 3重 ク ロ ス 表 の 形 は ま っ た く 変 わ ら な い 、 と い う ことである。つまり、媒介変数でグループ分けしても、先行変数でグループ分けした場合 と 同 じ よ う に 、元 の 2変 数 の 関 係 性 は 消 滅 す る 。原 因 X は 媒 介 変 数 Z を 変 化 さ せ る こ と を 介 して結果Yに影響するわけであるから、強引に媒介変数Zが同じ人々だけでグループを作 れば、関係性が観察できなくなることは当然である。 したがって、何でもかんでも細かくグループ分けしてしまうと、見せかけの関係だけで なく、意味のある関係(媒介関係)までも、見えなくなってしまう。統計は、本質的に因 果 の 方 向 を 考 え よ う と し な い( む し ろ 積 極 的 に 避 け る )。社 会 現 象 の 因 果 を 考 え る た め の 材 料は、積極的に統計の外(理論や日常の観察)から持ち込まなければならない。 Z 媒介変数 Z 先行変数 X Y ( a) Z → X の 場 合 図1 X Y ( b) X → Z の 場 合 先行変数と媒介変数 ■補論:実験と調査 一般的に、いわゆる「理系」では見せかけの関係への注意は大きな問題にならない。見 せかけの関係は特に「文系」で問題になる。それは、理系の統計データが主に実験によっ て収集されるのに対して、文系の統計データが主に調査によって収集されるからである。 なぜ、実験だと見せかけの関係が問題にならないのか。実験では、何らかの効果を発揮 す る と 仮 定 さ れ る 刺 激 に つ い て 、一 方 の グ ル ー プ に は そ の 刺 激 を 与 え( 実 験 群 と 呼 ぶ )、も う 一 方 の グ ル ー プ に は 刺 激 を 与 え な い ( 統 制 群 と 呼 ぶ )。 こ れ ら 2つ の グ ル ー プ を 比 較 す る ことで、その刺激の効果を計測する。たとえば、ある薬が特定の病気に効果をもつかどう かを調べるために、一方のグループにはその薬を与え、もう一方のグループには与えない ( 偽 薬 を 与 え る )。 このとき重要なことは、誰をどちらのグループに割り当てるかはランダム(無作為)に 決 め ら れ る 、 と い う こ と で あ る 。 つ ま り 、「 X→ Y」 に お け る 「 X」 に は 、 偶 然 以 外 の 何 者 も 影 響 を 及 ぼ さ な い 。 し た が っ て 、 Xと Yに 共 通 の 原 因 は 存 在 せ ず 、 見 せ か け の 関 係 は 起 こ り えない。 これに対して、調査は人工的な刺激を与えるのではなく、人々のあるがままの現状を調 べ る 。 し た が っ て 、「 X→ Y」 に お け る 「 X」 は 、 そ の 人 の 自 由 意 思 や 社 会 経 済 的 な 制 約 な ど から様々な影響を受け、見せかけの関係が発生する危険性に満ちあふれている。この面で 63 は、文系の計量社会学は、理系の実験統計よりも明らかに困難な問題に立ち向かわなけれ ばならない。 ( 問 題 3) 「出席と成績の関係」 ( 1)あ る 授 業 で 各 学 生 の 出 席 回 数 と 成 績 の 関 係 を 調 べ る と 、出 席 回 数 が 多 い 学 生 ほ ど 成 績 が よ い こ と が わ か っ た 。つ ま り 、 「 出 席 」と「 成 績 」の 間 に は 正 の 相 関 が あ る 。こ の こ と か ら、 「 成 績 を 上 げ る た め に は 、と に か く 出 席 さ せ る こ と が 一 番 大 切 だ 」と い う 意 見 に 対 し て 、 別の人が「それは元々の学習意欲の違いによる見せかけの関係ではないか?」と疑問を唱 えた。どういう意味か「見せかけの関係」という言葉を知らない人にもかわるように、具 体的に説明しなさい。 ( 2) 実 際 の 社 会 で は 、 見 せ か け の 関 係 と 本 当 に 意 味 の あ る 因 果 関 係 が 混 じ り 合 っ て い て 、 非 常 に や や こ し い 。計 量 社 会 学 の 授 業 に つ い て 、学 生 の「 出 席 」 「成績」 「意欲」 「 理 解 」を 調べたとすると、どんな関係性が現れると思うか、図式(矢印と+-)を描いた上で、そ の図式で何を表したつもりか、文章で説明しなさい。 今日のポイント ①因果関係を証明する十分条件はないが、必要条件はある ・統計的関係性の存在 ・時間順序が正しい ・見せかけの関係でないこと ②見せかけの関係と媒介関係を混同しないように注意 ③見せかけの関係は、調査データを使う限り逃れられない問題 ⇒とにかくいつも意識しなければならない 〈文献〉 久 米 郁 男 2013 『 原 因 を 推 論 す る : 政 治 分 析 方 法 論 の す ゝ め 』 有 斐 閣 . Pearl, Judea 著 、黒 木 学 訳 2009 『 統 計 的 因 果 推 論 』 共 立 出 版 .( 原 書 、 Causality , 2000 年出版) 上 野 千 鶴 子 2007 『 お ひ と り さ ま の 老 後 』 法 研 .( 文 庫 版 、 2011、 文 春 文 庫 ) ... ※ 次 回 ( 7/ 11) の 授 業 の 終 わ り に 最 後 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 相 関 と 因 果 の 違 い 、 見 せ か け の 関 係 の 理 解 が 中 心 。 4 回 の 小 テ ス ト の 合 計 点 が 60 点 以 上 な い 場 合 、 学 期 末 試 験 を 受 験 で き な い 。 小 テ ス ト が 60 点 に 満 た な か っ た 者 は 15 回 目 の 授 業 後 に 小 テ ス ト の 追 試 を 受 け る こ と 。 (一部の小テストを受験できなかった者も含む) 小 テ ス ト の 合 計 が 85 点 以 上 の 場 合 は 、 学 期 末 試 験 の 得 点 を 少 し だ け 加 算 す る 。 64 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.7.11 第 14回 「 白 書 と 政 府 統 計 」 ■既存の統計資料の利用 計量社会学を実践するためには、当然、目的に見合った統計データを手に入れなければ ならない。データを得るためには自らが社会調査をして一次データを集める以外に、他人 が 集 め た デ ー タ を 再 利 用 す る 方 法 も あ る 。 他 人 が 集 め た デ ー タ を 二 次 デ ー タ ( secondary data) と 呼 び 、 そ の 分 析 を 二 次 分 析 ( secondary analysis) と 呼 ぶ 。 と く に 、 政 府 調 査 な どの既存統計を二次データとして利用することは有益である。自ら調査をすることに比べ れば極めてわずかな労力で信頼性の高いデータが利用できる。うまく活用しよう。 ■内閣府の世論調査 一昔前まで、既存統計を利用するためには、図書館で分厚い冊子をめくり、必要な統計 表を探し、たくさんの数字を書き写さなければならなかった(図書館のリファレンスコー ナ ー )。 し か し 、 現 在 は 多 く の 統 計 資 料 が イ ン タ ー ネ ッ ト で 公 開 さ れ て お り 、 Excelデ ー タ でそのまま利用できるものも多い。 非 常 に 便 利 な 世 の 中 だ が 、逆 に 、ど こ か ら 手 を 付 け れ ば い い の か わ か ら な い こ と も あ る 。 初めて統計資料を探索する者は、まず「内閣府の世論調査」を眺めてみるとよいだろう。 比較的身近なテーマについての短いアンケートデータが、大雑把な集計で公開されている ( ほ と ん ど の 場 合 、単 純 な 度 数 分 布 表 の ま ま )。調 査 テ ー マ は 多 岐 に わ た る の で 、い く つ か 興味のあるデータが見つかるに違いない。 ○内閣府の世論調査 http://survey.gov-online.go.jp/ 65 ■基幹統計 内閣府の論調査は、親しみやすくおも しろいものの、かなり荒い集計データな の で 、突 っ 込 ん だ 分 析 に は む い て い な い 。 より深い情報を手に入れるためには、も う少し「固い」統計資料を探したい。た と え ば 、国 勢 調 査 は 5年 に 一 度 、日 本 に 住 むすべての人々を対象に行われる、もっ ↑国勢調査イメージキャラクター センサスくん。 とも固い統計資料である。固い統計資料 平 成 2年 調 査 か ら 使 用 。( ※ セ ン サ ス censusと は 、 は他にもたくさんあるが、特に重要な統 国勢調査のように原則全戸を対象とする公的人口 計 資 料 は 基 幹 統 計 ( 2009年 施 行 の 統 計 法 調査のこと) 改正で指定統計から改名)と呼ばれ、国 民はその作成に協力することが法律で義務付けられている。基幹統計は、ほぼ同じ調査内 容で毎年(あるいは数年おきに)データが集められる繰り返し横断調査[反復横断調査] ( repeated cross-sectional surveys ) で あ る 。 基 幹 統 計 一 覧 ( 平 成 26年 4月 現 在 、 55種 ) 内閣府 国民経済計算 総務省 国勢統計 住宅・土地統計 労働力統計 小売物価統計 家計統計 個人企業経済統計 科学技術研究統計 地方公務員給与実態統計 就業構造基本統計 全国消費実態統計 社会生活基本統計 経済構造統計 産業連関表 財務省 法人企業統計 国税庁 民間給与実態統計 文部科学省 学校基本調査 学校保健統計 学校教員統計 厚生労働省 人口動態統計 毎月勤労統計 薬事工業生産動態統計 医療施設統計 患者統計 賃金構造基本統計 社会教育調査 国民生活基礎統計 生命表 社会保障費用統計 農林水産省 農林業構造統計 漁業構造統計 経済産業省 工業統計 牛乳乳製品統計 木材統計 経済産業省生産動態統計 ガス事業生産動態統計 造船造機統計 建設工事統計 商業動態統計調査 経済産業省特定業種石油等消費統計 経済産業省企業活動基本統計 港湾統計 海面漁業生産統計 商業統計 石油製品需給動態統計 特定サービス産業実態統計 国土交通省 作物統計 農業経営統計 鉱工業指数 建築着工統計 船員労働統計 鉄道車両等生産動態統計 自動車輸送統計 内航船舶輸送統計 法人土地・建物基本統計 こ の よ う な 固 い 統 計 資 料 は 、 政 府 統 計 の 総 合 窓 口 サ イ ト 「 e-Stat( イ ー ・ ス タ ッ ト )」 か ら入手できる。ただし、膨大な統計表があるため、慣れないと目的の情報のありかを探す だけで一苦労である。また、古い資料にはアクセスできない場合がある。 66 ○ 政 府 統 計 の 総 合 窓 口 「 e-Stat( イ ー ・ ス タ ッ ト )」 http://www.e-stat.go.jp/ ■どんな既存統計があるのかを、知るためには? e-Statは 非 常 に 便 利 で あ る が 、そ も そ も ど ん な 統 計 資 料 が 存 在 す る の か を 知 ら な け れ ば 、 目 当 て の も の を 見 つ け る こ と は 難 し い 。代 表 的 な 既 存 統 計 を 知 る た め の 1つ の 方 法 は 、白 書 を読むことである。白書は、官公庁のそれぞれが担当分野の動向をまとめて毎年発行する 冊子である。白書には実にさまざまな統計資料が利用されており、何度も出てくるような 統計は、その分野の代表的な統計資料であることがわかる。近年の白書は電子版がインタ ーネットで公開されている。 ○首相官邸から白書へのリンク 「資料集」→「白書」 http://www.kantei.go.jp/ ○内閣府から白書へのリンク 「活動・白書等」→「白書、年次報告書等」 http://www.cao.go.jp/ また、国立国会図書館の「リサーチ・ナビ」は、もっと直接的に、代表的な既存統計を 教えてくれる。いくらかは統計資料に慣れていないと統計の内容が想像しにくいが、非常 によくまとめられているので、自分の関心のある分野について、じっくりと取り組んでみ るとよい。 67 ○国立国会図書館 「調べ方案内」→「リサーチ・ナビ」→「統計」 http://www.ndl.go.jp/ ■素データの利用 二次データとして利用できるのは、ほとんどの場合、集計データであるが、素データの ま ま 公 開 利 用 で き る も の も あ る 。 社 会 学 で は 、 2000年 か ら 1、 2年 お き に 行 わ れ て い る 繰 り 返 し 横 断 調 査 の JGSS( 日 本 版 総 合 的 社 会 調 査 )な ど が 学 生 で も 利 用 で き る( 指 導 教 員 を 通 し た 申 請 が 必 要 )。 素データとして公開利用できるデータは、ふつうデータアーカイブという機関を通して 利用できる。調査の実施者は自分が集めたデータを広く有効活用してもうために、データ ア ー カ イ ブ に デ ー タ を 預 け 、デ ー タ を 必 要 と す る 利 用 者 は 、デ ー タ ア ー カ イ ブ に 申 請 し て 、 データを貸してもらう。日本の社会科学分野での最大のデータアーカイブは、東京大学の SSJデ ー タ ア ー カ イ ブ で あ る 。 一 部 の デ ー タ は 、 学 生 で も 利 用 で き る 。 ま た 、 素 デ ー タ が 利用できない場合でも全体の集計データは公開されている。一度、データを探索してみる とよい。 ○ JGSS ○ SSJデ ー タ ア ー カ イ ブ http://jgss.daishodai.ac.jp/ http://ssjda.iss.u-tokyo.ac.jp/ 68 ■その他 ここで紹介した以外にも、世の中には多くの既存統計があふれている。市町村が行った 調査や、大学、民間団体が行った調査もある。インターネットで検索できるデータもあれ ば、紙媒体だけで手に入るデータや、調査実施者だけが持っているデータもある。いずれ にしても、自ら一次データを集めることに比べれば、既存統計を探すことの手間は、非常 に小さい。テーマに合ったおもしろいデータがないか、よく探索してみることである。 おまけ:小学生~高校生向けの統計学習サイト「なるほど統計学園」 統計を利用する流れがわかりやすく、わりと使えるサイト ○統計局 統計学習サイト 「なるほど統計学園」 http://www.stat.go.jp/naruhodo/ 今日のポイント ①基幹統計など信頼できるデータは積極的に二次分析に利用すべき ②データアーカイブを利用すれば、素データを自由に分析できる 69 や す だ 計 量 社 会 学 I( 2014年 度 春 学 期 担 当 :保 田 ) 2014.7.18 第 15回 「 ま と め 」 ■計量社会学とは ・計量社会学……積極的に数値(統計データ)を活用する社会学の一分野 記述統計……データが持つ情報を要約して記述する(計量社会学Ⅰ) 推測統計……一部のデータから調べてもいない全体を推し測る(計量社会学Ⅱ) ・数値を使う意義 ①数値を使えば、社会に実態を与えることができる( ←誰も知らない社会をデータが語る ) ②数値を使えば、他人と協力できる(←客観的だから) ■計量社会学のデータ ・社会学のデータ=量的データ+質的データ ・ 計 量 社 会 学 の デ ー タ = 変 数 ×ケ ー ス 集めたままの細かいデータ=素データ[ローデータ] グループでまとめたデータ=集計データ ・測定尺度による変数の分類 名義尺度……数字は名札代わり →質 的 変 数 ( 計 算 で き な い 変 数 ) 順序尺度……数字の順序だけに意味がある 間隔尺度……数字の間隔が量を表す →量 的 変 数 ( 計 算 で き る 変 数 ) 比 率 尺 度 … … 数 字 が 2倍 な ら 量 も 2倍 ・確率論からの変数の分類 離散変数……取りうる値がいくつかの点で決まっており、間はありえない変数 連続変数……理論上、無限に細かい測定ができる変数 ■記述統計の基本的な道具 1つ の 変 数 の 分布を調べる → 素朴な観察 統計量による要約 度数分布表 基本統計量 単純なグラフ 代表値(最頻値、中央値、平均値) ば ら つ き( 範 囲 、四 分 領 域 、分 散 ・ 標 準 偏 差 ・ 変 動 係 数 ) 2つ 以 上 の 変 数 の 関係を調べる クロス表 → 散布図 関連性の統計量 相関係数 連 関 係 数 ( ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 な ど ) 順序相関係数(ガンマ、ロー、タウなど) 70 ■ 1つ の 変 数 の 分 布 を 表 わ す ( 度 数 分 布 表 ) ・ 度 数 分 布 表 は 度 数 が 重 要 。 相 対 度 数 の み で は ダ メ ( 少 な く と も 全 体 の nは 示 す )。 ・階級の分け方の原則 ①排他的で包括的 ②階級幅は等しくする ③キリのよい数値の扱いに注意 ■基本統計量の利用 ・ 基 本 統 計 量 … … 1つ の 変 数 の 分 布 を 要 約 す る 統 計 的 な 数 量 代表値+ばらつき ・ ど の 代 表 値 を 用 い る か は 、 長 所 と 欠 点 を よ く 考 え る こ と ( は ず れ 値 の 影 響 な ど )。 最頻値(モード) とにかく度数の多いもの ちょうど真ん中 └ ─ → 中央値(メディアン) 平均値(ミーン) 全部足してケース数で割る ・どのばらつきの統計量を用いるかも、それぞれの意義をよく考えること。 範囲 最大値-最小値 四分領域中央値から第3四分位までの距離と第1四分位までの距離の平均 └ ─ → 分散平均との偏差を平方したものの平均 標準偏差分散の正の平方根 変動係数 標準偏差を平均で割ったもの ・補足的な基本統計量 歪度……左右対称からのゆがみ具合 尖度……きれいなベル型と比べたとがり具合 ・Σの計算は「すべてのケースで同じ計算をして、結果を足し合わせる」だけ。 ■ 2つ の 変 数 の 関 連 性 を 表 わ す ( ク ロ ス 表 、 散 布 図 ) ・ 2変 数 の 関 連 性 を 探 る と き に は 、 ク ロ ス 表 が 基 本 ( 全 体 を グ ル ー プ に 分 け て 集 計 )。 ・クロス表の相対度数は、適切なものを選ぶことが重要。 └ ─ → 行 % /列 % /全 体 % が あ り う る ・量的変数同士の関係は、散布図でも読める。 ■関連性の統計量の利用 ・ 2つ の 変 数 の 関 連 性 も 1つ の 数 値 で 表 せ れ ば 便 利 ( 基 本 統 計 量 と 同 じ 発 想 )。 ・ 相 関 係 数 … … 散 布 図 に 表 わ さ れ る 量 的 変 数 同 士 の 関 係 性 を - 1~ + 1で 表 わ す 。 r> 0→ 正 の 相 関 ( 2つ の 変 数 が 同 じ 方 向 に 増 減 す る ) r< 0→ 負 の 相 関 ( 2つ の 変 数 が 別 々 の 方 向 に 増 減 す る ) ・連関係数……クロス表に表わされる質的変数同士の関係性を表わす統計量の総称。 (当然、量的変数もクロス表にすれば使える) 2×2の ク ロ ス 表 の 場 合 → ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 より大きなクロス表の場合→クラメールのV ロー ガンマ タウ 順序 尺 度変数 の場 合→ ス ピ ア マ ン の ρ 、グ ッ ド マ ン と ク ラ ス カ ル の γ 、ケ ン ド ー ル の τ a 71 ■統計的な記述の実践 ・ PPDACサ イ ク ル … … 統 計 的 に 問 題 を 解 決 す る 際 の ス テ ッ プ 。 Problem, Plan, Data, Analysis, Conclusion 問題、計画、データ、分析、まとめ ・「 文 章 ・ グ ラ フ ・ 表 」 の 選 択 を 自 覚 的 に 。 ・発見したパターンを文章にする際の注意。 変 数 間 の 関 係 性 を 記 述 す る こ と が 基 本 。 関 係 性 の 方 向 性 ( ±) と 強 さ を 両 方 示 す 。 複 雑 な 記 述 は GEEア プ ロ ー チ ( 一 般 化 、 例 示 、 例 外 の 順 序 ) に 留 意 。 ・統計分析≒作表 どんな分析をするかを考えることは、どんな表を作るか考えること。 作表を考えるためには、比較の軸を意識しなければならない。 度数分布表、基本統計量、クロス表、相関係数など単純な道具だけで十分効果的。 ・実際のクロス表は縮約する必要がある場合が多い。 ・グラフ作成の原則 ①グラフは数値を比較する ②グラフは視覚情報を利用する →代 表 的 グ ラ フ で 、 ど ん な デ ー タ を 比 較 す る た め に 、 どの視覚情報を利用しているのか、注意 ※そのグラフの大事な視覚情報を軽視すると、誤解を招くグラフを作成してしまう。 ■見せかけの関係 ・シンプソンのパラドックス … … 2つ の 集 団 に 分 け た 場 合 と 全 体 で 見 た 場 合 で 関 連 性 の あ り 方 が 異 な る 現 象 ・相関と因果は異なる ⇒「見せかけの関係」の仕組みを確実に理解する。 先行変数と媒介変数を区別。 ・ 因 果 関 係 は 証 明 で き な い ( 最 低 限 の 必 要 条 件 が あ る の み )。 └→①統計的関係の存在 ②時間順序が正しい ③見せかけの関係でない ■既存の統計資料の利用 ・基幹統計を中心に、二次分析できそうなデータの雰囲気を知っておくこと。 ・データアーカイブで素データの分析も可能なことを知っておくこと。 〈試験について〉 7月 25日 、 60分 間 の 試 験 持ち込みすべて可(ただし、頭に入っていないと時間が足りなくなるはず) 電卓は携帯電話以外で(小テストと異なるので注意) 72