Comments
Description
Transcript
第2回 尺度と代表値
心理社会調査研究法 第 2 回 尺度と代表値 鈴木 努 2011 年 5 月 9 日 アンケート調査 1 次に示すのはある大学で行われた授業アンケートの設問と結果の一部である。 Q1. この授業に関する予習・復習・練習などを行いましたか。 5:非常にそう思う 4:そう思う 3:どちらとも言えない 2:そう思わない 1:まったくそう思わない 科目平均 2.0 全学平均 2.7 Q2. あなたは授業中、授業とはまったく関係のない私語をたくさんしたと思いますか。 5:非常にそう思う 4:そう思う 3:どちらとも言えない 2:そう思わない 1:まったくそう思わない 科目平均 1.9 全学平均 2.3 このようなアンケート調査では 1 から 5 まで選択肢を設けて 1 つ選ばせる方法 をとっている。このような方法を 5 件法という。 さらにアンケートの結果を集計して科目平均(私が担当したある授業の出席者 全体での平均)と全学平均(その大学で授業アンケートの対象となった授業全体 の平均)を算出している。 Q1 では科目平均が全学平均を 0.7 ポイント下回っており、他の授業と比べると この授業では受講生の予習復習が足りなかったようだ。Q2 では科目平均が全学平 均を 0.4 ポイント下回っているが、質問は「私語をしたか」聞いているので、この 授業は他の授業に比べると私語が少なかったようだ。このように Q1 と Q2 では好 ましい選択肢(予習復習をする、私語をしない)に対する点数が逆に与えられて いるので点数の大小から授業を評価する際に混乱しかねない1 。 そもそもこのようなアンケートで平均値を求めることにはどのような意味があ るのだろうか。この科目は全学平均より Q1 では 0.7 ポイント好ましくなく、Q2 1 回答者の安易な回答(例えば全部 5 にする、全部 1 にするなど)を防ぐためにわざと評価と点 数を逆にする場合がある。このような質問項目を逆転項目という。 1 では 0.4 ポイント好ましいので、総合的には全学平均より 0.3 ポイント好ましくな かったといえるのだろうか?この問題に答えるためには質問や回答の尺度(scale) について考える必要がある。 尺度の類型 2 社会調査やアンケート調査で質問をするとき、同じ内容でも尋ね方はいろいろ と考えられる。例えば回答者の年齢を知りたい場合、直接年齢を尋ねるほかに、生 年月日を尋ねてもよい。それほど詳しい年齢が必要なければ、10 代、20 代、30 代 というふうにおおよその尋ね方をするかもしれない。 あるいは、回答者の経済状況を知りたい場合はどうだろう。前年の収入を尋ね るのに正確な数値を尋ねるべきだろうか。多くの人はそのような数値を正確に覚 えていないだろうから、関係する書類や証明書を見なければならないだろう。社 会調査のデータが詳細で正確であることは理想だが、あまりに細かい質問は回答 者に過大な負担をかける。実際の社会調査で収入を尋ねる場合は、 「∼円以上∼円 未満」というような幅をもたせた選択肢を用意して、1 つ選んでもらうという方法 が一般的である。 回答者にとって負担にならない質問をすることは重要だが、あまり大雑把な尋 ね方をすると、分析の際に適用可能な手法が限られるという問題もある。どのよ うな尋ね方、答え方をするかは、適用可能な分析手法とも密接に結びついている ので、質問や回答の形式がどのような性質をもっているかを知っておくことは大 事である。ここでは、比率尺度、間隔尺度、順序尺度、名義尺度という 4 つの分 類とそれらの特徴を学ぶ。 2.1 比率尺度 比率尺度(ratio scale)とは、測定値の間で何倍とか何分の 1 とか比率を求める ことができるような測り方である。例えば正確な年齢や収入金額は、20 歳は 10 歳 の 2 倍長い期間生きているということができるし、500 万円は 1000 万円の 2 分の 1 といえるので比率尺度である。比率尺度における 0 とは文字通り「ない」ことを 意味する。また比率尺度においてはマイナスの値をとることはない。 2.2 間隔尺度 間隔尺度(interval scale)とは測定値の間の間隔、すなわち差が意味をもつよう な測り方である。最も身近な間隔尺度の例は、摂氏で測る温度であろう。摂氏2 で 2 摂氏とはこの測り方の考案者であるセルシウス氏に由来する。ちなみに華氏はファーレンハイ ト氏に由来する。摂氏温度を 5 分の 9 倍して 32 を足すと華氏温度になる。 2 は 0 度は温度が「ない」ことを意味しない。1 気圧のもとで水が凍る温度を 0 度と 定めただけであり、他の 0 度の定め方も考えられる(事実、華氏という別の測り 方もある)。間隔尺度で測った値は比率尺度のように比率をとることができない。 最高気温が昨日 10 度で、今日 20 度だった場合、「今日は昨日の 2 倍の気温だ」と は言えない。「今日の最高気温は昨日より 10 度高い」というべきなのである。 心理学では知能指数(IQ)が間隔尺度の例として挙げられる。IQ は知能テスト の点数から、精神年齢 ÷ 生活年齢 ×100 で求められる。すなわち、ある年齢で平 均的な知能をもつ場合に IQ100 になる。受験でおなじみの偏差値も間隔尺度なの で、「偏差値が 10 アップ!」とは言えるが「偏差値が 10 倍にアップ!」とは言え ない。 2.3 順序尺度 順序尺度(ordinal scale)とは測定値の間に順序はあるが、それらの間隔は意味 をもたないような測り方である。例えば、アンケートなどでよく見られる、 「あな たは∼に賛成ですか、反対ですか」という質問に「1. 賛成,2. どちらかといえば 賛成,3. どちらともいえない,4. どちらかといえば反対,5. 反対」のうちから 1 つ 選んで答えるような形式(リッカート形式という)がそれにあたる。この場合、4 を選んだ人は 2 を選んだ人より 2 倍反対だとか 2 つだけ多く反対だとか言うこと はできない。つまり比率も差も求められない測り方である。ただいえるのは、1 は 2 より賛成の度合いが高く、2 は 3 より賛成の度合いが高く、... という順序関係だ けである。 2.4 名義尺度 名義尺度(nominal scale)とは、相互に排他的な属性のカテゴリから選択する ような測り方である。例えば、性別(男/女)や出身地、宗教などがこれにあた る。「相互に排他的」とは A でもあり B でもあるというような場合を許さないと いう意味である(複数選択を許さないという意味ではない)。これらのカテゴリの 間では、順序も差も比率も意味をもたない。 2.5 尺度間の変換 ここで挙げた 4 つの尺度類型において、例えば比率尺度は比率だけでなく、差や 順序や排他性といった他の尺度の性質まで含んでもっている。同じように間隔尺 度は順序尺度と名義尺度の、順序尺度は名義尺度の性質を含んでもっている。だ から、比率尺度は間隔尺度や順序尺度に変換することができる。例えば、年齢を 10 代、20 代、30 代、... という階級に分けたり、幼年、少年、青年、中年、老年と 3 表 1: 5 人の年齢(その 1) ケース 1 2 3 4 5 年齢 18 19 19 20 21 いった世代や成人/未成年という区分に分けることもできる。しかし、一般にそ の逆は不可能で、「成人」にあたる人が実際に何歳なのかは分からない。 それゆえ、可能であればできるだけ比率尺度や間隔尺度で質問をすることが後々 の分析のためには望ましい。ただし、最初に述べたように回答者への負担なども 考慮し、調査の目的や使う予定の分析手法に合わせた尺度を選択すべきである。 例外として、順序尺度から比率尺度へ変換する例を挙げよう。学歴は 4 年制大 学卒、短大卒、高卒、中卒などのような区分で尋ねるのが一般的だが、そこから 「教育年数」として 4 年制大学卒なら 16 年、短大卒なら 14 年、高卒で 12 年という ように、小学校入学から最終学歴修了までにかかる標準的な年数に変換してしま うのである(留年や浪人を無視する)。これはそのように比率尺度にしてしまった 方が、分析上便利だからである。 代表値 3 社会調査によってデータを集めたとき、それらのデータの集合的な特徴の 1 つ として、そのデータを代表する(つまり性質をよく表している)値を求めること ができる。そのような値を代表値(central tendency)という。よく知られた代表 値には平均値がある。他に中央値や最頻値も用いられる。 3.1 平均値 平均値(mean)は各ケースの値の合計をケース数で割ったものである3 。 例えば、表 1 のような年齢の 5 人がいたとする。この 5 人の年齢の平均値は次の ように求められる。 (18 + 19 + 19 + 20 + 21) ÷ 5 = 19.4 平均値は比率尺度や間隔尺度で測定された値でのみ計算することができる。例 えば、性別の平均値(男性を 0、女性を 1 として合計して人数で割る?)が意味を もたないのは明らかだろう。順序尺度の場合、厳密には平均値を出すことはでき ないが、実際には便宜的に平均値を求めることもある。 3 特に他の平均と区別するときにはこれを算術平均という。 4 表 2: 5 人の年齢(その 2) ケース 1 2 3 4 5 年齢 18 19 19 20 80 3.2 中央値 データが比率尺度であっても平均値がデータをうまく代表しない場合がある。例 えば、データに極端な値(外れ値)が含まれるような場合である。表 2 の場合を 考えてみよう。この 5 人の年齢の平均値は次のように求められる。 (18 + 19 + 19 + 20 + 80) ÷ 5 = 31.2 この 5 人には 30 代の人は 1 人もいないのに、31.2 歳がこの 5 人を代表する値と いえるだろうか。このような場合は中央値(median)を用いるのがよい。中央値 とは測定された値を大きさの順に並べたとき中央にくる値である。表 2 はすでに 大きさの順に並んでおり、中央の値はケース 3 の 19 である4 。実際にこのような例 は、世帯の資産の代表値を求めるときに見られる。世の中には極端に大きな資産 をもつ世帯が少数ながら存在するからである。平均値に対する外れ値の影響を取 り除く方法としては、大きい方と小さい方の数パーセントずつを除外した値で平 均値を求めるトリム平均もある。スポーツの採点競技などで用いられている。 3.2.1 最頻値 データの中で最も出現頻度の高い値を最頻値(mode)という。表 1 や表 2 では 最頻値は 19 である。最頻値は順序尺度や名義尺度でも求めることができる。例え ば表 3 のようなデータで最頻値は「文学部」である。 学部 人数 表 3: あるサークルのメンバーの所属学部 文学部 法学部 政治経済学部 商学部 理工学部 10 9 2 6 4 農学部 8 数学記号に慣れる 4 今回は平均値の計算が出てきたが、今後このような計算式を数学記号を用いて 表す場合が出てくる。そのために基本的な数学記号に慣れておこう。 4 人数が偶数の場合、例えば表 2 でケース 2 から 5 までの中央値は 19 と 20 の中間の 19.5 とす る。 5 表 4: 平均値の算出例 i 1 2 3 4 5 x 18 19 19 20 21 4.1 Σ は合計 変数 x の平均値 x̄(エックスバーと読む)は次のように定義される。 1∑ x̄ = xi n i=1 n これは変数 x の 1 番目から n 番目までの値を全て足したものに n1 をかける、すな わち n で割るという意味である。Σ(シグマ)は合計という意味しかもたない5 。表 4 を例にして変数 x の平均値 x̄ を求めてみよう。ここではケース数 n = 5 である。 1∑ x̄ = xi n i=1 n 1 (x1 + x2 + x3 + x4 + x5 ) 5 1 (18 + 19 + 19 + 20 + 21) = 5 1 = × 97 5 = 19.4 = 参考文献 [1] 青木繁伸,2009, 『統計数字を読み解くセンス—当確はなぜすぐにわかるのか?』 化学同人. [2] E. バビー(渡辺聰子監訳),2001(2003), 『社会調査法 1—基礎と準備編』培 風館. [3] E. バビー(渡辺聰子監訳),2001(2005), 『社会調査法 2—実施と分析編』培 風館. 5 合計を表す英単語は sum あるいは summation だが、英語の S にあたるギリシア文字が Σ で ある。 6