Comments
Description
Transcript
CNNのスポーツ
3 4 誤差(精度)と調査費用 マーケティング・リサーチ 誤差 費用 標本デザイン② ~調査方法(標本数)とその精度の関係~ 標本調査の例 標本数の決定方法 支持率 5 7 講義予定&キーワード 「調査方法の精度」の評価方法 標本数と精度の関係① 標本数と精度の関係② 調査方法の精度=調査結果の分散 標本調査の「精度」とは何か? 標本数が多いと精度が高くなる 平均と分散 9 10 母集団 標本 単純無作為 抽出 抽出 記述統計 母集団 の情報 標本 の情報 平均 “はかり”の精度の測定 標本 重さが正確に分かっている 重りを用意する その重りの重さを、何回も計量する 測定値の分析 平均 推測統計 精度と分散の関係 「標本数が増えると精度が上がる」 それを数式で表す 母平均と標本平均と標本数の関係 8 記述統計 6% 調査者:CNNほか 調査実施日:2000.12.15~17 調査対象者:1011人 統計的誤差:±3~4% 講義予定 母集団 86% 23% 6 CNN調査結果の解釈 母集団(全米有権者:約2億人)全体 のブッシュ支持率が55~63%である 確率は、95%である。 59% 61% 不支持率 →標本数と精度の関 係を知る必要 標本数 ブッシュ チェイニー パウエル 予算が許す限り多 くする 一定の精度を満た す範囲でできる限 り少なく 母平均 中心極限定理 標本平均 平均値・・・真の値に近い方が良い 分散(バラツキ)・・・小さい方が良い 1 11 12 13 精度を測定するには? 測定結果の精度 真の値:母平均 調査方法の精度×調査回数 高精度の測定 調査結果の精度 真の値:重りの重さ 秤の精度×測定回数 高精度の測定 いつも同じ秤を使うから、精度の調査は一回限り 高精度の秤で何回も測定し、その平均を計算 高精度の調査方法で何回も調査し、その平均を計 算 一般的には しかし標本調査では 14 真の値を知っている 調査(測定)を複数回行なう 真の値は分からない 調査は原則として一回限り 15 16 実験のための数値例 調査(測定)の実施回数 真の値 真の値 一回 知らない リサーチ問題:大学生のスポーツ観戦回数 母集団:大学生全員・・・5人 (A,B,C,D,E) 調査(測定)の実施回数 複数回 一回 標本調査 知っている 知らない はかり 複数回 大学生 標本調査 A 知っている 今日のテーマ 18 B C D E 回数 20 真の値(母集団の平均) 母集団の度数分布(ヒストグラム) 平均(mean), 期待値(expectation) N:データの個数 ü ýとする時 x: n n番目のデータþ 5 4 人 数 21 3 2 1 0 0 1 2 3 回数 4 5 x ü ï x + x + + xN 1 E [ x ]ý = 1 2 = N N ï mx þ N åx n =1 n 2 22 23 考える方法 標本数が3の場合 標本数が2の場合 標本数と精度の関係を実際に 計算してみる 出来ることからやってみる (A,B) (A,C) (A,D) (A,E) (B,C) (B,D) (B,E) (C,D) (C,E) (D,E) 1. 2. 3. 4. 何が分かっているか 何が出来るか 作業仮説 5. 25 6. 7. 8. あとは試行錯誤 9. 10. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. (A,B,C) (A,B,D) (A,B,E) (A,C,D) (A,C,E) (A,D,E) (B,C,D) (B,C,E) (B,D,E) (C,D,E) 27 1. 2. 3. 4. 5. 30 標本数が4の場合 調査結果の平均? (A,B,C,D) (A,B,C,E) (A,B,D,E) (A,C,D,E) (B,C,D,E) 標本数 標本調査の精度を どの様に定義するか? 32 調査結果の平均は 標本数に依らず常に一定 しかも に等しい (母集団の平均) これはいつでも成立する、 統計学上の重要な性質 平均の普偏性(unbiased) 1 1, 4, 1, 4, 5 2 2.5, 1.0, 2.5, 3.0, 2.5 4.0, 4.5, 2.5, 3.0, 4.5 3 2.0, 3.0, 3.3, 2.0, 2.3 3.3, 3.0, 3.3, 4.3, 3.3 4 2.50, 2.75, 3.50, 2.75, 3.50 5 3.0 平均 33 平均は精度の指標にならない 調査結果 調査結果の平均は 標本数に依らず常に一定 しかも母平均(母集団の平均) に等しい これはいつでも成立する、 統計学上の重要な性質 34 調査結果のバラツキ? 調査結果の精度が高い ⇔調査結果が標本の選び方によらず いつも同じような値になる ⇔調査結果にバラツキがない 平均の普偏性(unbiased) 3 35 36 調査結果の分布(回数) 37 バラツキをどの様に表現するか? (標本数が4の場合) 調査結果の分布(割合) 標本数1 標本数2 標本数3 標本数4 10 8 6 標本数1 標本数2 標本数3 標本数4 1.0 0.8 0.6 調査結果 平均との差 その二乗 (A,B,C,D) 2.50 -0.50 0.25 (A,B,C,E) 2.75 -0.25 0.06 4 0.4 (A,B,D,E) 3.50 +0.50 0.25 2 0.2 (A,C,D,E) 2.75 -0.25 0.06 0 0.0 (B,C,D,E) 3.50 +0.50 0.25 平均 3.00 0.00 0.18 1 2 3 4 5 1 2 3 4 5 38 1 ìï ( 2.50 - 3 ) + ( 2.75 - 3 ) + ( 3.50 - 3 ) í 5 ï + ( 2.75 - 3 ) 2 + ( 3.50 - 3 )2 î = 0.18 2 40 分散 (variance) 標本数が4の場合の分散 2 39 2 üï ý ïþ 母分散の計算 sx2 ü 2 2 2 ï ( x - x ) + ( x2 - x ) + + ( xN - x ) V ( x )ý = 1 N s x2 ïþ 1 N 2 = å ( xn - x ) N n=1 41 (1 - 3 ) 計算式 母集団 1 N å(x n - x) 2 1 2 å ( xn - x ) N -1 母分散 標本 + ( 4 - 3 ) + (1 - 3 ) + ( 4 - 3 ) + ( 5 - 3 ) 5 2 2 2 2 = 2.8 42 43 調査結果の分散 計算の対象となるデータ 2 分散の一般的な性質 標本数 調査結果 分散 1 1, 4, 1, 4, 5 2.80 2 2.5, 1.0, 2.5, 3.0, 2.5 4.0, 4.5, 2.5, 3.0, 4.5 1.05 3 2.0, 3.0, 3.3, 2.0, 2.3 3.3, 3.0, 3.3, 4.3, 3.3 0.47 4 2.50, 2.75, 3.50, 2.75, 3.50 0.18 5 3.0 分散≧0 分散が小さい ⇔データのバラツキが小さい 4 44 まとめ 分散と精度の関係 調査結果の精度が高い ⇔調査結果の分散が小さい ⇔標本数が多い 5