Comments
Description
Transcript
Xバー
計量経済学 講義 第 4 回 記述統計の基礎 Part 1 2013 年 10 ⽉ 18 ⽇(⾦)2 限 担当教員: 唐渡 広志 研究室: 経済学研究棟4階432号室 email: website: [email protected] http://www3.u-toyama.ac.jp/kkarato/ 1 講義の目的 ⼀般的なデータの集約⽅法や記述⽅法につ いて学びます。 keywords: 度数分布表,ヒストグラム,標本平 均,偏差,偏差2乗和,標本分散,標本標準 偏差 教科書: pp. 36–38, 44–50(第2章) 2 度数分布表とヒストグラム (1) pp.36-38 度数分布表の作成⼿順 (Excel) 1. 【全度数】(データサイズ)を調べる[count 関数] 2. 【階級数】概算値 [1+log2(全度数)] 3. 【最⼩値】[min 関数] 4. 【最⼤値】[max 関数] 5. 【範囲】[最⼤値-最⼩値] 6. 【階級の幅】(の⽬安) = 「範囲」/「階級数」を計算 7. 【階級の設定】(○○以上××未満) 階級数や階級の幅は⼀つの⽬安と考える。 階級の幅は区切りのよい間隔を持たせた⽅がわかりやすい。 3 度数分布表とヒストグラム (2) 度数を求める⽅法 階級の上限に対応した値を「区間配列」 データとして記述する。 「5 万円未満」なので,階級の上限を 4.9 とする。 データ配列 区間配列 frequency 関数を利⽤して,最初の 階級の度数だけを計算する。 = frequency (データ配列,区間配列) 4 度数分布表とヒストグラム (3) いま計算した「最初の階級の度数」と「これから計算 予定の度数」のセルを選択状態にする。 数式バーの⼀番左側をクリック Ctrl と Shift を押さえたまま Enter (この技のことを「配列コピー」とよぶ) 完成(操作を間違えたら Esc キー) ヒストグラム作成 「挿⼊」タブ 縦棒 2-D縦棒 5 母集団と標本 pp.44-46 ⼀部の情報だけを利⽤して全体の構造を予測 全体の構造の予測 「推定・検定」 全体の構造 (母集団) ⺟集団の平均・分散 ⼀部の情報 (標本) 一部分を利用 「標本抽出」 例(推定) : 標本から計算できる「平均」を⽤いて,⺟集団の平均を予測する。 標本から計算できる「分散」を⽤いて,⺟集団の分散を予測する。 6 母集団(population) ⺟集団:「観察の対象」となっている事柄のあらゆ る「観測値」の集まり 観察の対象(例) a. 2013年10⽉1⽇現在の⽇本⼈の20歳の男性の体重 b. A 市で働いている就業者(25-29歳) 2012年の年収 c. 市⻑選挙での投票結果 d. サイコロを投げた時に出る⽬ e. 富⼭湾深海のホタルイカの卵の数 f. B 社が作る液晶テレビの性能状態(初期不良があるか どうか) g. 22世紀の C 国で⼀⼈の⼥性が⽣涯に産む⼦供の数 7 標本 (sample) と標本の大きさ (sample size) 標本:⺟集団の⼀部分だけを何らかの⽅法(実験,調査,観察など)で観測し た「観測値」の集まり。 標本抽出:⺟集団から「観測値」の⼀部を取り出すこと。 抽出された⼀つ⼀つの観測値のことを「観測データ」または単に「データ」ともよぶ。 母集団 就業者( 25-29歳 )の年収 標本抽出 標本 260,209,99,256,280, 121,286,564,457,405 sample size: n = 10 観測値 or 観測データ or データ ⺟集団から取り出した標本内の観測データ の数のことを「標本の⼤きさ(標本サイズ, sample size)」とよぶ.標本数とはよばな い! 記号 n で標本の⼤きさを表す。 8 例.標本抽出(sampling)による調査 「家計調査」(総務省) 家計の収⼊と⽀出に関する調査→家計簿的な統計 ⽇本全体の世帯⼈員が⼆⼈以上の世帯数は3,400万(単⾝世帯 を含めると4,600万) 家計調査で標本抽出された⼆⼈以上の世帯数(標本サイズ) は8,000 • 全体の 0.024% だけを利⽤している. 「労働⼒調査」(総務省) 就業状態についての調査 標本抽出される世帯数(標本サイズ)は約4万世帯(10万⼈) 2010年の失業者数は334万⼈,就業者数は6257万⼈ 9 標本の「数」と標本の「大きさ」(1) ⺟集団 就業者( 25-29歳 )の年収 標本抽出 標本 (a) 260, 209, 99, 256, 280, 121, 286, 564, 457, 405 標本 (b) 253, 666, 814, 156, 625, 418, 216, 172, 208, 217 標本 (c) 235, 213, 375, 302, 486, 306, 392, 376, 526, 841 一つの標本 = 観測値10個の塊 標本の大きさ(標本サイズ): n = 10 標本の数 = 3 10個の観測値からなる標 本が3セットある状態 注意:標本抽出のたびに異なる観測値が得られる。 10 標本の「数」と標本の「大きさ」(2) 母集団 サイコロを投げたときに出る目 標本抽出 標本1 22 25 43 64 26 15 標本2 31 65 21 64 11 61 標本3 14 43 11 45 41 64 標本4 56 14 46 21 46 25 標本の大きさ (標本サイズ) n = 12 標本の数 4(セット) 11 観測データ表 「就業者の年収」標本(a)を例に観測データのまとめ方を考える。 観測データ⼀つ⼀つに「観測番号」をつける。 任意の観測番号を i という記号で表す. 観測データ表 標本サイズが n = 10 のとき i = 1, 2, … ,10 第 i 番⽬の観測データを Xi という記号で表す. 観測番号順に観測データを並べた表を「観測データ表」 とよぶ. 例:記号と値の対応 X1 260 X 2 209 12 観測データ 【定義】サンプルサイズ n の観測データの塊 X i X1 , X 2 ,, X n データの塊を { } で括って表わす ・・・ は省略の記号 例. X i 7, 1, 2, 3, 0 13 標本平均 (Sample Mean) (1) 【定義】標本平均: 観測データ X i の平均 X1 X 2 X n X n X : エックス・バーと読む 例.n 4, X i 2, 3, 5, 6 のとき X X1 X 2 X 3 X 4 2 3 5 6 16 4 4 4 4 14 標本平均 (Sample Mean) (2) 標本平均は左右のバランスがちょうど取れる場所にある 標本平均 2 -2 0 3 2 5 4 6 6 8 10 12 14 8 10 12 14 X 0 -2 0 3 2 6 4 6 7 Y 0 -2 p.47 図2.8 0 3 2 13 4 6 8 10 12 14 Z 15 平均周りの「偏差」(1) 各データと平均との距離を合計するとちょうど0になる. 「各データ」と「平均」との距離を平均まわりの「偏差」とよぶ. deviation 偏差 Z1 Z 0 4 4 4 Z 2 Z 0 4 4 4 Z 3 Z 3 4 1 1 Z 4 Z 13 4 9 0 9 13 3 Z 4 合計するとちょうど 0 になっている 16 平均周りの「偏差」(2) 偏差の合計は必ずゼロになる n 個の観測データ:X i X 1 , X 2 , , X n について Xを標本平均とするとき ,必ず X 1 X X 2 X X n X 0 が成り立つ. 見方を変えると・・・ X 1 a X 2 a X n a 0 のとき,必ず a X 各データからaという値を引いたときの合計が0ならば, 「aの値は標本平均X に等しい」. 17 練習問題(1)手計算 観測データ X i 6, 1, 3, 2 の偏差の合計が 0になることを確認しなさい. 18 自由度 X X1 X 2 X 3 X 4 のとき,以下のX 4 X はどのような値か? 4 X1 X 2 X1 X 4 X1 X 12 X2 X 3 X 2 X 3 X 2 X 88 X 3 X 1 X3 X 2 X3 X 5 X4 X ? X4 X ? X4 X ? ・4つの偏差のうち3つまでわかっていれば,残り一つは自動的に求められる. 残り1つは自由に任意の値をとることができない(情報として必要ない). 4つのうち3つは任意の値をとることができる. ( n = 4 のとき自由度は3である) 19 練習問題(2)手計算 [1]. n 5の観測データ X i について以下のことが わかっている。 b の値を求めなさい。 X X 1 1 X2 X 4 X3 X b X4 X 3 X5 X 3 [ 2]. n 3の観測データ Y i について以下のことが わかっている。 c の値を求めなさい。 Y1 Y c Y2 Y 12 Y3 Y 4 20 データの「ばらつき」を示す特性値(pp.48 - 52) 偏差2乗和(Sum of Squares) S xx X 1 X X 2 X X n X 2 2 2 分散(Variance): 偏差2乗和を⾃由度で割った値 S xx 2 sx 添え字の x を省略して s 2 と書く場合もある n 1 標準偏差(Standard Deviation):分散の平⽅根 s x s x2 添え字の x を省略して s と書く場合もある 変動係数(Coefficient of Variation):標準偏差を平均で割った値 sx CV X 21 偏差2乗和 Sxx 偏差を合計すると必ず0になってしまう. X 1 X X 2 X X n X 0 どんなデータでも必ず成⽴するので,合計するだけでは意味がない そこで,偏差を2乗してから合計したものを散らばり具合の指標 として使う(2乗すると符号は?) これを偏差2乗和とよぶ(記号は Sxx) 【定義】n 個の観測データ:X i X1 , X 2 ,, X n について X を標本平均とするとき 偏差2乗和 : S xx X1 X X 2 X X n X 2 2 2 記号:大文字の S に下付きの添え字 xx 22 例.偏差2乗和の計算 偏差2乗和 : S xx X 1 X X 2 X X 3 X X 4 X 2 2 2 2 2 1 12 2 2 4 1 1 4 10 2 2 23 【重要】偏差2乗和の注意点 合計してから 2 乗してはいけない 偏差の合計は 0 であることに注意 偏差を合計してから 2 乗しても 0 になる. 「和の2乗」と「2乗の和」は意味が異なる点に注意 偏差の和の 2 乗 X 1 X X 2 X X 3 X X 4 X 2 2 ( 1) 1 2 0 2 0 2 偏差 2乗和 S xx X 1 X X 2 X X 3 X X 4 X 2 2 2 2 2 ( 1) 2 12 2 2 4 1 1 4 10 2 24 練習問題(3):偏差2乗和 Sxx を計算しなさい. 25 標本分散 sx2 【定義】 n 個の観測データ: X i X 1 , X 2 , , X n について X を標本平均とするとき S xx X1 X X 2 X X n X n 1 n 1 2 分散:s x2 小文字の s を使う 2 2 分散 = 偏差2乗和を「自由度」で割った値 偏差2乗和を⾃由度 n − 1 で割った値を標本分散とよぶ. n − 1 を⾃由度とよぶ. なぜ標本サイズ n ではなく,⾃由度 n − 1 で割るのか. • n 個の偏差のうち,必要な情報は n − 1 個で⼗分だから。 • 分散 = 「必要な情報1個当たり」の散らばり具合を測っている。 • 実は n − 1 で割った⽅が,⺟集団分散の良い推定になっている。(nで割ると, ⺟集団分散を過少に推定してしまうことが知られている) 26 母集団と標本の対応関係:標本分散は母集団の分散を予測するために用いられるもの ⺟集団 [観察の対象] 標本抽出 n =25 富⼭市の40歳既婚⼥性の⼦供の数 有限⺟集団 1700⼈ 標本平均:2.04人 標本分散:1.29 12122 23215 33101 31222 33303 母集団の平均:1.9人 母集団の分散:1.09 s x2 S xx n 1 8 0 2 4 度数 6 400 200 度数 600 標本のヒストグラム 0 1 2 3 子供の数 4 5 0 1 2 3 4 5 子供の数 27 例.標本分散の計算 偏差2乗和を計算してから標本 分散を計算する X1 X X 2 X X 3 X X 4 X 2 分散 s x2 2 2 2 n 1 4 1 1 4 10 4 1 3 28 標本標準偏差 【定義】 n 個の観測データ: X i X 1 , X 2 , , X n について X を標本平均, s x2 を標本分散とするとき 標準偏差:s s 2 小文字の s を使う なぜ,平⽅根なのか? 分散は計算の過程で2乗しているので,データの単位も2乗されてしまう.単位 を元に戻すために平⽅根をとる 例1. 分散:s x2 10 3 10 標準偏差: s x 1.826 3 例2. T⼭⼤学K済学部 1 年⽣男⼦207名の⾝⻑ 平均 : X 171.57 cm 分散:s x2 32.29 ←単位はつかない 標準偏差: s x 32.29 5.68 cm 29 Excel 関数 平均 average 関数 (mean) 偏差2乗和 devsq 関数 (sum of squared deviation) 標本分散 var 関数 (variance) 標本標準偏差 stdev 関数 (standard deviation) 例題 8 (p.88) 演習問題 問2 {Xi} = {16, 26, 8, 30, 45} 30 まとめ n 個の観測データ X i X 1 , X 2 , , X n について 31