Comments
Description
Transcript
統計学 テキストの69ページに、平均偏差・分散・標準偏差・変動係数
統計学 テキストの69ページに、平均偏差・分散・標準偏差・変動係数・標準誤差・信頼区間 に関する記述がある。 分布を考える 分布の中心の位置 (例) 65、53、44、78、50 の数値の算術平均は (65+53+44+78+50)/5=58 である。 此れだけでは、分布の状態がわからない。ばらつきの程度を表すには 最大値と最小値との差 (78-44)=34 これをレンジ(範囲)と言う。 しかし、両端の数字だけでは、その間にある分布状態は少しも反映されていない。 すべての点の分布状態を反映させるには,各点の重心(算術平均)からの距離を測 れば良い。 しかし、それぞれの数値から算術平均を引いた値(『偏差』と言う)を加えると ゼロになってしまう。 65-58=7 53-58=-5 44-58=-14 78-58=20 50-58=-8 7+(-5)+(-14)+20+(-8)=0 したがって、ばらつきを表すには、偏差の符号をなくしてから平均化する必要がある。 そのひとつの方法は、 ①偏差の絶対値を用いることである。 偏差の絶対値の算術平均を『平均偏差』という。 (7+5+14+20+8)/5=10.8 偏差の符号を取るもうひとつの方法は、 ②それを2乗することです。 偏差の2乗の算術平均を計算し此れによりばらつきの程度を測ることが出きる。 此れを『分散』という。 しかし,分散は2乗するためもとの数字より高い次元の量を表してしまう。 ③与えられた数字と同じ次元の量としてばらつきを表すためには 分散の平方根を用いれば良い。 『標準偏差』とは分散の平方根 平均偏差=偏差の絶対値の算術平均 分散=偏差の2乗の算術平均 標準偏差=分散の平方根 計算してみると 分散=146.8 標準偏差=√146.8=12.1 偏差平方和(S)=偏差の2乗の和 分散(V)、s2=S/(n-1) 標準偏差=s=√S/(n-1) なぜ、nでなく(n-1)で割るのか。 母集団と標本を区別する時、標本の分散は(n-1)(自由度と言う)で割っておいたほうが母集 団の分散の推定値としてより好ましい性質を持つからです。 正規分布 (Normal distribution)正規分布は平均値と分散を決めれば、その形が決まる。 平均値µを中心として左右対称である。 標準偏差σは曲線の形を決める。 σの値が大きければ曲線は扁平になり、値が小さければ狭く高くなる。 どの場合も、µ-σとµ+σにおける曲線状の点は編曲点となる。 µ+σ、µ―σの間の正規曲線下の面積は、全面積の約68% 。 ±2σ 約95% ±3σ 約99.7% 標準誤差 平均値のばらつきを示す 推定値Xの標本分布が近似的に正規分布とみなされる時は この標本の平均値,分散,標準偏差をE〔X〕、V〔X〕、δxと表す。 仮に、目指す母数AがE〔X〕に等しいか,其れにごく近いとすると、 X-1.96δx≦A≦X+1.96δx 此れがAの信頼率95%の 信頼区間になる。 つまり、信頼率95%で、差(X-A)の標本誤差はせいぜい±1.96δx であると言える。 母数AとE〔X〕が等しいと言う仮定では、δxの値を評価できれば、推計値X の標本誤差の程度を知ることができる事になる。 その意味でこのδxのことを標準誤差とも言う。 問題は・・・・標準誤差δx、その2乗である分散V〔X〕をどう評価するかである。 其れは抽出方式、推定方式によって異なる。 標本調査 母集団と標本 母集団 全数調査 →← 標本 標本調査 標本抽出・・・母集団から標本を抽出すること その際、母集団と等しい確率を持った標本を得るために 無作為抽出(random sampling)などが用いられる 標本抽出法 ①単純無作為抽出法 母集団の対象を一連の番号化し、 乱数表を用いる 例題 600人から30人の標本を作る場合 ⅰ)600人に番号をつける ⅱ)一様乱数表を用いる(0から9までの数字がどの数字も10分の 1の確率で無作為に出現している表デス) ⅲ)最初の番号を決める (正20面体の乱数さいころなどを使う。3個) 00行の00列と言う具合です ⅳ)方向を決める(上でも下でも斜めでも良い・・・) ⅴ)たとえば、最初に第10行第21列と決まると、この場合は3桁の 数字を読むとすれば、863を得る。 ここを出発として下へ30個拾い上げると、562,603,813・・ と続く事になります。 ②系統抽出法 最初の数字を乱数表で決める (この場合、600÷30=20だから、 1から20までの数字になるように乱数表で決めると言うこと) 次には最初の数字、例えば4なら20づつ足して、24、44、 64,84・・・・と30人を選ぶ ③集落抽出法 事前に母集団に似たいくつかの小集団を作っておく その手段を無作為に抽出する方法 ④層別抽出法 属性の似た者をいくつかの層に母集団を別けておき、その各層 ごとに無作為抽出する 例えば、20歳代、30歳代の年齢別 の層など ⑤多段抽出法 母集団を一定の抽出単位に別けておく 例えば、日本を県単位・市町村単位・町内単位・各世帯に 度数分布 データの整理・・・内容を把握しやすくする 度数分布が代表的 データを小さいものから大きいものに順次並び替える それをいくつかの階級に別ける 各階級にどのように分布するかを調べる 度数・・・各階級に属するデータの数 累積度数・・・最初から順番に足して・・・その階級のでの 累積数をいう ヒストグラム・・・縦軸に度数、横軸に階級とした図形 階級の数は・・・・・10こ前後が良い •累積相対度数・相対度数 相対度数(%)・・ 各階級の度数を総度数で割った値 累積相対度数(%)・・・・ 各階級の累積度数を総度数で割った値 この累積相対度数をもとに縦に百分率、 横に階級を取った図・・・・累積相対度数グラフにおいて 50%にあたる当るデータは中央値となる これを50パーセンタイル値(percentile)とよぶ 25、75パーセンタイル値は4分位(quartile) 具体的例題は歯科衛生統計テキストP66 表5-2,3 平均値 •中央値 小さいほうから順位並べた時の中央値 累積相対度数の50パーセンタイル値 •最頻値 度数分布においては・・・・ 度数の一番多い階級の中央値 標準偏差(standard deviation) • データのちらばり方を表す代表的値 前出(プリント参照) 標準偏差・・ √Nで割ると・・・標準誤差 ・変異係数(CV) 二つのサンプルのばらつきを比較するとき 通常は標準偏差で充分比較できるが・・・・・・ 平均値に大きな差があるときは標準偏差も差が生まれてくるの で、このような場合はCVの方が適している CV=(標準偏差 / 平均)×100(%) カイ二乗検定 • この検定を採用するケース・・・のイメージ • ハイ・イイエ とか・・・ 1 or 0 とか・・・ 体重とか身長のようにある程度自由に変化す る数字ではなく、2つまたは3,4個くらいしか選 べない中での、標本の検定に使う 標本百分率の 標本百分率の差の検定 A・B二つの工場の社員を対象にアンケート調査を実施した。歯磨きに関 する項目で、時間をかけて丁寧に磨いているか否かを(ハイ 、イイ エ)形式で調べた結果が下記にある。 両工場において差があるかを検定しなさい。2×2分割表とカイ二乗分布 表を利用する。 ハイ イイエ 10 40 (① 50 ) ) 15 35 (② 50 ―――――――――――――――――――――――― (③ 25 ) (④ 75 ) (⑤ 100 ) • A工場 • B工場 • • • • カイ二乗=(⑥ 10×35-⑦ 40×15 )2 ×(⑧ 10 0)/(⑨ 25・75・50・50 ) • =(⑩ 1,33 ) • 計算した結果を比較する ・・カイ二乗分布表では、自由度1の有意 水準 5%と1% を見ると3, 841 と 6,63 5 であるの で・・・・・・有意の差が(⑪ ない )となる。 このケースは有意の差がない・・ ならば・・どのようになっていれば・・・有意の差がある? • A工場 10 40 (① 50 ) • B工場 15 35 (② 50 ) • ―――――――――――――――――――――――― ) (⑤ 100 ) • (③ 25 ) (④ 75 • • カイ二乗=(⑥ 10×35-⑦ 40×15 )2 ×(⑧ 1 00)/(⑨ 25・75・50・50 ) ) • =(⑩ 1,33 一般式から • 疾病(歯磨き) あり なし 合計 • 要因 • A工場 a b a+b • B工場 c d c+d • (a+c) (b+d) (a+b+c+d) • カイ二乗= (adーbc)2乗 (a+b+c+d)/(a+c)・(b+d)・ (a+b)・(c+d) ①同じ率でもサンプル数が2倍なら?4倍なら? ② (adーbc)2乗 の値が大きくなるようにする ①人数を大きくする • A~dを 各2a~2dとする • (adーbc)2乗 (a+b+c+d)/(a+c)・(b+d)・(a+b)・(c+d) ↓ • {(adーbc)・(2・2)}2乗 (a+b+c+d)・2/ (a+c)・(b+d)・(a+b)・(c+d)・2・2・2・2 結局 16×2/16=2 結果の数字は2倍になる サンプル数がN倍なら 値もN倍になる 同じ比率でもこのままの比率で4倍の人数なら 1.33×4=5,32 となり有意の差がある ② a・d-c・b)の値を大きくする • (adーbc)2乗 (a+b+c+d)/(a+c)・(b+d)・(a+b)・(c+d) • ↓ (adーbc)2乗 を大きくすると言うことは aとdが大きければいい つまり、a=要因ありで疾病があるケースが多いこと b=要因なしで疾病がないケースが多いこと 当たり前のことだが 両極端に分かれた状態なら優位の差があるというこ とで、これは一目瞭然で検定する以前に直感的に察知できる。 大数の法則 • 調査する集団の特徴に関しては、 調査量を大きくすれば(大標本)、より明確なもの が得られる 分散・平均値など ・一方、大標本を前提としないで、小標本から母集 団の知識を導こうとする推計的な 手段がある。 ex)標本からの母集団の平均・標本間の検定 割合の差の検定・・・・など 1)度数分布(テキストの20ページ) 度数分布表の作り方 • 1)最大値と最小値を求める • 2)範囲を算出する • 3)階級の数を決める 普通は10こ前後に・・・ ①シャリエの方法(大標本) 階級の幅を標準偏差の1/3に ②フィシャーの方法(小標本) 階級の幅を標準偏差の1/4に 一般的には・・・小標本は標準偏差の値が大きく出 るので、1/3だと幅が大きすぎる・・・・ 2)代表値 • 平均値 算術平均 幾何平均(あまり使われない) • 中央値 • 最頻度(モード 流行値 M0) • 百分位(パーセンタイル、 P) テキストの21ページ 3)ばらつき・・4・変異係数 • 分散や標準偏差を2つ以上の集団で比較す るとき、平均値や単位が著しく異なっていると き・・・・・変異係数を用いたほうが理解しやす い(表5-5) (例 人のジャンプと蚤のジャンプ) CV=標準偏差/平均値 4)相関 テキストの22ページ • 二つの事象において、一方が変化すると 他方も変化すると言う関係を表すもの。 例えば 身長と体重 勉強時間と試験の成績 しかし、二つの事象の関係でも、その数量が 3とか4等と少なく、限られているものは、 この方法には適さない 4)相関 • 二つの事象において、一方が変化すると 他方も変化すると言う関係を表すもの。 例えば 身長と体重 勉強時間と試験の成績 しかし、二つの事象の関係でも、その数量が 3とか4等と少なく、限られているものは、 この方法には適さない • 相関係数 相関係数;rは -1から+1までの値をとる 0から0,2 ・・・ほとんど相関がない 0,2から0,4・・・やや関係あり 0,4から0,7・・・かなり相関がある 0,7から1.0・・・強い相関がある 相関とカイ二乗分布検定 テキストの24ページ 相関に適さない場合 ・良い・悪いとか赤・白・黒などの性質が含まれると き ・たとえ関係する二つの事象が数字であっても、そ の数量地が0・1.2等の3種類と少ない場合 このような時はカイ二乗検定がふさわしい グラフにプロットすると・・・・可能性的には 無限にプロットするポイントがあることが望ましい 5)回帰直線 • 図5-4 のように XとYの両者の関係において 両者の関係を一次関数で表したもの 第6章・推定と検定 推測統計 • 標本が正しく抽出されていれば • ①標本から母集団の値を推定することは可能 • ②標本相互の値を比較することで母集団に差があ るのかを比較することが可能 • しかし、正確な標本抽出ができないような場合は記 述統計手段(度数分布・分散・相関・回帰直線など) で終わるほうが適切である 差の検定(超大切デス) • ①差はないという仮説を立てる • ②実際に得られた差が偶然である確率を求 める • ③その確率が5%以下なら、危険率5% で有意の差を認める 検定 推計とは母数に対して何の予備知識もなく,その値はいくらであるかを知ろうとす るものであるが、『検定』では母数に対して何らかの予想を持っていて,其れを 仮説と言う形で表し、その真偽を標本(サンプル)に基づいて検証しようとする ものである。 母平均の検定 大標本の場合 母集団の分布が正規分布に近いと想定される時の検定 サンプル数n≧30 そうでない時でも、n≧50 として良い。 z=(x-µ)/δ÷√n 値を求めて、正規分布表をみれば解る。 そうでなくても危険率α=0.05になる値(2Sd)1.96 α=0.01になる値(3Sd)2.576 をあらかじめ知っておけば即,判定できる。 小標本の場合 母集団の標準偏差が未知で、かつ標本の数が小さい場合 t分布、t検定を用いる t表を用いる 分散に関する推定と検定 (カイ2乗) χ2乗分布,χ2乗検定 χ2 推定・検定を行うとき • 一般的には・・・ ① 平均値は 正規分布 か tー分布を 利用する ②割合・・カイ二乗分布 ③分散分析・・・F-分布 ①標本平均からの推定と検定 • 図6-1 • 正しい抽出法により得られた標本の平均値 はおそらく母集団の平均値と非常に近い値 を示すだろう しかし必ず同一となるとは限らない それでも図6-1のように、どのような母集団か らでも標本の平均値は母集団の平均値を中 心に一つの分布を形成する このとき、標本の数が30以上の大標本は正規 分布をする(中心極限定理) ②標準誤差 • 標本の標準偏差は 特に 標準誤差(SE)と もいう • SE=σ/√n ③不偏分散(標本の分散) • 母集団の母分散(σ二乗)は、 実際にはわか らないことが多い このとき、標本の分散 (S二乗)をデータから 得て使用する。不偏分散という σとSの違いは nで割るか(nー1)で割るかの違い この(nー1)をd、f(degree of freedom)という • 1)標本平均からの推定と検定 ①標本平均からの母平均の推定 母分散が解っている場合の母平均の推定 母分散がわからない場合の推定 ②標本平均の差の検定 大標本平均と母平均の差の検定 二つの大標本の検定 小標本平均と母平均との差の検定 対応ある二つの小標本平均の差の検定 対応のない二つの小標本平均の差の検定 • 2)標本百分率からの推定と検定(テスト) • 3)実験計画法 標本平均からの母平均の推定 • 母分散がわかっている場合 正規分布を使う 信頼限界95% 99% • 一般的に、信頼限界は95%または99%で推計 することが多い • 大雑把に±2SEの範囲は95,4%だから、2SE を使っても良いが・・・正確には 95%信頼限界は 母集団の平均値=標本平均±1,96SE 99%信頼限界は 母集団の平均=標本平均±2,58SE テキストの71ページ・・・信頼区間を参照 標本平均から母平均の推定 • 母分散が分からない場合 tー分布を使う t 分布 • 母分散がわかる場合は 正規分布 • 例 P91 • 母分散がわからない場合は t分布 • t-分布は正規分布とよく似た形態をとる nが30以上になるとほとんど正規分布とな る tー分布で 自由度 n=∞・・・正規分布と同じ 母分散がわからない場合の母平均を推定・・・・t-分布を利用する P96例題 実習 • 1)歯肉の良い者 指導を受けた者では45/53 受けない者 18/55 • 2)2×2 分割表を作る • 3)仮説を立てる(関係がない、差はないと する) • 4)仮説どおりなら・・・期待値 理論値を求 める(表 6-6) 5 • 5)教科書のように計算すると・・・・表を二 つ作る必要がある • それで、一般式を用いることにする • ΧΧ= (ad-bc)(ad-bc)(a+b+c+d)/ (a+c)(b+ d)(a +b)(c +d) • (45×37-8×18)二乗×108/ 63×45×53×55 =1521×1521×108/8526375 =249851628/8526375 =29,30 • 表を読むと 29、3は 危険率1%の 値10,8277をはるかに超えている つまり、この仮説(関係がない、差がない)は 実際は起こりえない事象であるといえる ということは、関係がある 差があると言うこ とになる 試験問題は。。P214の例題4 から出しま す 実際にやってみましょう! 重要です 第三4分位・・・