統計学テキストの69ページに、平均偏差・分散・標準偏差・変動係数

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 統計学テキストの69ページに、平均偏差・分散・標準偏差・変動係数

Transcript

統計学テキストの69ページに、平均偏差・分散・標準偏差・変動係数

統計学
テキストの６９ページに、平均偏差・分散・標準偏差・変動係数・標準誤差・信頼区間
に関する記述がある。
分布を考える
分布の中心の位置
（例）
６５、５３、４４、７８、５０
の数値の算術平均は
（６５＋５３＋４４＋７８＋５０）／５＝５８である。
此れだけでは、分布の状態がわからない。ばらつきの程度を表すには
最大値と最小値との差（７８－４４）＝３４これをレンジ（範囲）と言う。
しかし、両端の数字だけでは、その間にある分布状態は少しも反映されていない。
すべての点の分布状態を反映させるには，各点の重心（算術平均）からの距離を測
れば良い。
しかし、それぞれの数値から算術平均を引いた値（『偏差』と言う）を加えると
ゼロになってしまう。
６５－５８＝７
５３－５８＝－５
４４－５８＝－１４
７８－５８＝２０
５０－５８＝－８
７＋（－５）＋（－１４）＋２０＋（－８）＝０
したがって、ばらつきを表すには、偏差の符号をなくしてから平均化する必要がある。
そのひとつの方法は、
①偏差の絶対値を用いることである。
偏差の絶対値の算術平均を『平均偏差』という。
（７＋５＋１４＋２０＋８）／５＝１０．８
偏差の符号を取るもうひとつの方法は、
②それを２乗することです。
偏差の２乗の算術平均を計算し此れによりばらつきの程度を測ることが出きる。
此れを『分散』という。
しかし，分散は２乗するためもとの数字より高い次元の量を表してしまう。
③与えられた数字と同じ次元の量としてばらつきを表すためには
分散の平方根を用いれば良い。
『標準偏差』とは分散の平方根
平均偏差＝偏差の絶対値の算術平均分散＝偏差の２乗の算術平均
標準偏差＝分散の平方根
計算してみると
分散＝１４６．８
標準偏差＝√146.8＝12.1
偏差平方和（S）＝偏差の２乗の和
分散（V）、s２＝S／（ｎ－１）
標準偏差＝ｓ＝√Ｓ／（ｎ－１）
なぜ、ｎでなく（ｎ－１）で割るのか。
母集団と標本を区別する時、標本の分散は（ｎ－１）（自由度と言う）で割っておいたほうが母集
団の分散の推定値としてより好ましい性質を持つからです。
正規分布
（Normal distribution）正規分布は平均値と分散を決めれば、その形が決まる。
平均値µを中心として左右対称である。
標準偏差σは曲線の形を決める。
σの値が大きければ曲線は扁平になり、値が小さければ狭く高くなる。
どの場合も、µ－σとµ＋σにおける曲線状の点は編曲点となる。
µ＋σ、µ―σの間の正規曲線下の面積は、全面積の約６８％。
±２σ
約９５％
±３σ
約99.7％
標準誤差
平均値のばらつきを示す
推定値Ｘの標本分布が近似的に正規分布とみなされる時は
この標本の平均値，分散，標準偏差をＥ〔Ｘ〕、Ｖ〔Ｘ〕、δｘと表す。
仮に、目指す母数ＡがＥ〔Ｘ〕に等しいか，其れにごく近いとすると、
Ｘ－１．９６δｘ≦Ａ≦Ｘ＋１．９６δｘ此れがＡの信頼率９５％の
信頼区間になる。
つまり、信頼率９５％で、差（Ｘ－Ａ）の標本誤差はせいぜい±１．９６δｘ
であると言える。
母数ＡとＥ〔Ｘ〕が等しいと言う仮定では、δｘの値を評価できれば、推計値Ｘ
の標本誤差の程度を知ることができる事になる。
その意味でこのδｘのことを標準誤差とも言う。
問題は・・・・標準誤差δｘ、その2乗である分散Ｖ〔Ｘ〕をどう評価するかである。
其れは抽出方式、推定方式によって異なる。
標本調査
母集団と標本
母集団
全数調査
→←
標本
標本調査
標本抽出・・・母集団から標本を抽出すること
その際、母集団と等しい確率を持った標本を得るために
無作為抽出（random sampling）などが用いられる
標本抽出法
①単純無作為抽出法
母集団の対象を一連の番号化し、
乱数表を用いる
例題
６００人から３０人の標本を作る場合
ⅰ）６００人に番号をつける
ⅱ）一様乱数表を用いる（０から９までの数字がどの数字も１０分の
１の確率で無作為に出現している表デス）
ⅲ）最初の番号を決める
（正２０面体の乱数さいころなどを使う。３個）
００行の００列と言う具合です
ⅳ）方向を決める（上でも下でも斜めでも良い・・・）
ⅴ）たとえば、最初に第１０行第２１列と決まると、この場合は３桁の
数字を読むとすれば、８６３を得る。
ここを出発として下へ３０個拾い上げると、５６２，６０３，８１３・・
と続く事になります。
②系統抽出法
最初の数字を乱数表で決める
（この場合、６００÷３０＝２０だから、
１から２０までの数字になるように乱数表で決めると言うこと）
次には最初の数字、例えば４なら２０づつ足して、２４、４４、
６４，８４・・・・と３０人を選ぶ
③集落抽出法
事前に母集団に似たいくつかの小集団を作っておく
その手段を無作為に抽出する方法
④層別抽出法
属性の似た者をいくつかの層に母集団を別けておき、その各層
ごとに無作為抽出する
例えば、２０歳代、３０歳代の年齢別の層など
⑤多段抽出法
母集団を一定の抽出単位に別けておく
例えば、日本を県単位・市町村単位・町内単位・各世帯に
度数分布
データの整理・・・内容を把握しやすくする
度数分布が代表的
データを小さいものから大きいものに順次並び替える
それをいくつかの階級に別ける
各階級にどのように分布するかを調べる
度数・・・各階級に属するデータの数
累積度数・・・最初から順番に足して・・・その階級のでの
累積数をいう
ヒストグラム・・・縦軸に度数、横軸に階級とした図形
階級の数は・・・・・１０こ前後が良い
•累積相対度数・相対度数
相対度数（％）・・
各階級の度数を総度数で割った値
累積相対度数（％）・・・・
各階級の累積度数を総度数で割った値
この累積相対度数をもとに縦に百分率、
横に階級を取った図・・・・累積相対度数グラフにおいて
５０％にあたる当るデータは中央値となる
これを５０パーセンタイル値（percentile）とよぶ
２５、７５パーセンタイル値は４分位（quartile）
具体的例題は歯科衛生統計テキストP６６表５－２，３
平均値
•中央値
小さいほうから順位並べた時の中央値
累積相対度数の５０パーセンタイル値
•最頻値
度数分布においては・・・・
度数の一番多い階級の中央値
標準偏差（standard deviation）
• データのちらばり方を表す代表的値
前出（プリント参照）
標準偏差・・
√Nで割ると・・・標準誤差
・変異係数（CV）
二つのサンプルのばらつきを比較するとき
通常は標準偏差で充分比較できるが・・・・・・
平均値に大きな差があるときは標準偏差も差が生まれてくるの
で、このような場合はCVの方が適している
CV＝（標準偏差 / 平均）×１００（％）
カイ二乗検定
• この検定を採用するケース・・・のイメージ
• ハイ・イイエとか・・・
１ or ０とか・・・
体重とか身長のようにある程度自由に変化す
る数字ではなく、２つまたは3,4個くらいしか選
べない中での、標本の検定に使う
標本百分率の
標本百分率の差の検定
A・B二つの工場の社員を対象にアンケート調査を実施した。歯磨きに関
する項目で、時間をかけて丁寧に磨いているか否かを（ハイ、イイ
エ）形式で調べた結果が下記にある。
両工場において差があるかを検定しなさい。２×２分割表とカイ二乗分布
表を利用する。
ハイ
イイエ
１０
４０
（① ５０
）
）
１５
３５
（② ５０
――――――――――――――――――――――――
（③ ２５）（④ ７５
）（⑤ １００）
• A工場
• B工場
•
•
•
• カイ二乗＝（⑥ １０×３５－⑦ ４０×１５）2 ×（⑧ １０
０）／（⑨ ２５・７５・５０・５０）
•
＝（⑩ １，３３
）
• 計算した結果を比較する・・カイ二乗分布表では、自由度１の有意
水準５％と１％を見ると３，８４１と６，６３５であるの
で・・・・・・有意の差が（⑪ ない
）となる。
このケースは有意の差がない・・
ならば・・どのようになっていれば・・・有意の差がある？
• A工場
１０
４０
（① ５０
）
• B工場
１５
３５
（② ５０
）
•
――――――――――――――――――――――――
）（⑤ １００）
•
（③ ２５）（④ ７５
•
• カイ二乗＝（⑥ １０×３５－⑦ ４０×１５）2 ×（⑧ １
００）／（⑨ ２５・７５・５０・５０）
）
•
＝（⑩ １，３３
一般式から
• 疾病（歯磨き）ありなし合計
• 要因
• A工場
a
b
a＋b
• B工場
c
d
c＋d
•
（a＋c）（b＋d）（a＋b＋c＋d）
• カイ二乗＝
（adーbc）２乗（a＋b＋c＋d）／（a＋c）・（b＋d）・（a＋b）・（c＋d）
①同じ率でもサンプル数が２倍なら？４倍なら？
② （adーbc）２乗の値が大きくなるようにする
①人数を大きくする
• A～dを各２a～２dとする
• （adーbc）２乗（a＋b＋c＋d）／（a＋c）・（b＋d）・（a＋b）・（c＋d）
↓
• {（adーbc）・（２・２）}２乗（a＋b＋c＋d）・２／
（a＋c）・（b＋d）・（a＋b）・（c＋d）・２・２・２・２
結局１６×２／１６＝２
結果の数字は２倍になる
サンプル数がN倍なら値もN倍になる
同じ比率でもこのままの比率で４倍の人数なら
１．３３×４＝５，３２となり有意の差がある
② a・ｄ－c・ｂ）の値を大きくする
• （adーbc）２乗（a＋b＋c＋d）／（a＋c）・（b＋d）・（a＋b）・（c＋d）
•
↓
（adーbc）２乗
を大きくすると言うことは
aとｄが大きければいい
つまり、a＝要因ありで疾病があるケースが多いこと
ｂ＝要因なしで疾病がないケースが多いこと
当たり前のことだが両極端に分かれた状態なら優位の差があるというこ
とで、これは一目瞭然で検定する以前に直感的に察知できる。
大数の法則
• 調査する集団の特徴に関しては、
調査量を大きくすれば（大標本）、より明確なもの
が得られる
分散・平均値など
・一方、大標本を前提としないで、小標本から母集
団の知識を導こうとする推計的な
手段がある。
ex)標本からの母集団の平均・標本間の検定
割合の差の検定・・・・など
１）度数分布（テキストの２０ページ）
度数分布表の作り方
• １）最大値と最小値を求める
• ２）範囲を算出する
• ３）階級の数を決める
普通は１０こ前後に・・・
①シャリエの方法（大標本）
階級の幅を標準偏差の1／３に
②フィシャーの方法（小標本）
階級の幅を標準偏差の１／４に
一般的には・・・小標本は標準偏差の値が大きく出
るので、１／３だと幅が大きすぎる・・・・
２）代表値
• 平均値
算術平均
幾何平均（あまり使われない）
• 中央値
• 最頻度(モード流行値 M0)
• 百分位（パーセンタイル、 P）
テキストの２１ページ
３）ばらつき・・4・変異係数
• 分散や標準偏差を２つ以上の集団で比較す
るとき、平均値や単位が著しく異なっていると
き・・・・・変異係数を用いたほうが理解しやす
い（表５－５）
（例人のジャンプと蚤のジャンプ）
CV＝標準偏差／平均値
４）相関テキストの２２ページ
• 二つの事象において、一方が変化すると
他方も変化すると言う関係を表すもの。
例えば
身長と体重
勉強時間と試験の成績
しかし、二つの事象の関係でも、その数量が
３とか４等と少なく、限られているものは、
この方法には適さない
４）相関
• 二つの事象において、一方が変化すると
他方も変化すると言う関係を表すもの。
例えば
身長と体重
勉強時間と試験の成績
しかし、二つの事象の関係でも、その数量が
３とか４等と少なく、限られているものは、
この方法には適さない
• 相関係数
相関係数；ｒは－１から＋１までの値をとる
０から０，２・・・ほとんど相関がない
０，２から０，４・・・やや関係あり
０，４から０，７・・・かなり相関がある
０，７から１．０・・・強い相関がある
相関とカイ二乗分布検定
テキストの２４ページ
相関に適さない場合
・良い・悪いとか赤・白・黒などの性質が含まれると
き
・たとえ関係する二つの事象が数字であっても、そ
の数量地が０・１．２等の３種類と少ない場合
このような時はカイ二乗検定がふさわしい
グラフにプロットすると・・・・可能性的には
無限にプロットするポイントがあることが望ましい
５）回帰直線
• 図５－４のように
XとYの両者の関係において
両者の関係を一次関数で表したもの
第６章・推定と検定
推測統計
• 標本が正しく抽出されていれば
• ①標本から母集団の値を推定することは可能
• ②標本相互の値を比較することで母集団に差があ
るのかを比較することが可能
• しかし、正確な標本抽出ができないような場合は記
述統計手段（度数分布・分散・相関・回帰直線など）
で終わるほうが適切である
差の検定（超大切デス）
• ①差はないという仮説を立てる
• ②実際に得られた差が偶然である確率を求
める
• ③その確率が５％以下なら、危険率５％
で有意の差を認める
検定
推計とは母数に対して何の予備知識もなく，その値はいくらであるかを知ろうとす
るものであるが、『検定』では母数に対して何らかの予想を持っていて，其れを
仮説と言う形で表し、その真偽を標本（サンプル）に基づいて検証しようとする
ものである。
母平均の検定
大標本の場合
母集団の分布が正規分布に近いと想定される時の検定
サンプル数ｎ≧３０
そうでない時でも、ｎ≧５０として良い。
ｚ＝（ｘ－µ）／δ÷√ｎ
値を求めて、正規分布表をみれば解る。
そうでなくても危険率α＝０．０５になる値（２Sｄ）１．９６
α＝０．０１になる値（３Sｄ）２．５７６
をあらかじめ知っておけば即，判定できる。
小標本の場合
母集団の標準偏差が未知で、かつ標本の数が小さい場合
t分布、ｔ検定を用いる
ｔ表を用いる
分散に関する推定と検定
（カイ2乗） χ2乗分布，χ2乗検定 χ２
推定・検定を行うとき
• 一般的には・・・
① 平均値は正規分布かｔー分布を
利用する
②割合・・カイ二乗分布
③分散分析・・・F－分布
①標本平均からの推定と検定
• 図６－１
• 正しい抽出法により得られた標本の平均値
はおそらく母集団の平均値と非常に近い値
を示すだろう
しかし必ず同一となるとは限らない
それでも図６－１のように、どのような母集団か
らでも標本の平均値は母集団の平均値を中
心に一つの分布を形成する
このとき、標本の数が３０以上の大標本は正規
分布をする（中心極限定理）
②標準誤差
• 標本の標準偏差は特に標準誤差（SE）と
もいう
• SE＝σ/√ｎ
③不偏分散（標本の分散）
• 母集団の母分散（σ二乗）は、実際にはわか
らないことが多い
このとき、標本の分散（S二乗）をデータから
得て使用する。不偏分散という
σとSの違いは
nで割るか（nー１）で割るかの違い
この（nー１）をｄ、ｆ（degree of freedom）という
• １)標本平均からの推定と検定
①標本平均からの母平均の推定
母分散が解っている場合の母平均の推定
母分散がわからない場合の推定
②標本平均の差の検定
大標本平均と母平均の差の検定
二つの大標本の検定
小標本平均と母平均との差の検定
対応ある二つの小標本平均の差の検定
対応のない二つの小標本平均の差の検定
• ２）標本百分率からの推定と検定（テスト）
• ３）実験計画法
標本平均からの母平均の推定
• 母分散がわかっている場合
正規分布を使う
信頼限界９５％９９％
• 一般的に、信頼限界は９５％または９９％で推計
することが多い
• 大雑把に±２ＳＥの範囲は９５，４％だから、２ＳＥ
を使っても良いが・・・正確には
９５％信頼限界は
母集団の平均値＝標本平均±１，９６ＳＥ
９９％信頼限界は
母集団の平均＝標本平均±２，５８ＳＥ
テキストの７１ページ・・・信頼区間を参照
標本平均から母平均の推定
• 母分散が分からない場合
tー分布を使う
t 分布
• 母分散がわかる場合は正規分布
• 例 P91
• 母分散がわからない場合はｔ分布
• t-分布は正規分布とよく似た形態をとる
ｎが３０以上になるとほとんど正規分布とな
る
ｔー分布で
自由度 n＝∞・・・正規分布と同じ
母分散がわからない場合の母平均を推定・・・・ｔ－分布を利用する
P９６例題実習
• 1)歯肉の良い者
指導を受けた者では４５／５３
受けない者１８／５５
• ２）２×２分割表を作る
• ３）仮説を立てる（関係がない、差はないと
する）
• ４）仮説どおりなら・・・期待値理論値を求
める（表６－６）
５
• ５）教科書のように計算すると・・・・表を二
つ作る必要がある
• それで、一般式を用いることにする
• ΧΧ＝
（ad-bc）(ad-bc)(a＋b＋c＋d)/ (a＋c)(b＋
d)(a
＋b)(c
＋d)
• （４５×３７－８×１８）二乗×１０８／
６３×４５×５３×５５
＝1521×１５２１×１０８／８５２６３７５
＝２４９８５１６２８／８５２６３７５
＝２９，３０
• 表を読むと２９、３は
危険率１％の
値１０，８２７７をはるかに超えている
つまり、この仮説（関係がない、差がない）は
実際は起こりえない事象であるといえる
ということは、関係がある差があると言うこ
とになる
試験問題は。。P２１４の例題４から出しま
す
実際にやってみましょう！
重要です
第三４分位・・・

統計学 テキストの69ページに、平均偏差・分散・標準偏差・変動係数

Comments

Description

Transcript

統計学テキストの69ページに、平均偏差・分散・標準偏差・変動係数