Comments
Description
Transcript
第2回
計測工学講義 第二回目 担当:西野信博 A3-123号室 [email protected] プラズマ実験装置NSTX(Princeton) 目 次 • 第一章 誤差論 – – – – – 復習 正規分布と最も確からしい値 正規分布から派生する分布 推定と検定 誤差の伝播 第一章 誤差論 • 誤差の定義 – 誤差とは、「測定値と真値の差」のことを言う. (納得!?) • 絶対誤差 • 相対誤差 誤差ε = 測定値x- 真値µ ε x = 1− µ x or ε x = −1 µ µ – しかし,よく考えると,真値が判らないと誤差が判らないことにな る.(その通り!) – 実際上は「測定値と真値と推定される値との差」と言うことになる. 誤差の種類 • 系統誤差 – 何らかの原因で,一定の偏りのある誤差 • 例 いつも大きめに出る体重計などの機器誤差 読み取りを常に大きめに取るなどの個人誤差 • 偶然誤差 – 制御できない要因が多数,独立に、不規則に作用した結果生じる誤差 – 要因はわからない場合が多いが、測定値のばらつきを招く誤差である • 理論誤差 – 理論で近似などを用いた場合に出る誤差 • 例 単振子の運動方程式でsinθ≒θと近似した時の差 • 過失誤差 – 所謂、失敗や誤りによる誤差 • 誤差論の対象となるのは、偶然誤差である.この偶然誤差は確率論で 処理される. 母集団と標本 • 対象とするある測定値のばらつき、すなわち、偶然誤差を確率論で 表すために、用語を定義する. • 測定される量は変数と言い、変数の取り得る値全体をこの変数の母 集団という. • また,母集団から選んだ変数の値を標本(サンプル)と呼ぶ. • 要は,測定したい量が変数、測定値(データ)が標本、その測定値が 取り得る値の全体集合を母集団と言っているのである. – 数学用語なので,慣れるまで時間が掛かるかもしれないが慣れれば何 の問題も無い. – !!注意!! 母集団は測定者が想定するものであって、目に見えるもので ない. 平均と標準偏差 • n個の標本x1∼xnの平均として,標本平均を以下で定義する x= ∑x i i n • 各標本値と標本平均の差を残差と呼び、以下で定義する δ i = xi − x w = ∑δ i 2 i • s2を標本分散、sを標本標準偏差と呼ぶ s2 = w n • σ2を母分散,σを母標準偏差と呼ぶ σ 2 ≡ (x − µ )2 ここが、間違いやすい • 上記定義を確認すると、実際に得られた測定値 (データ)は、当たり だが有限の測定回数で得られたものである. • 従って、理想的に無限回測定すれば得られるであろう測定値(データ) の範囲(これを母集団と言っていた)の中にあるが、有限回の測定 のばらつきは必ずしも無限回測定の結果のばらつき方とは同じでは ない. • つまり、概念上は二つの平均値が存在する. • しかし、我々が計算できるのは、実際に得られたデータの平均値であっ て、母集団の平均値(真の平均値)ではない. 補足 • 測定は、必ず有限回であり、通常多くても高々十数回程度であるた め、測定値から真値μと母標準偏差σを推定するしかない. • 繰り返しになるが,無限回の測定で母集団が得られる.真の値に対 して誤差が正負に同じ確率で起こるとすれば、無限回の測定の平均 値は真の値となり、その測定値の分布が母集団である. x • そこで、標本平均 や標本標準偏差sからμ、σを推定する方法が 必要となるのである. 確率の世界と実際の世界 一回の測定は,母集団からひとつの標本を抜き出す(抽出)する事 に相当する.言い換えれば、一回の測定で測定値xを得たという事は、 母集団分布に従う確率変数Xがxという値と取ることに相当している. 測定の仕方としては、通常は何らの偏見もない訳であるが、これを, 無作為抽出と言う.すなわち,「何らの作為も無く、標本値を選ぶ= 確率変数Xが値xを取った.」の意である.また,一回づつの無作為抽 出で,常にもとの状態に戻して行う試行のことを無作為復元抽出と 言う.従って、無作為復元抽出の場合、各測定値間に何らの相関は 無く、独立である. よく使用される関係式 • 確率変数Xの期待値をE[X]で表そう.すると,n個の標本(x1∼xn)で, 本平均、標本平均の分散の期待値は, • E [X ] = µ [ ] E (X − µ ) = 2 σ2 n • よって、 x→µ (x − µ )2 → σ 2 n という推定が成り立つのである. 分散の実用的な関係式へ • 前の式はギリシャ文字であるμが左辺に使われており、このままでは, 実用的ではない.そこで,真値μを何とか無くせないであろうか?それに は、以下の式を使用する. [ ] ES 2 n −1 2 = σ n • すなわち、n個の標本の標本分散s2 の期待値は、母分散σ2 の(n-1)/n となる. n −1 2 s → σ • すると, と推定できる. n 2 実用的な関係式 • 標本標準分布は、個々の標本(測定値)のばらつきを示す標準分散 であり,真値μが判らずnが有限のとき、 s 2 → σ% 2 = n 2 1 s = ( xi − x ) 2 ∑ n −1 n −1 i を使用する.ここで、 σ% はσの推定値 • また,n回の測定値の平均には,前の期待値の式より sm = 1/ 2 n 1 2 x x ( ) = − ∑ i n − 1 n(n − 1) i =1 s = σ~ n の標準偏差がある. このsmを平均二乗誤差という. ヒストグラム • 測定量の全範囲を適当な区間に分けて、各区間に入る 測定量の個数で分布を表すとヒストグラムが得られる. • 左表は、ネジの長 さの測定例である. No. 1 2 3 4 5 6 7 8 9 10 11 値 21.4 22.5 23.1 22.4 21.8 22.1 22.8 21.5 23.2 22.9 22.6 7 6 5 4 3 2 1 0 20 21 22 23 24 25 ヒストグラムÎ極限分布(母集団) • 測定回数を多くしていくと、ヒストグラムの縦軸が大きくなる. そこで、測定回数に応じて横軸の区間の分割も多くしていく ことを考える. 7 6 5 4 3 2 1 0 a b • ある区間(a,b)の総量が、その範囲の値が得られる測定回数 をあらわしている. 20 21 22 23 24 25 • 測定値の総数が多くなればなるほど、ヒストグラムは滑らか になっていく 極限分布 • 測定回数を無限回行ったと仮定して、得られる分布が極限 分布である. a b a b • この時もある範囲の区間に入る数の和がその区間に入る 測定量が得られた回数. 確率分布 • 総面積を1に規格化すると確率分布となる. f(b) f(x) f(a) a b x • a∼bまでの区間の面積が、その範囲の測定量を得る 確率となる. 正規分布、もしくは、ガウス分布 • 一般に次のことが判っている x • (1) 母平均μ,母分散σ2の母集団xがあり,xの標本平均を とす n→∞ る時、xの分布が何であっても, の分布は, で (x − µ ) σ 2 n 標準正規分布(ガウス分布)に近づく. これを中央極限定理と言う. •あるいは、もう少し条件を厳しくすると、 •(2) 以下の条件を満足するは,正規分布関数である. f (x ) –(i) 誤差が小さいxが現れる確率が高く、x=μでxの分布 は 最大となる. f (x ) –(ii) 真の値μに関して, は対称 –(iii) 誤差の大きいxが現れる確率は小さく ∞ –(iv) f (± ∞ ) = 0 (x )dx = 1 ∫ f の規格化条件を満足する. −∞ 正規分布と その特徴 • 母集団xの分布には、色々な分布があるが、応用上重要 なのは,正規分布である • 正規分布の特徴は,前節で述べた条件(i)から(iv)であり, さらに、重ね合わせができることである. 重ねあわせとは何か? • 独立な確率変数X1,X2 がそれぞれ平均値μ1、μ2,分散 σ12、σ22の正規分布に従うとき、新しい確率変数Z=X1+X2 は平均μ1+μ2,分散σ12+σ22の正規分布に従う. • 『母集団が正規分布(μ、σ2)に従う時,大きさnの標本平 均は,正規分布(μ、σ2/n)に従う.』 重ね合わせの具体的な例 X1は(1,1.5)で、X2は(−3,3)の例、Z=X1+X2は(‐2、3.35)となる. 確率変数X2の分布 確率変数X1の分布 1.2 1.2 1 1 0.8 0.8 Y2 Y1 0.6 0.6 0.4 0.4 0.2 0.2 0 -6 -4 -2 0 0 2 4 6 8 -10 -8 -6 -4 X1 -2 X2 確率変数Zの分布 1.2 1 0.8 Y3 • 0.6 0.4 0.2 0 -10 -8 -6 -4 -2 Z=X1+X2 0 2 4 6 0 2 4 重ね合わせの間違った例 これは、計算結果を単に足しただけです. 確率変数X2の分布 確率変数X1の分布 1.2 1.2 1 1 0.8 0.8 Y2 Y1 0.6 0.6 0.4 0.4 0.2 0.2 0 -6 -4 -2 0 0 2 4 6 8 -10 -8 -6 -4 X1 -2 X2 間違っているよー! 1.4 1.2 1 0.8 Y1+Y2 • 0.6 0.4 0.2 0 -10 -8 -6 -4 -2 0 ?? 2 4 6 8 0 2 4 確率誤差と平均二乗誤差 • 確率誤差εpとは、50%の確率で真値が入る範囲を言う. • 一方、良く使用される平均2乗誤差は67.5%程度の確率(所謂σ)で 真値が入る範囲を言う. • 正規分布の場合の確率誤差εpは,1変数では εp 1 1 2 2 − x σ dx = exp( / 2 ) ∫ 2 2πσ −ε p で与えられ、εp=0.6745σとなる. • 従って、n変数の平均値の時,εp=0.6745sm,誤差表示は、この2種 類あるので注意. 通常、smを使用する場合が多い. 最も確からしい値とは? • 独立なn回の測定で,x1からxnの値を得たとする.この時、 測定誤差εi=xi-μは,μが判っていないので、判らない. しかし,xの分布が正規分布である場合、x1からxnの測定 値の組み合わせが起こる確率は { } 2 2 2 P ∝ exp − ( x1 − µ ) − ( x2 − µ ) L − ( xn − µ ) 2σ 2 dx1dx2 L dxn • である。 • すると、測定結果は現実に得られた結果だから、その結 果が起こる確率がもっとも大きいと考えるのが自然であ る. 最も確からしい値 答え! • Pを最大とするようなμが、最も確からしいと考えて dP d 2 =0→ − µ x ( i ) =0 ∑ dµ dµ i ∴ µ= 1 xi ∑ n i • よって、算術平均が真値の最も確からしい値となる. – 後に出てくる最尤推定のひとつ より広い知識 • 一般的には、もし非常に多数回測定できたとし、N,Mを大 きな数として, N回の算術平均は,中央極限定理から正 規分布に従うと期待できる.すると,そのような平均をM回 x N ,i とると,各 の取る確率は、 { } 2 2 2 P ∝ exp − ( x N ,1 − µ ) − ( x N ,2 − µ ) L − ( x N , M − µ ) 2σ 2 dx N ,1dx N ,2 L dx N , M 1 µ= M M ∑x i =1 N ,i 1 = MN NM ∑x i =1 i • となる.従って、xの分布が何であっても、非常に多数回 測定が可能なら、算術平均値は真値μの推定値となる. 演習 1. 代表的な誤差の名称を書いて、その簡単な説明をせよ. 2. n個の測定量(x1∼xn)がある。 x 1. この時、平均値 の式を書け . 2. また、標本(標準)分散s2の式を書け 3. n個の測定量(x1∼xn)がある。 1. 測定量としてもっとも確からしい値を式であらわせ.