Comments
Description
Transcript
第1章 誤差論
計測工学講義録 科目番号 53130 1.序論 計測工学とは、 「対象より、測りたい量を検出、分析、処理、判断を行うための系の構 成,系の制御,ならびにここの構成要素に関する工学」と言えよう. 文字通り範囲が広すぎて、半年の授業ではおさまらない.また,近年の計測技術の進歩 と IT 化により、計測器は,所謂,ボタン操作すればデータが出てくるタイプのものとなり つつある.そこで,本授業では個々の計測器の説明などは行わず、計測されたデータの一般 的な処理方法を講義する. 次章では、計測された量(所謂データ)の取り扱いの基礎である誤差論について述べ、 3 章では、データ解析方法の中で代表的なスペクトル解析の基礎を取り扱う.また,4 章で は、3 章の結果を下に、良く使用される SN 比の改善手法について述べる. 用語 誤差論、スペクトル解析,SN 比 2.誤差論 本章では、誤差論を扱う.始めに誤差の定義を述べ、次に、平均、標準偏差等の概念を 説明し、正規分布を利用した確率論に触れる. 2.1. 誤差の定義 誤差とは、 「測定値と真値の差」のことを言う.ところで,この定義は,あいまいとして いることが判るだろうか?事実、誤差を求めるための真値がもともとわかっていれば、測定 する必要はないのである.従って、実際上は「測定値と真値と推定される値との差」と言う ことになる. さて,この誤差と言うのにも種類がある.以下に代表的な誤差の種類を挙げる. ○ 系統誤差 何らかの原因で,一定の偏りのある誤差 例えば、いつも大きめに出る体重計などの機器誤差,また,読み取りを常に大き めに取るなどの個人誤差がある. ○ 偶然誤差 制御できない要因が多数,独立に、不規則に作用した結果生じる誤 差 要因はわからない場合が多いが、測定値のばらつきを招く誤差である. さらに,理論誤差(理論で近似などを用いた場合に出る誤差)や過失誤差(所謂,失 敗や誤りによる誤差)などがある. これらの誤差のうち、誤差論の対象となるのは、偶然誤差である.この偶然誤差は確率 論で処理される. (-.-) 豆知識 精密さと正確さ 精密さとは,ばらつきの少なさ,すなわち、偶然誤差が少ない度合いを表す. 正確さとは,偏りの少なさ、すなわち、統計誤差が少ない度合いを表す. (付録の図を参照) 誤差の定義を式で書くと、 誤差ε = 測定値x- 真値µ (1) となる.この表記を絶対誤差といい, ε = 1− x µ x or ε x = −1 µ µ (2) の表記を相対誤差という. 用語 誤差,測定値,真値,絶対誤差,相対誤差 2.2. 平均と標準偏差 対象とするある測定値のばらつき、すなわち、偶然誤差を確率論で表すために、用語 を定義する.測定される量は変数と言い、変数の取り得る値全体をこの変数の母集団とい う.また,母集団から選んだ値を標本(サンプル)と呼ぶ.数学用語なので,慣れるまで時間 が掛かるかもしれないが慣れれば何の問題も無い.要は,測定したい量が変数、測定値(デ ータ)が標本、その測定値が取り得る値の全体集合を母集団と言っているのである. !!注意!! 母集団は測定者が想定するものであって、目に見えるものではない. 次に、平均を定義する.n個の標本 x1 ∼ x n の平均として,標本平均 x を x= ∑x i i n (3) と定義する. 各標本値と標本平均の差 δ i = x i − x を,残差と言う.この時, w = ∑δ 2 i i ,s = 2 w な n る量w, s2 を残差平方和,標本分散と言う. また,s を標本標準偏差と言う. 以上は、測定値である標本での平均であったが、もともとの母集団についても平均(こ れを母平均と言う)をつくり,μで表す.さらに、母集団でも残差をつくり σ 2 ≡ (x − µ )2 (4) なるσ2 を母分散,σを母標準偏差と呼ぶ. (^_^;)上記定義を確認すると、実際に得られた測定値 (データ)は、当たり前だが有限の測 定回数で得られたものである.従って、理想的に無限回測定すれば得られるであろう測定値 (データ)の範囲(これを母集団と言っていた)の中にあるが、有限回の測定値のばらつきは 必ずしも無限回測定の結果のばらつき方とは同じではない.従って、概念上は二つの平均値 が存在する.しかし、我々が計算できるのは、実際に得られたデータの平均値であって、母集 団の平均値(真の平均値)ではない. さて,一般に次のことが判っている. (1) 母平均μ,母分散σ2 の母集団xがあり,x の標本平均を x とする時、x の分布が何で あっても, (x − µ ) σ 2 n の分布は, n → ∞ で標準正規分布(ガウス分布)に近づく. これを中央極限定理と言う. あるいは、もう少し条件を厳しくすると、 (2) 以下の条件を満足する f (x ) は,正規分布関数である. (i) 誤差が小さい x が現れる確率が高く、x=μで x の分布 f (x ) は最大となる. (ii) 真の値μに関して, f (x ) は対称 (iii) 誤差の大きい x が現れる確率は小さく f (± ∞ ) = 0 ∞ (iv) ∫ f (x)dx = 1 の規格化条件を満足する. −∞ 測定は、必ず有限回であり、通常多くても高々十数回程度であるため、測定値から真 値μと母標準偏差σを推定するしかない*.そこで、標本平均 x や標本標準偏差 s からμ、σ を推定する方法が必要となるのである. *繰り返しになるが,無限回の測定で母集団が得られる.真の値に対して誤差が正負,同じ 確率で起こるとすれば、無限回の測定の平均値は真の値となり、その測定値の分布が母集 団である. 一回の測定は,母集団からひとつの標本を抜き出す(抽出)する事に相当する.言い換えれ ば、一回の測定で測定値 x を得たという事は、母集団分布に従う確率変数 X が x という値 と取ることに相当している. このように、確率変数を英字大文字 X などで表し、その確率変数がとる値を対応する 英字小文字 x で表すのが便利であるので,以降、断り無い限り、英字大文字が確率変数、 その英字小文字が標本値とする.また,母集団に関する値にはギリシャ文字を利用する. 測定の仕方としては、通常は何らの偏見もない訳であるが、これを,無作為抽出と言 う.すなわち,「何らの作為も無く、標本値を選ぶ=確率変数 X が値 x を取った.」の意であ る.また,一回づつの無作為抽出で,常にもとの状態に戻して行う試行のことを無作為復 元抽出と言う.従って、無作為復元抽出の場合、各測定値間に何らの相関は無く、独立であ る. [例] n 回の測定値( x1 ∼ x n )から標本平均 x ,標本分散 s2 を求めた時は,確率変数 X = (X 1 + X 2 + L + X n ) n { (5) S 2 = (X1 − X ) + (X 2 − X ) + L (X n − X ) 2 2 2 }n (6) がそれぞれ x , s2 という値を取ったと言うことである. よく使用される関係式を挙げる.確率変数 X の期待値を E[X]で表そう.すると,n 個の 標本( x1 ∼ x n )で,平均の期待値は 1 1 1 E[X ] = E (X1 + X 2 + L + X n ) = (E[X1 ] + E[X 2 ] + L + E[X n ]) = (µ + µ + L + µ ) = µ 443 n 1442 n n n すなわち、標本平均の期待値は母平均に等しい.つまり、多数回の独立した計測が行われた としたとき各測定の平均の期待値は母平均に等しい. すなわち、 x → µ という推定が成り立つのである. また,標本平均 x の分散の期待値は, [ E (X − µ ) 2 1 = E 2 n ] 2 2 1 1 = E ∑ X i − µ = E ∑ ( X i − µ ) n i n i ∑ (X i,j i − µ )(X j − µ ) 2 1 = E 2 ∑ (X i − µ ) n i 1 2 2 2 = 2 E (X1 − µ ) + E (X 2 − µ ) + L + E (X n − µ ) n 1 = 2 σ 2 +σ 2 +L+σ 2 444 3 n 14442 n {[ { = ] [ ] [ ]} } σ2 n ここで、Xi,Xj は互いに独立として、上から 2 式目から 3 式目を得た. 上式から、標本平均の分散の期待値は、測定回数 n を使って、母分散を n で割った物 となる.これは,n 回の測定をして,算出した平均の分散の期待値であり,標本本来の分散 である母分散より当然少ない.その平均の分散は母分散の 1/n であり,勿論、一個の平均か ら平均の分散は計算できない.あくまでも期待値である.例えば、一万回の測定結果を利用し て、平均を取るのに、10 個づつとか 20 個づつとかの測定値を使った場合を考えよ. これから, (x − µ ) → σ 2 2 n という推定が成り立つ. ところで、上式はギリシャ文字であるμが左辺に使われており、このままでは,実用 的ではない.そこで,真値μを何とか無くせないであろうか?それには、以下の式を使用する. [ ] E S2 = n −1 2 σ n 証明 2 1 n 1 n 2 S = ∑ (X i − X ) = ∑ {(X i − µ ) − (X − µ )} n i =1 n i =1 2 [ ] = 1 n (X i − µ )2 + (X − µ )2 − 2(X i − µ )(X − µ ) ∑ n i =1 = n 1 n ( X i− µ )2 + (X − µ )2 − 1 2(X − µ )∑ ( X i− µ ) ∑ n i =1 n i =1 = 1 n (X i − µ )2 − (X − µ )2 ∑ n i =1 よって, [ ] E S2 = ] [ [ ] 1 1 σ 2 n −1 2 2 2 = σ E (X i − µ ) − E (X − µ ) = nσ 2 − n n n n ( ) すなわち、n 個の標本の標本分散 s2 の期待値は、母分散σ2 の(n-1)/n 倍となる. すると, s → 2 n −1 2 σ n と推定できる. 標本標準分布は、個々の標本(測定値)のばらつきを示す標準分散であり,真値μが判ら ず n が有限のとき、 s 2 → σ% 2 = n 2 1 ( xi − x ) 2 s = ∑ n −1 n −1 i を使用する.ここで、 σ% はσの推定値 また,n 回の測定値の平均 x には,前の期待値の式より の標準偏差がある. この sm を平均二乗誤差という.また,確率誤差εp で表すときもある. 確率誤差εp は, x ± ε p 以内に真値μが入る確率が 50%である事で定義される. 用語 2.3. 平均,標本標準偏差,標本分散,母標準偏差,母分散 正規分布と最も確からしい値 母集団 x の分布には、色々な分布があるが、応用上重要なのは,正規分布である.正規分 布の特長は,前節で述べた条件(i)から(iv)であり,さらに、重ね合わせができることである. 重ねあわせとは、以下のことを云う. 独立な確率変数 X1,X2 がそれぞれ平均値μ1、μ2,分散σ12、σ22 の正規分布に従うとき、 新しい確率変数 Z=X1+X2 は平均μ1+μ2,分散σ12+σ22 の正規分布に従う. これらの性質から次の定理が成り立つ. 『母集団が正規分布(μ、σ)に従う時,大きさ n の標本平均 X = 1 ( X1 + X2 + L + Xn ) n は,正規分布(μ、σ/n)に従う.』 確率誤差と平均二乗誤差の関係を考えると、正規分布の場合の確率誤差εp は,1変数 では εp 1 1 exp(− x 2 / 2σ 2 )dx = ∫ 2 2πσ −ε p で与えられ、εp=0.6745σとなる. 従って、n 変数の平均値の時,εp=0.6745sm,誤差表示は、この 2 種類あるので注意. 通常、sm を使用する. [最も確からしい値] 独立な n 回の測定で,x1 から xn の値を得たとする.この時、測定誤差εi=xi-μは,μが 判っていないので、判らない.しかし,x の分布が正規分布である場合、x1 から xn の測定値 の組み合わせが起こる確率は { } 2 2 2 P ∝ exp − ( x1 − µ ) − ( x2 − µ ) L − ( xn − µ ) 2σ 2 dx1dx2 L dxn となる.そこで,P が最大となる時が、最も起こりうると考えて dP d 2 =0→ ( xi − µ ) = 0 ∑ dµ dµ i ∴ µ= 1 ∑ xi n i よって、算術平均が真値の最も確からしい値となる.(最尤推定) 一般的には、もし非常に多数回測定できたとし、N,M を大きな数として, N 回の算術 平均 x N は,中央極限定理から正規分布に従うと期待できる.すると,そのような平均を M 回とると,各 x N ,i の取る確率は、 { } 2 2 2 P ∝ exp − ( x N ,1 − µ ) − ( x N ,2 − µ ) L − ( x N , M − µ ) 2σ 2 dx N ,1dx N ,2 L dx N , M となり,やはり µ= 1 M M ∑ x N ,i = i =1 1 MN NM ∑x i =1 i となる.従って、x の分布が何であっても、非常に多数回測定が可能なら、算術平均値は真 値μの推定値となる. 2.4. 正規分布から派生する分布 本節では、正規母集団から抽出した標本の平均以外の特性量(標本分散など)の分布を調 べる.これらの結果は、次節の推定と検定に使用される. [χ2 分布] 標本分散の分布の情報を与える 標本の確率変数 X1~Xn より, Z = X12 + X 2 2 + L + X n 2 を作ると,このχ2 は, Tn ( Z ) = 2 =0 n/ 2 1 Z ( n− 2) / 2 e − Z / 2 Γ(n / 2) ( Z ≤ 0) ( Z > 0) の分布をする.この分布を自由度 n のχ2 分布と云う. 特徴は (1) 正規分布(μ、σ)に従う母集団から,大きさ n の標本 x1~xn を抽出した時, Z= 1 2 2 2 X − µ) + ( X2 − µ) +L + ( Xn − µ) 2 ( 1 σ は自由度 n のχ2 分布に従う.X1,X2,・・・はそれぞれ x1,x2,・・・に対応する確率変数. 実際は、μが判っていないので、 (2) Z= 上記、μの代わりに X を用いて、 2 2 2 2 1 = nS X X X X L X X − + − + + − ( ) ( ) ( ) n 1 2 σ2 σ2 は、自由度 n-1 のχ2 分布に従う.ここに、S2 は標本分散の確率変数. [F 分布] F 分布はχ2 分布に従う確率変数の比、すなわち標本分散の比に関する情報を 与える. X1,X2 が互いに独立で、それぞれ自由度 m,n のχ2 分布に従っている時, Z= nX1 は mX 2 m m / 2 nn / 2 Z ( m − 2) / 2 f m ,n ( Z ) = B (m / 2, n / 2)(mZ + n)( m + n ) / 2 = 0 ( Z ≤ 0) ( Z > 0) に従う.ここに、B(m/2,n/2)はベータ関数 この分布を自由度 m,n の F 分布と云う. (1) 母分散の等しい 2 つの正規母集団から大きさがそれぞれ m,n の標本 x1∼xn、 y1~yn を抽出し、分散 Sm2,Sn2 を作ると Z= m (n − 1) Sm 2 n(m − 1) Sn 2 は自由度(m-1,n-1)のF分布に従う. (2) 正規分布(μ、σ)に従う母集団から,大きさ n の標本を取り出し、平均,分散を 作ると、 Z= (n − 1)( X − µ) 2 S2 は,自由度(1、n-1)の F 分布に従う. [t 分布] 先ほどの F 分布から派生する分布で実験ではよく使用する. 自由度(1,n)の F 分布は nn / 2 Z −1/ 2 f1,n ( Z ) = B (1/ 2, n / 2)( Z + n)( n+1) / 2 =0 ( Z ≤ 0) ( Z > 0) で,Z=T2 と変数変換した時の、T=t の従う分布 fn(t)の事を自由度 n の t 分布と云う. f n (t ) = 1 nB (1/ 2, n / 2)(1 + t 2 ( n +1) / 2 ) n (1) 正規分布(μ、σ2)に従う母集団から大きさ n の標本を取り,平均 X ,分散 S2 を作 ると、 T= n − 1( X − µ) X − µ = S Sm は,自由度 n-1 の t 分布に従う. 2.5. 推定と検定 推定・・・抽出した標本値に基づいて,母集団の特性を推し量ること 点推定・・真値などの値を推定する 区間推定・・母平均などの値がある確度ではいる区間を推定する. 検定・・・ある仮定が正しいかどうかを標本値から判断すること 点推定の例 例1. x= 標本値 x1~xn から母平均μを推定 1 ∑ xi → µ n 例 2.母分散の推定 n 2 1 2 s = ( xi − x ) → σ 2 ∑ n −1 n −1 このように、統計量の期待値としての推定量を不偏推定量と云う. 最尤推定・・・点推定の一つであるが、母集団分布の形がわかっている時に,標本値(測 定結果)が得られる確率が最も高いと仮定して、母数を推定する方法. 区間推定の例 具体的には、信頼水準γ(99%や 95%が多い)を選び,未知母数がγの確率で入る区間を 標本値から決定する. 例1. 母分散が既知のとき,母平均を推定する. 正規分布の母集団から、大きさ n の標本 x1~xn をとる.確率変数 X は,正規分布(μ, ( σ2/n)に従う. Z = X − µ ) n / σ の変換で Z は正規分布(0,1)に従う. f ( z ) の形から, 斜線部の面積がγになる z1 を選び,逆変換すればよい. − z1 ≤ Z ≤ z1 ⇔ x − σ σ σ σ z1 ≤ µ ≤ x + z1 ⇔ µ − z1 ≤ x ≤ µ + z1 n n n n 例2.母分散が未知の時、母平均を推定する.(最重要!!) ( 標本平均,標本分散 s2 に対して,確率変数 T = X − µ ) n − 1 / S は自由度 n-1 の t 分布 に従う. − t1 ≤ T ≤ t1 ⇔ x − s s s s t1 ≤ µ ≤ x + t1 ⇔ µ − t1 ≤ x ≤ µ + t1 n −1 n −1 n −1 n −1 検定の例 母平均が 5.4 である正規母集団から 10 個標本を無作為抽出して(10 回独立に測定), 標本平均 7.6,標本分散 15.3 を得たとする.さて,このような結果が出る確率は 1%より小 さいか? N=10,μ=5.4, x = 7.4 , s = 15.3 を T = 2 n −1 ( X − µ) S に代入して,T=1.69 t分布表で自由度 n-1=9 でα=0.01 のところを読むと,t=3.250 である. T 値 1.69 は、-3.250 と 3.250 の間になるので、1%以上ある. 2.6. 誤差の伝播 一般に、色々な測定量を組み合わせて,必要な量を算出する場合がある.例えば、直方 体の体積を求めるときに、各々の辺の長さを計り、その積を出す時などである.こういう場 合、各々の測定量である辺の長さの誤差は最終的な体積の誤差にどのように影響するので あろうか? 言い換えれば,n 個の独立な測定量 x1~xn から,それらの関数である Q と言う量を決 定する場合,各測定量 x1~xn の誤差は Q にどのように影響するか?と言うことになる. すなわち,数学的には、変数 x1~xn の関数 Q=Q(x1,x2,・・・,xn)が各 xi の変量についてど のように変化するかを調べればよいのであるから,Q の全微分を考えればよい. dQ = ∂Q ∂Q ∂Q dx n dx 2 + L + dx1 + ∂x1 ∂x 2 ∂x n () であるから,各 xi の誤差をδxi と書くと、 δQ = ∂Q ∂Q ∂Q δx n δx 2 + L + δx 1 + ∂x 1 ∂x 2 ∂x n () となる.ここに、δQ は Q の誤差である. ところで、数学的には上式は正しいが、誤差論に使うにはまずいことがある.なぜなら、 式()の右辺の各項は正負の値を取れる.例え,負の量であっても誤差が大きいと Q の誤差は 大きいと判断すべきであるから、各項は正の値にする必要がある.そこで,誤差の大きさと しては、最悪ケースを考え、誤差論では各項の絶対値の和として Q の誤差を考える. δQ = ∂Q ∂Q ∂Q δx 1 + δx 2 + L + δx n ∂x 1 ∂x 2 ∂x n また,各測定値が正規分布でばらついていれば、Q の分散は各測定値の分散と次の関 係にある. 2 σQ 2 2 2 ∂Q ∂Q ∂Q 2 σ 2 2 + L + σ 1 2 + σn = ∂x n x = xn ∂x 2 x = x 2 ∂x1 x = x1 ここに,σQ2 は Q の分散,σi2 は測定値 xi の分散である. 上式を誤差の伝播(propagation of errors)と言う. 実際の測定に関して重要なことは,δQ の式から,各誤差の項目をなるべく同じ大き さにするの方が誤差を減らす効率が良いことが判る.もっと判りやすく云うと,誤差の大き い項から測定方法を改善するのが効果的である. これを「誤差等分の原則」(principle of equal effect)という.この原則(これは、測定 の思想である)に基づいて、考えると、 2 2 2 ∂Q ∂Q ∂Q 1 σ12 = σ22 = L = σ n 2 = σQ 2 n ∂x1 x = x1 ∂x2 x = x 2 ∂xn x = x n と云うようになるのが誤差の観点からは理想的な計測ということになる. 円筒の長さ L と直径 D とを測定して、体積 V を求める. 例 V= π 2 D L 4 より, V の分散 σV は 2 π π = DL σ D 2 + D 2 σ L 2 2 4 2 σV 2 2 である.あるいは、対数形で、 σ D σ L 2σ D = + V L D 2 2 2 この円筒の測定で、V に 2%の精度を要求するとき、各測定値 L,D には、どの程度の精度を要 求するのが妥当か? 解 誤差の等分を使用すると、 1 σV σ L 2σ D = = 2 V L D 2 2 2 として, σ L 1 σV = , 2V L 1 σV σD = D 2 2V よって,L は 1.4%,D は 0.7%の精度以内に計るのが妥当である. 付録 1.「正確さ」と「精密さ」 測定値のばらつき 10 10 測定回数比例量 12 8 6 4 2 8 6 4 2 0 0 2 4 6 8 0 10 0 測定値 2 4 6 8 10 8 10 測定値 測定値のばらつき 測定値のばらつき 12 12 10 10 測定回数比例量 測定回数比例量 測定回数比例量 測定値のばらつき 12 8 6 4 8 6 4 2 2 0 0 0 2 4 6 測定値 8 10 0 2 4 6 測定値