Comments
Description
Transcript
統計学:講義メモ(2)
統計学:講義メモ(2) 高木真吾 北海道大学 平成 17 年 5 月 16 日 目次 集合・事象 1 2 1 1.1 標本空間と事象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 集合の演算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 確率 2.1 確率の公理的定義 . . . . . . . 2.2 条件付確率 . . . . . . . . . . 2.2.1 乗法公式,独立 . . . . 2.2.2 独立と排反 . . . . . . 2.3 ベイズの定理と全確率の定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 5 6 7 7 集合 確率を定義する対象は起こりうるすべての結果のうちの一部分である,つまり全体の中の一部を確 率の対象とする意味で集合の演算が重要になる. • 和事象,積事象,空事象,ド・モルガンの法則(de Morgan’s law) 事象 起き得ることがら,標本空間の部分集合として表現 • 標本空間,標本点/事象:全事象,空事象,根源事象 確率 三つの公理を満たす実数値関数(事象 7→ [0, 1]) • 公理的確率,古典的確率,頻度論的確率 条件付確率 二つの事象に関して,一方が生起するという条件の下で他方が生起する確率 (事象の) 独立 二つの事象に関して,一方の事象の生起が他方の事象の生起に影響を与えないような関係 1 1.1 集合・事象 標本空間と事象 試行 同条件での反復が可能で,その結果に不確定性を伴うような行為(状況). 標本空間 試行によって起こりうる全ての結果・ことがら全体 1 • Ω と表記する1 . 標本点 起こりうる個々の結果・ことがら(一回の試行の結果として実現し得るもの) • ω と表記する2 . 例1(離散的). コインを二回投げる試行について考える. • 標本空間(4つの点からなる集合) :Ω = {(表, 表), (表, 裏), (裏, 表), (裏, 裏)} • 標本点(4つの点) :ω = (表, 表),(表, 裏),(裏, 表),(裏, 裏) 例2(連続点). 電球がいつまで点灯し続けるかについて考える. • 標本空間(半開区間の集合) :Ω = [0, ∞) • 標本点(非加算無限個) :ω = 0.099,5.000,14302.987 · · · など. 事象 試行の結果として起こることがら.これを集合 E で表記する(E ⊆ Ω). • 必ず起きる事柄は全事象という.これは標本空間 Ω と一致する. • 決して起きない事柄を空事象という.これを ∅ と表記する. • 各標本点と一致する事象を根元事象という. 例1(つづき). コインを二回投げる試行について考える. • 全事象:Ω = {(表, 表), (表, 裏), (裏, 表), (裏, 裏)} • 事象1.少なくとも一回表が出る:E1 = {(表, 表), (表, 裏), (裏, 表)} • 事象2.一回目に表が出て,かつ一回目に裏が出る:E2 = ∅ 例2(つづき). 電球がいつまで点灯し続けるかについて考える. • 全事象:Ω = [0, ∞) • 事象1.一時間以上は点灯して,5 時間は持たない:E = [1, 5) • 事象2.10 時間は持つ,あるいは 15 から 20 時間は持つ:E = [0, 10] ∪ [15, 20] 1.2 集合の演算 二つの事象 E1 ,E2 について考える. 和事象 E1 ,E2 のうち少なくともひとつの事象が起こる:E1 ∪ E2 = {ω ∈ Ω | ω ∈ E1 or ω ∈ E2 } 積事象 E1 ,E2 の両方の事象が同時に起きる:E1 ∩ E2 = {ω ∈ Ω | ω ∈ E1 and ω ∈ E2 } 排反事象 E1 ,E2 の両方が同時に起きることがありえないとき,これら二つの事象は排反であるといわれる (E1 ∩ E2 = ∅) 補事象 「事象 E が決して起きない」という事象を E の補事象という:E c = {ω ∈ Ω | ω ∈ / E} 1 ギリシア文字のオメガの大文字.一番最後の文字. 「最高」「至高」「究極」の意味を持たせることもある. 2 ギリシア文字のオメガの小文字. 2 補助定理 1.1 (集合に関する演算). 以下の関係が成立する. 1. (E1 ∪ E2 ) ∩ E3 = (E1 ∩ E3 ) ∪ (E2 ∩ E3 ) (分配法則1) 2. (E1 ∩ E2 ) ∪ E3 = (E1 ∪ E3 ) ∩ (E2 ∪ E3 ) (分配法則2) 3. (E1 ∪ E2 )c = E1c ∩ E2c (ド・モルガンの法則1) 4. (E1 ∩ E2 )c = E1c ∪ E2c (ド・モルガンの法則2) [証明:ド・モルガンの法則1](E1 ∪ E2 )c なので『ω ∈ E1 または ω ∈ E2 』が否定される.このとき『ω ∈ / E1 かつ ω ∈ / E2 』なので『ω ∈ E1c かつ ω ∈ E2c 』となる.結局,E1c ∩ E2c = {ω ∈ Ω | ω ∈ / E1 かつ ω ∈ / E2 } とな る(証明終). • トランプで『「1,2を持っている」または「絵札を持っている」』の補事象は, 『「1,2は持っていない」 かつ「絵札を持っていない」』(『強い手札』の補集合は『弱い手札』) • 家を買うことを考えるとき, 『「間取り・環境がよい」かつ「値段がよい」』の補事象は, 『「間取り・環境が よくない」あるいは「値段がよくない」』(『買える』の補集合は『買える』) より一般的に E1 , E2 , E3 , . . . に対して, à ∞ !c à ∞ !c ∞ ∞ [ \ \ [ c Ei = Ei , Ei = Eic i=1 i=1 i=1 i=1 も成立する.証明は上の方法とまったく同様に行うことができる. 2 確率 • 組み合わせ的定義 — ある現象が偶然に左右されているような状態にあると考えられるとする.起きうる結果を『すべて が同程度に確からしい』ところまで分割し,その結果 n 通りの結果が生じうるものとする.このと き各結果が生じる確率は 1/n と定義される. — 事象の数が有限の場合にしか適用できない(連続量の扱い,加算無限個の事象の扱いに問題がある). — 等確率に分割できないときどう定義すればよいのかわからない. • 頻度的定義 — ある偶然を伴ったような現象が,繰り返し(実験などによって)観測できるとき,同一条件下で十 分な観測をするとある結果 A が fn (A) 回観測されたとする.十分大きな回数の観測を行うと fn (A) n に収束していくと考えられるとき,事象 A の生じる確率を Pr[A] = PA と定義する. PA = lim n→∞ — 事象の数が有限の場合にしか適用できない(連続量の扱い,加算無限個の事象の扱いに問題がある). — どのような意味で収束していると判定するのかよくわからない. 3 • 公理的定義 — 確率が満たすべき条件を公理として与え,この公理に基づいて確率を定義する 2.1 確率の公理的定義 定義 2.1 (確率). 事象の集合(集合の集合;事象をすべて列挙したもの)を F と書くa .以下の3つの 条件を満たす実数値関数 Pr[•] を確率という. 公理1 任意の事象 E (∈ F ) について,Pr[E] ≥ 0 公理2 Pr[Ω] = 1 公理3 互いに排反な事象の列を考える({E1 , E2 , . . . , En , . . .}, Ei ∩ Ej = ∅ for i 6= j ).これらの事象 に関して Pr " ∞ [ # En = n=1 ∞ X Pr [En ] n=1 が成り立つ. S∞ a この集合の集合は,1.Ω ∈ F ,2.E ∈ F のとき E c ∈ F ,3.Ei ∈ F (i = 1, 2, . . .) のとき i=1 Ei ∈ F ,という条件 を満たすとき σ-集合体と呼ばれる.より正確にはこの σ-集合体 F の要素となっている集合を事象と呼ぶ. • 確率は,あくまでも事象に対して定義されていることに注意する(集合にある0から1の値を対応させ る関数). 命題 2.1 (確率の性質). 確率の公理より以下の関係が成立する. 1. Pr[∅] = 0 2. A ⊆ B ならば Pr[A] ≤ Pr[B] 3. Pr[Ac ] = 1 − Pr[A] 4. Pr[A ∪ B] = Pr[A] + Pr[B] − Pr[A ∩ B] 1について,E1 = Ω,Ek = ∅(k = 2, 3, . . .)とおくと,新しく定義された事象はすべて互いに排反と なっている.公理2と公理3より 1 = Pr[Ω] = ∞ X Pr[Ei ] = Pr[Ω] + i=1 となる.ただし Ω = Ω ∪ ∅ ∪ ∅ ∪ · · · ∞ X Pr[∅] i=2 S∞ i=1 Ei を利用している.再び公理3から の確率の非負性から Pr[∅] = 0 を得る. P∞ i=2 Pr[∅] = 0 となり,公理1 2について,E1 = A,E2 = Ac ∩ B ,Ei = ∅(i = 3, 4, . . .)とおくとき,これらは互いに排反であ S∞ る.A ⊆ B から E1 ∪ E2 = B ,ひいては i=1 Ei = B となる.このとき,Pr[∅] = 0 なので公理3から 4 Pr[E1 ] + Pr[E2 ] = Pr[B] ⇔ Pr[A] + Pr[Ac ∩ B] = Pr[B] となる.公理1より Pr[Ac ∩ B] ≥ 0 なので結局 Pr[A] ≤ Pr[B] となる. 3について,E1 = A,E2 = Ac ,Ei = ∅(i = 3, 4, . . .)とおくことで互いに排反になる.ここから Sn i=1 Ei c = Ω に注意しながら公理2,3,および Pr[∅] = 0 を用いると 1 = Pr[A] + Pr[Ac ] となる.すなわち Pr[A ] = 1 − Pr[A] を得る. 4について,A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B) となること,また A = (A ∩ B c ) ∪ (A ∩ B), B = (Ac ∩ B) ∪ (A ∩ B) となることに注意する.カッコ内同士は互いに排反であることもわかる.ここか ら Pr[A ∪ B] = Pr[A ∩ B c ] + Pr[A ∩ B] + Pr[Ac ∩ B] および Pr[A] = Pr[A ∩ B c ] + Pr[A ∩ B],Pr[B] = Pr[Ac ∩ B] + Pr[A ∩ B] なので最初の式から後ろの二つを引くと,Pr[A ∪ B] − Pr[A] − Pr[B] = − Pr[A ∩ B] となり目的の関係を得る. 最後の4番目の結果を用いて,一般的に Ei (i = 1, 2, . . .) "∞ # ∞ [ X Pr Ei ≤ Pr[Ei ] i=1 i=1 が成り立つことを示すこともできる(証明に興味のある人は試みてください). 2.2 条件付確率 定義 2.2 (条件付確率). 二つの事象 E1 ,E2 について考える.Pr[E1 ] > 0 のとき, Pr[E2 |E1 ] = Pr[E1 ∩ E2 ] Pr[E1 ] とし,Pr[E1 ] = 0 のとき, Pr[E2 |E1 ] = 0 とする.これを E1 を条件とする E2 の条件付確率という. • 条件付確率は,事象 E1 が生起したとき,同時に事象 E2 も生起している状態の確率,という意味合い を持っている. • これを直感的に理解するためには, 1. 「事象 E1 が生起した」という情報はすでに与えられており,今後考えるべき試行の範囲は標本空 間全体にわたってではなく,E1 が生起した状態から出発すると考えてよい. 2. この情報に基づいて,さらに「事象 E2 も生起する」という確率を考える. 3. つまり,同時に事象 E2 も生起している状態の確率を考えるので Pr[E1 ∩ E2 ] となる. 4. しかし考えている領域は標本空間全体ではなく, 「事象 E1 が生起した」という情報の下で制約され ているので,定義のように Pr[E1 ] で除している. • Pr[•|E1 ] = Pr[• ∩ E1 ]/ Pr[E1 ] という新しい確率を定義したと考えてもよい. 概念の定着のために次の例を考える. 5 1. 二個のさいころを転がす試行を考える.少なくとも一方の目が6であるとき,両方の目の和が9以上で ある確率は?(答:7/11) • 「少なくとも一方の目が6である」という事象:E1 • 「両方の目の和が9以上」という事象:E2 • 求めたいもの:Pr[E2 |E1 ] • 計算上必要なもの:Pr[E1 ∩ E2 ],Pr[E1 ] 2. 箱に黒球が2個,白球が2個入っている.最初に一球取り出し,その後に再び一球取り出す試行を考え る.ただし最初の一球を取り出した後,もしそれが白ならば黒球を箱に入れ,黒ならば白球を入れた後, 二級目の取り出しを行うものとする.二球目に取り出した球が白色とわかっている状態で,一球目も白 色であったという確率は?(答:1/4) • 「二球目が白色」という事象:E1 • 「一球目が白色」という事象:E2 • 求めたいもの:Pr[E2 |E1 ] • 計算上必要なもの:Pr[E1 ∩ E2 ],Pr[E1 ] 2.2.1 乗法公式,独立 条件付確率の定義から次の関係がなりたつ. 命題 2.2 (乗法公式). 条件付確率の定義より,二つの事象 E1 ,E2 に関して以下の関係が成立する. Pr[E1 ∩ E2 ] = Pr[E1 |E2 ] Pr[E2 ] = Pr[E2 |E1 ] Pr[E1 ] この関係は Pr[E1 ] = 0,あるいは Pr[E2 ] = 0 の場合も含めて成立する. 証明は条件付期待値の定義よりほば明らか.この乗法公式を用いて,事象間に関する重要な関係を定義できる. 定義 2.3 (事象間の独立性). 二つの事象,E1 と E2 について, Pr[E1 ] = Pr[E1 |E2 ] (1) という関係が成り立つとき,これら二つの事象は独立であるという.一方の事象の生起確率に関して他方 の事象が影響力を持たないことを意味している. 命題 2.3 (独立性の同値表現). 二つの事象 E1 ,E2 が (1) という意味で独立であるとき以下の関係も成 立する. 1. Pr[E2 ] = Pr[E2 |E1 ] 2. Pr[E1 ∩ E2 ] = Pr[E1 ] Pr[E2 ] 逆にこれらの一方が成立すれば残りの独立性に関する関係式も成立する. 6 証明は自明なので省略する(Pr[E1 ] = 0 や Pr[E2 ] = 0 のケースだけ気をつければよい). 2.2.2 独立と排反 一般に二つの概念には関係がない. • 排反ではあるが,独立ではない — 事象A「偶数の目が出る」,事象B「奇数の目が出る」 — Pr[A ∩ B] = 0, Pr[A] Pr[B] = 0.5 ∗ 0.5 = 0.25 • 排反ではないが,独立である — 事象A「クローバーの札が出る」,事象B「絵札が出る」 — Pr[A ∩ B] = 4/52 = 1/13, Pr[A] Pr[B] = (1/4) ∗ (4/13) = 1/13 • 排反ではなく,独立でない(例の作成は練習問題) • 排反であって,独立である(例の作成は練習問題:一方の事象が空事象であれば常に成立) 2.3 ベイズの定理と全確率の定理 標本空間を分割するような事象の列 {Ei }∞ i=1 について考える. E1 ∪ E2 ∪ E3 ∪ · · · = ∞ [ Ei = Ω i=1 このとき,ある事象 A に関して, A = A ∩ Ω = A ∩ (E1 ∪ E2 ∪ E3 ∪ · · ·) = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 ) ∪ · · · 最右辺の括弧ごとに排反であること((A ∩ Ei ) ∩ (A ∩ Ej ) = ∅)を考慮すると次の関係が成り立つ. 命題 2.4 (全確率の公式). 標本空間を分割する事象列 {Ei }∞ i=1 を用いて,ある事象 A の生起確率を次の ように表現することができるa . Pr[A] = ∞ X Pr[A|Ei ] Pr[Ei ] i=1 a 証明は,確率の公理3より自明. この全確率の公式と条件付確率の定義式をあわせて次のよく知られた結果を得る. 命題 2.5 (ベイズの定理). 標本空間を分割する事象列 {Ei }∞ i=1 が与えられている.この中のある事象 Ek が与えられたとき,事象 A の条件付確率は次のように表現される. Pr[A|Ek ] Pr[Ek ] Pr[Ek |A] = P∞ i=1 Pr[A|Ei ] Pr[Ei ] 式に含まれる Pr[Ei ] は事象(原因)Ei の事前確率と呼ばれ,Pr[Ek |A] は事後確率と呼ばれることもある. 7 この定理の述べているところを解釈すると • A という現象が,互いに排反な {Ei }∞ i=1 という原因に起因しているものとする. • ひとつの原因とそれによって A の結果が生じる確率 Pr[A|Ei ] については(経験上)わかっている. • それぞれの原因に関してもその生起確率 Pr[Ei ] については(経験上)わかっている. • このとき観測した結果 A から,どの原因がどれくらいの確率で生起したかを計算するための定理 つまり観測に基づいて(結果 A を見て),原因どのようなものかを推測する手がかりを提供している.あるい は事前確率を観測という情報によって事後確率へアップデートしているともいうことができる.次のような例 によって考えてみる. • 女性が乳がん(原因)である確率は 0.8% • 乳がんであるとき検査結果が陽性(結果)となる確率は 90% • 乳がんでなくても検査結果が陽性(結果)となる確率は 7% • ある人の検査結果が陽性であるとき,この人が乳がんである確率は? 「検査結果が陽性になる」という 「乳がんである」という事象を A とする(Pr[A] = 0.008,Pr[Ac ] = 0.992). 事象を B とする.がんで陽性結果が出る確率は Pr[B|A] = 0.9 であり,がんでなくて陽性結果が出る確率は Pr[B|Ac ] = 0.07 である.ベイズの定理から,検査結果が陽性である人が乳がんである確率は Pr[A|B] = Pr[A ∩ B] Pr[B|A] Pr[A] 0.9 × 0.008 = = = 0.09364572 c c Pr[B] Pr[B|A] Pr[A] + Pr[B|A ] Pr[A ] 0.9 × 0.008 + 0.07 × 0.992 定理を用いるとあまり直観的ではないかもしれないが,次のように考えると納得いくかもしれない. • 1000 人のうち 8 人は乳がんであるとされている • 検査をするとこのうち 7 人は陽性となる(0.90 × 8 = 7.20) • 乳がんでなくても陽性となる人も 69 人ほどいます(0.07 × 992 = 69.44). • 検査結果が陽性であるとき,その人が乳がんである確率は? 7/(7 + 69) ≈ 0.092 (より正確には 7.2/(7.2 + 69.44) = 0.09364572 となる) 検査の精度は比較的高いにもかかわらず上の結果(実際にがんである確率は 10% 未満)は奇異に映るかもしれ ない.しかしベイズの定理の「観測による情報で事前確率から事後確率へ更新する」という意味で考えるなら がんであるという事前確率は 0.8% であったのに,観測によってそれが 9% 以上に引き上げられたことを示し ている. 問題(参考書 p.86:練習問題 4.7 と類似): 検査の精度をどの程度まで高めると事後確率 Pr[A|B] を9割以上に高めることができるか? (がんで陽性と出る 確率 Pr[B|A] と,がんでないとき陽性と出ない確率 Pr[B c |Ac ] は等しいと考えておく,答え:0.99910474 . . .). 8