Comments
Description
Transcript
確率・統計でものを考える 第1回目
確率・統計の知識は、本当に、必要なのだろうか。 確率・統計でものを考える 第1回目 1 講義内容 ランダムについての理解を、実験をとおして、 深める。 ランダムの法則を利用して真実に迫ろうとす るのが確率・統計の考え方である。 確率・統計の考え方を導入して身の回りの現 象を捉えた方が、導入しない場合よりも、現 象の理解が深まることを示す。 成績評価:確率実験のレポートを3回程度提 出してもらう。筆記試験は行わない。 2 確率・統計の知識は必要なのか? 確率・統計の専門家なら、必ず、必要と言うに決 まっている。そう考えるから研究をする。 しかし、専門的な知識は必要なのだろうか? 地動説が正しくても、天動説が正しくても、興味のない 者にとっては、どっちでもいいこと。 ダーウィンの進化論も、信じているアメリカ人は半分程 度という。 万物は神が創造したものであり、すべては神の思し召し と考えて生きてゆくなら、それはそれで一つの判断であ る。 確率・統計の知識がなくても、困らないものなのだ ろうか? 3 なぜ新しい考え方が必要になるのか? これまでの考え方では、うまく説明できない 現象が観察され、その現象をもっとうまく説 明する理論が生まれたとき、人々は考え方を 変える。 個人が新しい考え方を取り入れるのは、従来 の考え方では納得できなくなるからではない だろうか。 確率・統計の考え方が必要と感じるかどうか については、個人差があって当然だろう。 4 座りがいいか、悪いかの問題なのか? 天体の動きを説明するには、地動説の方がはる かに合理的であり、神の存在は必要ではない。 天動説が正しいことを示す、地動説よりも説得 力のある、理論を作ることはまず不可能だろう。 ダーウィンの自然選択説(進化論)は、変異が ランダムに起こり、そのうちの適者が生き残る という考え方だが、その考え方には反対意見も 多い。しかし、それに代わる理論はない。 5 蛾の色がなぜ枯れ葉のように見えるか 自然選択説から説明しよう。 蛾の子孫には、変異により、いくつかの色・ 模様のものが生まれる。 そのうち、捕食者に見つかりにくい色・模様 をしたものが生き残る。 この過程を繰り返すことにより、次第に住む 環境の中で、見つかりにくい色・模様になっ てゆく。 6 確率・統計以前の世界観 19世紀の初頭、科学分野では「時計仕掛け の宇宙」という考え方が支配的であった。 いくつかの方程式と、現在までの測定値があ れば、将来が確実に予測できるという考え方 である。 ニュートン力学に基づいた計算により、天体 の動きを正確に予測できると考えた。実際海 王星の存在は、力学計算により割り出された ものである。 7 「時計仕掛けの宇宙」的世界観の破たん 予測した位置と実際の天体の位置にはズレが あった。 当時は、測定技術が上がれば誤差は無くなる ものと考えられていた。 しかし、測定技術が上がっても、誤差は消え 去るどころか、ますます大きくなっていった。 誤差の存在を認めざるを得なくなった。 8 誤差(個体差・多様性)の存在 誤差が存在する以上、誤差を取り込む考え方 が必要になる。 チャールズ・ダーウィンは、生物学上の多様 性を生き物の世界の基本的な特徴とみなし、 その土台の上に自然選択説を打ち立てた。 指紋の多様性を発見したゴルトンもまた、生 き物の多様性に着目した。 確率・統計の本格的な応用は、イギリスにお いて、農学分野に対してであった。 9 イギリスでは、誤差はあるものと考える だから、鉄道は時間どおりに運行されない。 個人差があることを当然と考える。 様々な事情がランダムに発生するので、遅れが出るのは 当然だ、という考えなのだろう。 コールセンターに電話して、対応が悪ければ、時間を置 いてかけ直す。別のオペレータにかかることを願う。 日本人は、こういったことのないように心がける。 だから、製品の品質が高いのだろう。 仕方ないと考えるのか、どうにかしないければと考 えるのか。 どちらがいいとも言えないが、判断を間違えると、 不幸になる。 10 誤差(個人差・多様性)の存在は例外の存在 を意味する 集団としての傾向(統計的性質)があったとしても、 その傾向と矛盾する例外は無数に存在する。 個体差で言えば、ヘビースモーカーでも肺がんにな らない人もいれば、タバコを吸わない人でも肺がん になる人はいる。 いくら精密に診察しても、あるヘビースモーカーが 将来肺がんになるかどうかを正確に言い当てること はできない。 ランダムに調査しなければ、本来の傾向とは逆の結 論が得られる。 もっとひどい表現をすれば、どのような主張にも合 致するデータを集めてくることができる。 11 父親の男児の身長の関係 父親と男子の身長の関係 子の身長 190 185 180 175 y = 0.499x + 88.871 170 165 160 155 親の身長 150 150 160 170 180 190 12 回帰現象 非常に背の高い親からは、背の高い子が生ま れるが、親ほど高くはない。 極端な親の子供は、全体の平均に向かって回 帰(regress)している。 このまま世代を重ねると、すべての個体が平 均に収縮して行くのだろうか。 このような現象は身長だけでなく、その他の 側面についても見られるのではないか。 13 誤差(多様性)と確率 誤差というのは、それがどのようなメカニズ ムで発生するのかが不明な部分である。 だから、誤差は、サイコロやコイン投げ、あ るいはクジ引きと同じメカニズムで生まれて いると考えれば、確率現象と考えることがで きる。 誤差(多様性)は、確率現象の結果と考える ことができる。か? 14 身の回りの確率現象 喫煙は肺がんの原因なのか? 二酸化炭素は地球温暖化の原因なのか? ダイエット法は効果があるのか 占いはあたるのか サプリは本当に効くのか マイナスイオンは体に良いのか ある会社の株価予想はできるのか 監督を変えれば、チームは強くなるか 民主党の戦略は、支持率を上げるか 15 確率現象を統計的に調査する 何が正しいか、本当のところは分らない。 調査方法が間違っていれば、正しい結論を導 く確率がそれだけ低くなる。 データ数が少ない状態で、あわてて結論に飛 びつかない方がよい。 せっかちに結論を出すよりも、含みを持たせ た姿勢をとることが大切ではないか。 単純な答えを求める姿勢は危ういのではない か。 16 講義予定内容 1. 2. 3. 4. 5. 6. ランダムについて考える 調査データの集め方 調査データのまとめ方 確率の定義と計算 確率分布の考え方 統計的推測法 17 1.ランダムについて考える ランダム実験について考える ランダムの観察(コイン投げ、サイコロ、カード ‥) ランダムの実現には、細心の注意が必要であること ランダムの性質について 真の確率への近づき方。 ランダムの利用法 真の確率が分からないときは、ランダムが大活躍す る(決して、邪魔者ではない) 2.調査データの集め方 調査は、真の確率を計算で求めることが不 可能なものなので、ランダムにゆだねなけ ればならない。 しかし、実際に、ランダムに集めることは、 事実上不可能である 調査目的に合った、ランダムを実現するた めの、様々な工夫が必要になる。 3.調査データのまとめ方 調査データを表にまとめ、データの特徴をグ ラフ化する 視覚的な表現 データの代表値(平均)や散らばりの尺度 (標準偏差)、場合によっては比率を求める 客観的な数値 こういった作業を通して、集団間の比較を試 みる。 世代間、男女間、血液型別の比較 4.確率の定義と計算法 結果を確実に予測できない現象は、確率を用 いて説明するほかない 調査で求められる比率は確率の推定値として 用いられるが、確率計算をマスターすれば、 調査の比率を変形して、様々な確率を推定す るようにできる 5.確率分布の考え方 利用価値のあるデータとは、ランダムに集め られたものしかない。 当然、集計結果にもランダム性が残る。 つまり、同じ調査をくりかえしたとすれば、 毎回、少しずつ異なる結果がえられるだろう。 ある結果が生まれる確率、他の結果が生まれ る確率。それを記述するのが確率分布である。 22 6.統計的推測法 私たちは、確率現象についての仮定を置く。 そして、実際に調査をして得られた結果と、 その仮定のもとで導かれる確率分布とを比較 して、仮定が正しいかどうかの判断をする。 たとえば、喫煙しようとも、肺がんにかかる 確率は変わらないと仮定して、結果の確率分 布(予想範囲)を作る。 実際に調査した結果と、確率分布を比較する ことにより、仮定が妥当かを検討する。