Comments
Description
Transcript
テキスト - 数理教室
リテラシーとしてのデータ科学 基礎工学研究科 システム創成専攻 数理科学領域 教 授 狩野 裕 1.はじめに 私 た ち は 「 こ う す れ ば こ う な る 」「 こ う い う 人 は こ う い う こ と を す る 」 と い っ た こ と を しばしば口にします.いくつか例を挙げましょう. (1) 関 西 に は た こ 焼 き 器 が 多 い (2) タ バ コ を 吸 う と 肺 が ん に な り 易 い (3) 婚 姻 率 が 高 い 都 道 府 県 で は 長 生 き で き る (4) 子 の つ く 名 前 の 女 の 子 は 頭 が い い (5) コ ウ ノ ト リ が 数 多 く 飛 来 し た 年 は 出 生 数 が 多 い (6) 最 新 の ケ イ タ イ を も つ 人 は 男 女 別 姓 に 賛 成 す る (7) 車 で 動 物 を 轢 い た な ら , 近 々 人 身 事 故 を 起 こ す 私たちは,このようなことを,原因と結果,予測,相関・連関などと言います.研究 活動や会社の業務の多くの場面で,因果関係や予測といったことが解決すべき問題点 ではないでしょうか. 私たちがこのような問題・課題に出会ったとき,最初にすることは思考実験です. すなわち,その事実を正しいと考えるべきか疑うべきかを頭の中で色々な角度から検 討するのです.科学的な研究やリスクの伴う判断に迫られた場合は,思考実験に止ま らず,微分方程式などを用いて数理モデルを立てて分析したり,実験や調査を行い客 観的なデータを採取し統計モデルを用いたりして,科学的証拠を得ようとします.本 講 で は 後 者 の 場 合 を 扱 い ,上 述 (1)-(7)の よ う な ス テ ー ト メ ン ト へ の 考 え 方 や ,デ ー タ の見方についてお話しします. 以下の節ではいくつかの実例を紹介します.考え方のヒントだけを述べますので, 講義までに皆さん自身で「思考実験」をしてみてください. 2.相手が必要 2.1 関 西 に は た こ 焼 き 器 が 多 い ? 近年,たこ焼きと関西弁は全国区になったと言われています.では,たこ焼きを「焼 く」という文化はどうでしょうか.つまり,関西で はたこ焼き器を持っている家庭が多いのでしょうか. 表1のデータをみて考えてみましょう. 表1 育成地 関西 非関西 合計 たこ焼器 あり なし 34 5 14 22 48 27 合計 39 36 75 2.2 ス ペ ー ス シ ャ ト ル 1986 年 ,米 国 NASA が 打 ち 上 げ た 有 人 飛 温度と故障率との散布図 0.6 行衛星チャレンジャー号が,茶の間で こして打ち上げに失敗しました.あの ときの米国人が受けたショックは大変 大きなものであったことは容易に想像 がつきます.この事故の原因はシャト ルにあるオー・リングという部品の故 0.5 故障率(r/6) 多くの米国人が見守る中,大爆発を起 0.4 0.3 0.2 0.1 0.0 20 40 60 温度(F) 80 図1 障 で し た . NASA の 技 術 者 は , 当 然 な が ら,打ち上げ前にオー・リングの問題を検討していました.図1はチャレンジャー以 前 の 23 回 の シ ャ ト ル 打 ち 上 げ に お い て , オ ー ・ リ ン グ が 故 障 し た 打 ち 上 げ (n=6)に お け る , オ ー ・ リ ン グ と 外 気 温 の 関 係 を プ ロ ッ ト し た 散 布 図 で , NASA は こ の デ ー タ を 吟 味していました.実は,ここには大きな落とし穴があったのです. 3.相手がいても この節ではもう少し複雑な関係を見る方法を紹介しましょう. 3.1 タ バ コ と 肺 が ん 統計的な方法で社会を動かした有名な例の一つにタバコと肺がんの関係があります. 最近は日本でも健康増進法が施行される等,タバコと肺がんの関係を疑う人はいない と 思 い ま す が ,1950 年 ご ろ は ,関 係 を 否 定 す る グ ル ー プ と 肯 定 す る グ ル ー プ が 対 峙 し , タバコが肺がんの原因になるかどうかは大問題でした.統計学の基礎を築いた学者と し て 有 名 な R. A. Fisher は 否 定 派 で , 関 係 を 支 持 す る 多 く の 相 関 研 究 を 糾 弾 し た こ と でも知られています.彼は愛煙家であり彼 の判断にはバイアスがありましたが,デー タの見方という点では大いに参考にすべき ところがあります.また,米国のタバコ会 社も,当然ながら,否定派でした.彼らの 主張は,図2のように,喫煙量 X と肺がん 図2 発症 Y の両者に関係する第三変数が存在し て ,そ れ が X と Y を 結 ん で い る と い う 主 張 で し た .す な わ ち ,X と Y に は 関 係 が あ る よ うに見えるのですが,実際は直接的因果関係はないというものでした.タバコ会社は 第三変数として「ストレス」を主張しました.ストレスが高いと喫煙量が増えると同 時 に 癌 の 発 症 確 率 も 上 昇 す る , そ の 結 果 , X と Y に 見 か け 上 の 相 関 ( 擬 相 関 , spurious correlation) が 生 じ て い る と 主 張 し た わ け で す . 3.2 婚 姻 率 が 上 が る と 死 亡 率 が 下 が る ? 婚姻率と死亡率 r=-0.667 図3は都道府県別の婚姻率と死亡率(人口 10.00 千 人 あ た り )を 散 布 図 に ま と め た も の で す . 負の相関関係が見て取れます.この関係は 皆さんの直感に合うでしょうか.婚姻率と 死亡率は当該年度に役所に提出された婚姻 死亡率 婚姻率が上がれば死亡率が減少するという 9.00 8.00 7.00 6.00 5.00 4.00 5.00 届と死亡届の数に基づいています.この散 布図の結果を理解するには婚姻率と死亡率 6.00 7.00 8.00 婚姻率 図3 以 外 の 変 数 --- 第 三 変 数 ---を 考 え る 必 要 が あ り ま す . 3.3 子 の つ く 名 前 の 女 の 子 は 頭 が い い こ の タ イ ト ル の 書 物 が 出 版 さ れ て 約 10 年 が 経 ち ま す .こ の 主 張 に つ い て 受 講 生 の 皆 さ んはどのように感じられるでしょうか.最近は多くありませんが,名付け親を頼んだ り,漢字の画数にこだわったりすることがあります.命名という行為とその子の人生 にはどのような関係があるのでしょうか. 常識的には「関係がない」と考える人が多いように思いますが,もしそうならば, なぜ「子のつく名前の女の子は頭がいい」という主張が登場するのでしょうか.ここ でも先に考えた二つの例のように第三変数に着目します. 4.統計学的因果推論 この節では統計学的に因果推論がどのように定義されるか紹介しましょう.例として 薬の服用が病気の治癒に効果があるのかどうかを調べたいとします.統計学的には, 病気に罹った実験協力者を無作為に二つのグループに分け,一つ目のグループには薬 を服用,二つ目のグループには服用せず,グループ間で治癒日数や治癒率を比較する こ と が 行 わ れ ま す . こ れ を 無 作 為 割 付 け (random assignment)に よ る 実 験 研 究 と 言 い ま す.各実験協力者をグループに無作為に割り当てることで,協力者のさまざまな特質 が確率的にバランス化し,グループ間で公平な比較が可能になります.しかし,この 方法は倫理的な問題をはらんでいることに気づくでしょう.たとえば,医者は重症の 患者には投薬を勧めたいでしょうし,また,薬嫌いの(比較的軽い症状の)患者に無 理やり投薬することは難しいからです. そこで,医者と患者の合意で薬を服用したグループと服用しなかったグループにお いて投薬効果を比較するという方法が考えられます.これを観察研究(または相関研 究)と言います.無作為割付けをした実験研究と比べると,二つのグループの非均質 性に気づきます.たとえば,投薬グループは比較的症状の重い患者が,非投薬グルー プには軽症の患者が集まっていると考えられます.また,年齢による偏りがあるかも しれません.均質でないグループを比較しても投薬効果を適正に評価できるとは思え ません.そこで次のように考えます.薬を服用した患者がもし服用しなかったとした ら治癒しただろうかしなかっただろうか.治癒したとしたら治癒日数は薬を服用した 場合と比べて長引いたかどうか.薬を服用した患者に対して「服用しなかったら」と 考 え る わ け で す か ら , 反 事 実 (counterfactual)と か 仮 定 法 過 去 の モ デ ル と 言 わ れ て い ます. 図4 各 患 者 に お い て , 薬 を 服 用 し な か っ た と き の 結 果 を Y0, 服 用 し た と き の 結 果 を Y1 と し ま す と 図 4 (右 )の よ う な デ ー タ が 得 ら れ る こ と に な り ま す . 実 際 は , 服 用 し た か し な か っ た か の ど ち ら か し か デ ー タ が あ り ま せ ん か ら , 一 方 は 欠 測 値 (missing value)と なり観測できません.表で四角で囲ってある部分が欠測値ということになってしまい ま す .こ の 表 で は ,投 薬 の 選 択 と 治 癒 日 数 に 関 係 す る と 思 わ れ る 第 三 変 数 ,た と え ば , 「重症度」 「年齢」 「 患 者 の 希 望 」な ど を 記 号 z で 表 し て い ま す .こ の ア プ ロ ー チ で は , 適当な条件の下で,zの情報を活かして欠測値を推定し,投薬の効果(の期待値) E[Y 1 ]-E[Y 0 ]を 推 定 し ま す . 5.おわりに 統 計 学 と い う 学 問 は , 遺 伝 学 者 で も あ っ た R. A. Fisher に よ っ て そ の 基 礎 固 め が な さ れたと言われており,約100年の歴史をもっています.近年はデータ科学とかデー タサイエンスと呼ばれることがあります.日本統計学会は統計学を研究・普及する組 織で会員数は現在約1500人です.米国統計学会が約2万人,英国統計学会が約5 千 人 の 会 員 を 擁 す る こ と を 考 え ま す と ,日 本 の 統 計 学 会 の 規 模 は 小 さ め で す .し か し , 今回お話したデータの見方や統計的思考実験は研究活動だけでなく普段の生活におい ても重要だと思います.日本人はロジカルな会話と行動に不得手であるとよく言われ ますが,一方,数学の力は世界でトップクラスです.幼少から鍛えた算数・数学のス キルが現実の生活に活かし切っていないのではないでしょうか.統計科学の基礎は, 数 学 と 現 実 を つ な ぐ イ ン タ フ ェ ー ス と 考 え る こ と が で き ま す か ら ,現 代 人 の 教 養 ---読 み 書 き そ ろ ば ん ---に 加 え ら れ る べ き だ と 思 い ま す . 参考文献 金 原 克 範 (1995,2001).『 子 の つ く 名 前 の 女 の 子 は 頭 が い い 』 洋 泉 社 . サ ル ツ ブ ル グ (2001). 『 統 計 学 を 拓 い た 異 才 た ち 』 竹 内 ・ 熊 谷 訳 (2006). 日 本 経 済 新 聞社. 狩野 裕 (2002).「 構 造 方 程 式 モ デ リ ン グ , 因 果 推 論 , そ し て 非 正 規 性 」 竹 内 啓 (編 著 ) 多 変 量 解 析 の 展 開 -- 隠 れ た 構 造 と 因 果 を 推 理 す る -– pp.65-129 (Part II). 岩波書店. 東 京 大 学 教 養 学 部 統 計 学 教 室 編 (1994). 『 人 文・社 会 科 学 の 統 計 学 』東 京 大 学 出 版 会 .