Comments
Description
Transcript
scatter plot
統計数理 II Computer Intensive Methods in Statistics 統計科学における計算機集約技法 学習計画 ohp20031002 下平英寿 [email protected] 1. 確率モデルによる情報処理 最尤法 2. 情報量規準によるモデル選択 エント ロピー,予測分布,AIC 3. ブート スト ラップ法による信頼性評価 データのバラツキ,不偏な検定と確率値 4. 回帰分析やバイオインフォマティクスへの応用 住宅価格データ,哺乳類のミト コンド リアDNAデータ 1 4 • 出典: D. Harrison and D. L. Rubinfeld (1978) “Hedonic Housing Prices and the Demand for Clean Air,” Journal of Environmental Economics and Management, 5, 81-102. • 入力ミスの修正済みデータ “boston corrected” StatLib Datasets Archive http://lib.stat.cmu.edu/datasets/ より入手可能 • ここではデータセット の全サンプルサイズ n = 506 のうちランダムに 選んだ 10 地点を表示した. • いくつかの変数に二乗や対数変換を施してある. 7 講義情報 • ホームページ http://www.is.titech.ac.jp/~shimo/class/ • 担当:下平 • 評価方法: レポート 提出 • レポート 課題( 1∼2回) x1 40 80 0 40 80 x2 x3 0 10 25 0.0 0.6 x4 x5 0.5 20 50 x6 回帰分析 0 x7 40 80 2 6 10 x8 5 x9 15 200 500 x10 14 18 22 x11 散布図 (scatter plot) 0.2 0 200 x12 10 30 x13 3.5 x14 2.0 5 2 • 質問受け付け: まず質問内容のメールを出すこと.面談が必要な場合 はあらかじめメールにてアポイント を取ること.もし くは講義時に直接 質問する. 0 60 0 20 0 0.2 0.7 0 60 20 5 22 14 8 10 0 60 0.0 0.8 70 20 8 2 700 200 300 0 4.0 2.0 t 9 72 89 130 164 269 343 373 451 477 x5 0.27 0.17 0.24 0.39 0.37 0.33 0.27 0.45 0.51 0.38 学習内容 住宅価格データ x6 31.7 35.5 49.1 31.8 70.1 55.8 42.8 34.5 45.5 42.0 x7 100.0 17.5 86.3 94.7 93.9 52.6 59.7 89.6 92.6 93.6 x8 6.1 5.3 3.4 2.0 2.2 2.9 6.3 1.1 2.3 2.3 x9 5 4 2 4 5 5 1 24 24 24 x10 311 305 270 437 403 264 422 666 666 666 x11 15.2 19.2 17.8 21.2 14.7 13.0 15.9 20.2 20.2 20.2 x13 29.9 9.9 5.5 18.3 3.3 3.2 8.7 8.9 17.4 18.7 3 • 「統計科学」 データから有用な情報を取り出すための数学的方法論 x4 0 0 0 0 1 0 0 1 0 0 ボストンの506地域の住宅価格とその共変量 x3 7.9 10.8 3.4 21.9 19.6 4.0 1.9 18.1 18.1 18.1 x12 387 377 397 397 388 390 390 348 0 396 • “Computer Intensive Methods” (計算機集約技法) • 数理的側面と現実の応用 • 新たな応用問題に統計科学の手法を適用する能力 x2 12.5 0.0 0.0 0.0 0.0 20.0 0.0 0.0 0.0 0.0 • 新たな統計科学の手法を発展させる基礎力 x1 0.21 0.16 0.06 0.88 1.52 0.54 0.02 8.27 6.72 4.87 exp − ( − µ)2 2σ 2 6 x14 2.80 3.08 3.16 2.66 3.91 3.77 2.80 3.91 2.60 2.82 変数の説明:x1 = 犯罪率,x2 = 宅地割合,x3 = 非商用地割合,x4 = チャールス川沿いか,x5 = 窒素酸化物濃度の二乗,x6 = 平均部屋数の二 乗,x7 =1940 年より古い住宅の割合,x8 =ビジネス街への距離,x9 = ハイウェイへのアクセス,x10 = 固定資産税,x11 = 生徒と教師の比率, x12 = 黒人の比率を Bk とした 1000(Bk − 0.63)2,x13 = 社会的地位の = 持ち家価格の中央値の対数. 低い者の割合,x14 正規線形回帰モデル 2πσ 2 1 x14 = β0 + β1x1 + · · · + β13x13 + • 目的変数: x14 • 説明変数: x1, . . . , x13 • 回帰係数: β0, β1, . . . , β13 • 誤差項: ∼ N (0, σ 2) p(; µ, σ 2) = √ 9 i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 回帰係数の推定 β̂i 標準誤差 t 統計量 9.937 0.352 28.2 -0.214 0.027 -8.0 0.070 0.031 2.3 0.048 0.040 1.2 0.063 0.021 3.0 -0.194 0.038 -5.1 0.182 0.028 6.5 -0.003 0.035 -0.1 -0.237 0.040 -6.0 0.282 0.055 5.1 -0.260 0.060 -4.3 -0.191 0.027 -7.0 0.092 0.023 4.0 -0.496 0.034 -14.4 進化系統樹の推定 確率値 0.000 0.000 0.023 0.232 0.003 0.000 0.000 0.930 0.000 0.000 0.000 0.000 0.000 0.000 10 13 順位 1 2 3 4 5 6 7 8 9 10 17 18 19 k 8124 8128 8188 8192 8122 8126 8186 8190 8120 8116 6076 6080 6140 |Sk | 11 12 12 13 10 11 11 12 11 10 10 11 11 AICk 646.7 647.2 648.7 649.2 649.6 650.7 651.4 652.5 654.6 654.9 660.2 661.1 662.2 α̃k 0.35 0.22 0.11 0.08 0.06 0.02 0.03 0.01 0.02 0.02 0.02 0.01 0.01 α̂k 0.72 0.87 0.31 0.33 0.19 0.14 0.10 0.06 0.14 0.10 0.15 0.14 0.07 変数選択 ∆AICk 0.0 0.5 2.0 2.5 2.9 4.0 4.7 5.8 7.9 8.2 13.6 14.4 15.5 dˆk 0.15 −0.37 0.82 0.61 1.57 1.67 1.75 1.85 1.67 1.96 1.79 1.76 2.07 人類の起源はアフリカ? ĉk 0.73 0.78 0.33 0.19 0.71 0.59 0.46 0.32 0.60 0.66 0.75 0.69 0.56 Sk のパタン **-***-****** ******-****** **-********** ************* *--***-****** *-****-****** *--********** *-*********** ***-**-****** **--**-****** **-***-****-* ******-****-* **-********-* 11 住宅価格データの変数選択. 順位は AIC の昇順.α̃k はブート スト ラップ確 率 (n = n).α̂k はマルチスケール・ブート スト ラップ法で計算した近似的 に不偏な確率値.この表には 8192 個のモデルのうち α̂k ≥ 0.05 となる 13 個だけが示されている.dˆk と ĉk はそれぞれ仮説の符号付距離と曲率を表し , α̂k の計算に用いた. 98 98 100 82 African Non-African 0.0005 33 Mkamba 34 Ewondo 35 Bamileke 36 Lisongo 37 Yoruba 38 Yoruba 100 98 * 20 Asian Indian 21 Chinese 22 PNG coast 23 Australian 24 Evenki 25 Buriat 26 Khirgiz 27 Warao 28 Warao 29 Siberian Inuit 30 Guarani 31 Japanese 32 Japanese 1 Chukchi 2 Australian 3 Australian 4 Piman 5 Italian 6 PNG Highland 7 PNG coast 8 PNG Highland 9 Georgian 10 German 11 Uzbek 12 Saam 13 Crimean Tatar 14 Dutch 15 French 16 English 17 Samoan 18 Korean 19 Chinese 17 14 Ingman et al. (2000) Nature, 408. mtDNA 配列データ 50 Mbuti 51 Mbuti 44 Mbenzele 45 Biaka 46 Biaka 47 Mbenzele 48 Kikuyu 39 Mandenka 40 Effik 41 Effik 42 Ibo 43 Ibo シーケンス長 n = 3414 2 3 4 5 6 7 8 9 01234567890123456789012345678901234567890123456789012345678901234567890123456789 ERKILGYMQLRKGPNVVGPYGLLQPFADAMKLFTKEPLKPATSTITLYITAPTLALTIALLLWAPLPMPNPLVNLNLGLL ERKVLGYMQLRKGPNIVGPYGLLQPIADAVKLFTKEPLRPLTSSTTMFIMAPILALALALTMWVPLPMPYPLINMNLGVL ERKVLGYMQLRKGPNVVGPYGLLQPIADAIKLFIKEPLRPATSSASMFILAPIMALGLALTMWIPLPMPYPLINMNLGVL ERKILGYMQLRKGPNIVGPYGLLQPIADAIKLFTKEPLRPLTSSPLLFIIAPTLALTLALSMWLPIPMPYPLVNLNMGIL ERKILGYMQLRKGPNIVGPYGILQPFADAMKLFMKEPMRPLTTSMSLFIIAPTLSLTLALSLWVPLPMPHPLINLNLGIL ERKVLGYMQFRKGPNVIGPYGILQPFADALKLFIKEPLRPMTSSISMFTIAPTLALTLAFTIWTPLPMPNALLDLNLGLL アミノ酸配列 GCCAACCTCCTACTCCTCATTGTACCCATTCTAATCGCAATGGCATTCCTAATGCTTACCGAACGAAAAATTCTAGGCTATATACAACTACGCAAAGGC ACCAACCTCCTACTCCTCATTGTACCCATCCTAATCGCAATAGCATTCCTAATGCTAACCGAACGAAAAATTCTAGGCTACATACAACTACGCAAAGGT ATTAATATCATCTCACTAATTATCCCAATTCTCCTCGCCGTAGCTTTCCTAACATTAGTAGAACGGAAAGTACTAGGCTACATACAACTCCGAAAAGGA ATTAACATCTTAATACTAATTATTCCCATCCTATTGGCCGTAGCATTCCTTACGTTAGTGGAACGAAAAGTTCTAGGCTATATACAACTCCGAAAAGGT ATTAATACACTCCTTTTAATCCTACCTGTACTTTTAGCCATAGCATTCCTCACCTTAGTCGAACGAAAAATCTTAGGGTACATACAACTACGTAAAGGC ATTAATATCCTAACACTCCTCGTCCCCATTCTAATCGCCATAGCCTTCCTAACATTAGTAGAACGCAAAATCTTAGGGTACATACAACTACGAAAAGGC ATTAACTTATTAATATATATTATCCCTATCCTCCTAGCTGTAGCATTTTTAACTCTAGTAGAACGAAAAGTATTAGGCTATATACAATTCCGAAAAGGC 49 Hausa human seal cow rabbit mouse opossum human chimp seal cow rabbit mouse opossum 52 San 53 San オポッサム 哺乳類の進化系統樹? ネズミ ヒト ウサギ チンパンジー アザラシ 16 動物写真提供:長谷川政美氏 時間 共通祖先 比較を容易にするため,あらかじめ各 x1, . . . , x14 をその標準偏差で割って から回帰分析を行なった.残差の分散は σ̂ 2 = 0.20. 共通祖先 時間 ウシ human v1 seal v6 t1 t6 v2 v8 t2 t8 t3 v10 t9 cow v7 t7 v9 グラフィカルモデル 変数間の関係をグラフで表現 opossum v5 θ = (t1, t2, t3, t4, t5, t6, t7, t8, t9, Q, π) 12 P (v1|v8; t1)P (v2|v8; t2)P (v3|v9; t3) 15 Cao et al. (2000) Gene 259, 149-158. 形態学 vs 分子系統樹 t5 mouse v4 系統樹の確率モデル rabbit v3 t4 v2,v8,v9,v10 サイト h における配列パタン xh の確率 P (xh; T, θ) = ×P (v4|v10; t4)P (v5|v10; t5)P (v6|v2; t6) ×P (v7|v2; t7)P (v8|v9; t8)P (v9|v10; t9)P (v10) 各枝でのマルコフ過程 (つまり進化) は独立という仮定 18 Chimp 1 2 3 4 5 6 T2 (+2.7) 1 2 3 4 5 6 T3 (+7.4) 1 42 3 5 6 系統樹の対数尤度差 T1 (+0.0) 1 4 5 2 3 6 T7 (+20.6) 1 2 3 4 5 6 T5 (+18.9) 1 2 3 4 5 6 T4 (+17.6) ヒト =1,アザラシ =2,ウシ =3, ウサギ =4,マウス=5,オポッサム=6 確率モデルによる情報処理 θ = パラメタ データのバラツキは? pk̂ (X; θk̂ ) p1(X; θ1), p2(X; θ2), . . . , pK (X; θK ) X = データ, p(X; θ) • 確率モデル (確率密度関数または確率関数) • モデルの候補 • モデル選択 • 信頼性評価 k̂で本当に良いのか? 19 22 DATA human seal cow rabbit mouse opossum 1 2 COMPARISON SELECTION 4 5 1 2 3 系統樹推定 4 5 1 2 3 3 2 4 4 5 5 1 2 4 3 5 2 3 4 5 6 7 8 9 01234567890123456789012345678901234567890123456789012345678901234567890123456789 ERKILGYMQLRKGPNVVGPYGLLQPFADAMKLFTKEPLKPATSTITLYITAPTLALTIALLLWAPLPMPNPLVNLNLGLL ERKVLGYMQLRKGPNIVGPYGLLQPIADAVKLFTKEPLRPLTSSTTMFIMAPILALALALTMWVPLPMPYPLINMNLGVL ERKVLGYMQLRKGPNVVGPYGLLQPIADAIKLFIKEPLRPATSSASMFILAPIMALGLALTMWIPLPMPYPLINMNLGVL ERKILGYMQLRKGPNIVGPYGLLQPIADAIKLFTKEPLRPLTSSPLLFIIAPTLALTLALSMWLPIPMPYPLVNLNMGIL ERKILGYMQLRKGPNIVGPYGILQPFADAMKLFMKEPMRPLTTSMSLFIIAPTLSLTLALSLWVPLPMPHPLINLNLGIL ERKVLGYMQFRKGPNVIGPYGILQPFADALKLFIKEPLRPMTSSISMFTIAPTLALTLAFTIWTPLPMPNALLDLNLGLL 3 1 ブート スト ラップ法 GCCAACCTCCTACTCCTCATTGTACCCATTCTAATCGCAATGG ACCAACCTCCTACTCCTCATTGTACCCATCCTAATCGCAATAG ATTAATATCATCTCACTAATTATCCCAATTCTCCTCGCCGTAG ATTAACATCTTAATACTAATTATTCCCATCCTATTGGCCGTAG ATTAATACACTCCTTTTAATCCTACCTGTACTTTTAGCCATAG ATTAATATCCTAACACTCCTCGTCCCCATTCTAATCGCCATAG ATTAACTTATTAATATATATTATCCCTATCCTCCTAGCTGTAG 有限長の配列データからのリサンプリング Efron (1979) 20 23 モデル選択 2 2 3 3 ブート スト ラップ確率 GCCAACCTCCTACTCCTCATTGTACCCATTCTAATCGCAATGG ACCAACCTCCTACTCCTCATTGTACCCATCCTAATCGCAATAG ATTAATATCATCTCACTAATTATCCCAATTCTCCTCGCCGTAG ATTAACATCTTAATACTAATTATTCCCATCCTATTGGCCGTAG ATTAATACACTCCTTTTAATCCTACCTGTACTTTTAGCCATAG ATTAATATCCTAACACTCCTCGTCCCCATTCTAATCGCCATAG ATTAACTTATTAATATATATTATCCCTATCCTCCTAGCTGTAG 1 1 1 4 4 5 2 5 3 1 1 4 2 膨大な計算量 — 並列計算による高速化 5 3 3 4 2 4 5 5 21 24