...

scatter plot

by user

on
Category: Documents
25

views

Report

Comments

Transcript

scatter plot
統計数理 II
Computer Intensive Methods in Statistics
統計科学における計算機集約技法
学習計画
ohp20031002 下平英寿 [email protected]
1. 確率モデルによる情報処理
最尤法
2. 情報量規準によるモデル選択
エント ロピー,予測分布,AIC
3. ブート スト ラップ法による信頼性評価
データのバラツキ,不偏な検定と確率値
4. 回帰分析やバイオインフォマティクスへの応用
住宅価格データ,哺乳類のミト コンド リアDNAデータ
1
4
• 出典: D. Harrison and D. L. Rubinfeld (1978) “Hedonic
Housing Prices and the Demand for Clean Air,” Journal
of Environmental Economics and Management, 5, 81-102.
• 入力ミスの修正済みデータ “boston corrected”
StatLib Datasets Archive
http://lib.stat.cmu.edu/datasets/ より入手可能
• ここではデータセット の全サンプルサイズ n = 506 のうちランダムに
選んだ 10 地点を表示した.
• いくつかの変数に二乗や対数変換を施してある.
7
講義情報
• ホームページ
http://www.is.titech.ac.jp/~shimo/class/
• 担当:下平
• 評価方法: レポート 提出
• レポート 課題( 1∼2回)
x1
40
80
0
40 80
x2
x3
0 10
25
0.0
0.6
x4
x5
0.5
20
50
x6
回帰分析
0
x7
40 80
2
6 10
x8
5
x9
15
200
500
x10
14 18 22
x11
散布図 (scatter plot)
0.2
0
200
x12
10
30
x13
3.5
x14
2.0
5
2
• 質問受け付け: まず質問内容のメールを出すこと.面談が必要な場合
はあらかじめメールにてアポイント を取ること.もし くは講義時に直接
質問する.
0
60
0
20
0
0.2 0.7
0 60
20
5
22
14
8
10
0 60
0.0 0.8
70
20
8
2
700
200
300
0
4.0
2.0
t
9
72
89
130
164
269
343
373
451
477
x5
0.27
0.17
0.24
0.39
0.37
0.33
0.27
0.45
0.51
0.38
学習内容
住宅価格データ
x6
31.7
35.5
49.1
31.8
70.1
55.8
42.8
34.5
45.5
42.0
x7
100.0
17.5
86.3
94.7
93.9
52.6
59.7
89.6
92.6
93.6
x8
6.1
5.3
3.4
2.0
2.2
2.9
6.3
1.1
2.3
2.3
x9
5
4
2
4
5
5
1
24
24
24
x10
311
305
270
437
403
264
422
666
666
666
x11
15.2
19.2
17.8
21.2
14.7
13.0
15.9
20.2
20.2
20.2
x13
29.9
9.9
5.5
18.3
3.3
3.2
8.7
8.9
17.4
18.7
3
• 「統計科学」 データから有用な情報を取り出すための数学的方法論
x4
0
0
0
0
1
0
0
1
0
0
ボストンの506地域の住宅価格とその共変量
x3
7.9
10.8
3.4
21.9
19.6
4.0
1.9
18.1
18.1
18.1
x12
387
377
397
397
388
390
390
348
0
396
• “Computer Intensive Methods” (計算機集約技法)
• 数理的側面と現実の応用
• 新たな応用問題に統計科学の手法を適用する能力
x2
12.5
0.0
0.0
0.0
0.0
20.0
0.0
0.0
0.0
0.0
• 新たな統計科学の手法を発展させる基礎力
x1
0.21
0.16
0.06
0.88
1.52
0.54
0.02
8.27
6.72
4.87

exp −
( − µ)2 
2σ 2

6
x14
2.80
3.08
3.16
2.66
3.91
3.77
2.80
3.91
2.60
2.82
変数の説明:x1 = 犯罪率,x2 = 宅地割合,x3 = 非商用地割合,x4 =
チャールス川沿いか,x5 = 窒素酸化物濃度の二乗,x6 = 平均部屋数の二
乗,x7 =1940 年より古い住宅の割合,x8 =ビジネス街への距離,x9 =
ハイウェイへのアクセス,x10 = 固定資産税,x11 = 生徒と教師の比率,
x12 = 黒人の比率を Bk とした 1000(Bk − 0.63)2,x13 = 社会的地位の
= 持ち家価格の中央値の対数.
低い者の割合,x14
正規線形回帰モデル
2πσ 2
1
x14 = β0 + β1x1 + · · · + β13x13 + • 目的変数: x14
• 説明変数: x1, . . . , x13
• 回帰係数: β0, β1, . . . , β13
• 誤差項: ∼ N (0, σ 2)
p(; µ, σ 2) = √
9
i
0
1
2
3
4
5
6
7
8
9
10
11
12
13
回帰係数の推定
β̂i 標準誤差 t 統計量
9.937
0.352
28.2
-0.214
0.027
-8.0
0.070
0.031
2.3
0.048
0.040
1.2
0.063
0.021
3.0
-0.194
0.038
-5.1
0.182
0.028
6.5
-0.003
0.035
-0.1
-0.237
0.040
-6.0
0.282
0.055
5.1
-0.260
0.060
-4.3
-0.191
0.027
-7.0
0.092
0.023
4.0
-0.496
0.034 -14.4
進化系統樹の推定
確率値
0.000
0.000
0.023
0.232
0.003
0.000
0.000
0.930
0.000
0.000
0.000
0.000
0.000
0.000
10
13
順位
1
2
3
4
5
6
7
8
9
10
17
18
19
k
8124
8128
8188
8192
8122
8126
8186
8190
8120
8116
6076
6080
6140
|Sk |
11
12
12
13
10
11
11
12
11
10
10
11
11
AICk
646.7
647.2
648.7
649.2
649.6
650.7
651.4
652.5
654.6
654.9
660.2
661.1
662.2
α̃k
0.35
0.22
0.11
0.08
0.06
0.02
0.03
0.01
0.02
0.02
0.02
0.01
0.01
α̂k
0.72
0.87
0.31
0.33
0.19
0.14
0.10
0.06
0.14
0.10
0.15
0.14
0.07
変数選択
∆AICk
0.0
0.5
2.0
2.5
2.9
4.0
4.7
5.8
7.9
8.2
13.6
14.4
15.5
dˆk
0.15
−0.37
0.82
0.61
1.57
1.67
1.75
1.85
1.67
1.96
1.79
1.76
2.07
人類の起源はアフリカ?
ĉk
0.73
0.78
0.33
0.19
0.71
0.59
0.46
0.32
0.60
0.66
0.75
0.69
0.56
Sk のパタン
**-***-******
******-******
**-**********
*************
*--***-******
*-****-******
*--**********
*-***********
***-**-******
**--**-******
**-***-****-*
******-****-*
**-********-*
11
住宅価格データの変数選択. 順位は AIC の昇順.α̃k はブート スト ラップ確
率 (n = n).α̂k はマルチスケール・ブート スト ラップ法で計算した近似的
に不偏な確率値.この表には 8192 個のモデルのうち α̂k ≥ 0.05 となる 13
個だけが示されている.dˆk と ĉk はそれぞれ仮説の符号付距離と曲率を表し ,
α̂k の計算に用いた.
98
98
100
82
African
Non-African
0.0005
33 Mkamba
34 Ewondo
35 Bamileke
36 Lisongo
37 Yoruba
38 Yoruba
100
98
*
20 Asian Indian
21 Chinese
22 PNG coast
23 Australian
24 Evenki
25 Buriat
26 Khirgiz
27 Warao
28 Warao
29 Siberian Inuit
30 Guarani
31 Japanese
32 Japanese
1 Chukchi
2 Australian
3 Australian
4 Piman
5 Italian
6 PNG Highland
7 PNG coast
8 PNG Highland
9 Georgian
10 German
11 Uzbek
12 Saam
13 Crimean Tatar
14 Dutch
15 French
16 English
17 Samoan
18 Korean
19 Chinese
17
14
Ingman et al. (2000) Nature, 408.
mtDNA 配列データ
50 Mbuti
51 Mbuti
44 Mbenzele
45 Biaka
46 Biaka
47 Mbenzele
48 Kikuyu
39 Mandenka
40 Effik
41 Effik
42 Ibo
43 Ibo
シーケンス長 n = 3414
2
3
4
5
6
7
8
9
01234567890123456789012345678901234567890123456789012345678901234567890123456789
ERKILGYMQLRKGPNVVGPYGLLQPFADAMKLFTKEPLKPATSTITLYITAPTLALTIALLLWAPLPMPNPLVNLNLGLL
ERKVLGYMQLRKGPNIVGPYGLLQPIADAVKLFTKEPLRPLTSSTTMFIMAPILALALALTMWVPLPMPYPLINMNLGVL
ERKVLGYMQLRKGPNVVGPYGLLQPIADAIKLFIKEPLRPATSSASMFILAPIMALGLALTMWIPLPMPYPLINMNLGVL
ERKILGYMQLRKGPNIVGPYGLLQPIADAIKLFTKEPLRPLTSSPLLFIIAPTLALTLALSMWLPIPMPYPLVNLNMGIL
ERKILGYMQLRKGPNIVGPYGILQPFADAMKLFMKEPMRPLTTSMSLFIIAPTLSLTLALSLWVPLPMPHPLINLNLGIL
ERKVLGYMQFRKGPNVIGPYGILQPFADALKLFIKEPLRPMTSSISMFTIAPTLALTLAFTIWTPLPMPNALLDLNLGLL
アミノ酸配列
GCCAACCTCCTACTCCTCATTGTACCCATTCTAATCGCAATGGCATTCCTAATGCTTACCGAACGAAAAATTCTAGGCTATATACAACTACGCAAAGGC
ACCAACCTCCTACTCCTCATTGTACCCATCCTAATCGCAATAGCATTCCTAATGCTAACCGAACGAAAAATTCTAGGCTACATACAACTACGCAAAGGT
ATTAATATCATCTCACTAATTATCCCAATTCTCCTCGCCGTAGCTTTCCTAACATTAGTAGAACGGAAAGTACTAGGCTACATACAACTCCGAAAAGGA
ATTAACATCTTAATACTAATTATTCCCATCCTATTGGCCGTAGCATTCCTTACGTTAGTGGAACGAAAAGTTCTAGGCTATATACAACTCCGAAAAGGT
ATTAATACACTCCTTTTAATCCTACCTGTACTTTTAGCCATAGCATTCCTCACCTTAGTCGAACGAAAAATCTTAGGGTACATACAACTACGTAAAGGC
ATTAATATCCTAACACTCCTCGTCCCCATTCTAATCGCCATAGCCTTCCTAACATTAGTAGAACGCAAAATCTTAGGGTACATACAACTACGAAAAGGC
ATTAACTTATTAATATATATTATCCCTATCCTCCTAGCTGTAGCATTTTTAACTCTAGTAGAACGAAAAGTATTAGGCTATATACAATTCCGAAAAGGC
49 Hausa
human
seal
cow
rabbit
mouse
opossum
human
chimp
seal
cow
rabbit
mouse
opossum
52 San
53 San
オポッサム
哺乳類の進化系統樹?
ネズミ
ヒト
ウサギ
チンパンジー
アザラシ
16
動物写真提供:長谷川政美氏
時間
共通祖先
比較を容易にするため,あらかじめ各 x1, . . . , x14 をその標準偏差で割って
から回帰分析を行なった.残差の分散は σ̂ 2 = 0.20.
共通祖先
時間
ウシ
human
v1
seal
v6
t1
t6
v2
v8
t2
t8
t3
v10
t9
cow
v7
t7
v9
グラフィカルモデル
変数間の関係をグラフで表現
opossum
v5
θ = (t1, t2, t3, t4,
t5, t6, t7, t8, t9,
Q, π)
12
P (v1|v8; t1)P (v2|v8; t2)P (v3|v9; t3)
15
Cao et al. (2000) Gene 259, 149-158.
形態学 vs 分子系統樹
t5
mouse
v4
系統樹の確率モデル
rabbit
v3
t4
v2,v8,v9,v10
サイト h における配列パタン xh の確率
P (xh; T, θ) =
×P (v4|v10; t4)P (v5|v10; t5)P (v6|v2; t6)
×P (v7|v2; t7)P (v8|v9; t8)P (v9|v10; t9)P (v10)
各枝でのマルコフ過程 (つまり進化) は独立という仮定
18
Chimp
1 2 3 4 5 6
T2 (+2.7)
1 2 3 4 5 6
T3 (+7.4)
1 42 3 5 6
系統樹の対数尤度差
T1 (+0.0)
1 4 5 2 3 6
T7 (+20.6)
1 2 3 4 5 6
T5 (+18.9)
1 2 3 4 5 6
T4 (+17.6)
ヒト =1,アザラシ =2,ウシ =3,
ウサギ =4,マウス=5,オポッサム=6
確率モデルによる情報処理
θ = パラメタ
データのバラツキは?
pk̂ (X; θk̂ )
p1(X; θ1), p2(X; θ2), . . . , pK (X; θK )
X = データ,
p(X; θ)
• 確率モデル (確率密度関数または確率関数)
• モデルの候補
• モデル選択
• 信頼性評価
k̂で本当に良いのか?
19
22
DATA
human
seal
cow
rabbit
mouse
opossum
1
2
COMPARISON
SELECTION
4
5
1
2
3
系統樹推定
4
5
1
2
3
3
2
4
4
5
5
1
2
4
3
5
2
3
4
5
6
7
8
9
01234567890123456789012345678901234567890123456789012345678901234567890123456789
ERKILGYMQLRKGPNVVGPYGLLQPFADAMKLFTKEPLKPATSTITLYITAPTLALTIALLLWAPLPMPNPLVNLNLGLL
ERKVLGYMQLRKGPNIVGPYGLLQPIADAVKLFTKEPLRPLTSSTTMFIMAPILALALALTMWVPLPMPYPLINMNLGVL
ERKVLGYMQLRKGPNVVGPYGLLQPIADAIKLFIKEPLRPATSSASMFILAPIMALGLALTMWIPLPMPYPLINMNLGVL
ERKILGYMQLRKGPNIVGPYGLLQPIADAIKLFTKEPLRPLTSSPLLFIIAPTLALTLALSMWLPIPMPYPLVNLNMGIL
ERKILGYMQLRKGPNIVGPYGILQPFADAMKLFMKEPMRPLTTSMSLFIIAPTLSLTLALSLWVPLPMPHPLINLNLGIL
ERKVLGYMQFRKGPNVIGPYGILQPFADALKLFIKEPLRPMTSSISMFTIAPTLALTLAFTIWTPLPMPNALLDLNLGLL
3
1
ブート スト ラップ法
GCCAACCTCCTACTCCTCATTGTACCCATTCTAATCGCAATGG
ACCAACCTCCTACTCCTCATTGTACCCATCCTAATCGCAATAG
ATTAATATCATCTCACTAATTATCCCAATTCTCCTCGCCGTAG
ATTAACATCTTAATACTAATTATTCCCATCCTATTGGCCGTAG
ATTAATACACTCCTTTTAATCCTACCTGTACTTTTAGCCATAG
ATTAATATCCTAACACTCCTCGTCCCCATTCTAATCGCCATAG
ATTAACTTATTAATATATATTATCCCTATCCTCCTAGCTGTAG
有限長の配列データからのリサンプリング
Efron (1979)
20
23
モデル選択
2
2
3
3
ブート スト ラップ確率
GCCAACCTCCTACTCCTCATTGTACCCATTCTAATCGCAATGG
ACCAACCTCCTACTCCTCATTGTACCCATCCTAATCGCAATAG
ATTAATATCATCTCACTAATTATCCCAATTCTCCTCGCCGTAG
ATTAACATCTTAATACTAATTATTCCCATCCTATTGGCCGTAG
ATTAATACACTCCTTTTAATCCTACCTGTACTTTTAGCCATAG
ATTAATATCCTAACACTCCTCGTCCCCATTCTAATCGCCATAG
ATTAACTTATTAATATATATTATCCCTATCCTCCTAGCTGTAG
1
1
1
4
4
5
2
5
3
1
1
4
2
膨大な計算量 — 並列計算による高速化
5
3
3
4
2
4
5
5
21
24
Fly UP