...

種の進化

by user

on
Category: Documents
13

views

Report

Comments

Transcript

種の進化
バイオインフォマティクス
(第7回)
慶應義塾大学生命情報学科
榊原康文
階層クラスタリングの解:
入力ベクトル
系統樹
A:
B:
C:
D:
[1]
0
1
2
3
[2]
0
1
1
3
[3]
0
1
2
3
A
距離行列
B:
C:
D:
A:
1.732
3.000
5.196
B:
1.414
3.464
D
C:
B
2.449
C
進化系統樹とは
 約40億年前ころ(明確な証拠はない)に最初の生命
が誕生
 系統(phylogeny):
地球上のすべての生物は共通の祖先から進化したと考え
たときの,種間の進化的な関係
 進化系統樹(phylogenetic tree)で表現

 生物学的な分類体系(参考):
生物を形質(形態,機能,成分)が似たもの同士に分けて体
系づける
 「界(かい)」「門(もん)」「綱(こう)」「目(もく)」「科(か)」「属
(ぞく)」「種(しゅ)」
 近年では,伝統的な分類体系を系統学の知見を反映させ
た体系に組替える

分子進化系統樹
 分子(配列)進化系統:

すべての配列がある共通祖先の共通遺伝子から受け継が
れたと考えたときの,配列間の進化的な関係
 注意点:

(形態学的な)生物種の進化系統と配列に基づく分子進化
系統は常に一致するとは限らない

どの配列(タンパク質,RNA配列など)を基にするかによっ
ても得られる分子進化系統樹は異なる
 祖先の配列は手に入らない

進化のモデル・仮説が必要

コンピュータと数学・統計が主な解析ツールとなる
生命の系統樹をつくるためには
 rRNAまたはミトコンドリアの配列が用いられる
すべての生物に普遍的に存在
 充分な配列変異の存在,変異の安定性

 水平伝播があるために,進化系統樹は編目状になる
系統樹に関する用語
– 節点(node),枝(edge),枝長(進化の程度),根
(root),葉(leaf)
– 有根系統樹(rooted),無根系統樹(unrooted)
– 基本的に二分木
有根系統樹
無根系統樹
無根系統樹,有根系統樹
Chickenを外群とした時
の有根系統樹
無根系統樹
数学的にアルゴリズム的に
扱いやすい
生物的進化に関連した分岐を表す
進化系統の簡単なモデル
時間
TAA G
C CG T
ACT
C CG A
AC
A G
C
T AC
GC C
C C
T
進化系統樹
AC G
C C T
A
C
共通祖先の配列
枝に沿って変異
節点で種分化
進化系統樹の(再)構築問題
TAA G
C CG T
AC T C CG A
T AC
GC C
系統樹は?
16S rRNA に基づく生命の進化系統樹
(Doolittle, 2000)
進化系統樹の(再)構築問題
系統樹に沿って進化したと考えられる生体分子のアライメントが
与えられたときに,進化系統樹を構築(発見)する問題
Human
Chimp
Gorilla
Seal
Cow
fqtpmviilqaimgsatlamtliift
fqtpmiiifqaimgsatlaltliift
lqtpmviifqaimgsatlamtliift
fqlpmviifqaiiggatlalafitft
fqtpmviifqaiiggatlalalitft
Fin Whale lqtfmviifqaimgettlalafitft
Blue Whale lqtfmviifqaimgettlvlaiitft
Rat
fqismiiifqaimggatlvlatitfi
Mouse
fqismiiifqaimggatlvlatitfi
Chicken pqismiaffqaimggatlfaatitfi
?
Chicken
Blue Whale
Fin Whale
Seal Cow
Mouse
Rat
Human
Chimp
Gorilla
root
問題のステップ:
1. 系統樹Tのトポロジー(構造)の決定
2. 系統樹Tにおける枝の長さの決定
3. 系統樹Tにおける根の位置の決定
系統樹の推定手法
 距離に基づく手法:
– UPGMA法,近隣結合法
• 分子時計を仮定,加法性を利用して少しずつ構築
 系統樹の評価に基づく手法:
– 最節約法,最尤法
• まず,系統樹の評価方法を決めておく
– 最節約法:祖先配列から葉までの置換数が小さい
– 最尤法:尤度(系統樹からデータ配列を得る確率)
が高い
• 評価が最良になるような系統樹を求める
– 数え上げ:可能な系統樹から最も評価の良いものを選ぶ
– メトロポリス法:現在の系統樹をちょっとずつ改良してゆく
– などなど
最(大)節約法




全ての可能なトポロジーの(無根)系統樹について計算を行う
→ 一般に計算量が膨大になる
トポロジー:葉に与えられた配列を割り当て,系統樹の形を一
つ定めたもの
各トポロジーに対して,最小の置換数で説明できる祖先節点
の配列を決定する
すべてのトポロジーの中から,最小の置換数で説明できる系
統樹を選ぶ
アライメントによって並べられた(縦の)カラム全てについて解
析を行う
最節約法
祖先節点の決定:
系統樹全体の置換数の和が
最小になるように決定
各カラムは独立に計算可能
入力:4つのDNA配列
AAG
AAA
GGA
AGA
最節約法の問題点

最適解(祖先節点の決定)が複数存在する
A
C
A
C
A
A
A
C
C
A
C
A
C
A
C
A
A
C
C
A
C
いずれも置換数は 2

全ての木の探索は膨大な計算時間

枝ごとの配列変化速度の違いを扱えない
n は入力配列の数
距離に基づく手法
配列 A:
ACGCGTTGGGCGATGGCAAC
配列 B: ACGCGTTGGGCGACGGTAAT
配列 C: ACGCATTGAATGATGATAAT
配列 D: ACACATTGAGTGATAATAAT
AB間の塩基置換の数
距離テーブル:
A
A
B
C
D
B
3
C
7
6
D
8
7
3
UPGMA法
(unweighted pair group method using
arithmetic averages)
1.
2.
3.
4.
アライメントから初期の距離テーブルを計算する
距離が一番近いものを近隣ペアとする
クラスタ間距離=配列同士の距離の平均
ペアを一つのノードとして,距離テーブルを再構築する


基本的に,群間平均法(クラスタ間の平均距離)を用いた
階層クラスタリング
分子時計を仮定

UPGMA法の発展形が,NJ法(近隣結合法)
具体例の計算
初期距離テーブル
A
A
DEを近隣ペアとする
B
C
D
E
22
39
39
41
A
41
41
43
B
18
20
C
10
D
B
C
D
A
E
A
B
C
DE
C
D
E
22
39
39
41
41
41
43
18
20
10
E
新しい距離テーブル
A
B
B
C
DE
22
39
40
41
42
19
AD と AE
の平均.
C
A
9
10
20
5
12
4
6
B
E
D
UPGMA法
(unweighted pair group method using
arithmetic averages)
1.
各配列のみからなるクラスタを作る
2.
距離 dij が最小のペアを xi, xj 求める
3.
クラスタ xi, xj を融合して xk を作る
4.
クラスタ間距離を再計算
5.
親節点 xk を高さ dij 2 の位置に追加
6.
クラスタが2個だけになったら,根を高さ dij 2 に
置いて終了
有根系統樹の根の位置の特定
 外群

調べてる配列よりも遠縁である特定の配列
系統樹
外群
ある系統樹について,根の位置を
限定する助けとなる
 外群を使うときに気をつけること
配列的に似ていて,かつ,充分な違いが必要
 あまりに遠縁すぎるとランダムな要素を含んでしまう

Hybridization(雑種形成)
Hybridization は, 異なる種の間の交配によって,染色体を
組み合わせることにより起こる
 Hybridization は,一般に植物,魚,カエルに限定される

水あさ
(water hemp)
雑種
ブタ草
pigs weed
遺伝子の水平伝播
 バクテリアでは,遺伝子を交換するいくつかのメカニ
ズムが知られている
– Transformation(形質転換)
– Conjugation(接合)
– Transduction(形質導入)
(例)
大腸菌とO157株(ベロ毒素)
http://www.pitt.edu/~heh1/research.html
網状進化(Reticulate Evolution)の簡単なモデル
b1
a
h
c
P
b3
Q
祖先ゲノム
参考
最尤法




確率モデルに基づいて進化系統樹を推定する
配列の進化の確率モデルを定義して,進化系統樹の尤度
を計算する
すべてのトポロジーの中から,尤度が最大となる系統樹を
選ぶ
全ての可能なトポロジーの系統樹について計算を行う
置換行列
置換確率を行列として表したもの:
A
 P( A | A, t )

P( A | C , t )
S (t )  
 P ( A | G, t )

 P( A | T , t )
C
G
P(C | A, t ) P(G | A, t )
P(C | C , t ) P(G | C , t )
P(C | G, t ) P(G | G, t )
P(C | T , t ) P(G | T , t )
T
P(T | A, t ) 

P(T | C , t ) 
P(T | G, t ) 

P(T | T , t ) 
A
C
G
T
乗法性 : S (t ) S ( s)  S (t  s)
可逆性 : P(b | a, t )qa  P(a | b, t )qb
Jukes-Cantor 置換モデル
どの塩基も等確率で置換
置換速度行列
  3

 
R


 
置換行列


 

 3

 
 3

 

 3 


※無限時間後の平衡状態
A,T,C,Gが1/4ずつ
rt 
 rt

 st
S (t )  
st

 st
st
rt
st
st
st
st
rt
st
st 

st 
st 

rt 
1
1
(1  3e 4t ) st  (1  e  4t )
4
4
木村の置換モデル
トランジション (プリン(A,G)⇒プリン,ピリミジン(C,T)⇒ピリミジン)
とトランスバージョン (プリン⇔ピリミジン) を区別
置換速度行列
  2  



R









 2  




 2  



 2    


※プリン,ピリミジン間の
遷移しやすさを反映
※無限時間後の平衡状態
A,T,C,Gが1/4ずつ
st 
置換行列
 rt

 st
S (t )  
u
 t
 st
1
1
(1  e 4 t ) ut  (1  e  4 t  2e  2 (   )t )
4
4
st
ut
rt
st
st
rt
ut
st
st 

ut 
st 

rt 
rt  1  2 st  ut
最尤法
② 一つのトポロジーの
系統樹の尤度を計
算する:
Pz x3, t3
Pz y, t4 t
z
① 置換行列から,配列 x が t 時間後
に配列 y に置換する確率 Py x, t
を計算する:
(例) x TATAT,y  TTAAA
P( y | x, t )  P(T | T, t )
 P(T | A, t )
4
Py x1, t1 t
1
 P(A | T, t )
 P(A | A, t )
 P(A | T, t )
2
3
1
1
 4t 
 4t 
)    (1  e
)
  (1  3e
4
 4

x1
t3
y
t2
Py x2, t2
x2
x3
Py x1, t1× Py x2, t2×
Pz x3, t3× Pz y, t4
③ 尤度が最大となる
系統樹を選ぶ
今後の講義の予定
 5月30日:
 6月
休講
6日: 佐藤健吾先生(第1回)
 6月13日:
医学部精神神経科学教室
岸本泰士郎 講師 講演
 6月20日:
佐藤健吾先生(第2回)
 6月27日:
佐藤健吾先生(第3回)
 7月
4日: 佐藤健吾先生(第4回)
 7月11日:
授業内期末試験
6月13日の講演の予告
6月13日(月)の授業は
慶應義塾大学 医学部 精神神経科学教室 講師
岸本 泰士郎 先生
特別講演:
「こころの病気に数理計算で挑む:精神医学の抱える
問題と今後の展望」
(出席とります!)
6月13日の講演の予告
要旨:
近年の目覚ましい科学技術の進歩から、多くの疾患の病態解明が進
み、新しい診断技術や治療法が開発されている。一方、精神科領
域では今なお、病因や生物学的基盤の理解が進まないまま、医師
の経験や勘に基づく診断・治療が行われている。このまま精神医学
は、他領域から取り残されていくのか?慶應義塾大学理工学部榊
原研究室と医学部精神科ではComputational Psychiatryというアプ
ローチで、精神疾患の解明や定量化に挑んでいる。講義では、現
役精神科医師である演者が、代表的精神疾患の疾患概念や症状
について紹介するとともに、新しい時代の精神医学の可能性につ
いて語る。
7月11日の授業内期末試験について
試験会場は: 厚生棟大会議室
試験の要領は通常通り:
 すべて持ち込み不可
 遅刻は開始30分(すなわち,15時15分)まで
 学生証を提示
最節約法の演習問題 学籍番号:
名前:
Fly UP