Comments
Description
Transcript
生命情報学基礎論
生命情報学基礎論 矢田 哲士 京都大学大学院情報学研究科 2012 年 7 月 2 日 ab initio 法 • 遺伝子配列の統計的な特徴に着目し,それに 類似した領域がゲノム配列に存在すれば,そ の領域には遺伝子が存在すると推定 • 遺伝子の各領域には,それぞれに特異的な塩 基組成の偏りが存在 • 遺伝子の構造には,文法的な制約が存在 • これらの特徴は,遺伝子の転写や翻訳に関す る分子的な機序を反映 原核生物遺伝子の構造 RBS 5' AGGAG CDS ATG ... TAA 3' コドンの出現頻度の偏り (大腸菌) ATG 88.20 GTG 8.73 TTG 2.66 AAA AAC AAG AAT CAA CAC CAG CAT GAA GAC GAG GAT TAA∗ TAC TAG∗ TAT 3.40 2.17 1.10 1.91 1.47 0.93 2.97 1.28 3.96 1.93 1.89 3.31 0.19 1.23 0.02 1.65 ACA 0.80 ACC 2.30 ACG 1.52 ACT 0.90 CCA 0.84 CCC 0.56 CCG 2.27 CCT 0.72 GCA 2.08 GCC 2.55 GCG 3.27 GCT 1.54 TCA 0.81 TCC 0.90 TCG 0.88 TCT 0.86 AGA AGC AGG AGT CGA CGC CGG CGT GGA GGC GGG GGT TGA∗ TGC TGG TGT 0.28 1.61 0.17 0.94 0.38 2.11 0.62 2.04 0.88 2.83 1.19 2.44 0.11 0.63 1.53 0.52 ATA 0.53 ATC 2.40 ATG 2.42 ATT 2.98 CTA 0.39 CTC 1.05 CTG 5.16 CTT 1.14 GTA 1.09 GTC 1.48 GTG 2.60 GTT 1.81 TTA 1.37 TTC 1.58 TTG 1.28 TTT 2.21 CDS モデル B A A A A A C A A G T T G T T T A T G T A A C T G T A G T T G T G A E 開始コドン上流域のアラインメント ***** -----TTGAACAAGCAGGAGTATGTCATTG ---TTATCACCGGAGCGGAGGGTTAATC----CCAACCAAATCAAGGAGCGAAACAG---AGCACCACATATAAGGAGATCCTGC----CTGCTGGAATGGCAGGAGGCCCATC---CGCCGCGAGATAACAGGAAAAAGTC---- RBS モデル B A C G T E 0.60 0.14 0.12 0.14 0.06 0.05 0.82 0.08 0.02 0.05 0.89 0.04 0.72 0.07 0.08 0.13 0.23 0.11 0.49 0.17 開始コドンと RBS の距離分布 Frequency 0.3 0.2 0.1 0.0 0 5 10 15 スペーサモデル B n n n n n n n n n n n E 遺伝子発見 HMM B RBS model Spacer model CDS model E ゲノム比較法 • 機能的に重要な情報を持つ領域がシンテニィ 領域間で保存 • シンテニィ領域とは,共通の祖先ゲノムの同 じ場所から由来している領域 • シンテニィ領域のゲノム配列を比較し,互い に保存されている領域が存在すれば,その領 域には遺伝子が含まれていると推定 • 全ゲノムショットガン法の確立 ゲノム配列のアラインメント コード領域を取り出す手掛かり コード領域のアラインメント G Q K V L G G T C A G A A A G T A C T T | | : | | | | | : | | : | | : G G A C A G A A G G T T C T C 非コード領域のアラインメント G T T A A C T G - G T A A C G | : : | : | | | . | | : | . | G C A A G C T G A G T T A - G コード領域を取り出す HMM 開始 ‘|’ ‘:’ ‘.’ ‘|’ ‘:’ ‘.’ ‘|’ ‘:’ ‘.’ 終了 遺伝子発見 HMM β1 P(A, |) P(A, :) P(A, .) P(A, |) P(A, :) P(A, .) P(A, |) P(A, :) P(A, .) β2 P(A, |) P(A, :) P(A, .) P(A, |) P(A, :) P(A, .) P(C, |) P(C, :) P(C, .) β3 P(A, |) P(A, :) P(A, .) P(A, |) P(A, :) P(A, .) P(G, |) P(G, :) P(G, .) β 61 P(T, |) P(T, :) P(T, .) P(T, |) P(T, :) P(T, .) P(T, |) P(T, :) P(T, .) β 62 β 63 P(T, |) β 64 開始 P(A, |) P(A, :) P(A, .) P(T, |) P(T, :) P(T, .) P(G, |) P(G, :) P(G, .) P(T, :) P(T, .) P(A, |) P(A, :) P(A, .) P(A, |) P(A, :) P(A, .) P(T, |) P(T, :) P(T, .) P(G, |) P(G, :) P(G, .) P(A, |) P(A, :) P(A, .) P(T, |) P(T, :) P(T, .) P(A, |) P(A, :) P(A, .) P(G, |) P(G, :) P(G, .) 終了 低 ab in iti o 法 ゲ ノ ム 比 較 Sp 法 転 産 写 物 法 依 存 高 遺伝子発見プログラムの予測精度 低 Sn 高 予測精度の改善の見通し • 転写産物依存法 単離できる EST や cDNA には、遺伝子の発現 量や発現時期などの制約 • ab initio 法 本質的には,細胞内における遺伝子の転写と 翻訳の仕組みが詳しく理解され,その仕組み をプログラムに実装 • ゲノム比較法 大規模シークエンシング時代を背景として, 3 種類以上のゲノム比較による遺伝子発見が 現実