Comments
Description
Transcript
配列解析 4
IT 生体情報学I 配列解析 4 藤 博幸 BIO 最尤法による系統樹の構築と祖先配列の推定 (1) MEGAを起動してma-で作成したアラインメントの読み込み (2) MEGA形式へのデータの変換 (3) モデル選択 (4) 最尤法による系統樹の構築 (5) 祖先配列の推定 (1) MEGAを起動してma-で作成したアラインメントの読み込み (2) MEGA形式へのデータの変換 (3) モデル選択 (4) 最尤法による系統樹の構築 (5) 祖先配列の推定 OpenAFile/Sessionを選択 ファイル選択のウィンドウが表示される スクロールバーで表示位置を変更しながら ファイル(PGDS.aln)を探して選択 読み込まれたアラインメント が新しいウィンドウ上で Clustal形式で表示される (1) MEGAを起動してma-で作成したアラインメントの読み込み (2) MEGA形式へのデータの変換 (3) モデル選択 (4) 最尤法による系統樹の構築 (5) 祖先配列の推定 アラインメントウィンドウのメニューバーの UClityをクリック プルダウンメニューからConvertto MEGAFormatを選択 新しいウィンドウが開いて ファイルと形式を確認してくる ので、OKをクリック MEGA形式のデータを保存する ファイル名を聞いてくるので *の部分を PGDS として PGDS.megという名前で保存 変換が正常に終了したことを 示すウィンドウが現れる。 OKをおしてとじる それまでClustal形式だったアラインメントが MEGA形式に変換されて表示されている MEGA形式のデータが表示される 保存度を表す行が配列と間違えられて入っている 削除して、Fileメニューからsaveを選択 (1) MEGAを起動してma-で作成したアラインメントの読み込み (2) MEGA形式へのデータの変換 (3) モデル選択 (4) 最尤法による系統樹の構築 (5) 祖先配列の推定 モデルをクリック プルダウンメニューのFindBestDNA/ProteinModels(ML)を選択 新しく開いたウィンドウから、変換した MEGA形式のファイルを選択し Openをクリック 新しいウィンドウが開くので、 ProteinSequencesを選択して OKをクリック モデル選択の確認画面がでてくる デフォルト設定のままでComputeをクリック 時間がかかるので、計算の途中経過を示すウィンドウが現れる 計算結果の画面が現れる BIC,AIC,lnLがモデル選択の基準 BIC,AICcは小さい程よく、lnLは大きいほど良い。 MEGAではBICでソートされている JTTモデルが、このモデルに最適であることが示されている (1) MEGAを起動してma-で作成したアラインメントの読み込み (2) MEGA形式へのデータの変換 (3) モデル選択 (4) 最尤法による系統樹の構築 (5) 祖先配列の推定 上部のPhylogenyをクリック プルダウンメニューから Construct/TestMaximumLikelihoodTree を選択 現在、acCveになっているPGDS.megについて系統樹をつくるのかを 聞いてくるので、Yes をクリック 最尤法の計算設定 の画面が現れる 黄色の部分が変更 可能 変更の仕方 変更する項目をクリックすると 右端にボタンが出てくるのでそれを使って変更 Bootstrapの回数の変更 上向き矢印で増加、下向きで減少 今回は100になるようにしてください ① PhylogenyTest Bootstrapを100回 ② SubsCtuConModel JTTであることを確認 (デフォルト) ③ RatesandPa]erns UniformRatesであること を確認(デフォルト) 設定が完了したら Computeをクリック SubsCtuionmodelを変更する必要がある場合は、 右端をクリックすると現れるプルダウンメニューの 中から使用するモデルを選択 RatesandPa]ernsも同様 時間がかかるので 途中経過を示すウィンドウ が表示される 計算が終了すると 最尤系統樹にbootstrapsupport がマッピングされた図が表示される。 90%以上を信頼できるとすることが多いが、場合に よっては低い閾値にすることもある 無根系統樹であるが、外群 としてNGALを含めたので PGDSのrootを決定できている 系統樹をNewickformatで保存 系統樹ウィンドウのメニューバーからFileをクリック 系統樹のウインドウのメニューバーの Fileメニューから、ExportCurrentTree(Newick) を選択 枝の長さとbootstraop確率をNewick形式に含める Newick形式のデータをFileメニューのSaveでファイルに保存 デスクトップにPGDS.nwkというファイルが作成される ((PGDS_HUMAN:0.17655389,PGDS_MOUSE:0.18340854)1.0000:0.23283201, (PGDS_XENOPUS:0.40059440,PGDS_CHICKEN:0.32639557)0.9900:0.21749840, NGAL_HUMAN:0.91320070); 系統樹のメニューバーのImageをクリック プルダウンメニューから SavePDFfileを選択 先ほど指定したファイル名が残されているので 必要に応じて書き換えて、Saveをクリック 今回は、ファイル名はPGDS_treeにしておく PGDS_tree.PDFというファイル名で、系統樹の 画像ファイルが保存される (1) MEGAを起動してma-で作成したアラインメントの読み込み (2) MEGA形式へのデータの変換 (3) モデル選択 (4) 最尤法による系統樹の構築 (5) 祖先配列の推定 AncestorのプルダウンメニューからInferAncestralSequenceを選択 acCvedata(PGDS.meg)を使用するので、yesを選択 設定確認にウィンドウが開く 最尤系統樹推定のモデルの設定が反映されている ここで、PGDS.nwk(系統樹の情報)を読ませる ① UserTreeFileの項目をクリック ② 右端の…をクリックするとファイル選択のウィンドウ が開く ③ 開いたウィンドウがPGDS.nwkを選択 ④ Openをクリック 系統樹が表示され、terminalnodeには現在の配列のサイト1のアミノ酸、 Internalnodeには祖先のサイト1のアミノ酸が表示される。 ウィンドウ上部の上向き矢印をクリックすると、サイトを進めることができる 下向き矢印をクリックするとサイトをN末側に戻す事ができる。 出力形式の入力と、出力ファイル名を設定するウィンドウが開く ①出力形式のデフォルトはExcelなので、そのまま 出力ファイル名がResult.xlsになっているので、aaseq2.xlsに変更 ②Drectoryの右端をクリックし、開いたウィンドウから、ファイルを保存する フォルダを選択 ③OKをクリック PGDS_Result.xlsがDesktopに できている。ダブルクリックして エクセルで開く 各サイトの祖先アミノ酸(塩基)には、その確率が計算されている。 Mostprobablesequenesを選択したということは、その中で 最も高い確率のアミノ酸あるいは塩基を選択して出力すると いうことである 祖先配列推定の利用の例 生物は出現した時点では熱水の中で生きていた と考えられる。 祖先のタンパク質は耐熱性、あるいは好熱性を 有する。 祖先配列を推定して、それに従ってタンパク質の アミノ酸配列を設計すれば耐熱(好熱)タンパク質を 作り出せる?