Comments
Description
Transcript
タンパク質ドメイン検索
タンパク質ドメイン検索 タンパク質ドメイン • タンパク質の特定の機能、構造に対応する短い類似アミノ酸配列 領域(30アミノ酸~) – ある特殊な機能を果たす部位(例:酵素活性部位) – 他の物質と相互作用する部位(例:タンパク質相互作用部位) – 進化的に保存された領域 • モチーフ – ドメイン同様に活性部位などの重要な特徴を表すような、よく保存さ れたアミノ酸のパターン – ドメインより小さい構成単位とされているが(3~10アミノ酸)、ドメインと 特に明確な使い分けがされているわけではない タンパク質ドメイン解析 • 配列相同性検索(BLAST,FASTA)では全長にわたって高い相 同性をもつ遺伝子が得られない • 得られてもその遺伝子も機能未知である ? 相同性 相同性 機能未知アミノ酸配列 機能未知アミノ酸配列 • タンパク質を一つの固まりとしてではなく、異なる機能をもっ た保存領域の組み合わせとして捉える 代表的なタンパク質ドメインデータベース DB 特徴 URL Pfam タンパク質立体構造ドメインを元に自動 的・手動的に構築 http://pfam.xfam.org ProDom PfamのデータからPSI-BLAST(ホモロジー 検索)を用いて相同な領域を同定 http://prodom.prabi.fr/prodom/current/ht ml/home.php PRINTS モチーフ(数残基~数十残程度のギャップ http://www.bioinf.manchester.ac.uk/dbbro なしに保存されている配列)を対象にした wser/PRINTS/index.php データべース PROSITE 実験的に確かめられた機能モチーフ配 列データベース SMART シグナル伝達、細胞外タンパク質、クロマ チンタンパク質がもつ保存領域を中心に http://smart.embl-heidelberg.de 構築 PANTHER タンパク質の(サブ)ファミリー内で保存さ http://www.pantherdb.org れているドメイン配列 http://prosite.expasy.org InterPro/InterProScan 代表的なタンパク質ドメインデータベース12個を統合したデータ ベース、及びその解析ツール https://www.ebi.ac.uk/interpro/about.html#about_08 • CATH-Gene3D, HAMAP,PANTHER,PIRSF,PRINTS,PROSITE,Pfam,ProDom, SMART,SUPERFAMILY,TIGRFAMs • 各データベースのプログラムの解析手法をそれぞれ採用し、結果を返す • 核酸配列も6個の読み枠でアミノ酸配列に変換し解析 InteProScan:入力配列のフォーマット MALLAEHLLKPLPADKQIETGPFLEAVSHLPPFFDCLG SPVFTPIKADISGNITKIKAVYDTNPAKFRTLQNILEVE KEMYGAEWPKVGATLALMWLKRGLRFIQVFLQSICD GERDENHPNLIRVNATKAYEMALKKYHGWIVQKIFQ AALYAAPYKSDFLKALSKGQNVTEEECLEKIRLFLVNYT ATIDVIYEMYTQMNAELNYKV ※核酸配列も可 http://www.ebi.ac.uk/interpro/ タンパク質2次構造予測 二次構造予測 https://prabi.ibcp.fr/htm/site/web/home 様々な二次構造予測手法が提案されているが、 ここでは PHD法を使ってみる。 “Secondarystructureconsensusprediction”で 複数の予測手法の結果から 共通する構造を得ることもできる。 >Sample SVDHGFLVTRHSQTIDDPQCPSGTKILYHGYSLLYVQG NERAHGQDLGTAGSCLRKFSTMPFLFCNINNVCNFA SRNDYSYWLSTPEPMPMSMAPITGENIRPFISRCAVC EAPAMVMAVHSQTIQIPPCPSGWSSLWIGYSFVMH TSAGAEGSGQALASPGSCLEEFRSAPFIECHGRGTCN YYANAYSFWLATIERSEMFKKPTPSTLKAGELRTHVSR CQVCMRRT アミノ酸配列をペーストする。 “>”から始まるヘッダ行は取り除くこと。 Outputwidthは、結果の表示幅(残基数)。 変えなくてもいい。 ヘリックスやストランドの位置を PDBにある立体構造解析の結果と 比較してみよう。 αヘリックスはよく予測でき るが、βストランドは難しい パスウェイデータベース(KEGG) パスウェイデータベース(KEGG) http://www.genome.jp/kegg/kegg_ja.html 代謝経路や遺伝子名、 関連する病気等が分かって いれば一覧から探す アミノ酸配列からパスウェイを検索 http://www.genome.jp/kegg/kegg_ja.html 画面下方の「解析ツール」にある BLASTを使う http://www.genome.jp 準備ができたら右上の 「Compute」ボタンを押す。 各自のタンパク質の配列を貼り付ける。 “>”から始まるヘッダはあってもなくてもよい。 BLASTPになっていることを確認 (アミノ酸vsアミノ酸 の検索) データベースは “KEGG GENES”。 必要なら nr(全データベース)等も選べる。 結果をリストアップする個数。 5か10くらいに減らす。(少ないほど高速) 生物種:遺伝子ID hsa ヒト pps ボノボ ptr チンパンジー ggo ゴリラ mccアカゲザル mcf カニクイザル rro ゴールデンモンキー nle クロホオジロテナガザル pon オランウータン cjc コモンマーモセット トップヒットの青字部分をクリックして KEGGエントリを見る。 遺伝子が関与する パスウェイ パスウェイのひとつをクリックする。 (もしもパスウェイが表示されていなければ、 他の配列でBLAST検索からやり直してみ てください。) 遺伝子や物質、他の経路などは クリック可能 前の画面で選んだ遺伝子が 赤く強調表示される。 小さな白丸は物質 緑箱は各遺伝子 (白箱はその生物が持っていない遺伝子)