Comments
Description
Transcript
ヒトタンパク質の立体構造予測 データベース、SAHGの活用
平成23年度 第4回データベース講習会@お台場 「創薬研究における統合データベースの活用」 ヒトタンパク質の立体構造予測 データベース、SAHGの活用 産総研 生命情報工学研究センター 創薬分子設計チーム 本野 千恵 1 本日の講習・実習 タンパク質立体構造予測の現状とSAHGデータベースプ ロジェクト SAHG データベースの紹介 他のタンパク質立体構造予測モデルのデータベース SAHG データベースの利用方法(実習) 2 本日の講習・実習 タンパク質立体構造予測の現状とSAHGデータベースプ ロジェクト SAHG データベースの紹介 他のタンパク質立体構造予測モデルのデータベース SAHG データベースの利用方法(実習) 3 タンパク質立体構造解析 Structural genomics Structural Genomics Consortium Protein Structure Initiative (PSI) PSI Structural Genomics Knowledgebase: A Nature Gateway Northeast Structural Genomics Consortium The Midwest Center for Structural Genomics Berkeley Structural Genomics Center Center for Eukaryotic Structural Genomics Yeast Structural Genomics (Genomique Structurale de la levure) RIKEN Structural Genomics/Proteomics Initiative Structural Genomics of Pathogenic Protozoa The Joint Center for Structural Genomics Mycobacterium tuberculosis Structural Genomics Consortium New York SGX Research Center for Structural Genomics (NYSGXRC) NJCST Initiative in Structural Genomics and Bioinformatics Structural Genomics at Brookhaven Natl. Labs Structure to Function Pilot Project: CARB The Southeast Collaboratory for Structural Genomics Toronto Structural Proteomics Consortium Protein Structure Factory Oxford Protein Production Facility Center for Structural Genomics of Infectious Diseases Seattle Structural Genomics Center for Infectious Disease Structural Proteomics in Europe SPINE Forum for European Structural Proteomics (FESP) Israel Structural Proteomics Center (ISPC) …. 4 タンパク質立体構造解析 配列と構造の登録数推移 The red line is the growth of protein sequences deposited in TrEMBL, a comprehensive protein sequence database. The blue line illustrates the growth proteins in TrEMBL whose function is know, or at least can be predicted with some reasonable accuracy. The green line is the growth in the proteins whose 3D structure has been solved. Image courtesy of Predrag Radivojac. Copyright@ 2012 Byte Size Biology 5 タンパク質立体構造予測 熱統計力学/物理化学 Anfinsen’s central dogma: Sequence to structure Lefinthal paradox: Folding pathway 分子進化 祖先配列 構造類似性 → 低 配列相同性と構造類似性 ← リモートホモログ アナログ 高 ホモログ 高 ← 配列相同性 → 低 Gan et al., Biophysical Journal Volume 83 November 2002 2781–2791 ホモログ 同じ祖先型配列から進化した相同性の高いタンパク質 アナログ 進化的に祖先異なり配列相同性が低いが、構造類似性のあるタンパク質 配列相同性と構造類似性 R. B. Russel et al., J. Mol. Biol. (1997) 269, 423±439 ホモログ 同じ祖先型配列から進化した相同性の高いタンパク質 アナログ 進化的に祖先異なり配列相同性が低いが、構造類似性のあるタンパク質 立体構造予測手法 Easy Hard Comparative modeling Fold recognition Easy (BLAST) Homologous Hard (PSI-BLAST) Analogous Homology Based Modeling Template-based modeling 鋳型構造に依存度大 鋳型構造はライブラリ中に存在 探索空間小 大きいタンパク質に対応可能 New fold de novo ab initio Non-homology Modeling Template-Free modeling 鋳型構造に依存度小 新規な構造に対応 探索空間膨大 小さいタンパク質のみ対応可能 鋳型構造の探索 Easy Hard ターゲット配列 vs 鋳型配列 BLAST, FASTA ターゲットプロファイル vs 鋳型配列 PSI-BLAST ターゲットプロファイル vs 鋳型プロファイル FFAS03, FORTE, FUGUE, 3DPSSM,INBGU,Sam-T99,HMaP threading LIBRA, GenTHREADER, Sippl-Poteintial Fragment Assembly for new folds:free modeling with Rosetta http://www.rosettadesigngroup.com/index.php Target sequence Fragments of 3/9 res Target profile-fragment profile Predeicted secondary structure-fragment secondary structure Compact structures are assembled by randomly combining the fragments, using a Monte Carlo simulated annealing search. タンパク質立体構造予測の最先端 CASPにみる最先端 http://predictioncenter.org/ アミノ酸配列 (問題) X線結晶構造 NMR(答え) 予測構造 (解答) 12 Yang Zhang: I-TASSER Protocol http://zhanglab.ccmb.med.umich.edu/I-TASSER/ I_TASSER server was ranked as the No 1 server for protein structure prediction in recent CASP7, CASP8 and CASP9 experiments タンパク質立体構造予測の課題 ドメイン単位での予測に特化している。 比較的短い配列が対象。 単一構造ドメイン、もしくは2-3の構造ドメインの配列 が対象。 立体構造を取ることが判っている配列を対象にしている。 14 Intrinsic disordered regions & multi-domain proteins per organism Most protein sequences from higher organisms are long and should be multi-domain proteins, and contain a significant portion of intrinsically disordered (ID) regions. E.coli yeast rice fly structured human dirordered (>40 aa) multi-domain 1or2 domains eukaryote animal 15 本日の講習・実習 タンパク質立体構造予測の現状とSAHGデータベースプ ロジェクト SAHG データベースの紹介 他のタンパク質立体構造予測モデルのデータベース SAHG データベースの利用方法(実習) 16 A Goal of protein bioinformatics Protein function design Protein Structure Protein Sequences prediction Our goal: to create base technology Our project Molecular function DB 独立行政法人科学技術振興機構 バイオインフォマティクス推進センター事業 平成17年度採択研究開発課題「タンパク質の構造・機能予測 法の開発とヒトゲノム配列への適用」 平成20年度採択継続研究開発課題「タンパク質の構造・機 能・相互作用予測システムの開発と展開 」 Data control by XML tags Function annotation Annotation system for protein structure and function Structure predictions ATGGAGACC Verification by experiments Visualization of protein structure and function PDB Human genome Sequences (CDS) Annotation database for protein structure and function in human genome SAHG 18 I developed A special protein-structure-prediction pipeline for proteins from higher organisms SAHG (Structure Atlas of Human Genome) http://bird.cbrc.jp/sahg database 19 SAHG用タンパク質立体構造予測及び機能予測手法 • • • Tertiary structure prediction pipeline multi-domain conformation disordered regions conformation change upon ligand binding. Other structure and function predictors 20 Prediction schemes 21 Protein structure prediction methods for SAHG Easy Hard Comparative modeling Fold recognition New fold Smith-Waterman Profile-profile alignment BLAST Easy (BLAST) Homologous de novo (SWPPA) Hard (PSI-BLAST) Analogous ab initio PSI-BLAST FORTE Homology Based Modeling Template-based modeling Non-homology Modeling Template-Free modeling 22 Prediction schemes Template search and the assignment: “step-wise-multi-methods” approach Blast search with 10-5 E-value cut-off At least 90 % of template sequence can be aligned with the target 23 Prediction schemes Template search and the assignment: “step-wise-multi-methods” approach Psi-blast search with 10-5 E-value cut-off At least 90 % of template sequence can be aligned with the target 24 Prediction schemes Template search and the assignment: “step-wise-multi-methods” approach Smith-Waterman Profile-Profile Alignment with Z-score > 10 cut-off At least 90 % of template sequence can be aligned with the target 25 Prediction schemes Template search and the assignment: “step-wise-multi-methods” approach remove long disordered regions by POODLE-S assign potential domain regions 26 Prediction schemes Template search and the assignment: “step-wise-multi-methods” approach FORTE search with Z-score > 20 cut-off 27 Prediction schemes 28 SAHG 立体構造モデルの表示 予測構造PDBファイルのダウンロード V II I 29 Structure prediction pipeline Treatments of multi domain proteins SAHG principally exhibits protein structure as an array of domains. The prediction pipeline implicitly prioritizes multidomain templates; Templates: SCOP domains and whole PDB. A set of templates was chosen to maximize the length of modeled regions. 30 Structure prediction pipeline Prediction of potential domains using disorder region prediction Purpose: to remove long ID regions from the target sequences and assign potential domain regions to assure better performance in template searches. Existing domain prediction methods: overcut domain regions into segments. ID regions act as linkers of structural domains (Dyson & Wright, 2005). 31 Structure prediction pipeline Prediction of potential domains using disorder region prediction Disordered regions predicted by POODLE-S. A simple two-state Hidden Markov Model to detect regions where structured residues were continuously abundant. The transition probability between STRUCTURED and DISORDERED and all the emission probabilities were empirically adjusted to eliminate over-prediction. the STR regions were estimated from the input binary linker sequence by calculating a Viterbi path. structured disordered structured disordered 32 Structure prediction pipeline Prediction of potential domains using disorder region prediction Results of chromosome 22. Averaged domain length 平均長 Processed 推奨パラメータで切った場合 Not processed 何もしない場合 0 100 200 300 400 500 Number of residues 90 80 70 60 50 何もしない場合 40 推奨パラメータで切った場合 30 20 10 0 0-49 50-99 100-199 200-299 300-399 400-499 500-599 600-699 700-999 1000以上 33 Structure prediction pipeline Prediction of conformational change upon ligand-binding When templates in both apo and holo forms are available When templa in apo form i available 34 Structure prediction pipeline Prediction of conformational change upon ligand-binding When there was only the template for apo form available; eF-seek finds potential ligand-binding sites in the model of the apo form searching eF-site (the database of representative ligand-binding sites) by clique search algorithm. The structural changes upon the predicted ligand-binding were deduced using a linear response theory. 35 Other structure and function predictors Prediction of protein complex structure a non-redundant set composed of 12,730 template complexes; more than 80 % sequence identity by the BLAST search; the complex model MODELLER; 8,667 complex models were prepared for 3,650 target sequences. 36 SAHG 立体構造モデルの表示 複合体予測構造の表示 V II I 37 Contents of SAHG database Example view of a 予測複合体構造が複数 “Complex ある場合information” page 予測複合体構造PDBフ ァイルのダウンロード 38 Other structure and function predictors Prediction of protein complex structure a non-redundant set composed of 12,730 template complexes; more than 80 % sequence identity by the BLAST search; the complex model MODELLER; 8,667 complex models were prepared for 3,650 target sequences. Ligand binding information Retrieved from constructed models. 39 SAHG リガンド情報の表示 リガンド結合部位とリガンドの種類(PDB表記)の表示 V II IV カーソルを矢印の場所に合わせると部位とリガンド種類を表示 40 クリックするとJmolウィンドウ上でハイライト表示 Other structure and function predictors Prediction of protein complex structure a non-redundant set composed of 12,730 template complexes; more than 80 % sequence identity by the BLAST search; the complex model MODELLER; 8,667 complex models were prepared for 3,650 target sequences. Ligand binding information Retrieved from constructed models. Prediction of catalytic residues Using the EzCatDB database 41 SAHG 立体構造モデルの表示 酵素の予測触媒部位情報:ExCatDBへのリンク V II I 42 Other structure and function predictors Prediction of protein complex structure a non-redundant set composed of 12,730 template complexes; more than 80 % sequence identity by the BLAST search; the complex model MODELLER; 8,667 complex models were prepared for 3,650 target sequences. Ligand binding information Retrieved from constructed models. Prediction of catalytic residues Using the EzCatDB database Prediction of ID and transmembrane regions By POODLE-S and TMHMM softwares. 43 SAHG 立体構造モデルの表示 POODLEによる天然変性領域の予測結果の表示 V II I 44 Results of structure predictions Domain linker(2%) Not modeled(14%) Intrinsically disordered (14%) modeled(70%) FORTE (613) SWPPA (9,163) 42,581 models Apo & holo (4083) Apo (20,104) Psi-blast (14,577) Targets: All protein coded in human genome 24,878 RefSeq seque (14,012,591 residues) holo (18,394) Multiple models were generated for 9,057 Blast (18,228) RefSeq sequences. One model was generated for 12,310 RefSeq sequences. 3,511 RefSeq sequences remain without any predicted model. 4 SAHGデータベース まとめ We developed a special protein-structure-prediction pipeline for proteins from higher organisms. The prediction pipeline considers • multi-domain conformation, • disordered regions, • conformation change upon ligand binding. We applied the pipeline to all proteins coded in human genome and accumulated the products in the SAHG (Structure Atlas of Human Genome) database at http://bird.cbrc.jp/sahg. 46 本日の講習・実習 タンパク質立体構造予測の現状とSAHGデータベースプ ロジェクト SAHG データベースの紹介 他のタンパク質立体構造予測モデルのデータベース SAHG データベースの利用方法(実習) 47 他の予測構造データベースの例:ModBase, a database of annotated comparative protein structure models 他の予測構造データベースの例: The Protein Model Portal http://www.proteinmodelportal.org To directly compare the results of different modelling methods for the same protein Structure models provided by: CSMP, JCSG, MCSG, NESG, NYSGXRC, JCMM, ModBase, SWISS-MODEL. based on UniProt release 2011_11 consists of 19 million comparative protein models for 3.5 million distinct UniProt sequence 他の予測構造データベースの例: The Protein Model Portal http://www.proteinmodelportal.org To directly compare the results of different modelling methods for the same protein 立体構造予測の新境地? Foldit http://fold.it/portal/info/science Foldit is a revolutionary new computer game enabling you to contribute to important scientific research. Join this free online game and help us predict the folds of unsolved proteins as well as designing new proteins to cure diseases. humans' pattern-recognition and puzzle-solving abilities. Foldit http://fold.it/portal/info/science 多数のヒトの知覚能力の利用 仕事よりゲームの方が好成績? 立体構造解析の実験との組み合わせで効果 Nature Structural & Molecular Biology (2011) ACKNOWLEDGEMENTS Ryotaro Koike, Kana Shimizu, Matsuyuki Shirota, Takayuki Amemiya, Kentaro Tomii, Nozomi Nagano, Naofumi Sakaya, Kiyotaka Misoo, Miwa Sato, Akinori Kidera, Hidekazu Hiroaki, Tsuyoshi Shirai, Kengo Kinoshita, Tamotsu Noguchi and Motonori Ota Takatsugu Hirokawa and CBRC,AIST for their support of the project Mari Saito for her contribution to website design Funding by Japan Science and Technology Agency (JST) - Institute for Bioinformatics Research and Development (BIRD). 53 本日の講習・実習 タンパク質立体構造予測の現状とSAHGデータベースプ ロジェクト SAHG データベースの紹介 他のタンパク質立体構造予測モデルのデータベース SAHG データベースの利用方法(実習) 54 SAHG データベースの利用方法(実習) http://bird.cbrc.jp/sahg SAHGトップ 55 SAHG データベースの利用方法(実習) http://bird.cbrc.jp/sahg SAHGトップ 11番染色体をクリック 56 SAHG データベースの利用方法(実習) 11番染色体 ②7ページまで送る 57 SAHG データベースの利用方法(実習) 11番染色体7ページ ③NP_002834.3の画像をクリックすると詳細画面が開く 58 SAHG データベースの利用方法(実習) NP_002834.3詳細画面 NP_002834.3の基本 II 的アノテーション V Jmolウィンドウ 選択中の予測構造 ドメインの情報 IV NP_002834.3の予測情報一覧 59 SAHG データベースの利用方法(実習) V NP_002834.3詳細画面 II ⑥鋳型とのアラインメント表示 ⑦予測構造PDBファイルのダウンロード IV ⑤C末のドメインをクリックすると構 造がJmolウィンドウに表示される60 SAHG データベースの利用方法(実習) ⑧リガンド結合部位とリガンドの種類(PDB表記)の表示 V II IV ⑨カーソルを矢印の場所に合わせると部位とリガンド種類を表示 クリックするとJmolウィンドウ上でハイライト表示 61 SAHG データベースの利用方法(実習) ⑩酵素の予測触媒部位情報:ExCatDBへのリンク V II ⑪外部のデータベースへのリンク SwissProt, IPI, HPRD, EC I 62 SAHG データベースの利用方法(実習) http://bird.cbrc.jp/sahg 予測した構造変化をまとめて表示させる SAHGトップ サムネイルをクリック 63 SAHG データベースの利用方法(実習) http://bird.cbrc.jp/sahg SAHGのより詳しい情報は論文で。 SAHGトップ クリックすると論文へリンクします。 64 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない http://www.uniprot.org/へアクセス (ずるをして)NP_002834を検索 65 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない NP_002834検索結果:UniProt ID Q12913 の画面 66 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない NP_002834検索結果:UniProt ID Q12913の画面下方で3D情報 をチェック →構造の無い領域がある 67 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない NP_002834検索結果:UniProt ID Q12913の画面でア ミノ酸配列(fasta形式)を表示、コピーする。 68 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない Advanced Searchへ 69 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない Advanced Searchへ 70 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない 71 SAHG データベースの利用方法(実習) どんな時にSAHGへアクセスするか? → 立体構造がPDBに見つからない Refseq IDをクリックするとNP_002834.3の詳細画面が開く 72 SAHG データベースの利用方法(実習) 御注意 お願い 以下は全て予測情報;立体構造、複合体構造、複合体相互作用 部位、リガンド結合情報、天然変性領域、膜貫通領域。 お問い合わせは [email protected] [email protected] 全予測立体構造のPDBファイルをまとめてダウンロードすることは 現在できません(共同研究でご利用頂いています。例:網羅的発 現データ等と組み合わせてタンパク質間相互作用の絞り込みな ど)。構造の品質管理をしたうえで将来ウェブにアップデート予定。 ご清聴感謝いたします。お疲れ様でした。 73