Comments
Description
Transcript
バイオインフォマティクス基礎講座 分子系統解析とタンパク質立体構造解析
バイオインフォマティクス基礎講座 分子系統解析とタンパク質立体構造解析 川端 猛 奈良先端科学技術大学院大学・情報科 学研究科・准教授 2009.9.12 「配列解析」のキーワード(蛋白質機 能予測) • タンパク質機能予測(膜貫通部位予測、細胞 内局在予測) • RNA二次構造予測 タンパク質の構造・性質による大きな分類 水溶性 タンパク質 soluble protein 膜タンパク質 membrane protein タンパク質の例 配列上の特徴 球状タンパク質 globular protein 多くの酵素、抗体、 転写因子など 疎水性、親水性のアミ ノ酸がバランスよく含 まれている。 不定形タンパク質 Intrinsically disordered protein 真核生物の転写因 親水性アミノ酸が多い。 子の非ドメイン領域 特にEPQSRKが多い。 など レセプター、トラン スポーターなど 疎水性アミノ酸が多く、 連続する疎水性アミノ 酸領域(膜貫通へリッ クス)が観察されること が多い。 球状タンパク質の疎水性アミノ酸 球状タンパク質では、分子内部に疎水性アミノ酸、分子表面に親水性アミノ酸が 分布する傾向にある。 疎水基:ACILMFWV 親水基:RNDEQGHKPSTY 5p21:rasp21 7pcyA:plastocyanin 1mbdA:Myoglobin 1timA:Triose phosphate isomerase 疎水性相互作用(hydrophobic interaction) : 水分子と親和性の少ない非極性(non-polar、疎水性)基が水溶液中で互いに集まろうとする 相互作用。電気や磁気と異なり符号はなく、疎水性どうしのものは相手を問わず集合する。 疎水性指標による内外予測 Kyte and Doolittle(1982)の疎水性指標 I 4.5 M 1.9 W -0.9 N -3.5 V 4.2 A 1.8 Y -1.3 E -3.5 L G P D 3.8 -0.4 -1.6 -3.5 方法 ・ 配列を横軸にとって、縦軸に 対応する疎水性指標をプロット。 ・ 前後数残基でスムージング。 w 1 V [i ] = KD{Seq[i + w]} ∑ 2w + 1 k =− w http://kr.expasy.org/tools/protscale.html F 2.8 T -0.7 H -3.2 K -3.9 C 2.5 S -0.8 Q -3.5 R -4.5 予測結果と実際の埋もれ度との比較 1mbd:Myoglobin 不定形タンパク質 intrinsically disordered protein 親水性アミノ酸が多く、疎水性アミノ酸が少ない ため、天然状態でもコンパクトに折たたまらない。 親水性アミノ酸の中でも、EPQSRK 球状タンパク質ドメインをつなぐ領域としてよく見 られる。 真核生物に多く、原核生物には少ない。 転写因子に特に多くみられる。 生物学的な機能はよくわかっていな いが、タンパク質間相互作用に重要 な働きをするといわれている。 膜タンパク質 脂質頭部(親水性) 膜タンパク質: 脂質二重膜に埋没し て機能するタンパク質 膜タンパク質 脂質尾部(疎水性) 性質 (1)疎水的な脂質尾部と相互作用 するため、タンパク質表面には疎水 性アミノ酸が多い。 (2)水に溶けにくく、凝集しやすい。 (3)多くは膜貫通へリックスを持つ (4)膜貫通へリックスの長さは15- 30アミノ酸ぐらい。アミノ酸配列から も連続した疎水性アミノ酸領域とし てある程度、予測可能 アミノ酸配列から膜貫通へリックスを予測するサーバ SOSUIサーバ http://bp.nuap.nagoya-u.ac.jp/sosui/ 他にTMHMM, Tmpredなどがある H19 問71 次に示した球状タンパク質の性質に関する記述の中で、不適 切なものを一つ選べ。 1. 一般に、表面ではアミノ酸の挿入・欠失や置換が起こりやすく、 内部では起こりにくい。 2. 生物種間で比較した時に保存されているアミノ酸が、タンパク質 表面で集中している領域は、他のタンパク質やリガンドとの結 合に関与していると予測できる。 3. DNAと相互作用するタンパク質の場合、DNAとの結合面は、負 電荷を持つアミノ酸が集中することから容易に予測できる。 4. 一般に、表面には溶媒との相互作用のため極性基をもつアミノ 酸が多く、内部は疎水性アミノ酸による疎水コアを形成している ことが多い。 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問71 次に示した球状タンパク質の性質に関する記述の中で、不適 切なものを一つ選べ。 1. 一般に、表面ではアミノ酸の挿入・欠失や置換が起こりやすく、 内部では起こりにくい。 2. 生物種間で比較した時に保存されているアミノ酸が、タンパク質 表面で集中している領域は、他のタンパク質やリガンドとの結 合に関与していると予測できる。 3. DNAと相互作用するタンパク質の場合、DNAとの結合面は、負 電荷を持つアミノ酸が集中することから容易に予測できる。 4. 一般に、表面には溶媒との相互作用のため極性基をもつアミノ 酸が多く、内部は疎水性アミノ酸による疎水コアを形成している ことが多い。 ※DNAやRNAなどの核酸は、リン酸基にマイナスの電荷を持っている。よって、核酸に 結合する蛋白質は表面にプラスの電荷を持っているものが多い。 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 「タンパク質構造解析」のキーワード (構造比較) • 立体構造表現(コンタクトマップ、ラマチャンド ランマップ) • 構造比較 • 重ね合わせ • RMSD • 構造アライメント • 構造モチーフ • 構造分類 立体構造の決定法 X線結晶解析 原子モデルの構築 原子モデルの精密化 大量発現 精製 結晶化 X線回折強度の測定 3次元 電子密度マップ NMR(核磁気共鳴法) 原子モデルの構築 核磁気共鳴解析 (NOE解析,帰属と距離拘束の抽出) 原子モデルの精密化 大量発現 精製 原子間 距離拘束 (1)多数分子の平均構造の観察(精製が重要。 大きな分子、複合体はより難しくなる) (2)発現・精製・結晶化のステップで、各タンパク質によって実験条件の調整が必須 (3)実験データの収集・原子モデル構築の段階で計算機の支援が不可欠 PDBフォーマット RCSB PDB http://www.rcsb.org/pdb/ MSD EBI http://www.ebi.ac.uk/msd PDBj http://www.pdbj.org wwPDB(World Wide Protein Data Bank) : 立体構造データの収集するデータバンク HEADER COMPND SOURCE AUTHOR ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM UBIQUITIN 17-APR-92 DI-UBIQUITIN BOVINE (BOS TAURUS) ERYTHROCYTES W.J.COOK,L.C.JEFFREY,M.CARSON,Z.CHEN,C.M.PICKART 原子番号 残基名 原子名 1 N MET 2 CA MET 3 C MET 4 O MET 5 CB MET 6 CG MET 7 SD MET 8 CE MET 9 N GLN 10 CA GLN 11 C GLN 12 O GLN 13 CB GLN 14 CG GLN 15 CD GLN 16 OE1 GLN 17 NE2 GLN 18 N ILE 19 CA ILE 20 C ILE 21 O ILE 鎖識別子 残基番号 A 1 A 1 A 1 A 1 A 1 A 1 A 1 A 1 A 2 A 2 A 2 A 2 A 2 A 2 A 2 A 2 A 2 A 3 A 3 A 3 A 3 1AAR MET 1 8 7 PDB ID X座標 15.493 14.600 15.476 16.571 13.500 13.823 12.312 13.174 14.968 15.552 15.000 13.787 15.368 15.858 15.676 16.525 14.564 15.960 15.593 16.491 17.701 Y座標 30.088 29.031 27.793 27.561 28.837 27.997 27.711 26.595 27.014 25.806 24.553 24.387 25.715 24.413 24.587 25.209 24.203 23.745 22.437 21.342 21.540 Z座標 占有率 温度因子 14.694 1.00 8.36 15.110 1.00 8.15 15.419 1.00 9.30 14.871 1.00 8.96 14.105 1.00 9.89 12.931 1.00 10.21 11.891 1.00 10.33 10.726 1.00 7.30 16.326 1.00 9.75 16.852 1.00 11.92 16.168 1.00 11.71 16.086 1.00 10.00 18.386 1.00 12.39 19.051 1.00 14.00 20.561 1.00 15.59 21.205 1.00 18.67 21.152 1.00 15.39 15.687 1.00 11.79 15.130 1.00 12.14 15.720 1.00 11.99 15.767 1.00 12.91 6 5 1 2 3 4 12 9 11 10 18 19 20 13 14 21 15 16 17 GLN 2 PDBは1971年に設立 立体構造描画のフリーウエア・シェアウエア ソフト名 WebSite 対応機種 特徴 RasMol www.openrasmol.org Win Mac Linux(ソース 公開) 独自の高速描画アルゴリズムを用い、非力なハード でも同様に高速描画が可能。コマンド言語は強力で 多機能。基本的な描画法をカバーするが、分子表面 の描画はできない。描画の質はやや低い。 Chime www.mdlchime.com Win Mac RasMolをベースにしたWEBブラウザ内で動作するプ ラグイン。分子表面表示など描画機能はRasMolより 拡張。分子描画機能を持ったWEBページを作れる。 Jmol jmol.sourceforge.net Win Mac Linux(ソース 公開) Java Applet によりWEBブラウザ内で動作。Chimeと 同様に、分子描画機能を持ったWEBページを作れる。 JREをインストールする必要。 PyMOL pymol.sourceforge.ne t Win Mac Linux OpenGLを用いた質の高い描画。Python言語で開発 されており、ソースも公開。Python言語を用いた機能 拡張も可能。 CHIMERA www.cgl.ucsf.edu/chi mera/ Win Mac Linux OpenGLを用いた質の高い描画。電顕画像などの多 様なデータの取り込み、ドッキング、静電計算などの インタフェース有り。Python言語を用いた機能拡張。 VMD www.ks.uiuc.edu/Res earch/vmd/ Win Mac Linux OpenGLを用いた質の高い描画。Tcl言語を用いた機 能拡張が可能。分子動力学の可視化を主要目的とし て幅広い機能。 MolScript www.avatar.se/molsc rit/ Linux (ソース公開) 主にリボン図の描画用のソフト。GUIを持たず、コマン ドラインで、PDBファイルをPSファイル等に変換。 Swiss PDB Viewer au.expasy.org/spdbv Win Mac Linux OpenGLを用いた質の高い描画。幅広い機能をサ ポートしているが、アップデートは活発でない。 H19 問51 タンパク質などの生体高分子をコンピュータで 表示するためのソフトウェア名として適切でな いものを選択肢の中から一つ選べ。 1.RasMol 2.Chime 3.TMHMM 4.Swiss-PdbViewer 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問51 タンパク質などの生体高分子をコンピュータで 表示するためのソフトウェア名として適切でな いものを選択肢の中から一つ選べ。 1.RasMol 2.Chime 3.TMHMM 4.Swiss-PdbViewer 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問59 タンパク質の立体構造のグラフィックス表示プ ログラムではないものを選択肢の中から一つ 選べ。 1.Chime 2.PyMol 3.MEGA 4.MolScript 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問59 タンパク質の立体構造のグラフィックス表示プ ログラムではないものを選択肢の中から一つ 選べ。 1.Chime 2.PyMol 3.MEGA 4.MolScript 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 立体構造の描画スタイル ワイアフレーム ボール&スティック 4 1 バックボーン リボン 空間充填 3 2 分子表面 PDBコード:1fxd(ferredoxin II), Rasmol / Chimeプラグインで描画 蛋白質:ペプチド結合したアミノ酸群 N末 ① Phe(F) (疎水性) ② Ala(A) (疎水性) ③ N Leu(L) (疎水性) P I V L M 疎水性 F 芳香族 G C Y W S N T O ⑥ Q 負荷電 D (親水性) ⑤ (親水性) 脂肪族 Asp(D) Cα ④ H C Thr A 様々な物理化学的な 性質を持った側鎖が 主鎖のペプチド結合で 連なる Cys(C) ⑦ (親水性) E C末 K H R 正荷電 アミノ酸は全部で20種類 親水性 Val(V) (疎水性) フォールディング(折り畳み)という現象 温度や変性剤濃度 によって可逆に変化 変性状態(D) 非常に多種の構造の集合 大きく広がっている 天然状態(N) ほとんど唯一の構造 小さくコンパクトに折りたたまっている ・折り畳みは、原則としてその蛋白質以外の分子の介助を必要としない アミノ酸配列の情報だけで、天然状態の立体構造が決定される ・どうやってコンパクトになるか? → (1)主鎖の水素結合(2)側鎖間の疎水性相互作用 ・あるアミノ酸配列がどうやって一つの構造を決めるのか??? 3次元座標の差のスコア(RMSD) ※原子の対応付けがわかっているとする 21 xi yi 20 5 1 4 R ( yi − t ) 2 2 3 3 20 4 1 5 5 4 2 3 20 1 21 21 1xdaA 1benA xi:分子Xのi番目の原子の位置ベクトル yi:分子Yのi番目の原子の位置ベクトル RMSD : 最適に重ね合わせたときのXYZ座標の差 (Root Mean Square Deviation) RMSD = 1 N N ∑ [ xi − R ( yi − t )]2 i =1 並進ベクトルt を引いたあと、回転行列R をかける t :二つの分子の重心をあわせるように決める R :2つの原子群の相関を最大化する行列 →(1)特異値分解で導出 (2)四元数表現により最適な回転を Lagrange未定乗数法で決定 W.Kabsch, Acta Cryst.A, 32,922-923(1976), 34,827-828(1978) A.D.Mclachlan, J.Mol.Biol., 128,74-77 (1979) Charles F.F. Karney “Quaternions in molecular modeling” E-print: arXiv:physics/0506177 距離の差のスコア (DRMS) ※原子の対応付けがわかっているとする 21 yi xi 20 1 5 DijX 4 2 2 3 20 1 3 DijY 4 5 1xdaA 21 1benA ※重ね合わせは不要なので計算は簡単 ※3次元によらない。2次元や結合情報 にも拡張できる。 DRMS : 対応する原子ペアの距離の差 (Distance-based RMSD) DRMS = ※鏡像の区別はできない ( N N 2 X Y D − D ∑∑ ij ij N ( N − 1) i =1 j ≥i ) 2 ※計算が簡単なので、高速な構造比較の アルゴリズムの基盤として使われる。 H19 問73 立体構造の似ている2つのタンパク質間で、対応関係にある原子が分かっている場合には、 RMSD(Root Mean Square Deviation)と呼ばれる数値を計算することにより、立体構造の 重なり合いの程度を数値化することができる。RMSDは、全ての対応する原子間の距離を 2乗した値の平均値(相加平均)にルートをとったものとして定義される。 あるタンパク質における6つの原子A,B,C,D,E,Fと別のタンパク質の6つの原子 A’,B’,C’,D’,E’,F’について対応関係が分かっており、互いにもっともよく重なるように回転し て重ねた時の対応原子間の距離は以下の表のようになった。この表からB-B’, C-C’, D-D’, E-E’は正確に重なったが、他の原子間ではずれが見られることがわかる。ここで、6つの原 子に対するRMSD値はいくらになるか。選択肢の中からもっとも適切な値を一つ選べ。ただ し、原子間距離の単位は考慮しないものとする。 対応原子 原子A―原子A’ 距離 2.0 原子B―原子B’ 0.0 原子C―原子C’ 0.0 原子D―原子C’ 1.0 原子E―原子C’ 0.0 原子F―原子C’ 1.0 1. 2. 3. 4. 0.5 0.66 1.0 1.33 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問73 立体構造の似ている2つのタンパク質間で、対応関係にある原子が分かっている場合には、 RMSD(Root Mean Square Deviation)と呼ばれる数値を計算することにより、立体構造の 重なり合いの程度を数値化することができる。RMSDは、全ての対応する原子間の距離を 2乗した値の平均値(相加平均)にルートをとったものとして定義される。 あるタンパク質における6つの原子A,B,C,D,E,Fと別のタンパク質の6つの原子 A’,B’,C’,D’,E’,F’について対応関係が分かっており、互いにもっともよく重なるように回転し て重ねた時の対応原子間の距離は以下の表のようになった。この表からB-B’, C-C’, D-D’, E-E’は正確に重なったが、他の原子間ではずれが見られることがわかる。ここで、6つの原 子に対するRMSD値はいくらになるか。選択肢の中からもっとも適切な値を一つ選べ。ただ し、原子間距離の単位は考慮しないものとする。 対応原子 原子A―原子A’ 距離 2.0 原子B―原子B’ 0.0 原子C―原子C’ 0.0 原子D―原子C’ 1.0 原子E―原子C’ 0.0 原子F―原子C’ 1.0 1. 2. 3. 4. 0.5 0.66 1.0 1.33 RMSDは最適に重ね合わせたときの 「ずれの二乗の平均のルート」である。 したがって、 ずれの二乗平均は (22+0+0+1+0+1)/6=6/6=1 これのルートをとると√1=1 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 主鎖の水素結合:αへリックス 9 6 10 Cα i+4 2 5 1 8 3 7 11 O O C 4 N H C Cα i N Cα i+3 O H C Cα i-1 9 6 10 ・ i番目のCOがi+4番目のNH と水素結合を形成 2 5 1 8 11 H N H N 7 3 4 ・ 3.6残基が1周期の右巻きらせん ・ NH・・・O=Cが同じ向きに並ぶため、 へリックス全体に電気双極子が発生 ー C末 + N末 主鎖の水素結合:逆平行βシート βヘアピン βターン βヘアピン βストランド βターン βストランド βストランド 伸びた構造の1本1本を βストランドと呼ぶ。 二本以上のβストランドが シート状に並んだ構造を βシートと呼ぶ 主鎖の水素結合:平行βシート 伸びた構造の1本1本を βストランドと呼ぶ。 二本以上のβストランドが シート状に並んだ構造を βシートと呼ぶ βストランド βストランド βストランド β−α−βモチーフ 平行βシートがαへリックスで 接続された構造モチーフ ペプチド結合の平面性とφ、ψの定義 平面 Cα φ i-1 Cαi ψ 平面 Cαi+1 βシート 左巻きへリックス ・主鎖の原子のXYZ座標は、φ、ψの2つ の角度でほとんど記述できる。 ・φ、ψの角度を2次元にプロットしたものを ラマチャンドラン・プロット(Ramachandran plot) という。点が集中する領域は2次構造とよく対応。 点が現れない領域は、主鎖の原子が衝突する。 φ αへリックス ψ H19 問74 タンパク質の主鎖に添って定義される二面角のうち、φ(窒素原子と炭素原子の間 の二面角)とψ(α炭素原子とカルボニル基の炭素原子の間の二面角)の値を各残 基ごとに計算して二次元にプロットしたものを、ラマチャンドラン・プロットと呼ぶ。以 下に示したラマチャンドラン・プロットに対する説明文の中で、もっとも適切なものを 一つ選べ。 1. (a),(b)はともにαへリックスの領域である。 2. (a),(b)はともにβストランドの領域である。 3. (a)はαへリックス、(b)はβストランドの領 域である。 4. (a)はβストランド、(b)はαへリックスの領 域である。 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問74 タンパク質の主鎖に添って定義される二面角のうち、φ(窒素原子と炭素原子の間 の二面角)とψ(α炭素原子とカルボニル基の炭素原子の間の二面角)の値を各残 基ごとに計算して二次元にプロットしたものを、ラマチャンドラン・プロットと呼ぶ。以 下に示したラマチャンドラン・プロットに対する説明文の中で、もっとも適切なものを 一つ選べ。 1. (a),(b)はともにαへリックスの領域である。 2. (a),(b)はともにβストランドの領域である。 3. (a)はαへリックス、(b)はβストランドの領 域である。 4. (a)はβストランド、(b)はαへリックスの領 域である。 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 トポロジー図によるβシートの表現 1ubq (Ubiquitin,Human,d.15.1) C C 3 βターン? 1n8k (Alchol dehydrogenase E chain, Horse, c.2.1) βターン 4 3 2 1 4 5 6 2 1 N N ロスマン・フォールド TOPSプログラムによる表示 http://www.tops.leeds.ac.uk ○はαへリックス、△はβストランド。 となりあう△の向きで平行。逆平行を示す。 1rhdA domain2 1timA 1cauA コンタクトマップ 縦横に残基を配置し、ある残基ペアのCα原子間の距離が10Å以下であれば対応するピクセルに色を塗る N へ 逆平行 リッ クス 平行 C 逆平行 N 分子描画ソフトVMDを用いて作成 C ・αへリックスは太めの対角上の線分 C 3 4 2 1 ・平行のストランド間は\方向 逆平行ストランド間は/方向 に線分が観察される。 N 1ubq H19 問75 次の図は、あるタンパク質の立体構造のコンタクトマップの模式図である。図中斜め の太い線のそれぞれは、10Å以内にある残基対の集合を表す。このタンパク質は、 N末側からβαβαβαβαβαという二次構造の構成をとっている。選択肢に示した二次 構造要素の配置の中で、βストランドの配向に注目した時に、このタンパク質の構造 として適切なものはどれか。一つ選べ。ただし、選択肢中の「○」はへリックス、「△」 はストランドであり、同じ向きの「△」の隣接は平行シート、逆向きの「△」の隣接は逆 平行シートの形成を表しているとする。 1 3 2 4 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問75 次の図は、あるタンパク質の立体構造のコンタクトマップの模式図である。図中斜め の太い線のそれぞれは、10Å以内にある残基対の集合を表す。このタンパク質は、 N末側からβαβαβαβαβαという二次構造の構成をとっている。選択肢に示した二次 構造要素の配置の中で、βストランドの配向に注目した時に、このタンパク質の構造 として適切なものはどれか。一つ選べ。ただし、選択肢中の「○」はへリックス、「△」 はストランドであり、同じ向きの「△」の隣接は平行シート、逆向きの「△」の隣接は逆 平行シートの形成を表しているとする。 β1 α β2 α 1 2 β5 β3 β4 β3 β1 β2 α β4 α 3 β5 4 α βαβαβαβαβαなのでβストランドが 5本、αヘリックスが5本のはず。こ れから1か3。コンタクトマップから平 行シートしかないことがわかるため、 1であることがわかる。 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問61 次の図は、あるタンパク質の立体構造のコンタクトマップの模式図である。図中斜め の太い線のそれぞれは、10Å以内にある残基対の集合を表す。このタンパク質は、 N末側からβαβαβαβαβαという二次構造の構成をとっている。βストランドの配向に 注目した時に、このタンパク質の構造として正しいものを選択肢の中から一つ選べ。 図中、○はへリックス、△はストランドであり、同じ向きの△の隣接は平行シート、逆 向きの△の隣接は逆平行シートの形成を表しているとする。 1 2 3 4 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問61 次の図は、あるタンパク質の立体構造のコンタクトマップの模式図である。図中斜め の太い線のそれぞれは、10Å以内にある残基対の集合を表す。このタンパク質は、 N末側からβαβαβαβαβαという二次構造の構成をとっている。βストランドの配向に 注目した時に、このタンパク質の構造として正しいものを選択肢の中から一つ選べ。 図中、○はへリックス、△はストランドであり、同じ向きの△の隣接は平行シート、逆 向きの△の隣接は逆平行シートの形成を表しているとする。 1 2 3 βαβαβαβαβαなのでβストランドが 5本、αヘリックスが5本のはず。こ れから2か4。コンタクトマップから平 行シートしかないことがわかるため、 2であることがわかる。 4 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 配列比較によるタンパク質分類 1970年代から、配列の一致度(sequence identity)に基づいて、グループを作る作業が 行われてきた。 どのくらいの類似性で一つにまとめるかは様々な考えがあるが、少なくとも 「相同なタンパク質群」を一つのグループにまとめるべき ファミリー(family, 族): :進化的に関係のある(相同な)タンパク質グループのこと 複数のファミリーがあつまった大きなグループ : スーパーファミリー(superfamily, clan) 一つのファミリーの中の小さなグループ : サブファミリー(subfamily) family subfamily superfamily ドメイン単位による分類 配列の部分どうしだけが類似していた場合 A1 部分一致を重視すると、 すべて一つのグループになるが… 配列1 配列1 A2 Aを共有 B2 配列2 C3 B3 配列2 Bを共有 配列3 配列3 1と2が類似、2と3が類似していても 1と3は類似していない! ドメインに分割すると A1 A1 A2 B3 B2 A2 B2 C3 B3 C3 きれいに分類することができる!! Pfam : 蛋白質ファミリのデータベース 各蛋白質ファミリのマルチプル http://pfam.sanger.ac.uk アライメント、 HMMなどを集 めたデータベース Pkinase_Tyrドメインをもつタンパク質の例 Family : Pkinase_Tyr (PF07714) : Protein tyrosine kinase HCK_HUMAN ABL_HUMAN BTK_HUMAN ILK_HUMAN MERTK_HUMAN PGFRB_HUMAN Pfamデータベース(http://pfam.sanger.ac.uk/Software/Pfam/)からの引用 ドメイン構造と疎水性の関係 Tyrosine protein kinase HCK (1ad5A, HCK_HUMAN) Tyrosine-kinase domain SH3 domain SH2 domain 3つの分断された疎水性コア → ドメイン構造 大きなタンパク質は、いくつかの構造上のまとまり(ドメイン)を持つことが多い 立体構造によるタンパク質の分類 • 配列による分類の延長。ドメイン単位の分類、進化 的に関係のある(相同な)タンパク質を群にする(フ ァミリー)という考え方は同じ。 • 立体構造の類似性から、より遠縁の相同性を見つ け、より大きな群を作る(スーパーファミリー) • スーパーファミリーをまとめたさらに大きなグループ (フォールド、クラス) • 主にアミノ酸(Cαレベル)のラフな構造の類似性に 着目 • 分類対象は主に球状タンパク質 立体構造分類データベースSCOP http://scop.mrc-lmb.cam.ac.uk/scop/ ・4階層で分類 <アナロジー> Class(クラス) Fold(フォールド) Superfamily(スーパーファミリー) Family(ファミリー) <ホモロジー> どの階層に分類するかは、 配列の類似性 立体構造の類似性 分子機能の類似性 機能部位の類似性 を専門家が総合的に判断して決める ※他の構造分類データベースとしてCATHが有名。 同様に階層的な分類体系を持つが、その詳細は SCOPとは異なる。 1akr クラス α/β (c) all-α (a) 1n55A 1pqwA 1mbd α-へリックスが中心 all-β (b) 1mqkH β-シートが中心 逆平行が多い α-へリックスとβ-シートが配列上交互に現れる。 平行β-シートが中心 α+β (d) 1fxd 1a2p α-へリックスとβ-シートが混在、配列上の並びの規則はない 逆平行と平行のβ-シートが混在 アミノ酸配列と立体構造の関係 ピロリ菌と大腸菌のフラボドキシン (同一残基率 SeqID 44%) 大腸菌(1ag9A) ピロリ菌(1fueA) SeqID = 44 % RMSD = 1.2 Å 配列が似ていれば立体構造も似ている 1fueA 1ag9A 2:GKIGIFFGTDSGNAEAIAEKISKAIG--NAEVVDVAKASKEQFNGFTKVILVAPTAGAGD:59 ***** * ** * ** * * * * * * ** *** * ** * 2:AITGIFFGSDTGNTENIAKMIQKQLGKDVADVHDIAKSSKEDLEAYDILLLGIPTWYYGE:61 1fueA 60:LQTDWEDFLGTLEASD-FANKTIGLVGLGDQDTYSETFAEGIFHIYEKAK--AGKVVGQT:116 * ** ** *** * * * * *** * * * * ** 1ag9A 62:AQCDWDDFFPTLE-EIDFNGKLVALFGCGDQEDYAEYFCDALGTIRDIIEPRGATIVGHW:120 アミノ酸配列がほとんど似ていなくても立体構造は似ている場合がある ピロリ菌・フラボドキシン(1fueA) 大腸菌・フラボドキシン(1ag9A) 大腸菌・走化性タンパク質CheY (3chy) 8%, 4.4Å 44%, 1.2Å 構造比較 BLAST N C PSI-BLAST Å .8 2 , % 22 C N N 構造比較 14%, 3.2Å C C N 2 1 3 4 5 C C ラット・NADPH シトクロームP450 還元酵素 C末ドメイン (1ja1A2) N N ヒト・キノン還元酵素(1d4aA) 構造は配列より進化的に保存がよい Æ 構造比較から新たなホモログが発見できる可能性 立体構造の変化 アミノ酸配列の変化と立体構造の変化の相関(グロビン族) アミノ酸配列の類似度 立体構造の変化はアミノ酸配列の変化と相関 配列が30%以上一致していれば、RMSDは2Å以下 2つの構造の類似性 ネコの前足 ホモロジー (homology ,相同): 進化的起源を共有することによる類似 多くの場合、分子機能なども類似している アナロジー (analogy, 相似) イルカの胸びれ サルの前足 進化的起源とは無関係な類似 多くの場合、分子機能など他の属性は似ていない。 物理化学的な構造の偏好が原因とされる。 チョウの羽 トリの翼 “Flavodoxin-like” fold (c.23) ピロリ菌・フラボドキシン(1fueA) 大腸菌・フラボドキシン(1ag9A) 大腸菌・走化性タンパク質CheY (3chy) 8%, 4.4Å 44%, 1.2Å Analogy N C H om ol og y Homology Å .8 2 , % 22 C N N Homology “CheY-like” superfamily (c.23.1) 14%, 3.2Å C C N 2 1 C C ラット・NADPH シトクロームP450 還元酵素 C末ドメイン (1ja1A2) N ヒト・キノン還元酵素(1d4aA) “Flavoproteins” superfamily (c.23.5) N 3 4 5 多く現れるフォールド(出現ドメイン数順) フォールド名 (SCOP1.73による。クラスfhijkは除く) ドメイ ンの 数 スーパー ファミ リーの数 a.4 DNA/RNA-binding 3-helical bundle 292 14 c.1 TIM beta/alpha-barrel 269 33 248 55 d.58 Ferredoxin-like b.1 Immunoglobulin-like beta sandwich 246 27 c.37 P-loop nucleoside triphosphate hydrolase 235 1 c.2 NAD(P)-binding Rossmann-fold domains 168 1 g.3 Knottins 154 19 d.15 Beta-Grasp(ubiquitin-like) 131 13 c.23 Flavodoxin-like 118 15 b.34 SH3-like barrel 117 18 b.40 OB-fold 100 12 95 1 c.66 SAM-dependent methyltransferases 太字はスーパーフォールド:多くのスーパーファミリーを含むフォールド a.4 d.58 c.37 g.3 c.23 b.40 c.1 b.1 c.2 d.15 b.34 c.66 スーパー・フォールド(Superfold) d.58 スーパーフォールド:多くのスーパーファミリーを含むフォールド フォールド名 (SCOP1.73による。クラスfhijkは除く) c.1 その下のスーパー ファミリーの数 d.58 Ferredoxin-like 55 c.1 TIM beta/alpha-barrel 33 b.1 Immunoglobulin-like beta sandwich 27 a.24 Four-helical up-and-down bundle 27 a.118 Alpha-alpha superhelix 23 g.3 Knottins 19 b.34 SH3-like barrel 18 g.41 Rubredoxin-like 16 c.23 Flavodoxin-like 15 a.60 SAM(sterile alpha motif) domain-like 15 b.69 7-bladed beta-propeller 14 a.4 DNA/RNA-binding 3-helical bundle 14 b.1 a.24 g.3 a.118 b.34 g.41 c.23 b.69 スーパーフォールドは「構造の類似と機能の類似が対応しにくいフォールド」ともいえる a.60 a.4 三本へリックスバンドル DNA/RNA‐binding 3‐helical bundle(a.4) 三本のへリックスが束になった構造 DNAやRNAに結合する蛋白質が多い DNAと 結合した 構造(1k61) Mating type protein A2, yeast(1k61A;a.4.1.1) (1wh5A;a.4.1.1) (1gvdA;a.4.1.3) TIMバレル TIM beta/alpha barrel (c.1) 八本のβストランドとαへリックスが交互に組 み合わさり、対称的な樽(barrel)構造を形成す る。 中央の樽構造は平行のβシートからなる。 全般に解糖系の酵素が多い。基質、酵素反応 は極めて多彩。 Triosephosphate isomerase 1n55A(c.1.1.1) Imidazole glycerol phosphate synthase subunit hisF 1thfD(c.1.2.1) KHG/KDPG aldolase 1euaA(c.1.10.1) フェレドキシン様 Ferredoxin‐like (d.58) 4 1 3 2 4本の逆平行のβストランド と2本のαへリックスからな る。 分子機能は極めて多彩。 4Fe-4S Ferredoxin(1fxd,d.58.1) U1A RNA binding domain CheY binding domain of CheA (1nu4A,d.58.7.1) (1eayC,d.58.24) 免疫グロブリン様 Immunoglobulin‐like beta sandwich(b.1) H鎖 H鎖 L鎖 V V V C C C C C C C L鎖 V C 免疫グロブリン分子はH鎖とL鎖から なり、それぞれ、免疫グロブリン様 ドメインからできている。 細胞表面あるいは分泌蛋白質が多 い。免疫や分子認識に関する機能 を担うことが多い。 Immunoglobulin Heavy chain variable domain. 1mjuH1(b.1.1.1) 4本のβストランドからなるβシー Immunoglobulin トが二枚、サンドイッチ状に重なっ Heavy chain constant た構造をとる。逆平行のβシート domain 1mjuH2(b.1.1.2) が主 Macromomycin 1noaA (b.1.7.1) P‐loop スーパーファミリー P‐loop nucleoside triphosphate hydrolase(c.37) ヌクレオシド結合部。 GxxxxGKTの 配列モチーフ (P-loop)を持つ。 C N 2 3 1 4 5 6 平行のβシート が主。トポロ ジーには 様々な変異あり。 Ras-related protein RAB-5A 1r2qA(c.37.1.8) シグナル伝達、DNA結合、 モーター機能など、多彩な分子機能を 担うが、ATP, GTPなどのヌクレオシド Guanylate kinase の加水分解を行う点は共通。 1gkyA(c.37.1.1) RecA protein.Domain1 1xmsA1(c.37.1.11) ロスマン フォールド NAD(P)‐binding Rossmann‐fold domains (c.2) C N 平行の βシートが主 3 2 1 4 5 6 Alcohol dehydrogenase gamma chain domain2, 1u3wA(c.2.1.1) 補酵素を利用したNAD(P)を 脱水素酵素を持つ。基質を認識する ドメインは別に存在する。 Aspartate beta-semialdehyde dehydrogenase 2gz1A1(c.2.1.3) L-alanine dehydrogenase 1pjcA1(c.2.1.4) 7枚羽 βプロペラ 7‐bladed beta‐propeller (b.69) N C のユニットが7回、 円環状に繰り返しされた フォールド 1 2 3 4 Garactose oxydase domain3, 1k3iA3(b.69.1.1) 細胞膜付近の、シグナル伝達や 糖結合に関わることが多い。 Guanine nucleotide-binding protein subunit beta-1 1gotB(b.69.4.1) Influenza Neuraminidase 1f8dA(b.68.1.1) 6枚羽 βプロペラ 立体構造比較プログラム 1990年ごろから多くの構造比較プログラムが開発されている WEBアドレス スコア アライメント DALI http://www.ebi.ac.uk/d ali 距離の差を独自の関数 で変換したスコア 局所アライメントをモ ンテカルロ法で、つな ぎ合わせる CE http://cl.sdsc.edu/ce.ht 局所的なRMSD ml MATRAS http://biunit.naist.jp/ma 距離の変化が相同、相 tras/ 似で起こる確率の比を スコアとする。 局所アライメントを積 み上げていく SSEで仮アライメント を生成、残基アライメ ントを収束するまで反 復する タンパク質の相同性の判断基準 100 90 80 70 60 同一残基率(Sequence Identity)(%) 50 40 30 20 35 25 15 10 0 5 同一残基率30%以上 BLASTのE-value < 0.0001 配列解析 PSI-BLASTのE-value < 0.0001 立体構造比較が必要 同一残基率が25%以下の場合の相同性の判断基準 (1) 立体構造の類似性が高い(DALIのZスコア、MATRASのRdisスコア) (2) 同一残基率がそこそこ高い(PSI-BLASTでヒットする、SeqID>=15%ぐらい) (3) 分子機能に類似性がある(補酵素、酵素反応、基質、代謝経路等の共通性等) (4) 基質・補酵素の結合部位が類似しており、そのアミノ酸が保存(モチーフ) (5) ドメイン構成の共通性 (6) スーパーフォールドの場合は、特別な注意が必要 H20 問63 次の立体構造分類に関する記述のうち、不適切なものを選択肢の 中から一つ選べ。 1. スーパーフォールドとは、進化的類縁関係が考えられないよう なタンパク質間であっても共通して現れる類似フォールドの集 合である。 2. SCOP, CATHなどの構造分類データベースは非階層的に構 築されている。 3. 構造分類における立体構造のクラスの代表的なものとして、 all-α、all-β、α/β、α+βがある。 4. タンパク質の立体構造は、通常ドメインを単位として分類される。 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問63 次の立体構造分類に関する記述のうち、不適切なものを選択肢の 中から一つ選べ。 1. スーパーフォールドとは、進化的類縁関係が考えられないよう なタンパク質間であっても共通して現れる類似フォールドの集 合である。 2. SCOP, CATHなどの構造分類データベースは非階層的に構 築されている。 3. 構造分類における立体構造のクラスの代表的なものとして、 all-α、all-β、α/β、α+βがある。 4. タンパク質の立体構造は、通常ドメインを単位として分類される。 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 タンパク質の立体構造予測 M L R T D T T Q V T D S Y V G K L T A D Amino acids sequence ? ? ? 3次構造予測(1):Ab initio 予測 原子モデルとポテンシャルエネルギー関数を設定 より低いエネルギー値になるように構造を変形していく ・エネルギー関数 原子を作用単位とした古典力学的なものが多い。量子力学は使わない。 アミノ酸単位の粗視化したモデルもよく用いられる。 ・構造を探索するための手法 分子力学法(Molecular Mechanics; MM):エネルギーが低くなる方向に原子を動かす。: モンテカルロ法(Monte Carlo; MC):ランダムに原子を動かす。: 分子動力学法(Molecular Dynamics; MD) ニュートンの運動方程式に従って原子を動かす。: ⇒ 近年、フラグメント・アセンブリによるモンテカルロ法がよく使われてきている フラグメント・アセンブリ法 立体構造データベースから切り出してきた短い(9残基ぐらい)フラグメントのライブラリ を用意する。Ab initio予測で、構造を変形させるときに、フラグメントのライブラリから 一つ選びその構造と入れ替えることで予測を行う。 予測したいタンパク質の立体構造 立体構造データベースから 切り出したフラグメント・ライブラリ 構造の一部を ライブラリから選ん だフラグメントと入 れ替える エネルギーが減少したら変化させた 構造を採択 ※天然にある構造の部分を組み合わせて立体構造を構築するので、 それらしく局所構造が再現されやすい。 ※David BakerグループのプログラムROSETTAが有名 H20 問65 生体高分子の立体構造解析に用いられる計算手法のうち、分子動 力学法と分子力学法に関する以下の記述において、不適切なものを 選択肢の中から選べ。 1. 分子動力学法は、英語ではMolecular Dynamicsであり、MD という略称も使われる。 2. 分子力学法は、英語ではMolecular Mechanicsであり、MM という略称も使われる。 3. 分子動力学法では、分子を構成する各原子の運動は、 ニュートンの運動方程式で記述される。 4. 分子力学法では、分子を構成する各原子の運動は、シュレー ディンガーの波動方程式で記述される。 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問65 生体高分子の立体構造解析に用いられる計算手法のうち、分子動 力学法と分子力学法に関する以下の記述において、不適切なものを 選択肢の中から選べ。 1. 分子動力学法は、英語ではMolecular Dynamicsであり、MD という略称も使われる。 2. 分子力学法は、英語ではMolecular Mechanicsであり、MM という略称も使われる。 3. 分子動力学法では、分子を構成する各原子の運動は、 ニュートンの運動方程式で記述される。 4. 分子力学法では、分子を構成する各原子の運動は、シュレー ディンガーの波動方程式で記述される。 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 3次構造予測(2):比較モデリング (ホモロジー・モデリング) 原理 : 立体構造はアミノ酸配列より保存しやすい. LNVANGKSVIGPALLEEVWFS-RD * * * ** ** * * ** ** MNIADG-SVVGPTALQEAWFTQRD LNVANGKSVIGPALLEEVWGSRD 予測対象配列 テンプレート構造とそのアライメント 立体構造データベース G G D R D Q A T テンプレート構造 A E 立体構造データベースの中から、クエリ配列に 最も適合する構造(テンプレート構造)を探す BLAST/FASTA, PSI-BLAST,…. スレディング法 L Q T ステップ1:フォールド認識 V I V M N A S Q V W F D A S N K R S V W F V L E E G P L A I G P ステップ2:モデリング テンプレート構造に従って全原子を構築 (1)側鎖原子の構築 (2)挿入ループ部を構築 MODELLER, SCRWRL… L N スレッディング法(3D‐1D法) 構造(3D)と配列(1D)の適合関数を用いて、テンプレート構造と予測対象配列 の最適なアライメントを生成し、その適合性を評価する方法 α外 予測対象配列 V G L α内 α外 D V D G F β内 L β内 二次構造(α、β、coil)、埋 もれ度(内、外)などの環境 と アミノ酸の適合性のスコア。 Bowie, Luthy, Eisenberg (1992)の3Dプロフィールが 有名。 アミノ酸間の距離によ るスコア。 Sipplらが提 案したアミノ酸間の統 計ポテンシャルが有名 ※テンプレート構造(3D)に当てはまる配列(1D)を探すことは Ab initioの構造と志向が反対であるので、スレディング法を 「逆フォールディング問題」と呼ぶこともある。 L V F G α外 F 立体構造 D 配列と構造のアライメント 2体型スコア 1体型スコア α内 α外 β内 β内 1体型のスコアでは、標準的な 動的計画法を使用。2体型の 場合は構造アライメントと似た 発見的な解法が用いられる。 モデリング テンプレート構造を元にした全原子の構築 Saliらが開発したMODELLER が有名(http://www.salilab.org/modeller/modeller.html (1)ループの構築 テンプレート モデル Sequence ALIMSTKGFVS Structure LLLM---GFIT (2)側鎖原子の構築 テンプレート Sequence AYVIND Structure AFVVTD AFVVTD モデル AYVIND ※側鎖原子の構築だけに特化したプログラム・側鎖構造ライブラリとして、 Dunbrackらが開発したSCRWRLがある(http://dunbrack.fccc.edu/scwrl4/SCWRL4.php) モデリングした構造の精度と用途 SeqID = 100 % 反応メカニズムの理解 リガンドの設計 SeqID = 50 % 高分子のドッキング 低分子のドッキング [分子置換法による精密化] SeqID = 30 % 部位特異的置換のサポート [NMRの精密化] [電顕等の粗い電子密度へのフィット] Ab initio 保存している表面残基の発見 D.Baker and A.Sali Science Vol 294 93-96 H19 問52 タンパク質の立体構造予測に用いられる手法名として 適切でないものを選択肢の中から一つ選べ。 1.ホモロジーモデリング法 2.スレッディング法 3.フラグメントアセンブリ法 4.系統フットプリント法 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問52 タンパク質の立体構造予測に用いられる手法名として 適切でないものを選択肢の中から一つ選べ。 1.ホモロジーモデリング法 2.スレッディング法 3.フラグメントアセンブリ法 4.系統フットプリント法 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問72 以下に示したホモロジーモデリングによるタンパク質の 立体構造モデルの構築についての記述の中に不適切 なものがある。一つ選べ。 1. 信頼性の高いモデルを得るには、立体構造既知のアミノ酸配列と 立体構造未知のアミノ酸配列の正確なアライメントが要求される。 2. 一般に、立体構造既知のアミノ酸配列と立体構造未知のアミノ酸 配列の一致度が低かったり、一方に大きな挿入あるいは欠失が 含まれていると、高精度のモデル構造は構築できない。 3. 基本的には、ホモログの既知立体構造を鋳型として、モデル構造 が構築される。 4. 一般に、保存度の高い活性中心よりも保存度の低いループ領域 の方が、モデル中で正確に構築されている。 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H19 問72 以下に示したホモロジーモデリングによるタンパク質の 立体構造モデルの構築についての記述の中に不適切 なものがある。一つ選べ。 1. 信頼性の高いモデルを得るには、立体構造既知のアミノ酸配列と 立体構造未知のアミノ酸配列の正確なアライメントが要求される。 2. 一般に、立体構造既知のアミノ酸配列と立体構造未知のアミノ酸 配列の一致度が低かったり、一方に大きな挿入あるいは欠失が 含まれていると、高精度のモデル構造は構築できない。 3. 基本的には、ホモログの既知立体構造を鋳型として、モデル構造 が構築される。 4. 一般に、保存度の高い活性中心よりも保存度の低いループ領域 の方が、モデル中で正確に構築されている。(反対。保存度の低 いループのほうが、欠失が多いため、一般にモデルの構築は難し い) 平成19年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問64 タンパク質の立体構造予測に関連した下記の記述のう ち、不適切なものを選択肢の中から一つ選べ。 1. Sipplらは、タンパク質配列を正しい立体構造と偽の立体構造とに 当てはめたとき、この両者を残基間の安定性の差として区別でき ることを見いだし、Differential Display法と名付けた。 2. Saliらが開発したMODELLERプログラムは、ホモロジー法に基づ く立体構造予測を行う。 3. Dunbrackらが開発したSCWRLは、側鎖ロータマーのライブラリで ある。 4. Eisenbergらは、与えられた立体構造から、それに最もふさわしい アミノ酸配列を求める逆フォールディング問題に取り組んだ。 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用 H20 問64 タンパク質の立体構造予測に関連した下記の記述のう ち、不適切なものを選択肢の中から一つ選べ。 平成20年度バイオインフォマティクス技術者認定試験 (日本バイオインフォマティクス学会主催)問題から引用