Comments
Description
Transcript
タンパク質立体構造予測
構造解析 配列(=1次元) から 構造(=2・3次元)へ 高次構造解析(2) 前半 構造が機能を決める側面がある RNA~ウィルス等で? タンパク質~構造が機能を決める 基質 タンパク質立体構造予測 2 復習: DNAからアミノ酸列へ タンパク質の構造とその推定 前半: タンパク質の構造の知識 後半: タンパク質の構造推定 DNA 構造と機能、2/3次構造、構造の同定 (mRNA) 相同からの推定、ゼロからの推定、CAPSでの競争 タネ本 アミノ酸列 松澤洋編 タンパク質工学の基礎 C. Branden & J. Tooze, 勝部幸輝ら監訳 タンパク質の構造入門(2版) G. Petsuko & D. Ringe, 横山茂之監訳 タンパク質の構造と機能 A. M. Lesk バイオインフォマティクス基礎講義 J. C. Satubal 分子生物学のためのバイオインフォマティクス入門 清水謙太郎 http://www.bi.a.u-tokyo.ac.jp/~shimizu/bio-old http://www.genome.gov/Pages/Hyperion/DIR/VIP/Glossary/Illustration/mrna.cfm?key=messenger%20RNA%20%28mRNA%29 3 4 (復習) おまけ (細かく見ると) (復習) アミノ酸とタンパク質 アミノ基とカルボキシル基、ペプチド結合、側鎖 ペプチド結合 側鎖 R OH | / H-NーC-C | | \\ H H O アミノ基 R H H O | | | || …-NーC-C-N-C-C-… | | || | H H O R カルボキシル基 アミノ酸 アミノ酸 タンパク質イラストレイテッド1章 アミノ酸は20種類 ~ 側鎖が違う http://www.genome.gov/Pages/Hyperion/DIR/VIP/Glossary/Illustration/peptide.cfm?key=peptide 5 (おまけ)側鎖のいろいろ 6 (おまけ)側鎖のいろいろ グリシン C2H5NO2 アラニン C3H7NO2 バリン C5H11NO2 ロイシン C6H13NO2 イソロイシン C6H13NO2 セリン C3H7NO3 スレオニン C4H9NO3 システイン C3H7NO2S メチオニン アスパラギン C5H11NO2S C4H8N2O3 7 グルタミン C5H10N2O3 プロリン フェニルアラニン チロシン C5H9NO2 C9H11NO2 C9H11NO3 アスパラギン酸 グルタミン酸 C4H7NO4 C5H9NO4 リシン C6H4N2O2 トリプトファン C11H12N2O2 アルギニン ヒスチジン C6H14N4O2 C6H9N3O2 8 次のステップ アミノ酸列 から構造へ 構造が機能に大きく影響 一次構造 二次構造 構造が変わると機能しなくなる 変成を起こすと機能しない 三次構造 http://www.genome.gov/Pages/Hyperion/DIR/ VIP/Glossary/Illustration/mrna.cfm?key=messe nger%20RNA%20%28mRNA%29 四次構造 熱・酸などで変成~固まってしまう 酵素の基質特異性の例 鎌形赤血球の例 プリオンの例 次へ 9 10 酵素の基質特異性 鎌形赤血球(症) http://en.wikipedia.org/wiki/Image:Induced_fit_diagram.svg 遺伝性の貧血病で、黒人特有 の病気 赤血球の形状が鎌状になり酸 素運搬能が低下 赤血球(ヘモグロビン)のβ鎖 の6位のグルタミン酸がバリン に置き変わっている http://upload.wikimedia.org/wikipedia/commons/9/92/Sicklecells.jpg 11 12 (ここから今日の話題) BSEとプリオン仮説 構造が大事 ⇒ 構造を知りたい 哺乳類で感染能を持つプリオンは、「異常プリオン蛋白」と呼ばれ る物質から構成されると考えられている。異常プリオン蛋白は、 羊のスクレイピーやクロイツフェルト・ヤコブ病や牛海綿状脳症で 中枢神経系の神経細胞に蓄積することが確認されており、それ らの疾患の原因物質であるとする説が有力である。プリオンが体 内へ取り込まれると、哺乳動物の脳・脊髄を中心に分布する蛋 白質の一種であるαヘリックスに富んだ正常プリオン蛋白の立 体構造がβシートに富んだ異常プリオン蛋白の立体構造に変換 されてしまうと考えられている。つまり、遺伝子でコードされた蛋 白質のアミノ酸配列が変化するのではなく、同じアミノ酸配列を 保ちながらペプチド鎖の折りたたみ構造が変換されてしまうので ある。このため、プリオンは無生物ながら、感染症の病原体とし ての取扱いが求められる特異な例である。 折り畳みは何によって 決まるのか? そもそも構造は決まるの か? (一意的か?) 何が決定要因か? どんなプロセスで決まる のか? 構造をどうやって知る? 構造を測定する方法? (物理的方法) けっこう大変 構造を推定できるか? 人の頭で? 類似性から推定 物理化学計算で? http://ja.wikipedia.org/wiki/%E3%83%97%E3%83%AA%E3%82%AA%E3%83%B3 (プリオン) 13 弱い結合力(非共有結合) 折り畳み構造が大事 ← そもそもなぜ折り畳まる 直線状の鎖だが の結合は回転可能 原子間の(共有結合 でない)弱い結合力 が、構造を決める 14 イオン結合(静電的相互作用) ペプチド結合 R H H O | | | || …-NーC-C-N-C-C-… | | || | H H O R アミノ酸 ファンデルワールス力 アミノ酸 原子又は原子団の電子雲の偏りが隣接原子に双極子 を誘起して起こる。弱い、近接作用 水素結合 弱い結合力とは ⇒ 15 側鎖Rが水溶液中で電荷を帯び、同種は反発、異種は 引き合う。 または中性でも双極子モーメントを持つと 電荷と同様に反発・引き合う +の部分電荷を持つ供与体原子と、-の部分電荷を 持つ受容体原子(-)が引き合う。 水分子は水素結合を形成し、供与・受容体のいずれに もなる。水溶液中でのタンパク質の折れ畳みに大きな 影響を与える 16 「弱い結合力」の結果 タンパク質の構造は弱い結合力のバランス で決まる。 引き合うもの・反発するもの、 その位置関係 熱エネルギーや酸で容易に崩れる(変成) 折畳み構造はアミノ酸配列だけで決まる (Anfinsenのドグマ) 環境で容易に作用が変わる 容易に(大きなエネルギー無しで)ほどいて ばらすことが出来る ~ 生物の中では重要 Anfinsen 1963 リボヌクレアーゼAを尿素で変成(活性喪失) ⇒ 尿素を取り除く ⇒ 酵素活性が再生 折畳み結果の構造はアミノ酸配列だけで決まる 構造を決める他の要素はない 現在でも(折り畳みを助けるタンパク質などが発見 されているが)原則として正しいとされている 17 18 立体構造の階層的理解 リボヌクレアーゼAの変成・再生 タンパク質複合体 (4次構造) ドメインの組合さった構造(サブユニット) 3次 構造 松澤洋: タンパク質工学の基礎 p32 図3-12 19 ドメイン(機能単位) αへリックス、βシート 1次元の鎖(ポリペプチド鎖) 1次構造 2次構造 20 βシート αへリックス 松澤 タンパク質工学の基礎 図3.6 3.6残基(側鎖)で1周 Oと4残基先のNが水素結合 らせん内側は密に詰る (水分子が入る隙間も殆ど無い) ペプチドの双極子モーメント が同方向に並ぶので全体で 双極子となる 側鎖はらせんの外側に 突き出している 松澤 タンパク質工学の基礎 図3.4 21 22 βシート βストランド: ほぼ一直線に伸びた構造 βシート: これが平行または逆平行に 並んでシート状をなす 「モチーフ」 2次構造と、(機能)ドメインとの中間的な構造 として、数個の2次構造が組合わさったまとま りをなすものがある ~ モチーフと呼ぶ 平面というわけではなく、捩れているのが普通 逆並行β構造の折り返し部分は βターンと呼ばれる構造になっている αへリックスやβシートを繋ぐ部分はいろい ろな構造を持つが、まとめて「ループ」と呼ぶ 23 松澤 タンパク質工学の基礎 図3.824 ドメイン タンパク質複合体(4次構造) いくつか(数個)のαへリックス、βシートか らなる、 タンパク質の立体構造上のひとまとまりで、 機能単位になっている 要素タンパク質=「サブユニット」 (1つのタンパク質単独ではなく)複数のタン パク質で複合体を形成することがある タンパク質はドメインの組合せになっている 様々な役割・機能を分担 協調することもあれば、一方が他を調整すること もある タンパク質の安定化に重要であることもある ドメインはいくつかのタンパク質に共通して 見られる 25 折り畳みのプロセス 26 Petskoら:タンパク質の構造と機能 図1-22 折り畳みのプロセス ほどけた状態(1次元鎖) 速い(数ミリ秒程度) 中間体(モルテングロビュール) 2次構造は殆ど出来ている 全体としてはまだ自由度が大きい 遅い(1秒以上かかることもある) 折り畳まれた状態 27 密になる(複雑に入れ込む) 28 折り畳みのプロセス 構造を知る2つのアプローチ タンパク質によって、折り畳み経路は1つで はない 中間状態までのプロセスは捕まえにくい エネルギー的にもっとも安定な(低い)状態 に落ちようとするはず 構造を測定する 極小があるので抜け出せないことがあるか? 差が比較的小さい(弱い結合)ので、熱エネル ギーなどによって乗り越える可能性あり 構造を「推定」する 29 物理(化学)的な方法で構造を測定する 利点: 直接構造を測定するから、「最終結果」 欠点: 測定が大変、測定できないものがある ⇒ 次回 知恵を絞って、アミノ酸の並びから、どういう構 造に折れ畳まるかを推定する 利点: 計算機で推定、楽で短時間 欠点: 「推定」でしかない (本当か?問題) 絶対確実な方法がない 構造の「測定」のいろいろな方法 (大型のタンパク質)電子顕微鏡 X線回折(X線結晶学) 高次構造解析(2-2) 後半 結晶に対するX線回折パターンを解析 結晶化が必要 結構難しい 電子密度図からモデルを構築する NMR(核磁気共鳴)法 いずれもモデル構築はかなりインタラクティブ タンパク質立体構造予測 31 30 タンパク質の構造とその推定 前半: タンパク質の構造の知識 タンパク質の立体構造の必要性 構造 ⇒ 機能なので、構造を知りたい 構造と機能、2/3次構造、構造の同定 後半: タンパク質の構造推定 タンパク質が与えられて、その機能を推定したい タンパク質を改変して、役立つようにしたい 相同からの推定、ゼロからの推定、CAPSでの競争 タネ本 構造同定の方法として 松澤洋編 タンパク質工学の基礎 C. Branden & J. Tooze, 勝部幸輝ら監訳 タンパク質の構造入門(2版) G. Petsuko & D. Ringe, 横山茂之監訳 タンパク質の構造と機能 A. M. Lesk バイオインフォマティクス基礎講義 J. C. Satubal 分子生物学のためのバイオインフォマティクス入門 清水謙太郎 http://www.bi.a.u-tokyo.ac.jp/~shimizu/bio-old 有効な機能を引き出す 不都合な機能を消し去る 1. 実物を分析(結晶化してX線回折、NMR) 2. 手間・時間(半年~1年?) X線回折~結晶化必要、NMR~大きさ上限 アミノ酸配列から推定できないか? ← ← 33 34 物理化学モデルから計算する方法 アミノ酸配列から構造を推定する? (分子動力学(Molecular Dynamics)法) 一意に折り畳み構造が決まる(Anfinsenのドグマ) ならば 計算によって構造を求められるはず! 1. 物理化学的に(エネルギー最小の形)推定 (精度⇔計算量)の問題がある タンパク質固有の情報を使う方法 2. 原子間に働くいろいろな力 を重ね合わせる 「配列が似ていれば構造も似ている」かも(経験) 「それなりに」うまくいく (「いつも」ではない) 配列(=伸びた状態)からシミュレーションする 類似の構造が無く類推できない時でも、有効 計算量が膨大 = 腕力 35 力場(ポテンシャル)関数 結果として極小の場所がたく さんある http://www.bi.a.u-tokyo.ac.jp/~shimizu/bioinfo/structure.html 小さなタンパク質(数十残基)なら有効 ← 限度 36 様々な工夫がされている 分子動力学法 エネルギーの極小化(Eを極小化) フォールディングのシミュレーション 相互作用を隣接する格子点間のみに限定 粗視化⇒計算量は減るが精度は不足 エネルギーの差が小さいので、精度は必要 mi d2ri/dt2 = -∇i E を差分化 E = Eb + Eθ + Eφ + Evdw + Eel 格子モデル: 各アミノ酸を格子点に置く Eb = ΣKb(r-r0)2 結合長 2 Eθ = ΣKθ(θ-θ0) 結合角 Eφ = ΣKφ[1+cos(nφ-δ)] 二面角 Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力 Eel = Σqiqj/(εrij) 静電相互作用(クーロン力) 統計ポテンシャルを使う: 物理的ではなく、既知の構造データから、取り得る 構造の傾向を統計的に確率として算出して、ポテ ンシャルとして定義する 個々の計算は容易、統計ポテンシャル算出は大変 統計の元データ分布や質、測定条件などの問題 37 38 格子モデル ー HPモデル 格子モデル 各残基が格子点 にあると仮定 予測よりも、 フォールディング の定性的な理解 のために利用され る Hydrophobic(疎水性)とHydrophilic(親水性) 親水性vs疎水性アミノ酸で、0/1を付ける 格子点上にアミノ酸を置く → 図5.7 空間上で隣接する疎水性のアミノ酸の対の 個数を最大化 39 疎水性アミノ酸同士は隣接しない(反発する) 外側が水、内側を疎水性、という感じ 評価関数 w = 隣同士が1,1なら1、 他は0 で最大化 40 格子モデル ー HPモデル エネルギー最小とな る折畳みを計算 HPモデルでは疎水 性アミノ酸どうしが 隣接すると -1で、他 はすべて0 という簡 単なエネルギー関 数を用いる ソフトの例 親水性アミノ酸 電子構造法: Gaussian 疎水性アミノ酸 スコア =-9 無機化学では標準的に使われる、物理化学 モデルによる構造計算(有償)パッケージ 計算量が多く、タンパク質での計算は大変 分子動力学法 Gromos/Gromacs スコア =-5 速い(らしい)、GPLでフリー 他に、AMBER, CHARMM, NAMD, TINKER など多数作られている 配列 www.bic.kyoto-u.ac.jp/takutsu/members/takutsu/nara-wu-6.ppt の16ページを拝借 41 42 タンパク質固有アプローチ タンパク質構造の「分類」 ~ CAPSコンテストから CAPS: 推定技術がいかに進んだか競争 1994から隔年で過去7回(2006まで) 3つの問題分野 1. 比較モデリング (既知の近縁タンパク質を使える範囲、 構造から機能が決まると期待 SCOP(立体構造分類データベース)の 階層的クラス分け ホモロジーモデリングを適用できる) 2. 3. フォールド認識 (類似のフォールドを持つ構造は使え る。近縁のものはない。トポロジーが類似した構造を同 定することが問題) 新規フォールド (同じ折り畳みパターンを持つ構造は 知られていない) 43 Class: 二次構造の組成による分類 αのみ、βのみ、βαβ構造、別々のα+βなど Fold: 構造は似ているが進化的類縁は考えない SuperFamily: 構造は似ていて進化的類縁が推測 されるが配列上は相同性が検出されない Family: 配列上も相同で、明らかに進化的類縁 44 準備レベルとして 二次構造予測 二次構造(ヘリックス・シート)の予測 三次構造(全体)を予測するよりは容易 うまくすれば二次構造の組合わせて三次構造 が予測できないか? 相同性などを使ってかなり正しく予測できる (70~80%) 例:CASP2000のPROFシステム 二次構造が予測できれば、それを単位にした全 体構造の予測が出来るのでは?? 配列中の残基をα・β・その他のどれに属する か予測 この部分は、70~80%の的中率が実現できる ニューラルネットワークを使うと(アミノ酸列と 相同性情報を入力)かなり正しく予測できる 例:EVAシステム いろいろな方法が提案されてきた ニューラルネット、HMM、など 45 46 様々な工夫 ~ Rosettaの場合 ホモロジー(相同性)モデリング 部分配列(連続数残基)に区切り、 部分配列(~二次構造)を類似性から予測し 全体の構造(部分配列間の関係)を 独自のエネルギー関数を使って推定 「配列が似ていれば立体構造も似ている」 経験則だがある程度成り立つ 遺伝的に類縁関係があれば、似ていて当然 2つのアプローチ CASP2000では(新規フォールド部門で) 優れた結果を出した CASP2004、2006でも、新規フォールド部門 で引続いて上位を占める フラグメント(部分)に基くアプローチ 既知タンパクフラグメントと同じ形の部分を利用 構造を保存していない部分は別手法(ループ等) 制約条件に基くアプローチ 47 構造上の特徴を制約条件(C間の距離、角度な ど)で表し、それを満たすようにモデルを作る 48 フラグメントに基くアプローチ 標的タンパク質と、よく似た(アラインメント結果 で40~50%以上一致)既知のタンパク質の比 較をする 挿入や欠失のある部分(概してループ領域が 多い)を、既知タンパク質に追加する (ループモデリングなど別の手法を用いる) 既知のものと違っている側鎖を埋める ループ部分のモデリング 既知タンパク質との比較で決める 物理化学的計算で決める 回転異性体などを選んで衝突の無い様にする ループの両端の構造+ループ部分の残基数で パターンマッチングをし、合うものを探す ループの両端を制約条件として、エネルギー最 小計算をする 残基数が少ないので計算できるが、ループ外 の原子の影響を無視しているので正しくない エネルギー最小化で微調整し、精密化する 49 50 フラグメントに基くアプローチ 制約条件に基くアプローチ 相同性(類縁関係)のある既知構造から 大まかな形を譲り受けて、細部調整 複数の既知類縁タンパク質があれば、 変化の多い部分と少ない部分の区別も 出来るので、より精度を上げられる よくできたソフトウェアがある 例: SWISS-MODEL 類縁の既知タンパク質をテンプレートとし、 その中のC間の距離や角度の値の分布を 取り出しておく これをどれだけよく満足するかを目的関数と し、それを最小化するように位置を決める 例) MODELLER (Rockfeller大のSali) http://salilab.org/modeller/ 51 52 フォールド認識とスレッディング フォールド認識: 多数の構造テンプレートに対して可能なアライ ンメントを試し、どのテンプレートに属するかを 決める スレッディングとアライメント 立体構造 A L G F G S L Y G A L G G V S L G 具体的な形の詳細を決めるというよりは 大まかなモデル(構造テンプレート)を探す (どれに近いか、どのグループに属するか) A L G F G スレッディング 立体構造(テンプレート)とアミノ酸配列の間の アラインメント A L G S L Y G G V S L G T C A V F G L G K V R L S D V 入力アミノ酸配列 53 54 3D-1D法のプロファイル(Eisenberg) スレッディング法の分類 プロファイルによるスレッディング プロファイル=アラインメントでのスコア行列に相当 プロファイルによるアラインメント~動的計画法 3D-1D法 PSI-BLAST 残基間のポテンシャルによるスレッディング いろいろなポテンシャルモデル 環境クラス: タンパク質のそれぞれの残基(側鎖)を環境クラ スで置き換えた配列(3Dプロファイル)を作る 55 個々の残基の位置(内外性+極性) 6種類 二次構造(α・β・それ以外) 3種類 の直積の18種類に分類 タンパク質間で、この3Dプロファイルのアラインメン トを行えばよい 56 その他のプロファイル 様々な手法が提案されている 配列のマルチプルアラインメントに基くプロ ファイル 残基間のポテンシャルによるスレッディング PSI-BLAST、HMM 立体構造のマルチプルアラインメントに基く プロファイル 角度情報なども考慮したプロファイル スコア関数によって、よいものを選ぶ。スコア 関数の取り方にいろいろ提案 プロファイル型(数えて出現頻度)や ポテンシャル型(物理的ポテンシャル関数) ポテンシャル型: 全体のエネルギーを最小化 接触するか否か(0/1)vs距離の関数を与える 57 58 立体構造予測の発展 スレッディング法 (Eisenberg et al. 1991) 配列上の相同性がない場合の構造予測 プロファイルに基くマルチプルアラインメント の繰返し実行 統計+シミュレーションによるab initioな予測 新規: ROSETTA後継が有力 類縁利用: PSI-BLAST+αの推定が有力 将来 ? 59 まだ簡単には正確な予測が得られない 大体の形の予測なら多少出来る 二次構造の予測なら70-80%程度できる CAPS2006では Rosetta (Baker 1997) 立体構造予測はまだホットな分野 PSI-BLAST (Altschul et al. 1997) まとめ 構造データが充実するとアラインメントから推定 できる? 60