...

タンパク質立体構造予測

by user

on
Category: Documents
28

views

Report

Comments

Transcript

タンパク質立体構造予測
構造解析
„
配列(=1次元) から 構造(=2・3次元)へ
„
高次構造解析(2) 前半
„
„
構造が機能を決める側面がある
RNA~ウィルス等で?
タンパク質~構造が機能を決める
„
基質
タンパク質立体構造予測
2
復習: DNAからアミノ酸列へ
タンパク質の構造とその推定
„
前半: タンパク質の構造の知識
„
„
後半: タンパク質の構造推定
„
„
DNA
構造と機能、2/3次構造、構造の同定
(mRNA)
相同からの推定、ゼロからの推定、CAPSでの競争
タネ本
„
„
„
„
„
„
アミノ酸列
松澤洋編 タンパク質工学の基礎
C. Branden & J. Tooze, 勝部幸輝ら監訳 タンパク質の構造入門(2版)
G. Petsuko & D. Ringe, 横山茂之監訳 タンパク質の構造と機能
A. M. Lesk バイオインフォマティクス基礎講義
J. C. Satubal 分子生物学のためのバイオインフォマティクス入門
清水謙太郎 http://www.bi.a.u-tokyo.ac.jp/~shimizu/bio-old
http://www.genome.gov/Pages/Hyperion/DIR/VIP/Glossary/Illustration/mrna.cfm?key=messenger%20RNA%20%28mRNA%29
3
4
(復習) おまけ (細かく見ると)
(復習) アミノ酸とタンパク質
„
アミノ基とカルボキシル基、ペプチド結合、側鎖
ペプチド結合
側鎖
R
OH
|
/
H-NーC-C
| |
\\
H H
O
アミノ基
R
H H O
|
| | ||
…-NーC-C-N-C-C-…
| | ||
|
H H O
R
カルボキシル基
アミノ酸
アミノ酸
タンパク質イラストレイテッド1章
„
アミノ酸は20種類 ~ 側鎖が違う
http://www.genome.gov/Pages/Hyperion/DIR/VIP/Glossary/Illustration/peptide.cfm?key=peptide
5
(おまけ)側鎖のいろいろ
6
(おまけ)側鎖のいろいろ
グリシン
C2H5NO2
アラニン
C3H7NO2
バリン
C5H11NO2
ロイシン
C6H13NO2
イソロイシン
C6H13NO2
セリン
C3H7NO3
スレオニン
C4H9NO3
システイン
C3H7NO2S
メチオニン アスパラギン
C5H11NO2S C4H8N2O3
7
グルタミン
C5H10N2O3
プロリン フェニルアラニン チロシン
C5H9NO2 C9H11NO2
C9H11NO3
アスパラギン酸
グルタミン酸
C4H7NO4
C5H9NO4
リシン
C6H4N2O2
トリプトファン
C11H12N2O2
アルギニン ヒスチジン
C6H14N4O2 C6H9N3O2
8
次のステップ
アミノ酸列
から構造へ
構造が機能に大きく影響
一次構造
二次構造
„
構造が変わると機能しなくなる
„
変成を起こすと機能しない
三次構造
http://www.genome.gov/Pages/Hyperion/DIR/
VIP/Glossary/Illustration/mrna.cfm?key=messe
nger%20RNA%20%28mRNA%29
四次構造
„
熱・酸などで変成~固まってしまう
„
酵素の基質特異性の例
„
鎌形赤血球の例
„
プリオンの例
次へ
9
10
酵素の基質特異性
鎌形赤血球(症)
„
„
„
http://en.wikipedia.org/wiki/Image:Induced_fit_diagram.svg
遺伝性の貧血病で、黒人特有
の病気
赤血球の形状が鎌状になり酸
素運搬能が低下
赤血球(ヘモグロビン)のβ鎖
の6位のグルタミン酸がバリン
に置き変わっている
http://upload.wikimedia.org/wikipedia/commons/9/92/Sicklecells.jpg
11
12
(ここから今日の話題)
BSEとプリオン仮説
構造が大事 ⇒ 構造を知りたい
哺乳類で感染能を持つプリオンは、「異常プリオン蛋白」と呼ばれ
る物質から構成されると考えられている。異常プリオン蛋白は、
羊のスクレイピーやクロイツフェルト・ヤコブ病や牛海綿状脳症で
中枢神経系の神経細胞に蓄積することが確認されており、それ
らの疾患の原因物質であるとする説が有力である。プリオンが体
内へ取り込まれると、哺乳動物の脳・脊髄を中心に分布する蛋
白質の一種であるαヘリックスに富んだ正常プリオン蛋白の立
体構造がβシートに富んだ異常プリオン蛋白の立体構造に変換
されてしまうと考えられている。つまり、遺伝子でコードされた蛋
白質のアミノ酸配列が変化するのではなく、同じアミノ酸配列を
保ちながらペプチド鎖の折りたたみ構造が変換されてしまうので
ある。このため、プリオンは無生物ながら、感染症の病原体とし
ての取扱いが求められる特異な例である。
„
折り畳みは何によって
決まるのか?
そもそも構造は決まるの
か? (一意的か?)
何が決定要因か?
どんなプロセスで決まる
のか?
„
„
„
„
構造をどうやって知る?
„
構造を測定する方法?
(物理的方法)
„
„
けっこう大変
構造を推定できるか?
„
„
„
人の頭で?
類似性から推定
物理化学計算で?
http://ja.wikipedia.org/wiki/%E3%83%97%E3%83%AA%E3%82%AA%E3%83%B3 (プリオン)
13
弱い結合力(非共有結合)
折り畳み構造が大事
← そもそもなぜ折り畳まる
„
„
直線状の鎖だが
の結合は回転可能
原子間の(共有結合
でない)弱い結合力
が、構造を決める
„
14
„
イオン結合(静電的相互作用)
„
ペプチド結合
R
H H O
|
| | ||
…-NーC-C-N-C-C-…
| | ||
|
H H O
R
アミノ酸
„
ファンデルワールス力
„
„
アミノ酸
原子又は原子団の電子雲の偏りが隣接原子に双極子
を誘起して起こる。弱い、近接作用
水素結合
„
弱い結合力とは ⇒
„
15
側鎖Rが水溶液中で電荷を帯び、同種は反発、異種は
引き合う。 または中性でも双極子モーメントを持つと
電荷と同様に反発・引き合う
+の部分電荷を持つ供与体原子と、-の部分電荷を
持つ受容体原子(-)が引き合う。
水分子は水素結合を形成し、供与・受容体のいずれに
もなる。水溶液中でのタンパク質の折れ畳みに大きな
影響を与える
16
「弱い結合力」の結果
„
タンパク質の構造は弱い結合力のバランス
で決まる。
„
„
„
„
引き合うもの・反発するもの、 その位置関係
熱エネルギーや酸で容易に崩れる(変成)
„
„
折畳み構造はアミノ酸配列だけで決まる
(Anfinsenのドグマ)
環境で容易に作用が変わる
„
容易に(大きなエネルギー無しで)ほどいて
ばらすことが出来る ~ 生物の中では重要
Anfinsen 1963
リボヌクレアーゼAを尿素で変成(活性喪失)
⇒ 尿素を取り除く ⇒ 酵素活性が再生
折畳み結果の構造はアミノ酸配列だけで決まる
„
„
構造を決める他の要素はない
現在でも(折り畳みを助けるタンパク質などが発見
されているが)原則として正しいとされている
17
18
立体構造の階層的理解
リボヌクレアーゼAの変成・再生
„
タンパク質複合体 (4次構造)
„
ドメインの組合さった構造(サブユニット) 3次
構造
松澤洋: タンパク質工学の基礎 p32 図3-12
19
„
ドメイン(機能単位)
„
αへリックス、βシート
„
1次元の鎖(ポリペプチド鎖) 1次構造
2次構造
20
βシート
αへリックス
„
„
„
松澤 タンパク質工学の基礎 図3.6
3.6残基(側鎖)で1周
Oと4残基先のNが水素結合
らせん内側は密に詰る
(水分子が入る隙間も殆ど無い)
„
„
ペプチドの双極子モーメント
が同方向に並ぶので全体で
双極子となる
側鎖はらせんの外側に
突き出している
松澤 タンパク質工学の基礎 図3.4
21
22
βシート
„
„
„
„
βストランド: ほぼ一直線に伸びた構造
βシート: これが平行または逆平行に
並んでシート状をなす
„
„
「モチーフ」
2次構造と、(機能)ドメインとの中間的な構造
として、数個の2次構造が組合わさったまとま
りをなすものがある ~ モチーフと呼ぶ
平面というわけではなく、捩れているのが普通
逆並行β構造の折り返し部分は
βターンと呼ばれる構造になっている
αへリックスやβシートを繋ぐ部分はいろい
ろな構造を持つが、まとめて「ループ」と呼ぶ
23
松澤 タンパク質工学の基礎 図3.824
ドメイン
„
„
„
タンパク質複合体(4次構造)
いくつか(数個)のαへリックス、βシートか
らなる、
タンパク質の立体構造上のひとまとまりで、
機能単位になっている
„
„
要素タンパク質=「サブユニット」
„
„
„
(1つのタンパク質単独ではなく)複数のタン
パク質で複合体を形成することがある
タンパク質はドメインの組合せになっている
様々な役割・機能を分担
協調することもあれば、一方が他を調整すること
もある
タンパク質の安定化に重要であることもある
„
ドメインはいくつかのタンパク質に共通して
見られる
„
25
折り畳みのプロセス
26
Petskoら:タンパク質の構造と機能 図1-22
折り畳みのプロセス
„
ほどけた状態(1次元鎖)
速い(数ミリ秒程度)
„
中間体(モルテングロビュール)
„
„
2次構造は殆ど出来ている
全体としてはまだ自由度が大きい
遅い(1秒以上かかることもある)
„
折り畳まれた状態
„
27
密になる(複雑に入れ込む)
28
折り畳みのプロセス
„
„
„
構造を知る2つのアプローチ
タンパク質によって、折り畳み経路は1つで
はない
中間状態までのプロセスは捕まえにくい
エネルギー的にもっとも安定な(低い)状態
に落ちようとするはず
„
„
„
構造を測定する
„
„
„
„
極小があるので抜け出せないことがあるか?
差が比較的小さい(弱い結合)ので、熱エネル
ギーなどによって乗り越える可能性あり
構造を「推定」する
„
„
„
29
物理(化学)的な方法で構造を測定する
利点: 直接構造を測定するから、「最終結果」
欠点: 測定が大変、測定できないものがある
⇒ 次回
知恵を絞って、アミノ酸の並びから、どういう構
造に折れ畳まるかを推定する
利点: 計算機で推定、楽で短時間
欠点: 「推定」でしかない (本当か?問題)
絶対確実な方法がない
構造の「測定」のいろいろな方法
„
„
(大型のタンパク質)電子顕微鏡
X線回折(X線結晶学)
„
„
„
高次構造解析(2-2) 後半
結晶に対するX線回折パターンを解析
結晶化が必要 結構難しい
電子密度図からモデルを構築する
„
NMR(核磁気共鳴)法
„
いずれもモデル構築はかなりインタラクティブ
タンパク質立体構造予測
31
30
タンパク質の構造とその推定
„
前半: タンパク質の構造の知識
„
„
タンパク質の立体構造の必要性
構造 ⇒ 機能なので、構造を知りたい
„
構造と機能、2/3次構造、構造の同定
後半: タンパク質の構造推定
„
タンパク質が与えられて、その機能を推定したい
タンパク質を改変して、役立つようにしたい
„
„
相同からの推定、ゼロからの推定、CAPSでの競争
„
„
„
タネ本
„
„
„
„
„
„
構造同定の方法として
„
松澤洋編 タンパク質工学の基礎
C. Branden & J. Tooze, 勝部幸輝ら監訳 タンパク質の構造入門(2版)
G. Petsuko & D. Ringe, 横山茂之監訳 タンパク質の構造と機能
A. M. Lesk バイオインフォマティクス基礎講義
J. C. Satubal 分子生物学のためのバイオインフォマティクス入門
清水謙太郎 http://www.bi.a.u-tokyo.ac.jp/~shimizu/bio-old
有効な機能を引き出す
不都合な機能を消し去る
1.
実物を分析(結晶化してX線回折、NMR)
„
„
2.
手間・時間(半年~1年?)
X線回折~結晶化必要、NMR~大きさ上限
アミノ酸配列から推定できないか? ← ←
33
34
物理化学モデルから計算する方法
アミノ酸配列から構造を推定する?
(分子動力学(Molecular Dynamics)法)
一意に折り畳み構造が決まる(Anfinsenのドグマ)
„
„
ならば
„
計算によって構造を求められるはず!
1.
物理化学的に(エネルギー最小の形)推定
„
„
„
(精度⇔計算量)の問題がある
„
タンパク質固有の情報を使う方法
2.
„
„
原子間に働くいろいろな力
を重ね合わせる
「配列が似ていれば構造も似ている」かも(経験)
「それなりに」うまくいく (「いつも」ではない)
配列(=伸びた状態)からシミュレーションする
„
„
類似の構造が無く類推できない時でも、有効
計算量が膨大 = 腕力
„
35
力場(ポテンシャル)関数
結果として極小の場所がたく
さんある
http://www.bi.a.u-tokyo.ac.jp/~shimizu/bioinfo/structure.html
小さなタンパク質(数十残基)なら有効 ← 限度
36
様々な工夫がされている
分子動力学法
„
„
„
„
„
エネルギーの極小化(Eを極小化)
フォールディングのシミュレーション
„
„
„
„
相互作用を隣接する格子点間のみに限定
粗視化⇒計算量は減るが精度は不足
エネルギーの差が小さいので、精度は必要
„
„
mi d2ri/dt2 = -∇i E を差分化
E = Eb + Eθ + Eφ + Evdw + Eel
„
格子モデル: 各アミノ酸を格子点に置く
„
Eb = ΣKb(r-r0)2
結合長
2
Eθ = ΣKθ(θ-θ0)
結合角
Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
Eel = Σqiqj/(εrij)
静電相互作用(クーロン力)
統計ポテンシャルを使う:
物理的ではなく、既知の構造データから、取り得る
構造の傾向を統計的に確率として算出して、ポテ
ンシャルとして定義する
個々の計算は容易、統計ポテンシャル算出は大変
統計の元データ分布や質、測定条件などの問題
„
„
„
37
38
格子モデル ー HPモデル
格子モデル
„
„
„
各残基が格子点
にあると仮定
予測よりも、
フォールディング
の定性的な理解
のために利用され
る
Hydrophobic(疎水性)とHydrophilic(親水性)
„
„
„
„
親水性vs疎水性アミノ酸で、0/1を付ける
格子点上にアミノ酸を置く → 図5.7
空間上で隣接する疎水性のアミノ酸の対の
個数を最大化
„
„
39
疎水性アミノ酸同士は隣接しない(反発する)
外側が水、内側を疎水性、という感じ
評価関数 w = 隣同士が1,1なら1、 他は0 で最大化
40
格子モデル ー HPモデル
„
„
エネルギー最小とな
る折畳みを計算
HPモデルでは疎水
性アミノ酸どうしが
隣接すると -1で、他
はすべて0 という簡
単なエネルギー関
数を用いる
ソフトの例
親水性アミノ酸
„
電子構造法: Gaussian
疎水性アミノ酸
„
スコア
=-9
„
„
無機化学では標準的に使われる、物理化学
モデルによる構造計算(有償)パッケージ
計算量が多く、タンパク質での計算は大変
分子動力学法
„
Gromos/Gromacs
„
スコア
=-5
„
速い(らしい)、GPLでフリー
他に、AMBER, CHARMM, NAMD, TINKER
など多数作られている
配列
www.bic.kyoto-u.ac.jp/takutsu/members/takutsu/nara-wu-6.ppt の16ページを拝借
41
42
タンパク質固有アプローチ
タンパク質構造の「分類」
~ CAPSコンテストから
„
CAPS: 推定技術がいかに進んだか競争
„
„
1994から隔年で過去7回(2006まで)
3つの問題分野
1.
„
„
比較モデリング (既知の近縁タンパク質を使える範囲、
構造から機能が決まると期待
SCOP(立体構造分類データベース)の
階層的クラス分け
„
ホモロジーモデリングを適用できる)
2.
3.
フォールド認識 (類似のフォールドを持つ構造は使え
„
る。近縁のものはない。トポロジーが類似した構造を同
定することが問題)
„
新規フォールド (同じ折り畳みパターンを持つ構造は
知られていない)
43
„
Class: 二次構造の組成による分類
αのみ、βのみ、βαβ構造、別々のα+βなど
Fold: 構造は似ているが進化的類縁は考えない
SuperFamily: 構造は似ていて進化的類縁が推測
されるが配列上は相同性が検出されない
Family: 配列上も相同で、明らかに進化的類縁
44
準備レベルとして
二次構造予測
二次構造(ヘリックス・シート)の予測
„
„
„
„
三次構造(全体)を予測するよりは容易
うまくすれば二次構造の組合わせて三次構造
が予測できないか?
相同性などを使ってかなり正しく予測できる
(70~80%) 例:CASP2000のPROFシステム
„
„
„
二次構造が予測できれば、それを単位にした全
体構造の予測が出来るのでは??
配列中の残基をα・β・その他のどれに属する
か予測
この部分は、70~80%の的中率が実現できる
„
ニューラルネットワークを使うと(アミノ酸列と
相同性情報を入力)かなり正しく予測できる
例:EVAシステム
„
いろいろな方法が提案されてきた
ニューラルネット、HMM、など
45
46
様々な工夫 ~ Rosettaの場合
„
„
„
„
„
ホモロジー(相同性)モデリング
„
部分配列(連続数残基)に区切り、
部分配列(~二次構造)を類似性から予測し
全体の構造(部分配列間の関係)を
独自のエネルギー関数を使って推定
「配列が似ていれば立体構造も似ている」
経験則だがある程度成り立つ
„ 遺伝的に類縁関係があれば、似ていて当然
„
„
2つのアプローチ
„
CASP2000では(新規フォールド部門で)
優れた結果を出した
CASP2004、2006でも、新規フォールド部門
で引続いて上位を占める
フラグメント(部分)に基くアプローチ
既知タンパクフラグメントと同じ形の部分を利用
„ 構造を保存していない部分は別手法(ループ等)
„
„
制約条件に基くアプローチ
„
47
構造上の特徴を制約条件(C間の距離、角度な
ど)で表し、それを満たすようにモデルを作る
48
フラグメントに基くアプローチ
„
„
„
標的タンパク質と、よく似た(アラインメント結果
で40~50%以上一致)既知のタンパク質の比
較をする
挿入や欠失のある部分(概してループ領域が
多い)を、既知タンパク質に追加する
(ループモデリングなど別の手法を用いる)
既知のものと違っている側鎖を埋める
„
„
ループ部分のモデリング
„
既知タンパク質との比較で決める
„
„
物理化学的計算で決める
„
„
回転異性体などを選んで衝突の無い様にする
ループの両端の構造+ループ部分の残基数で
パターンマッチングをし、合うものを探す
ループの両端を制約条件として、エネルギー最
小計算をする
残基数が少ないので計算できるが、ループ外
の原子の影響を無視しているので正しくない
エネルギー最小化で微調整し、精密化する
49
50
フラグメントに基くアプローチ
„
制約条件に基くアプローチ
相同性(類縁関係)のある既知構造から
大まかな形を譲り受けて、細部調整
„
複数の既知類縁タンパク質があれば、
変化の多い部分と少ない部分の区別も
出来るので、より精度を上げられる
„ よくできたソフトウェアがある
例: SWISS-MODEL
„
„
„
類縁の既知タンパク質をテンプレートとし、
その中のC間の距離や角度の値の分布を
取り出しておく
これをどれだけよく満足するかを目的関数と
し、それを最小化するように位置を決める
例) MODELLER (Rockfeller大のSali)
http://salilab.org/modeller/
51
52
フォールド認識とスレッディング
„
フォールド認識:
多数の構造テンプレートに対して可能なアライ
ンメントを試し、どのテンプレートに属するかを
決める
„
„
スレッディングとアライメント
立体構造
A L G F G S L Y G
A L G G V S L G
具体的な形の詳細を決めるというよりは
大まかなモデル(構造テンプレート)を探す
(どれに近いか、どのグループに属するか)
A L G F G
スレッディング
立体構造(テンプレート)とアミノ酸配列の間の
アラインメント
A L G
S L Y G
G V S L
G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
53
54
3D-1D法のプロファイル(Eisenberg)
スレッディング法の分類
„
プロファイルによるスレッディング
„
„
„
„
„
„
プロファイル=アラインメントでのスコア行列に相当
プロファイルによるアラインメント~動的計画法
3D-1D法
PSI-BLAST
残基間のポテンシャルによるスレッディング
„
いろいろなポテンシャルモデル
環境クラス:
„
„
„
„
タンパク質のそれぞれの残基(側鎖)を環境クラ
スで置き換えた配列(3Dプロファイル)を作る
„
55
個々の残基の位置(内外性+極性) 6種類
二次構造(α・β・それ以外) 3種類
の直積の18種類に分類
タンパク質間で、この3Dプロファイルのアラインメン
トを行えばよい
56
その他のプロファイル
„
„
様々な手法が提案されている
配列のマルチプルアラインメントに基くプロ
ファイル
„
„
„
残基間のポテンシャルによるスレッディング
„
„
PSI-BLAST、HMM
立体構造のマルチプルアラインメントに基く
プロファイル
角度情報なども考慮したプロファイル
„
スコア関数によって、よいものを選ぶ。スコア
関数の取り方にいろいろ提案
プロファイル型(数えて出現頻度)や
ポテンシャル型(物理的ポテンシャル関数)
ポテンシャル型: 全体のエネルギーを最小化
„
接触するか否か(0/1)vs距離の関数を与える
57
58
立体構造予測の発展
„
スレッディング法 (Eisenberg et al. 1991)
„
„
„
配列上の相同性がない場合の構造予測
„
„
プロファイルに基くマルチプルアラインメント
の繰返し実行
„
„
統計+シミュレーションによるab initioな予測
„
新規: ROSETTA後継が有力
類縁利用: PSI-BLAST+αの推定が有力
将来 ?
„
59
まだ簡単には正確な予測が得られない
大体の形の予測なら多少出来る
二次構造の予測なら70-80%程度できる
CAPS2006では
„
Rosetta (Baker 1997)
„
立体構造予測はまだホットな分野
„
PSI-BLAST (Altschul et al. 1997)
„
„
まとめ
構造データが充実するとアラインメントから推定
できる?
60
Fly UP