修士論文表面アミノ酸分布を用いたタンパク質間相互作用サイトの予測

by user

on 28 марта 2017

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download 修士論文表面アミノ酸分布を用いたタンパク質間相互作用サイトの予測

Transcript

修士論文表面アミノ酸分布を用いたタンパク質間相互作用サイトの予測

NAIST-IS-MT0251152
修士論文
表面アミノ酸分布を用いた
タンパク質間相互作用サイトの予測法の開発
福原直志
2004 年 2 月 6 日
奈良先端科学技術大学院大学
情報科学研究科情報生命科学専攻
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士(理学) 授与の要件として提出した修士論文である。
福原直志
審査委員：箱嶋敏雄教授
小笠原直毅教授
川端猛客員助教授
2
表面アミノ酸分布を用いた
タンパク質間相互作用サイトの予測法の開発*
福原直志
内容梗概
タンパク質間相互作用は細胞内の様々な機能において中心的な役割を果た
しており、そのメカニズムの理解には相互作用サイトの推定が不可欠である。
しかし、タンパク質の複合体の立体構造を実験的に決定することは一般に困難
であるため、本研究では単量体の立体構造データのみから相互作用サイトを予
測する方法の開発を目指す。
まず複合体の立体構造の代表セットを統計的に調査し、相互作用サイトにお
けるアミノ酸出現頻度を計算したところ、相互作用サイトには疎水性や芳香族
のアミノ酸が比較的多く含まれていることが分かった。この出現傾向の値を用
いて、以下のような予測法を構築した。まず立体構造上近傍に位置する表面残
基をパッチとしてグループ化し、そこに含まれるアミノ酸に対してその溶媒露
出面積に応じて出現傾向値を加算したスコアを計算する。スコアが閾値を越え
た残基を相互作用サイトとして予測する。
先行研究と同じデータセットで予測精度を評価した結果、相関係数は 0.37
程度で、よりシンプルな方法にもかかわらず同様の予測精度が得られた。また、
ホモとヘテロ、ダイマーとマルチマーに分割して比較したところ、ヘテロダイ
マーの予測精度が比較的高いことが分かった。低い予測精度の構造を詳細に検
討したところ、分子機能的な必然性から例外的な傾向を示していることが分か
り、今後はこのような複合体にも適用できる手法を開発していく方針である。
キーワード
タンパク質間相互作用, 相互作用サイト, 立体構造, 溶媒露出面積, プロフィール
*奈良先端科学技術大学院大学情報科学研究科情報生命科学専攻修士論文,
NAIST-ISMT0251152, 2004 年2 月6 日.
3
Prediction of Protein-Protein Interaction Sites
using Residue Interface Propensity *
Naoshi Fukuhara
Abstract
Protein-protein interaction plays a key role in biological processes, and it is
important to understand its mechanism. In this study, we tried to predict
protein-protein interaction sites in proteins with known structures. Specifically,
here we attempt to predict interaction sites in a protein using only its free (not
bound to its partner) structure, because the ultimate aim is to predict putative
interaction sites in new proteins that are not already bound to their partners.
Residue interface propensities were estimated from a statistical analysis of
representative tertiary structural dataset of protein-protein complexes. We found
that hydrophobic and aromatic residues tend to have high propensity values at
protein-protein interface. Next, we constructed a simple prediction algorithm by
using this interface propensity. For each residue on the protein surface, an
averaged propensity score is calculated from propensities of structurally
neighboring residues, weighted by their solvent accessible surface area. A residue
is predicted to be at the interface when the averaged propensity score is over
some particular threshold value.
To evaluate the accuracy of our prediction, we constructed a dataset of 40
hetero-complexes for which bound and unbound structures are available for all
members. The interface sites were predicted for the unbound structure, and their
prediction accuracies were evaluated using the corresponding bound structure.
From now on, we are going to improve the prediction method by using parameters
other than residue interface propensity and solvent accessible surface.
.*Master’s Thesis, Department of Bioinformatics and Genomics, Graduate School of
Information Science, Nara Institute of Science and Technology, NAIST-IS-MT0251152,
February 6, 2004.
4
Keywords:
protein-protein interaction, interaction sites, tertiary structure, solvent accessible
surface, profile
5
目次
第１章
序論 .......................................................................... 10
第２章
背景と目的 ................................................................ 13
２.１
タンパク質の４次構造........................................................... 13
２.１.１
タンパク質の階層構造 .........................................................13
２.１.２
複合体の分類法 ...................................................................15
２.１.３
PDB と PQS........................................................................17
２.２
タンパク質間相互作用........................................................... 19
２.２.１
タンパク質間相互作用の駆動力 ...........................................19
２.２.２
静電相互作用 ......................................................................20
２.２.３
タンパク質間相互作用サイトの進化的な保存 ......................21
２.３
予測手法の背景 ..................................................................... 22
２.３.１
配列相同性検索（BLAST） .................................................22
２.３.２
PSI-BLAST とプロフィール法 ............................................23
２.３.３
２次構造予測 ......................................................................24
２.３.４
パッチ .................................................................................25
6
２.４
タンパク質間相互作用サイトの解析と予測 ............................ 27
２.４.１
相互作用サイトの解析 .........................................................27
２.４.２
相互作用サイトの予測 .........................................................28
２.５
本研究の目的 ........................................................................ 29
第３章
複合体立体構造データの統計解析 .............................. 30
３.１
表面とインタフェースの定義 ................................................ 30
３.１.１
表面と溶媒露出度................................................................30
３.１.２
インタフェースの定義 .........................................................32
３.２
複合体データセット .............................................................. 32
３.２.１
データセット作成手順 .........................................................33
３.２.２
データセットの分割 ............................................................34
３.３
相互作用サイトの統計解析 .................................................... 35
３.３.１
インタフェースサイズ .........................................................35
３.３.２
相互作用サイトのアミノ酸出現傾向 ....................................38
３.３.３
溶媒露出面積のインタフェース識別能 .................................42
３.４
ソルト・ブリッジ ................................................................. 45
３.４.１
観察 ....................................................................................45
３.４.２
パラメータの分割................................................................46
３.４.３
考察 ....................................................................................48
第４章
タンパク質間相互作用サイトの予測 ........................... 49
7
４.１
予測アルゴリズム ................................................................. 49
４.１.１
表面パッチごとに予測 .........................................................49
４.１.２
表面残基ごとに予測 ............................................................51
４.１.３
溶媒露出面積による重みづけ ..............................................51
４.１.４
プロフィールを用いた予測 ..................................................52
４.１.５
予測の応用例：単量体からの予測 .......................................54
４.２
予測結果の評価法 ................................................................. 57
４.２.１
相関係数 .............................................................................57
４.２.２
単量体からの予測の評価法 ..................................................60
第５章
予測結果と考察 ......................................................... 63
５.１
予測結果のまとめ ................................................................. 63
５.１.１
複合体からの予測................................................................64
５.１.２
単量体からの予測................................................................70
５.１.３
ソルト・ブリッジ情報を用いた予測 ....................................77
５.２
予測されたタンパク質間相互作用サイトの例 ......................... 80
５.３
従来の相互作用サイト予測と本研究手法との比較 .................. 83
第６章
今後の課題 ................................................................ 86
第７章
結論 .......................................................................... 88
謝辞 .................................................................................................. 90
8
参考文献 ........................................................................................... 92
9
第１章
序論
2003 年 4 月、世界的プロジェクトによりほぼ 15 年に渡って取り組まれてき
たヒトゲノムの全遺伝情報の解読が遂に完了した。近年、様々な生物種の DNA
配列が決定されてきたが、このヒトゲノムの解読は人類にとって大きなインパ
クトをもたらすものであり、J.ワトソンと F.クリックによる DNA の二重らせ
ん構造の発見以来ちょうど 50 周年を迎える時期でもあった。これを受けて、
ゲノム科学の研究の焦点は DNA 解析からタンパク質の構造・機能解析へと移
行し、創薬、医療などの分野を見据えた研究内容へと発展していくことが期待
される。
各種のゲノム計画は、生物の全ゲノム配列を決定することを目標にしていた
が、これに対し、生物がレパートリーとして持っているすべてのタンパク質の
構造解明を目標にする新しい動き「構造ゲノミクス計画」が、米国 National
Institutes of Health（国立衛生研究所）や私企業の主導により、大規模に進め
られている。すなわち、最も有益な情報を与えると思われるタンパク質の立体
構造を解いて、すべてのタンパク質が実験により決定された１種類以上の既知
の構造に基づくホモロジーモデリングの射程内に入るようにすることを目標と
する。人類にとって特に興味あるタンパク質は、ヒトのタンパク質と感染性微
生物に特有なタンパク質である。我が国での具体的な動きとしては、2002 年度
から産官学の研究機関によってタンパク 3000 プロジェクトという研究開発が
組織的に進められている。このプロジェクトではゲノム創薬を目指し、 2007
年度までに主要と思われるタンパク質の 1/3（約 3000 種）以上の基本構造およ
びその機能を解析するというものである。
このような動きと相俟って、タンパク質立体構造データベース(Protein Data
Bank; PDB)に登録される立体構造情報の量も年々増加している。現在、立体構
造のエントリ数は２万強であり、その中には単量体の立体構造だけでなく、複
10
数のタンパク質どうしが相互作用した状態で X 線結晶解析により構造決定され
た複合体、タンパク質－核酸複合体、タンパク質－リガンド複合体など、タン
パク質の機能を示唆するさまざまな複合体が含まれている。
一般に、タンパク質は相互作用することによって情報を伝達したり、相手の
タンパク質の活性を制御したり、あるいは空間的、時間的に協調して働き、タ
ンパク質としての機能を発揮する。細胞内では複雑な相互作用ネットワークが
形成され、秩序が保たれている。細胞全体でタンパク質どうしがどうシステマ
ティックに生命活動を支えているのかを解明することは、ポストゲノムにおけ
る最も重要な課題の一つである。細胞内にあるタンパク質の全体（プロテオー
ム）を網羅的に解析するため、実験系の研究分野において新しく生まれた学問
をプロテオミクスといい、開発された代表的な研究手法としては、酵母２ハイ
ブリッド法、表面プラズモン共鳴法などが挙げられる。
タンパク質の理論的・情報科学的研究においても、相互作用に関する研究は
次第にその重要性を増してきている。代表的な研究内容としては、相互作用す
ることと立体構造の両方が分かっている二つのタンパク質がどのように複合体
を形成するのかを予測する研究（ドッキング）、相互作用する相手タンパクの構
造が分かっていないときに、構造が分かっているタンパク質のどのサイトで相
互作用するのかを予測する研究（相互作用サイト予測）などが挙げられる。前
者においては、タンパク質間の幾何学的形状や静電気的な相補性などを考慮し、
全探索で複合体形成をシミュレートするものであり、2001 年度からはタンパク
質のドッキングコンテスト (Critical Assessment of PRedicted Interaction
experiment; CAPRI)も行われている。しかしながら、大規模な計算が必要であ
ることや相互作用する相手タンパクの構造が分かっていないと予測できないこ
となどを考慮すると、条件設定があまり現実的でないという難点を併せ持って
いる。
一方、後者の相互作用サイト予測は、単量体の立体構造を手がかりにそのタ
ンパク質の機能（相互作用）を探るためのファーストステップとして重要な位
置を占めるものであり、分子認識、分子機能制御メカニズムと密接に関連して
いる。これまで、タンパク質の表面をパッチという表面残基のグループに分け、
11
パッチごとに６つのパラメータ（溶媒和ポテンシャル、アミノ酸出現傾向、疎
水性、平面性、突出性、溶媒露出面積）から得られるスコアを計算し、上位３
つのパッチを相互作用サイトの候補として予測するものや(Jones & Thornton,
1997)、パッチに含まれるアミノ酸残基のプロフィールや溶媒露出度をニュー
ラルネットワークに入力し予測するもの(Zhou & Shan, 2001; Fariselli et al. ,
2002)などがあった。しかし、予測に用いるパラメータが均等に重みづけられ
ていてどのパラメータが最も重要かについて考慮されていないこと、データの
数が少ないことなどの問題点があった。
本研究では、タンパク質間相互作用サイトの予測パラメータとしてアミノ酸
出現傾向と溶媒露出面積を用い、データセットを拡張して統計的に相互作用サ
イトの特性を解析した上で、高い精度で予測を行うことを目的とする。具体的
には、相互作用サイトの表面アミノ酸分布を統計的に調査すると、疎水性や芳
香族の側鎖を持つアミノ酸が比較的多く含まれていること分かったので、その
出現傾向の値をスコアとして用いることにより、シンプルな予測法を構築した。
まず立体構造上近傍に位置する表面残基をグループ化し、そこに含まれるアミ
ノ酸に応じて出現傾向から得られるスコアを与えた。スコアが閾値を越えたも
のについてはその中心に位置する残基を相互作用サイトとして予測した。本研
究の性能評価には、相関係数（Correlation Coefficient）を用いた。
本論文の構成を紹介する。まず第２章にて、本研究を理解するのに必要な背
景として、タンパク質複合体の立体構造、タンパク質間相互作用、本予測手法
の背景となっているパッチや 2 次構造予測、配列相同性検索の概略などについ
て解説し、さらに相互作用サイトの解析や予測に関する先行研究の概要と本研
究の目的について述べる。第３章では、データセットの作成手順や相互作用サ
イトの特性について解析した結果をまとめ、第４章においては、予測手法の手
順および評価法を具体的に説明する。第５章では、予測の結果について考察を
交えて説明するとともに、本手法で予測できたタンパク質間相互作用サイトの
具体的実例を示す。そして第６章では、今後の課題である本研究手法の精度の
向上について述べ、第７章にて本論文をまとめる。
12
第２章背景と目的
本章では、本研究を理解するのに必要な背景として、タンパク質複合体の立
体構造、タンパク質間相互作用、本予測手法の背景となっているパッチや 2 次
構造予測、配列相同性検索の概略などについて解説し、さらに相互作用サイト
の解析や予測に関する先行研究の概要と本研究の目的について述べる。
２.１タンパク質の４次構造
タンパク質は構造様式において階層性を有している。本節では、４次構造と
して位置づけられているタンパク質複合体について理解するために、タンパク
質の階層構造、複合体の分類法やデータベース等について解説する。
２.１.１タンパク質の階層構造
デンマークのタンパク質化学者 K. U. Linderstrom-Lang は、タンパク質の
構造には３つの階層があると主張した。それは、一次元的な化学結合でつなが
った、アミノ酸配列からなる１次構造(primary structure)、主鎖の水素結合が
作るらせんやシートのパターンからなる２次構造(secondary structure)、へリ
ックスやシートの集合や相互作用からなる３次構造 (tertiary structure)であ
る。複数のサブユニットからなるタンパク質については、J. B. Bernal が４次
構造(quaternary structure)と命名した（図２－１参照）。
進化に伴い、複数のタンパク質が融合して４次構造が３次構造になることが
ある。例えば、大腸菌 E.coli は、芳香族アミノ酸の生合成過程を段階的に触媒
13
する５個の独立の酵素をもっているが、糸状菌 Aspergillus nidulans では、こ
れらは１個のタンパク質の５つのドメインになっている。また、相同な単量体
は様々な方法でオリゴマーを作ることがある。グロビンは哺乳類のヘモグロビ
ンでは４量体を作っているが、クイチガイサルボウ Scapharca inaequivalvis
（フネガイの仲間の二枚貝）では、別の接触部分を利用して２量体を作っている。
これら４つのタンパク質構造の階層の間に、さらにいくつかの階層が付け加
えられることがある。例えば、配列中の近接したヘリックスやシート間の相互
作用には超２次構造という反復が見られ、α へリックス・ヘアピン、β ヘアピ
ン、β-α-β ユニットなどを形成する。また、多くのタンパク質はドメインと
呼ばれる密集した構造単位を含んでおり、これらは独立の安定性を保っている
ように見え、超２次構造と３次構造の中間に位置づけられている。さらに、ド
メインが多数コピーされ、組み合わさるとモジュールが形成される。例えば、
細胞接着に関与するフィブロネクチンは典型的なモジュールタンパク質であ
り、F1, F2, F3 という 3 種類のドメインが 29 個、(F1) 6 (F2) 2 (F1) 3 (F3) 15 (F1) 3
のように縦に並んでできている。
1 次構造
2 次構造
3 次構造
4 次構造
「タンパク質の構造入門」第２版 p3, Branden & Tooze, Newton Press より抜粋
図２－１
タンパク質階層構造
14
２.１.２複合体の分類法
タンパク質複合体の分類法として現在広く用いられているのは、次の２つの
方法である。一つは、構成タンパク質の種類による分類で、複合体の物理化学
的性質あるいは生物学的機能については直接考慮せず、定義に従って明確に区
別できるものである。もう一つは、タンパク質間相互作用の強さに従って分け
る方法で、その違いは生物学的な機能と密接に関連しているが、研究者の間で
はまだ明確に定義が成されていない。
構成タンパク質の種類による分類
２つの鎖から成るタンパク質複合体をダイマー(dimer)といい、３つ以上の鎖
から成るものをマルチマー(multimer)という。マルチマーは、鎖の数に応じて、
トリマー(3)、テトラマー(4)、ペンタマー(5)、ヘキサマー(6)、ヘプタマー(7)、
オクタマー(8)、ノナマー(9)、デカマー(10)などと詳細に呼ばれることもある。
一方、単量体間の同一残基率(Sequence identity)が 100%（但し、タンパク質
の変異や人工的な操作を考慮して 95%や 90%に緩められることもある）の複合
体をホモ(homo)複合体と呼び、それ以外のものをヘテロ(hetero)複合体という。
上記の分類法を組み合わせて、ホモダイマー、ヘテロダイマー、ホモマルチマ
ー、ヘテロマルチマーの４通りに区分することができる（図２－２参照）。
15
ホモダイマー
(19hc)
ヘテロダイマー
(1udi)
図２－２
ホモマルチマー
(1a12)
ヘテロマルチマー
(1fdl)
４分割されたタンパク質複合体の例
タンパク質間相互作用の強さによる分類
タンパク質間相互作用には大きく分けて２種類の分け方がある。一つは、永
続的(permanent, obligate)な相互作用、もう一つは、一時的(transient)な相互
作用である。前者はオブリゴマー(obligomer)などと呼ばれ、強固な相互作用に
よって結びつき、常に複合体を形成した状態で存在しているものを指す。後者
は、周囲の環境（pH、低分子やタンパク質の濃度等）によって会合・乖離が細
胞内で空間的・時間的に制御されているものを指し、一般に生物学的に重要な
機能を果たすタンパク質であることが多い。例えば、シグナル伝達の経路の一
部として働いているタンパク質は主に後者に属する。しかしながら、両者の違
いを明確に区別するのは難しく、これまでにも様々な定義の仕方が提案されて
いる。
16
２.１.３ PDB と PQS
プロテインデータバンク(PDB)
タンパク質立体構造データベースは、原子の立体構造座標（原子座標）を収
集し、アノテーションを行い、配信している。構造データベースの中で定評が
あるのがプロテインデータバンク(PDB)で、タンパク質、核酸、および少数の
炭水化物の構造を扱っている。現在、米国の Research Collaboratory for
Structural Bioinformatics（RCSB; 構造バイオインフォマティクス共同研究
所)を中心に運営されている。PDB は寄託された構造のそれぞれに４文字の識
別名を割り当てている(PDB ID)。多くの場合、異なる条件下において構造決定
が成され、１種類のタンパク質に対して複数のエントリが存在する。
タンパク質の立体構造データを扱う上で注意しなければならないのは、登録
されているタンパク質の種類が偏っていることである。例えば、プロテアーゼ /
インヒビターのような制御系タンパク質や抗原 / 抗体のように医学的にも重
要な複合体に関しては非常に多くの立体構造が解かれている。このため、タン
パク質構造を統計学的に研究する際は、あらかじめ PDB の中から
non-redundant な（冗長でない）部分集合を抽出しておくことが必要である。
推定４次構造データベース(PQS)
タンパク質は結晶化されたことによって、生理状態とは異なる形態で複合体
を形成してしまうことがある。これを crystal packing といい、ホモダイマー
に多く見られる。PDB には単量体だけでなく多数の複合体が登録されている
が、このような crystal packing や複合体の生理状態の一部しか含まれていな
いもの、生理状態の複合体を複数含んでいるものなどが多く見られる。
Probable Quaternary Structures (PQS; 推定４次構造 )は EBI （ European
Bioinformatics Institute; 欧州バイオインフォマティクス研究所)の運営する
データベースであり、複合体形成に伴って溶媒露出度に大きな変化が生じるも
17
のを生理状態の複合体として推定し、データベースとして管理している
（Henrick & Thornton, 1998）。本研究では、PQS に登録されている複合体（登
録されていない場合は PDB）を用い、できるだけ生理状態のデータとして信頼
度の高いものを使用することにした。
図２－３
PDB のトップページ (http://www.rcsb.org/pdb/)
18
図２－４
PQS のトップページ (http://pqs.ebi.ac.uk/)
２.２タンパク質間相互作用
本節では、タンパク質間相互作用の駆動力、ソルト・ブリッジや水素結合等
の静電相互作用、相互作用サイトの保存に関して解説する。
２.２.１タンパク質間相互作用の駆動力
タンパク質間相互作用は生物学的機能において非常に重要な役割を果たしてい
る。タンパク質は相互作用（会合）することによって情報を伝達したり、相手
のタンパク質の活性を制御したり、あるいは空間的、時間的に協調して働き、
19
様々な機能を発揮する。相互作用が起こる際、そのタンパク質間に引力が働き、
これが駆動力となって会合が起こる。
タンパク質の会合を安定化するための基本的な要素は疎水性相互作用であ
ると考えられている（Jones & Thornton, 1995）。疎水性相互作用とは、疎水
基の周辺で水分子が水素結合を形成できなくなると疎水基から遠ざかるように
水分子どうしが密に集合し、系のエントロピーが減少してエネルギー的に不安
定になるので、それを回避するために水中で疎水基どうしが寄せ集まるみかけ
の引力が生じることを指す。したがって、タンパク質の非極性側鎖を持つアミ
ノ酸どうしが水中で会合したために生じる自由エネルギー変化から疎水性相互
作用の寄与を計算することができると考えられる。相互作用サイト（インタフ
ェース）には比較的疎水性のアミノ酸や芳香族の側鎖を持つアミノ酸が多く含
まれており、タンパク質内部と表面の中間の組成を有している。
一方、相互作用に特異性を与える要素として重要なものは、静電相互作用に
よる相補性やタンパク質表面の形状の相補性である。静電相互作用には正の電
荷を持つアミノ酸(Arg, Lys, His)と負の電荷を持つアミノ酸（Glu, Asp）間の
長距離に渡って働く静電気的引力だけでなく、主鎖および側鎖の水素結合やフ
ァンデルワールス力などの短距離の相互作用も含まれる。非共有結合以外の相
互作用として稀に Cys 間のジスルフィド結合が形成されることもある。
２.２.２静電相互作用
タンパク質は様々な静電気的性質を有している。その一つがソルト・ブリッ
ジと呼ばれる静電相互作用である。ソルト・ブリッジは大抵のタンパク質に含
まれているが、特に好熱細菌のタンパク質に多く存在し、フォールディングの
安定性に密接な関係があることが知られている（Kumar et al. , 2000）。一般に、
Asp や Glu の側鎖のカルボニルに含まれる酸素原子と、Arg、Lys、His の側鎖
の窒素原子との距離が４ Å 以内である場合、この二つのアミノ酸残基はソル
ト・ブリッジを形成していると定義されている。ソルト・ブリッジはタンパク
20
質の内部、表面あるいはタンパク質間（インタフェース）を越えて形成されて
おり、その安定性は静電自由エネルギー差(ΔΔG)を用いて議論される。
ソルト・ブリッジと似た静電相互作用として重要なものは水素結合である。
水素結合は荷電アミノ酸を問わず、あらゆるアミノ酸の主鎖および側鎖間で形
成されるため、一般にソルト・ブリッジよりも多数存在する。タンパク質間相
互作用においても相互作用の特異性を与える要素として重要な役割を果たす
(Xu et al. , 1997) 。単量体の状態で溶媒に露出している水素結合 (Under
Dehydrated Hydrogen Bonds; UDHB)はインタフェースに出現しやすいとい
う報告も成されている(Fernandez & Scheraga, 2003)。
２.２.３タンパク質間相互作用サイトの進化的な
保存
タンパク質間相互作用は生物学的機能において非常に重要な役割を果たして
いるため、相互作用サイトのアミノ酸残基は進化的に保存されやすいはずだと
期待される。しかしながら、必ずしも進化的に保存されているとは限らない。
これまでにもいくつか相互作用サイトの保存に関する調査がされている(Hu
et al. , 2000; Ma et al. , 2003; Nooren & Thornton, 2003)。Nooren & Thornton
の報告によると、シグナル伝達系などに関与する一時的(transient)な相互作用
を行うホモダイマーのデータセットについて PSI-BLAST で相同性検索を行
い、インタフェースや表面に含まれるアミノ酸残基の保存度 (conservation
score)や相互作用の形態について様々な文献をもとに調査した結果、集められ
た大半のホモログ（相同なタンパク質）はホモダイマーで、保存度の平均値も
表面(0.69)に比べてインタフェース(0.72)の方がやや高かったが、例外的に、２
量体以外の形態で存在するものや、異なる相互作用サイトを用いて相互作用を
行うタンパク質が含まれていることが明らかとなった。例えば、β-ラクトグロ
ブリン(β-lactoglobulin)は羊、ヤギ、水牛、雌牛、豚の生物種においては一時
的な(transient)相互作用を行うホモダイマーとして機能しているが、犬、猫、
21
馬、ロバの生物種においては単量体として機能することが分かった。また、ガ
レクチン(galectin)というタンパク質においては、三量体や四量体のものも存在
している。このような例外的なタンパク質は、インタフェースの保存度が表面
に比べて低いことも分かっている。
この他にも、抗原やウイルスの表皮タンパク質等は一般にアミノ酸残基が保存
されにくいことはよく知られており、相互作用サイトが保存されているかどう
かはタンパク質ごとに多種多様であるといえる。
２.３予測手法の背景
本節では、パッチを利用した相互作用サイトの予測手法のプロトタイプとし
て位置づけられる２次構造予測や、２次構造予測の精度を著しく向上させたプ
ロフィール（アミノ酸配列中の各サイトの保存度をアミノ酸ごとに数値化した
もの）について解説する。また、単量体からの予測（4.1.5 参照）におけるデー
タセットの作成に用いた配列相同性検索(BLAST）についても概略を述べる。
配列相同性検索は応用範囲が広く、機能未知遺伝子のアノテーション、タン
パク質立体構造予測、遺伝子発見など様々な目的のために使われており、バイ
オインフォマティクスの研究に欠かせないものとなっている。
２.３.１配列相同性検索（BLAST）
BLAST(Basic Local Alignment Search Tool)は、1990 年に Altschul らによ
って開発された配列相同性検索ツールで、クエリ配列（問い合わせしたい配列）
を配列データベースと比較し、有意に似ている配列を探すことができる
(Altschul et al. , 1990)。アミノ酸配列だけでなく核酸配列も扱うことができ、
クエリ配列とデータベース配列がそれぞれアミノ酸－アミノ酸（blastp）、核酸
－核酸(blastn)、核酸－アミノ酸(blastx)の３種類のプログラムがある。
BLAST はローカルアラインメントであり、実行の結果得られたアラインメ
ントの類似性の評価には同一残基率ではなく主に E-value が用いられ、統計的
22
有意性の判断を導入している。独自のヒューリスティックなアルゴリズムを使
用することで、計算時間を大幅に短縮させることが可能となった。
BLAST のアルゴリズムの概略を説明すると、まずクエリ配列をワードと呼
ばれる短い部分配列に分割し、各ワードに対して近隣ワード（スコアが近いワ
ード）のリストを作成し、それを元に近隣ワードごとの配列内の出現ポジショ
ンの表を得る。スコアについてはスコアリング行列を用いて計算する（一般に
BLOSUM62 が用いられることが多い）。さらに、近隣ワードを用いてデータベ
ースを検索し、得られたターゲット配列に対してヒットしたワードをギャップ
なしで伸展させる。スコアが上昇する間は伸展を続け、上昇しなくなったら限
定した領域で動的計画法を用いることによりギャップを入れながら伸展させ
る。こうして得られたアラインメントを E-value で評価し、E-value の低いも
の（進化的に似ているもの）から順に得られたターゲット配列（サブジェクト
という）を出力する。
２.３.２ PSI-BLAST とプロフィール法
PSI-BLAST は BLAST の拡張版で、反復的にデータベース検索を行うことで
より多くの配列を集めることができる高感度の配列相同性検索ツールである
(Altschul et al. , 1997)。BLAST は同一残基率 25%くらいが認識できる限界だ
が、PSI-BLAST は 15%程度まで認識することができ、より低い相同性の配列
も集めることができる。PSI-BLAST にはプロフィール法という手法が使われ
ており、BLAST で相同性検索して得られた多くの配列をマルチプルアライン
メント（多重配列アラインメント）し、プロフィールと呼ばれるサイトごとの
アミノ酸出現頻度のスコア行列を作成する。さらにプロフィールを用いてデー
タベース検索を行うことでより多くの配列を集めることができ、この過程を数
回繰り返して良質のプロフィールとより多くの配列を得ることが可能となる。
図２－５に示されるように、プロフィールの左半分は PSSM （ Position
Specific Scoring Matrix; 位置特異的スコア行列)であり、右半分はサイトごと
のアミノ酸頻度をパーセンテージで表しており、いずれもサイトごとに各アミ
23
ノ酸がどれだけ保存されているかを数値的に表したものである。プロフィール
は配列の保存に関する有用な情報を与えるため、これまで様々な手法の改良に
役立てられてきた。例えば、２次構造予測ではマルチプルアラインメントの結
果得られるプロフィールの値をニューラルネットワークに入力して、正答率を
70%以上まで上げることに成功している(Rost & Sander, 1993)。また、タンパ
ク質間相互作用サイト予測においてもプロフィールの値がニューラルネットワ
ークの入力として用いられている (Zhou & Shan, 2001; Fariselli et al. ,
2002)。
PSSM
サイトごとのアミノ酸頻度
行：アミノ酸配列中のサイト
図２－５
プロフィールの一例（12asA）
２.３.３２次構造予測
タンパク質のアミノ酸残基は立体構造中、α へリックス、β シート、コイ
ルの３状態のうちのどれか一つに属する。これを予測するのが２次構造予測で
あり、様々なアルゴリズムが提案されている。最も基本的な手法としては、
24
GOR(Garnier-Osguthorpe-Robson)法が挙げられる(Garnier et al. , 1978)。こ
れはアミノ酸配列中、予測対象残基とその周辺残基をまとめて一つのウインド
ウとし、ウインドウを動かしていく際に、そこに属するアミノ酸残基のパラメ
ータ（周辺残基が予測対象残基に及ぼす影響量を統計的に数値化したもの）を
合算して予測対象残基のスコアとして割り当てていく方法である。
GOR 法の次の段階として２次構造予測に導入されたのがニューラルネット
ワークである(Qian & Sejnowski, 1988)。パラメータの単純和ではなく、入力
層、隠れ層、出力層の３層からなるニューラルネットワークにウインドウ内の
パラメータを入力し、教師信号との差を基にユニット間をつなぐ重みを変化さ
せて学習させる手法である。隠れ層を挟んで逆誤差伝播法（Back Propagation;
BP 法）を用いることにより、ウインドウ内の非線形効果を学習させることが
できる。
ニューラルネットワークを用いた 2 次構造予測の応用として、対象とするア
ミノ酸配列情報だけを入力するのではなく、PSI-BLAST などの配列相同性検
索を用いて得られた類縁タンパク質のマルチプルアラインメントを行い、得ら
れたプロフィールをニューラルネットワークに入力する手法が開発された
(Rost & Sander, 1993)。これによって、配列の保存に関する情報を新たに入力
することができ、予測精度が飛躍的に向上して正答率が 70%を超えた。
２.３.４パッチ
従来のタンパク質間相互作用サイトの予測に関して、「パッチ」という概念
が利用されている(Jones & Thornton, 1997)。「パッチ」は、タンパク質の表面
に属するある中心残基と、それに対し立体構造上近傍に位置する表面残基をひ
とまとまりのグループにしたものとして定義される。これは２次構造予測のウ
インドウを３次元に拡張したものと考えられる。各パラメータ（溶媒ポテンシ
ャル、アミノ酸出現傾向、疎水性、平面性、突出性、溶媒露出面積）を統計解
析に基づいてスコア化し、パッチに含まれるアミノ酸について平均化したもの
をパッチのスコアとする方法が取られている（図２－6 参照）。パラメータごと
25
に得られたパッチのスコアは単純平均をとることで結合され、最終的なスコア
が決まる。パッチの中心残基をタンパク質の表面に沿って動かしていき、以上
の手続きを繰り返すことによって全てのパッチに対してスコア計算を行い、最
も高いスコアを得たパッチを相互作用サイトとして予測する。
しかしながら、実際のインタフェースは必ずしも円形とは限らず、細長い形
や環状のもの、不連続なものなども存在するため、実際のインタフェースの形
を正確に押さえているとは言い難い。パッチサイズ（パッチに含まれる表面残
基数）もデータセットごとに固定する方法が取られており、サイトを予測する
前にサイズを予測することが必要となる。
図２－6
パッチの概念図
26
２.４タンパク質間相互作用サイトの解析と
予測
２.４.１相互作用サイトの解析
これまで、タンパク質間相互作用サイトの特性に関して数々の詳細な解析が
試みられてきた。分子認識のメカニズムを解明するために、インタフェースの
形、表面積、平面性、突出性、インタフェース間のギャップの体積、側鎖の揺
らぎなどの幾何学的形状や、アミノ酸出現傾向、二次構造、水素結合、ソルト・
ブリッジ、ジスルフィド結合などの物理化学的性質など、ありとあらゆる解析
が成されてきた（ Wodak SJ & Janin J, 2002; Jones & Thornton, 1995,
1997）。
インタフェースには標準的なサイズ（1200 Å 2 ～ 2000 Å 2 ）が存在し、それ
よりも大きなサイズになる場合は２つないし３つの（４つのものもまれに存在
する）クラスタに分割される傾向がある。また、インタフェースの縁の部分に
荷電アミノ酸、内側の部分に疎水性アミノ酸が多く含まれているようなタンパ
ク質がいくつか報告され、インタフェースを内側のコア (core)と外側のリム
(Rim)と呼ばれるリング構造に分割して解析をすると、コアは表面とは区別で
きるアミノ酸組成を有し、リムは表面に近い性質を持っていることが明らかと
なった(Larsen et al. , 1998; Chakrabarti & Janin, 2002)。
相互作用の強さを一時的(transient)と永続的(permanent or obligate)に分割
し、前者をコンプレックス、後者をオブリゴマー呼び（2.1.2 参照）、さらにホ
モとヘテロとで区別して４種類のデータセットを準備し、インタフェースのア
ミノ酸出現傾向や、アミノ酸間の接触の相補性を詳細に解析すると、これら４
つデータセット間で統計的に有意な違いが見られることが分かった (Ofran &
Rost, 2003)。例えば、ホモ・オブリゴマーでは同一残基間の相互作用やソルト・
ブリッジが目立つが、ホモ・コンプレックスにおいてはそれらがほとんど現れ
27
ないことや、ヘテロ・コンプレックスでは疎水性－親水性アミノ酸間の相互作
用が比較的多く存在していることなど、興味深い解析結果が報告されている。
２.４.２相互作用サイトの予測
タンパク質間相互作用サイトの予測に関しては、パッチを利用した手法が開
発され(Jones & Thornton, 1997)、立体構造を扱った最も基本的なアルゴリズ
ムとして定着してきた（2.3.4 参照）。しかしながら、データセット（ホモダイ
マー28 個、ヘテロ複合体 25 個、抗原 6 個）に含まれるタンパク質の数が、パ
ラメータ（溶媒ポテンシャル、アミノ酸出現傾向、疎水性、平面性、突出性、
溶媒露出面積）の数に比べて非常に少なく、データセットを拡張したより詳細
な統計解析が必要であると考えられる。また現時点ではパラメータ間の相関や
重要度の違いについては明らかにされておらず、６つのパラメータは均等に重
みづけられている。また、最も高いスコアを得たパッチをインタフェースとし
て予測しているため、インタフェースが複数ヶ所存在するような場合はうまく
予測することができない。
立体構造上近傍に位置するアミノ酸残基は配列上も近傍に位置しているこ
とが多いため、アミノ酸配列のみを用いて相互作用サイトを予測しようとする
動きも見られたが(Ofran & Rost, 2003)、パッチを利用した手法は立体構造に
関する研究に広く用いられており、最近ではタンパク質－DNA 相互作用サイ
ト予測にも適用されている（Jones et al. , 2003）。DNA はリン酸によって負電
荷を帯びているため、タンパク質側の相互作用面には正の電荷を持つアミノ酸
が多く、距離計算に基づくパッチではなくあらかじめ正の電荷を持つアミノ酸
が集中しているサイトを静電パッチとして定義し、解析や予測を行っているも
のもある(Stawiski et al. , 2003)。
さらにパッチに含まれるアミノ酸残基のプロフィールや溶媒露出面積を３
層構造のニューラルネットワークに入力し、逆誤差伝播法で学習を行うものが
報告され(Zhou & Shan, 2001; Fariselli et al. , 2002)、予測精度を向上させる
ことを目的とした研究がさかんに行われようとしている。しかしながら、パッ
28
チを利用していることを除いて、ニューラルネットワークのアーキテクチャや
パラメータ等が 2 次構造予測と全く同じものを用いており、タンパク質間相互
作用サイトの特性を生かした予測アルゴリズムを開発することが必要であると
考えられる。そのためにはニューラルネットワークのような学習過程がブラッ
クボックス化された予測手法を用いる前に、よりシンプルな予測アルゴリズム
を構築し、相互作用サイトの解析に基づいた改良を重ねていくことが重要であ
ると考えられる。
２.５本研究の目的
本研究の目的は、以下の３点である。
1．
データセットを拡張してタンパク質間相互作用サイトの特性を統計
的に調査すること。
2．
相互作用サイトの予測パラメータとして「相互作用サイトにおけるア
ミノ酸出現傾向」と「溶媒露出面積」を用い、ニューラルネットワー
クを用いないシンプルな予測アルゴリズムを構築して高い精度で予
測を行うこと。
3．
相互作用する相手タンパク質の情報を用いることなく、単量体の立体
構造のみから相互作用サイトを予測すること。
29
第３章複合体立体構造データ
の統計解析
本章では予測手法の開発に先がけて、表面とインタフェースの定義、複合体
データセットの作成手順、統計解析の結果アミノ酸出現傾向と溶媒露出面積に
関して得られた知見について解説する。また、詳細な観察と統計調査によって
明らかとなったソルト・ブリッジについての興味深い性質をまとめる。
３.１表面とインタフェースの定義
本節では、表面の定義を決定するために必要な溶媒露出面積と溶媒露出度に
ついて解説する。また、インタフェースの定義として採用されている二つの方
法について解説する。
３.１.１表面と溶媒露出度
溶媒露出面積（Solvent Accessible Surface）
タンパク質は相互作用を行う際に会合する。会合するサイトは一般にタンパ
ク質の表面に限定される。（特殊な場合として、リガンドや相互作用する相手タ
ンパク質の会合に伴って大きなコンフォメーション変化が生じ、タンパク質内
部が露出して会合することも考えられるが、極めて特殊な例なので本研究では
30
無視する。）したがって、相互作用サイトを予測するにあたり、タンパク質の表
面を定義することが必要となる。
表面か否かを決定する要素の一つは溶媒露出面積（ Solvent Accessible
Surface）である。タンパク質は一般に周囲を水分子に囲まれているため、以
下のように溶媒露出面積を定義する（Lee & Richards, 1971）。すなわち、タン
パク質分子構造中の各原子を球体で表し、水分子と同じ半径（1.4Å）の球状の
プローブで原子の球体の表面を転がす状況を想定する。プローブの中心が通っ
た面積を溶媒露出面積とする（図３－１参照）。
本研究では DSSP プログラム（Kabsch & Sander, 1983）を用い、出力され
た ACC(Å 2 )の値を溶媒露出面積とした。
図３－１
溶媒露出面積の定義
溶媒露出度と表面の定義
アミノ酸の溶媒露出度は溶媒露出面積を最大溶媒露出面積で除算することで
得られる(Carugo, 2000)。本研究では、アミノ酸の最大溶媒露出面積を以下の
ようにして求めた。まず、プログラムソフト MOE を用いて Gly-X（20 種類の
31
アミノ酸）-Gly のオリゴペプチドを作成し（二面角は ΦΨ いずれも 180 度）、
PDB ファイルとして保存、その後、DSSP プログラムで出力された ACC(Å 2 )
の値を最大溶媒露出面積とした。
先行研究(Jones & Thornton, 1997)に従い、溶媒露出度が 0.05 以上である場
合、そのアミノ酸は表面残基であると定義した。
３.１.２インタフェースの定義
インタフェースの定義として広く用いられているのは、溶媒露出面積の変化
を用いる方法と、異なる鎖に属する原子あるいは残基間の距離を用いる方法で
ある。前者の例としては、タンパク質の会合に伴い、溶媒露出面積が１Å 2 以上
減少した側鎖を有するアミノ酸残基をインタフェースと定義する (Jones &
Thornton, 1997)方法が挙げられる。
後者の例としては、異なる鎖に属する原子の中心間距離が４Å 以内（水分子
が間に一つ入る程度の距離）に存在している場合、その原子が属するアミノ酸
残基をインタフェースと定義する方法が挙げられる。本研究においては後者を
インタフェースの定義として用いた。但し、インタフェースの定義を満たして
いても、表面の定義を満たしていないアミノ酸残基が存在した場合、それはイ
ンタフェースに属さないことにした。
３.２複合体データセット
本節では、複合体データセットの具体的な作成手順と、データセットを４分
割してホモダイマー、ヘテロダイマー、ホモマルチマー、ヘテロマルチマーと
した手順について解説する。
32
３.２.１データセット作成手順
プロテインデータバンク(PDB)の立体構造はデータが偏って登録されている
ので、統計学的な調査を行うためにはアミノ酸配列間の類似性を基に、
non-redundant な（冗長でない）データセットを作成しなければならない。相
同性検索において用いられている類似性の指標として代表的なものは E-value
である。E-value は、ランダムな配列データベースを検索したときに、そのス
コア以上の値になる配列の本数の期待値として定義されている。二つのアミノ
酸配列間の E-value が小さいほどランダムな配列では起こりえない、すなわち、
二つのアミノ酸配列は進化的に関係がある類似性を有していると判断できる。
non-redundant な代表タンパク質鎖セットを作成するために、2003 年 5 月
30 日に更新された PDB データに対して、シングル・リンケージ・クラスタリ
ングを行い、3021 個のタンパク質鎖を得た。クラスタリングの閾値は E-value
が 10 -4 以下とした。つまり、異なるクラスタに属するタンパク質間の E-value
がどれも 10 -4 以下になるようにした。
この 3021 個の代表タンパク質鎖セットの PQS ファイル（存在しない場合は
PDB ファイル）に対し、本研究室で開発されたプログラム「Ligand」を実行
し、異なる鎖に属する原子の中心間距離が４Å 以下となっているような代表タ
ンパク質鎖側のアミノ酸残基（インタフェース残基）を列挙した。但し、単量
体の場合は該当するアミノ酸残基数はゼロとなる。出力されたファイルを読ん
でインタフェース残基数が１以上のものを選ぶと、最終的に複合体を形成して
いるタンパク質鎖が 1794 個得られた。
これらの全ての複合体に対してインタフェースファイルを作成し、インタフ
ェース残基の残基番号を格納した。（但し、表面残基でないインタフェース残基
は除去した。表面残基か否かについては、DSSP ファイルの ACC(Å 2 )の欄から
溶媒露出面積を読み込み、アミノ酸ごとの最大溶媒露出面積で除算して得られ
た溶媒露出度が 0.05 以上となるものを表面残基とした（2.2.1 参照）。）このイ
ンタフェースファイルに格納された残基番号が、第４章で行ったタンパク質間
相互作用サイトの予測における正解インタフェース残基である。
33
３.２.２データセットの分割
次に、1794 個の全ての複合体タンパク質鎖をホモダイマー、ヘテロダイマー、
ホモマルチマー、ヘテロマルチマーに４分割した。具体的な手順としては、ま
ず 1794 個の全ての複合体の立体構造データ(PQS か PDB)を読み、鎖の数が２
つのもの（ダイマー）と、３つ以上のもの（マルチマー）にインタフェースフ
ァイルを二分し、ダイマーを 787 個、マルチマーを 1007 個得た。さらにダイ
マーとマルチマーをそれぞれホモとヘテロに二分するために、以下の手順を実
行した。
まず、1794 個の全ての複合体のタンパク質鎖とその相互作用する相手タンパ
ク質鎖すべてに対して、DSSP プログラムを実行し、DSSP ファイルを作成し
た。さらに、1794 個の全ての複合体タンパク質鎖とその相互作用する相手タン
パク質鎖とをペアとし、それぞれのペアの DSSP ファイルに対して、本研究室
で開発されたプログラム「SeqAlign」を実行し、グローバルアライメントを行
った。その結果、それぞれのペアごとの同一残基率が得られた。ダイマーのセ
ットに対しては、相互作用するペアの同一残基率が 95%以上ならホモダイマ
ー、それ以外はヘテロダイマーとし、インタフェースファイルを二分した。そ
の結果、ホモダイマーが 645 個、ヘテロダイマーが 142 個得られた。マルチマ
ーのセットに対しては、タンパク質に存在する複数のペアの同一残基率の平均
値が 95%以上ならホモマルチマー、それ以外はヘテロマルチマーとし、インタ
フェースファイルを二分した。その結果、ホモマルチマーが 495 個、ヘテロマ
ルチマーが 512 個得られた。
ホモダイマーとホモマルチマーを統合したものを別に作成してホモとし
(1140 個)、ヘテロダイマーとヘテロマルチマーも同様にヘテロとした(654 個)。
以上、作成された９つのデータセットは表３－１のようになった。
34
データセット名
全ての複合体
ダイマー
マルチマー
ホモ
ヘテロ
ホモダイマー
ヘテロダイマー
ホモマルチマー
ヘテロマルチマー
表３－１
代表タンパク質鎖の数
1794
787
1007
1140
654
645
142
495
512
データセット一覧
３.３相互作用サイトの統計解析
本節では、相互作用サイトの性質を統計解析した結果についてまとめる。最
初に相互作用サイトのアミノ酸残基数（インタフェースサイズ）について解説
し、次に第一のパラメータとして相互作用サイトのアミノ酸出現傾向、第二の
パラメータとして溶媒露出面積に関し、インタフェースと表面との識別能につ
いてまとめる。
３.３.１インタフェースサイズ
相互作用サイトに含まれるアミノ酸残基数（インタフェースサイズ）につい
て統計解析した結果を、データセットごとに図３－２（ダイマーとマルチマー）、
図３－３（ホモとヘテロ）、図３－４（4 分割されたデータセット）にまとめる。
図における横軸は予測したい方の単量体のインタフェースサイズであり、縦軸
は頻度（それぞれの範囲に含まれるタンパク質数をデータセットに含まれるタ
ンパク質の総数で除算した値）を表している。
図３－２から、ダイマーのインタフェースサイズは 15 残基程度が最も多い
ことが分かる。それに対し、マルチマーは 10 残基から 75 残基まで幅広く分布
し、かなり分散が大きいことが分かる。これはマルチマーの場合、予測対象タ
35
ンパク質に対して相互作用する相手タンパク質が複数存在するため、結果とし
てインタフェースサイズの和がダイマーのものより大きくなったと考えられ
る。インタフェースサイズは第４章の相互作用サイトの予測におけるパッチサ
イズにも関係してくる要素である。パッチサイズをあまりに大きく設定してし
まうと、表面アミノ酸分布の局所的な変化を捉えることができず、予測精度を
低下させてしまうと考えられる。
図３－３から、ホモとヘテロのデータセットに含まれるタンパク質複合体の
インタフェースサイズにはほとんど違いが見られず、15 残基あたりがピークで
あることが分かる。
図３－４から、マルチマーにおいてはホモとヘテロとでそれほど分布に違いが
見られないが、ホモダイマーとヘテロダイマーを比べるとヘテロダイマーの方
が分散は小さいことが分かる。これは、ヘテロダイマーはホモダイマーと異な
り、インタフェースサイズが小さい方の単量体のタンパク質の大きさによって
ある程度制限されることが原因であると考えられる。
0.3
0.25
頻度
0.2
全ての複合体
ダイマー
マルチマー
0.15
0.1
0.05
0--5
5--10
10--15
15--20
20--25
25--30
30--35
35--40
40--45
45--50
50--55
55--60
60--65
65--70
70--75
75--80
80--85
85--90
90--95
95-100--
0
インタフェースの残基数
図３－２
ダイマー（787 個）とマルチマー（1007 個）の
インタフェースサイズの統計解析結果
36
0--5
5--10
10--15
15--20
20--25
25--30
30--35
35--40
40--45
45--50
50--55
55--60
60--65
65--70
70--75
75--80
80--85
85--90
90--95
95-100--
頻度
0--5
5--10
10--15
15--20
20--25
25--30
30--35
35--40
40--45
45--50
50--55
55--60
60--65
65--70
70--75
75--80
80--85
85--90
90--95
95-100--
頻度
0.3
0.25
0.2
図３－４
0.15
全ての複合体
ホモ
ヘテロ
0.1
0.05
0
インタフェースの残基数
図３－３
ホモ（1140 個）とへテロ（654 個）の
インタフェースサイズの統計解析結果
0.3
0.25
0.2
0.15
0.1
全ての複合体
ホモダイマー
ヘテロダイマー
ホモマルチマー
ヘテロマルチマー
0.05
0
インタフェースの残基数
４分割されたデータセットのインタフェースサイズの統計解析結果
37
３.３.２相互作用サイトのアミノ酸出現傾向
次に、データセットごとに相互作用サイトのアミノ酸出現傾向（ Residue
Interface Propensity）について統計的に調査した結果を示す。表面と相互作
用サイトとではアミノ酸の出現傾向に違いが見られることが分かっている
(Jones & Thornton, 1996)。単量体のタンパク質の溶媒露出面積を用いて、相
互作用サイトにおけるアミノ酸 a の出現傾向 RP(a ) は、式（１）（２）（３）で
計算できる。
RP(a) =
FI (a)
FS (a)
・・・（１）
∑ ASA( x)
FI (a) =
x∈I
Ax = a
・・・（２）
∑ ASA( x)
x∈I
∑ ASA( x)
FS (a) =
x∈S
Ax =a
・・・（３）
∑ ASA( x)
x∈S
I : インタフェースに属する残基の集合
S : 表面に属する残基の集合
FI (a) : インタフェースの溶媒露出面積のうちアミノ酸 a の溶媒露出面積の占
める割合
FS (a) : 表面の溶媒露出面積のうちアミノ酸 a の溶媒露出面積の占める割合
∑ ASA( x)
: インタフェースでかつアミノ酸 a である残基 x の溶媒露出面積の和
∑ ASA( x)
: インタフェースである残基 x の溶媒露出面積の和
x∈I
Ax = a
x∈I
38
∑ ASA( x)
: 表面でかつアミノ酸 a である残基 x の溶媒露出面積の和
∑ ASA( x)
: 表面である残基 x の溶媒露出面積の和
x∈S
Ax = a
x∈S
RP(a) が１より大きいアミノ酸 a は表面よりもインタフェースに出現しやす
く、１より小さいものは逆にインタフェースに出現しにくいことを表している。
式（２）
（３）の計算を行うにあたり、溶媒露出面積は DSSP ファイルの ACC(Å 2 )
の値を用いた。但し、DSSP ファイルは複合体の立体構造データを単量体だけ
のファイルにして DSSP プログラムを実行して得られたものである。
1794 個の全ての複合体に対して統計的に調査すると図３－５が得られ、イン
タフェースには疎水性(I, L, M, F, V)や芳香族の側鎖を持つアミノ酸(F, W, Y)
が比較的出現しやすく、荷電アミノ酸が出現しにくい中で Arg だけが出現しや
すいことが分かった。また、ホモとヘテロのデータセットごとに調べると図３
－６のようになり、ホモの方がヘテロよりも疎水性のアミノ酸が若干多く含ま
れていることが分かった。ダイマーとマルチマーに分割すると図３－７のよう
になり、マルチマーの方がダイマーよりもやや表面に近い組成をしていること
が分かった。４分割したときの結果は図３－８に示す。
39
図３－５
全ての複合体データ（1794 個）におけるアミノ酸出現傾向
図３－６
ホモ（1140 個）とヘテロ（654 個）のアミノ酸出現傾向
40
図３－７
ダイマー（787 個）とマルチマー（1007 個）のアミノ酸出現傾向
ホモダイマー（645 個）、ヘテロダイマー（142 個）
ホモマルチマー（495 個）、ヘテロマルチマー（512 個）
図３－８
４分割されたデータのアミノ酸出現傾向
41
３.３.３溶媒露出面積のインタフェース識別能
一般に、溶媒露出面積の高い表面残基はインタフェースに出現しやすいこと
が分かっており、これまでにも溶媒露出面積を予測のパラメータとして用いた
例がいくつか報告されている(Jones & Thornton, 1997; Zhou & Shan, 2001)。
相互作用サイトのアミノ酸出現傾向に続いて、溶媒露出面積のインタフェース
出現傾向についても実際に統計解析を行った。
3.3.2 と同様の手順に従い、単量体のタンパク質のインタフェースと表面そ
れぞれにおける各残基の溶媒露出面積の頻度を用いて、溶媒露出面積 c のイン
タフェース出現傾向 ASAP(c) は、式（４）（５）（６）で計算できる。
ASAP(c) =
FI (c) =
FS (c) =
FI (c)
FS (c)
・・・（４）
#{x x ∈ I , ASA( x) = c}
#{x x ∈ I }
#{x x ∈ S , ASA( x) = c}
#{x x ∈ S }
・・・（５）
・・・（６）
I : インタフェースに属する残基の集合
S : 表面に属する残基の集合
FI (c) : インタフェースの溶媒露出面積 c の頻度
FS (c) : 表面の溶媒露出面積 c の頻度
#{x x ∈ I , ASA( x) = c} : インタフェースでかつ溶媒露出面積 c である残基 x の総数
#{x x ∈ I } : インタフェースである残基 x の総数
#{x x ∈ S , ASA( x) = c} : 表面でかつ溶媒露出面積 c である残基 x の総数
#{x x ∈ S } : 表面である残基 x の総数
ASAP(c) が１より大きい溶媒露出面積 c は表面よりもインタフェースに出現し
やすく、１より小さいものは逆にインタフェースに出現しにくいことを表して
42
いる。式（５）（６）の計算を行うにあたり、溶媒露出面積は DSSP ファイル
の ACC(Å 2 )の値を用いた。但し、DSSP ファイルは複合体の立体構造データを
単量体だけのファイルにして DSSP プログラムを実行して得られたものであ
る。
溶媒露出面積 c のインタフェース出現傾向 ASAP(c) に対して自然対数を取
り、1794 個の全ての複合体に対して分布を取ると図３－９のような結果が得ら
れた。比較のため、図３－５の相互作用サイトのアミノ酸出現傾向に対して自
然対数を取ったものを図３－１０として示す。図３－９、３－１０は自然対数
を取ることによって、ゼロを境にインタフェースに出現しやすいか否かが分か
るようになっている。図３－９から、溶媒露出面積が 50 Å 2 までの残基はイン
タフェースに出現しにくく、60 Å 2 でちょうど境界となり、70 Å 2 を越えると逆
にインタフェースに出現しやすいことが分かる。両者とも出現傾向の値が-0.4
から 0.4 程度に分布しているので、同程度のインタフェース識別能を有したパ
ラメータであると言える。本研究においては、「溶媒露出面積による重みづけ」
（4.1.3 参照）という形で予測手法のパラメータの一つとして溶媒露出面積を用
いた。
43
図３－９
1794 個の全ての複合体の溶媒露出面積の
インタフェース出現傾向（自然対数）
図３－１０
1794 個の全ての複合体に関して得られた
相互作用サイトのアミノ酸出現傾向（自然対数）
44
３.４ソルト・ブリッジ
本節では、詳細な観察と統計調査によって明らかとなったソルト・ブリッジ
についての興味深い性質について解説する。
３.４.１観察
タンパク質間相互作用サイトにおけるアミノ酸の出現状況を観察している際
に、興味深い傾向に気づいた。複合体データセットの中に含まれている、バル
ナーゼ / バルスター(barnase / barstar) (1ay7)複合体はリボヌクレアーゼと
そのインヒビターとして細胞内で機能しているタンパク質であるが、図３－１
１のように負電荷を持つアミノ酸 Asp, Glu を赤色、正電荷を持つアミノ酸 Arg,
Lys を青色にして観察すると、インタフェース側からみた図だけが赤色と青色
が混在せず、負電荷のみが含まれていることが分かる。正電荷を持つアミノ酸
（Arg, Lys, His）と負電荷を持つアミノ酸(Asp, Glu)が近接している場合、ソル
ト・ブリッジと呼ばれる静電相互作用が働くことが知られている。そこで、「ソ
ルト・ブリッジを形成しているアミノ酸残基は、インタフェースに出現しにく
い」という仮説を立て、3.3 節で解説した統計的アプローチを用いてこの仮説
を検証することにした。
45
図３－１１
バルナーゼ / バルスター複合体の荷電アミノ酸分布
３.４.２パラメータの分割
Asp や Glu の側鎖のカルボニルに含まれる酸素原子と、Arg、Lys、His の側
鎖の窒素原子との距離が４Å 以内である場合、この二つのアミノ酸残基はソル
ト・ブリッジを形成していると定義する（2.2.2 参照）。ソルト・ブリッジを形
成しているか否かで荷電アミノ酸残基の種類を分割して合計２５種類のアミノ
酸残基とし、1794 個の全ての複合体に対して相互作用サイトのアミノ酸出現頻
度を調べると図３－１２, ３－１３のような結果が得られた。図３－１２は 25
種類のアミノ酸残基（荷電アミノ酸をソルト・ブリッジの有無で区別）に対す
るもの、図３－１３は荷電アミノ酸残基に対するもので、ソルト・ブリッジを
形成しているアミノ酸残基はインタフェースに出現しにくいことが統計的に示
された。
46
（荷電アミノ酸 X に対し、X：ソルト・ブリッジでない、XS：ソルト・ブリッジである）
図３－１２
ソルト・ブリッジの有無で区別したときのアミノ酸出現傾向
図３－１３
ソルト・ブリッジが荷電アミノ酸出現頻度に及ぼす効果
47
３.４.３考察
インタフェースに含まれる荷電アミノ酸を以下の３種類に分けて考えること
ができる。
1. 単量体内でソルト・ブリッジを形成しているアミノ酸。
2. 複合体形成によって、相互作用する相手タンパク質との間にソルト・
ブリッジを形成するアミノ酸。
3. ソルト・ブリッジを形成していないアミノ酸（孤立荷電残基）。
3 の孤立荷電残基は一般に不安定である。なぜなら、水分子に囲まれた誘電率
の高い環境（ε= 80）に位置している荷電アミノ酸が、複合体形成に伴って誘
電率の低い環境（ε= 4）であるインタフェースに埋もれるからである。単量体
の情報しか与えられていない場合、2 と 3 はどちらも孤立荷電残基に見えるが、
上記の理由から、3 よりも 2 の方が支配的であると考えられる。統計解析の結
果、1 は 2, 3 に比べてインタフェースに出現しにくいことが分かった。したが
って、1 のように単量体内でソルト・ブリッジを形成するよりも、2 のように
インタフェースを越えてソルト・ブリッジを形成する方がエネルギー的に安定
である場合が多いと考えられる。
48
第４章タンパク質間相互作用
サイトの予測
本章では、相互作用サイトのアミノ酸出現傾向の値をパラメータとして用
い、パッチを利用してタンパク質間相互作用サイトを予測する手法について解
説する。また、本手法の応用例として単量体の立体構造からの予測に関しても
説明する。最後に予測結果の評価法についてまとめる。
４.１予測アルゴリズム
第３章の解析の結果得られた相互作用サイトのアミノ酸出現傾向の値を用い
て、タンパク質間相互作用サイトの予測を行う。前提条件として X 線結晶構造
解析や NMR 実験によって解かれた複合体の立体構造の相互作用サイトを正し
いと仮定し、PQS や PDB に登録されている立体構造を用いて予測の評価を行
う。
４.１.１表面パッチごとに予測
表面パッチに属するアミノ酸残基において、3.3 節で得られた相互作用サイ
トのアミノ酸出現頻度や溶媒露出面積の値が高いものが多く含まれていた場
合、その表面パッチは相互作用サイトである可能性が高いと考えられる。この
出現頻度の値をスコア化することで、シンプルな予測手法を構築した。表面パ
ッチごとに予測をする際のアルゴリズムは以下のとおりである。但し、パッチ
49
とは、一つの中心アミノ酸残基とそれに対し立体構造上近傍に位置する表面残
基からなるグループのことを指す（2.3.4 参照)。
1. 予測したいデータセットの中のタンパク質複合体を一つ取り出す。
2. そのタンパク質複合体において、予測したい方の単量体に注目する。
3. 表面残基の一つを中心残基とし、残りの表面残基との距離を総当りで計算
して近いものから Npatch − 1 個を選び、中心残基と合わせて Npatch 個（パッチ
サイズ）の表面残基からなるパッチを作る。中心残基を別の表面残基にし
て同じことを繰り返し、すべての表面残基に対してパッチを作る。
4. それぞれのパッチに対して、式（７）に従ってスコアを計算する。つまり、
パッチに含まれている表面残基のアミノ酸のパラメータの値に対して自然
対数をとり、足し合わせてパッチサイズで除算したもの（平均化）をパッ
チのスコア score( patch) とする。
∑ ln RP( A )
x
score( patch) =
∑ ln RP( A )
x
x∈ patch
・・・（７）
Npatch
: パッチに含まれる残基 x のアミノ酸のインタフェース出現頻度
x∈patch
（自然対数）の和
Npatch : パッチを形成するアミノ酸残基数
5. トップのスコアを得たパッチに属する表面残基を、インタフェース残基と
して予測する。
6. 1 に戻り、データセットに含まれている全ての複合体に対して予測を繰り返
す。
50
４.１.２表面残基ごとに予測
表面パッチごとに予測する場合、予測される相互作用サイトは一つのパッチ
だけとなってしまう。しかしながら、実際にはタンパク質の相互作用サイトは
一ヶ所だけとは限らず、複数の相手タンパク質が別々のサイトで会合するもの
や、相手タンパク質が一つでも相互作用サイトが複数ヶ所存在するものが比較
的多く存在していることが知られている（Chakrabarti & Janin, 2002）。図３
－２のダイマーとマルチマーのインタフェースサイズの統計解析の結果から
も、マルチマーはダイマーに比べてインタフェースサイズの分散がかなり大き
く、複数ヶ所の相互作用サイトの存在が示唆される。このようなタンパク質複
合体に対しても予測を可能とするために、次の改良点を加えた。アルゴリズム
の基本的な流れは 4.1.1 と同じであるが、5 を以下のように変更する。
5.
各パッチのスコアを中心残基のスコアとして割り当てる。スコアがある閾
値を超えた中心残基をインタフェース残基として予測する。
４.１.３溶媒露出面積による重みづけ
タンパク質の内部には、疎水性アミノ酸が疎水性相互作用により会合した状
態（疎水コア）が形成される。3.3 節より、相互作用サイトの性質も同様に疎
水性の傾向が見られるため、もし表面パッチの中に疎水コアが含まれるとその
表面パッチは相互作用サイトだと誤って予測されてしまうかもしれない。した
がって、できるだけ表面に近い位置にあるアミノ酸残基ほど高いスコアを与え、
逆に内部に近いアミノ酸残基ほど低いスコアを与える工夫をする必要がある。
また、溶媒露出面積の高い表面残基はインタフェースに出現しやすいことが分
かっており、これまでにも溶媒露出面積を予測のパラメータとして用いた例が
いくつか報告されている(Jones & Thornton, 1997; Zhou & Shan, 2001)。上記
の問題点を解決し、さらに溶媒露出面積をパラメータの一つとして導入するた
51
め、溶媒露出面積によるスコアの重みづけを行った。アルゴリズムの基本的な
流れは 4.1.2 と同じであるが、4 を以下のように変更する。
4.
それぞれのパッチに対して、式（８）に従ってスコアを計算する。つまり
パッチに含まれている表面残基のアミノ酸のパラメータの値に対して自然
対数をとり、溶媒露出面積で重みづけした後、足し合わせてパッチサイズ
で除算したもの（平均化）を中心残基 x のパッチのスコア score( x) とする。
∑ {ASA( y) ⋅ ln RP( A )}
y
score( x) =
y∈ patch ( x )
・・・（８）
Npatch
patch( x) : 中心残基 x のパッチの残基の集合
ASA( y ) : パッチに含まれる残基 y の溶媒露出面積
ln RP( Ay ) : パッチに含まれる残基 y のアミノ酸のインタフェース出現頻度（自
然対数）
Npatch : パッチを形成するアミノ酸残基数
４.１.４プロフィールを用いた予測
相互作用サイト予測におけるプロフィールの効果を調べるため、以下の手順
にしたがってプロフィールを作成し、さらに予測アルゴリズムを改良した。
まず、 1794 個の全ての複合体データ（表３－１参照）をクエリとし、
PSI-BLAST を実行した。データベースには 2003 年 8 月 25 日に更新された
nr(non-redundant)データベース（ GenBank の CDS の翻訳配列 + PDB +
Swiss-Prot + PIR）において低複雑性領域（反復や連続などの配列パターン）
にフィルタ“seg”をかけたものを用い、反復回数を 3 回、E-value の閾値を
0.001 とした。
52
基本的なアルゴリズムの流れは 4.1.3 と同じであるが、4 を以下のように変
更する。
4.
それぞれのパッチに対して、式（９）に従ってスコアを計算する。つまり
パッチに含まれている表面残基のプロフィールの 20 個の要素と、インタ
フェースのアミノ酸出現頻度の値 20 個の自然対数をそれぞれ掛けたもの
を足し込み、さらに溶媒露出面積で重みづけしたものをパッチ内の表面残
基すべてに関して足しあわせ、パッチサイズで除算したもの（平均化）を
中心残基 x のパッチのスコア score( x) とする。
20

{prof ( y, i) ⋅ ln RP(i)}
ASA
y
(
)
∑

y∈ patch ( x ) 
i =1

score( x) =
Npatch
∑
・・・（９）
patch( x) : 中心残基 x のパッチの残基の集合
ASA( y ) : パッチに含まれる残基 y の溶媒露出面積
prof ( y, i ) : パッチに含まれる残基 y のアミノ酸 i のプロフィールの値
ln RP(i ) : アミノ酸 i のインタフェース出現頻度（自然対数）
N patch : パッチを形成するアミノ酸残基数
式（９）により、例えばインタフェース出現頻度の高いアミノ酸がパッチに多
く含まれていても、そのアミノ酸がファミリー内で保存されていなければ、ス
コアはプロフィールを使わなかったときよりも低く計算されることになる。イ
ンタフェース出現頻度が高いアミノ酸がファミリー内で保存されていれば、そ
のパッチのスコアは高い値となる。
53
４.１.５予測の応用例：単量体からの予測
概略
本節では、タンパク質間相互作用サイト予測の応用例として、相互作用する
相手タンパク質の情報を用いることなく、単量体の立体構造のみから相互作用
サイトを予測したことについて解説する。
プロテインデータバンク(PDB)に登録されているタンパク質立体構造には、
多くの場合、１種類のタンパク質に対して複数のエントリが存在する。これは、
異なる凍結状態や、異なる結晶形について決定したもの、よりよい結晶や、よ
り正確なデータ収集技術を利用して決定し直したものがあることに起因する。
複合体として生物活性を示すタンパク質に関しても複数のエントリが存在
し、特に、細胞内で単量体と複合体の２状態で存在できる一時的(transient)な
相互作用を行うタンパク質については、単量体と複合体の両方の立体構造が解
けている可能性が高いと考えられる。立体構造が複合体の形態をしているもの
を bound state、単量体のものを unbound state といい、両者の立体構造には
多少の違いが見られ、その程度はタンパク質ごとに異なる。その理由は、一般
に複合体を形成する前と後とでは側鎖やループ領域にコンフォメーション変化
が生じているからである。図４－１は、セリンプロテアーゼ / インヒビターの
立体構造で、左図が bound state(1sluBA)、右図が unbound state(1ecy-)であ
り、タンパク質の表面に近いフレキシブルな領域に若干の２次構造の違いが見
られる。
54
セリンプロテアーゼ / インヒビター
インヒビター
bound state (1sluBA)
unbound state (1ecy-)
図４－１
セリンプロテアーゼ / インヒビターの bound state と unbound state
実験系の生物学において、次の２つの問題点がある。一つは、相互作用する
相手タンパク質を決定するのは一般に難しいことである。２つのタンパク質が
相互作用するか否かを決定する実験法の一つとして酵母２ハイブリッド法が挙
げられるが、実験から得られる結果には偽陽性(false positive)が多く含まれ、
相互作用が陽性と観察されたタンパク質間で、必ずしも相互作用があるとは結
論できないことが知られている。もう一つは、単量体の立体構造が得られてい
るタンパク質に対し、複合体の状態を保って立体構造を解くのは容易ではない
ことである。X 線結晶構造解析を行う場合、タンパク質が規則的に並び結晶化
することが必要となるが、複合体の立体構造を決定するためには、すべてのタ
ンパク質が複合体の状態を保った状態で結晶化が行われなければならず、少し
でも単量体のものが混ざっていてはうまく行かないのである。
以上の２点を考慮すると、相互作用する相手タンパク質の情報を用いること
なく、単量体の立体構造のみから相互作用サイトを予測することが可能である
ならば、その方がより現実的な問題設定だと考えられる。これまでにも、
unbound state から相互作用サイトを予測した例があり(Zhou & Shan, 2001)、
タンパク質は複合体の形成前後で側鎖やループ領域のコンフォメーション変化
が生じるため、一般に unbound state から予測する方が bound state からする
55
よりも難しいと言われている。本研究では、単量体と複合体の両方の立体構造
が解けているヘテロ複合体を準備し、単量体の構造に対して相互作用サイトを
予測し、単量体と複合体における残基番号の対応を一致させた上で、予測によ
り得られたスコアと正解（インタフェースか否か）との相関を評価することに
した。
データセット作成手順
単量体と複合体の両方の立体構造を準備するために、ヘテロセット(654 個)
に含まれているタンパク質複合体において、non-redundant な代表タンパク質
鎖の一つ一つをクエリとして相同性検索（BLAST）をかけ、同一残基率が 100 %
に近い単量体を集めてくるという方法を実行した。BLAST プログラムのうち
blastp を用い、データベースには allpdb03Nov20.fasta（2003 年 11 月 20 日
に更新された全 PDB データが FASTA 形式で記述されているもの。但し、ホモ
複合体の場合は一つの鎖だけが含まれている）を用いた。E-value の閾値はデ
フォルトの 10、スコアリング行列もデフォルトの BLOSUM62 を用いた。
BLAST をかける際の注意点としては、データベースやクエリのアミノ酸配列
における低複雑性領域（反復や連続などの配列パターン）にフィルタ“seg”を
かけることが一般に成されるが、本研究においてはデータベース、クエリいず
れのアミノ酸配列にも seg をかけなかった。なぜなら、seg をかけてしまうと
低複雑性領域がアルファベット’X’で置き換えられてしまうため、同一の鎖かど
うかが判別できなくなってしまうからである。
BLAST の出力結果に対して、下の単量体を抽出する条件をすべて満たす単
量体の立体構造を選び、それぞれ 40 個の bound と unbound のヘテロ複合体デ
ータセットを新たに作成した。（同一残基率は最初 100％, 95%として実行した
が、集められた単量体の数が少なかったので、90％まで条件を緩めることにし
た。）bound についてはすべて X 線結晶構造解析によって構造決定されたもの
であったが、今回集められた unbound については X 線結晶構造解析よりも
NMR 実験によるものの方が多かった。この事実は、複合体の状態が安定であ
るものに対して単量体の構造決定を行うことの実験的な困難さを示唆している
56
と考えられる。NMR 実験の性質上、構造決定できる対象は小さなタンパク質
に限定されてしまうため、得られた unbound の構造は小さなタンパク質（例
えばインヒビター）に偏ったものとなった。作成された 40 個のヘテロ複合体
のリストは、予測の結果も含めて図５－８で示すことにする。
＜単量体を抽出する条件＞
・クエリとサブジェクトは異なるエントリである。
・クエリ・サブジェクトの全アミノ酸残基数は 30 以上である。
・アラインメントされた残基数と、クエリ・サブジェクトの全アミノ酸残
基数との差は 10 以下である。
・同一残基率は 90%以上である。
・サブジェクトは単量体として PDB に登録されている。
・サブジェクトが複数存在している場合は、最初に表示されているものを
選ぶ。
・サブジェクトが NMR 実験により得られた立体構造で、主鎖が幾重にも重
なったデータのときは、ファイルに最初に記述されているものを選ぶ。
４.２予測結果の評価法
４.２.１相関係数
２次構造予測の予測結果の評価法として広く使われてきたものに、Q3 と相
関係数（Matthews, 1975）がある。Q3（α へリックス、β シート、コイルの
３状態）とは、構造既知の配列全体において正しく予測された残基の割合であ
る。タンパク質間相互作用サイトの予測においてもこの評価法を適用すること
ができ、同様に Q2（相互作用サイトとそうでないサイトの２状態）と相関係
数を計算できる。しかしながら、Q3 や Q2 は無作為に予測を行った場合でも高
57
いスコアが得られることがある（Holley & Karplus, 1991）。タンパク質間相互
作用サイト予測においては特にこの点が問題となり、相互作用サイトが表面全
体の約 30%しかないため、すべて相互作用サイトでないと予測した場合でも
Q2 は 70%と高いスコアが得られてしまう。したがって、本研究においては相
関係数を予測結果の評価法とすることにした。
図４－２のように、予測と正解の２変数をそれぞれ横軸・縦軸に取った２次
元データを考え、相互作用サイトに関して予測と正解との相関関係を図示する。
図４－２
２次元質的データの相関図
一般に、相関係数と言えば２次元量的データの散布図に対して適用されるピア
ソンの相関係数を指すが、この場合、予測された状態を１、予測されなかった
状態を０というように、０と１の２状態のみを有する質的データをプロットす
るため(point correlation という)、Matthews が２次構造予測で用いた特殊な
相関係数を用いる。(1,1), (1,0), (0,1), (0,0)の各点にプロットされたデータ（残
基）の数をそれぞれ a (true positive), b (false positive), c (true negative),
d (false negative)とすると、相関係数 corr.coef . は式（１０）で定義される。
corr.coef . =
ad − bc
(a + b)(a + c)(d + b)(d + c)
58
(−1 ≤ corr.coef . ≤ 1)
・・・
（１０）
分子は共分散を表しており、正の相関を表すデータの場合は２次元平面内に
おいて b (1,0), c (0,1)のデータ数よりも a (1,1), d (0,0)のデータ数の方が多く
なり、相関係数は正となる。逆に、負の相関を表すデータの場合は a , d より b ,
c の方が多くなり、相関係数は負となる。分母は予測と正解の２変数の標準偏
差を表しており、相関係数の上限を+１、下限を-1 におさえるために共分散を
標準偏差で除算している。したがって、この係数が１に近ければ近いほど、相
互作用サイトの予測法の成功度が高いことになる。一応の目安として、相関係
数が 0.4 以上のときはかなり相関があり、0.2 以上 0.4 以下だと低い相関、0.2
以下だとほとんど相関がないと言われている。マイナスの場合は逆相関となる。
相関係数では評価できない場合がいくつか存在する。以下にその例を示す。
１．
インタフェース残基が存在しないとき（ a = 0 かつ c = 0 ）。
２．
すべての表面残基がインタフェース残基であるとき（ b = 0 かつ d = 0 ）。
３．
予測残基が存在しないとき（ a = 0 かつ b = 0 ）。
４．
すべての表面残基が予測残基であるとき（ c = 0 かつ d = 0 ）。
この場合、式(１０)は分母（分子も）がいずれもゼロとなるため相関係数を計
算することができなくなる。3.2.1 で述べたように、あらかじめ複合体を形成し
ていない立体構造データは除去してから予測を行うことになるので、１の場合
はありえない。しかしながら、2 のようにタンパク質全体で相手タンパク質と
相互作用しているものもいくつか存在する。また第４章で解説する予測アルゴ
リズムにおいて用いられる２つのパラメータ（パッチサイズとスコアの閾値）
の大きさによっては、3, 4 のように予測残基数がゼロあるいはすべてとなる場
合が起こりうる。この場合、相関係数は“nan”と出力され、評価することは
できない。だが、データセット全体における累積の a , b , c , d の値は一般にゼロ
とはならないため、個々のタンパク質においては評価できない場合が生じても、
データセット全体を統計的に評価する際には支障はない。したがって、データ
セット全体における a , b , c , d の累積値を用いて相関係数を計算し、データセッ
トの相関係数とすることにする。
59
4.1 節で解説した予測アルゴリズムには「パッチサイズ」と「スコアの閾値」
の２つのパラメータが存在する（但し、4.1.1 の表面パッチごとの予測にはスコ
アの閾値は必要ない）。予測の際には、パッチサイズを 10 から 55 まで 5 きざ
みで、またスコアの閾値についても様々な値（ほぼ０付近）に変化させ、デー
タセットの相関係数が最大となったものを予測結果とする。
４.２.２単量体からの予測の評価法
unbound, bound 予測の評価手順
4.1.5 の手順で得られたそれぞれ 40 個の bound と unbound のヘテロ複合体
データセットに対して、bound の構造から予測する場合と、unbound の構造か
ら予測する場合の 2 通りを実行し、それぞれタンパク質ごとの相関係数とデー
タセットに対する相関係数を計算する。
bound の構造からの予測とは、複合体を形成している立体構造データにおい
て相互作用する相手タンパク質のデータを削除し、DSSP プログラムを用いて
立体構造データを DSSP ファイルに変換した上で、アミノ酸残基や溶媒露出面
積、３次元座標の値などを用いて相互作用サイト予測を行うことを意味する。
unbound の構造からの予測については以下の手順で実行する。まず、
unbound の立体構造データを用いて予測を行い、表面残基すべてに対して得ら
れたスコアを出力する。一方、bound の立体構造データから得られる正解イン
タフェース残基対してフィルタをかけ、unbound の対応する残基番号へと変換
する。フィルタプログラムとしては本研究室で開発されたプログラム
「SeqAlign」を利用し、unbound と bound の残基番号対応表を作成して行う。
そうして得られた表面残基ごとの正解データと予測により得られたスコアに対
し、次に解説するピアソンの相関係数を用いて評価を行う。
60
ピアソンの相関係数
これまでの相関係数を用いた評価法では、例えば予測残基数がゼロとなる場
合のように、個々のタンパク質に関して評価できない場合が存在する（4.2.1
参照）。この問題を回避し、個々のタンパク質の予測結果に関して議論を明解に
するため、以下のような新たな評価法を導入した。まず、予測と正解との相関
を見るのではなく、横軸に各表面残基に割り当てられたスコア、縦軸に正解
(０：インタフェース残基でない, １：インタフェース残基である)を取り、両者
の相関をピアソンの相関係数式（１１）を用いて評価する（図４－３）。
図４－３
corr.coef . =
横軸を量的データ、縦軸を質的データとした２次元相関図
1 n
∑ ( Xi − X )(Yi − Y )
n − 1 i =1
1 n
1 n
2
i
(
X
−
X
)
(Yi − Y ) 2
∑
∑
n − 1 i =1
n − 1 i =1
(-1 ≤ corr.coef . ≤ 1)
・・・
（１１）
Xi : 表面残基のスコア（実数値）
Yi : インタフェース残基でない(0), インタフェース残基である(1)
X , Y : 変数 X , Y の平均値
n : データの数
61
横軸（表面残基のスコア）が実数値となっているため、式（１１）の分母が
ゼロとなることはまずありえない。したがって、どのタンパク質に対しても相
関係数を計算することができる。さらに予測インタフェース残基であるか否か
を決定するためのスコアの閾値が必要なくなってパラメータが一つ減り、予測
結果を説明しやすくなる。
unbound 予測, bound 予測ともにパッチサイズは 15 とし、インタフェース
出現傾向は 654 個のヘテロセットに対して得られたもの、予測アルゴリズムに
はプロフィールを利用した予測を用いた。但し、相同な配列が集まらない等の
原因でプロフィールの値がすべてゼロとなっているサイトがあった場合は、相
関係数がゼロとなるのを防ぐため、そのサイトに関してのみ式（９）ではなく
式（８）のプロフィールを用いない予測（溶媒露出面積で重みづけした予測）
を行うことにした。
62
第５章予測結果と考察
本章では、第４章で解説した予測アルゴリズム（表面パッチごとに予測、表
面残基ごとに予測、溶媒露出面積による重みづけ、プロフィールを用いた予測）
に応じてどのように予測精度が改良されたかを述べ、考察を行う。さらに本予
測手法の適用例として単量体から予測を行った結果についてまとめ、生物学的
に興味深いタンパク質複合体に対して予測された相互作用サイトの具体例を挙
げる。
最後に、従来のタンパク質間相互作用サイト予測（ニューラルネットワーク
にプロフィールを入力して予測する手法、Fariselli et al. , 2002）と本研究手法
との比較を行い、考察する。
５.１予測結果のまとめ
本節では、3.2 節で作成した複合体のデータセットを用いて相互作用サイト
を予測した結果と考察をまとめる。また、その応用例として単量体(unbound)
と複合体(bound)の両方の立体構造が解けているヘテロ複合体に対して予測を
行った結果と考察について述べる。最後に新たな予測パラメータの探索として、
ソルト・ブリッジ情報を利用した予測に関して結果とその問題点について解説
する。
63
５.１.１複合体からの予測
各データセットの結果とその考察
4.1 節で示した４つの予測アルゴリズム（表面パッチごとに予測、表面残基
ごとに予測、溶媒露出面積による重みづけ、プロフィールを用いた予測）を 1794
個の全ての複合体に適用すると図５－１のような結果が得られた。また、デー
タセットをダイマー（787 個）とマルチマー（1007 個）に分割したとき、ホモ
（1140 個）とヘテロ（654 個）に分割したとき、データセットを４分割したと
き（ホモダイマー645 個、ヘテロダイマー142 個、ホモマルチマー495 個、ヘ
テロマルチマー512 個）の予測結果は、それぞれ図５－２、図５－３、図５－
４に示す。
予測を行うにあたっては、データセットごとに作成したアミノ酸出現傾向の
値をパラメータとして用いた。また、パッチサイズとスコアの閾値は様々に変
化させ、データセットの相関係数が最大となったものを予測結果とした。最適
条件は、パッチごとの予測の場合はパッチサイズが 50 から 85 の間、残基ごと
の予測の場合は 30 から 45 の間、溶媒露出面積による重みづけの場合は 30 か
35、プロフィールを用いた予測の場合は 25 か 30 となった。パッチごとの予測
の際はインタフェースのサイズの平均値（約 35 残基）をカバーするために大
き目のパッチを用意しなければならず、広い範囲で均一なスコアが与えられて
しまったが、残基ごとの予測に切り替えたことによって、予測対象残基の近傍
35 残基程度が視野に入るパッチでも充分なサイズとなり、その結果、表面の局
所的な変化をうまく捉えた高度な予測が可能となったと考えられる。最適パッ
チサイズ（約 35 残基）がインタフェースサイズのピーク値（約 15 残基, 3.3.1
参照）よりも大きめである理由は、インタフェースサイズの平均値が約 35 残
基であり、それに合わせる方が統計的には高い精度が得られるからと考えられ
る。
64
0.35
0.3
パッチごとの予測
相関係数
0.25
残基ごとの予測
0.2
0.15
溶媒露出面積によ
る重みづけ
0.1
プロフィールを用
いた予測
0.05
0
全ての複合体
図５－１
全ての複合体(1794 個)の予測結果
0.35
0.3
パッチごとの予測
相関係数
0.25
残基ごとの予測
0.2
溶媒露出面積に
よる重みづけ
0.15
0.1
プロフィールを用
いた予測
0.05
0
ダイマー
図５－２
マルチマー
ダイマー（787 個）とマルチマー(1007 個)の予測結果
65
溶媒露出面積による重みづけを行うと、すべてのデータセットに渡って飛躍
的に予測精度が向上した。これは 4.1.3 で解説したように、内部に近い残基の
スコアを減少させ、予測残基が疎水コアにトラップされなくなったことが理由
の一つとして挙げられるが、むしろ本質的には 3.3.3 で解説したように溶媒露
出面積自身のパラメータとしての識別能の強さを反映していると言える。
プロフィールを用いた予測では、ヘテロダイマーとホモマルチマーでは若干
効果が見られたが、それ以外のデータセットではあまり予測精度は改善されな
かった。したがって、ヘテロダイマーやホモマルチマーは統計的にインタフェ
ースが保存されているものが多く、逆にそれ以外のデータセットでは保存され
ているものとされていないものとが混在していることが推測される。プロフィ
ールを有効に活用して予測精度を向上させるためには、データセットをより詳
細なファミリーに分割していき、どのファミリーがインタフェースの保存度が
高いかを調査した上で、保存されているものにはプロフィールを利用した予測
を行い、逆に保存されていないものには利用しない予測を行うことが必要であ
ると考えられる。
図５－２、図５－３のようにデータセットを二つに分割しても、結果的に分
割前と比べて予測精度の向上にはつながらなかった。これは、図３－６や図３
－７で示される出現傾向が、ホモとヘテロ、ダイマーとマルチマーとであまり
アミノ酸間に違いが見られなかったことなどが理由として挙げられる。データ
セット間では、ダイマーよりはマルチマー、ホモよりはヘテロの方が幾分予測
しやすいことが分かった。この理由を説明するためには、データセットごとに
どのようなタンパク質ファミリーが多く含まれているかを統計的に調査する必
要があると思われる。
図５－４のようにデータセットを 4 分割すると、データセットに応じてかな
り結果に特徴が見られた。特にヘテロダイマーについては著しく結果が向上し、
最終的にプロフィールを用いた予測では相関係数 0.327 を記録している（パッ
チサイズ 35, スコアの閾値-0.40）。ヘテロダイマーにはプロテアーゼ / インヒ
ビターのような制御系タンパク質をはじめ、生物学的に重要な機能を有するも
のが多く含まれており、本予測手法の有効性を示唆する興味深い結果となった。
66
0.35
0.3
パッチごとの予測
相関係数
0.25
残基ごとの予測
0.2
0.15
溶媒露出面積に
よる重みづけ
0.1
プロフィールを用
いた予測
0.05
0
ホモ
図５－３
ヘテロ
ホモ（1140 個）とヘテロ（654 個）の予測結果
0.35
パッチごとの予測
0.3
残基ごとの予測
0.2
0.15
溶媒露出面積に
よる重みづけ
0.1
プロフィールを用
いた予測
0.05
図５－４
ー
チ
マ
ル
マ
ロ
ヘ
テ
モ
ホ
ヘ
テ
ロ
マ
ル
ダ
イ
チ
マ
ー
ー
イ
マ
ダ
モ
マ
ー
0
ホ
相関係数
0.25
４分割されたデータセットの予測結果
67
ヘテロダイマーの予測精度が比較的高くなった原因としては、図３－４で示
したインタフェースサイズの統計解析結果から推測することができる。ヘテロ
ダイマーのインタフェースサイズは４つのデータセットの中で最も分散が小さ
く、15 残基付近に鋭いピークが得られている。本手法では、データセットに含
まれる全てのタンパク質に対して同一のパッチサイズとスコアの閾値を用いて
予測しているため、予測インタフェース残基数をタンパク質に応じてうまく調
節できているとは考えにくく、ヘテロダイマーのようなインタフェースサイズ
の分散が小さいデータセットほど予測が容易であると考えられる。ホモダイマ
ーの予測精度が低下してしまった原因としては、 2.1.3 で解説した crystal
packing によるものと考えられる。
Kyte & Doolittle 疎水性指標のインタフェース識別能
本研究の予測手法で中心的な役割を果たすアミノ酸出現傾向指数は、いわゆ
る疎水性アミノ酸が高い値を持つ（3.3.2 参照）。したがって、疎水性のアミノ
酸が表面に露出しクラスタを形成しているところがタンパク質間相互作用サイ
トだと予測してもそれほど間違いではないと言える。 1982 年に Kyte &
Doolittle によって提唱された疎水性指標（図５－５）はアミノ酸の疎水性の度
合いを数値化したものである。この疎水性指標の値をパラメータとして予測を
行うと図５－７のような結果が得られた。疎水性指標を用いた場合、相関係数
0.17 程度は予測が可能であることが分かったが、予測手法の改良に伴った精度
の改善には結びつかず、パラメータとしての限界がうかがえる。
1794 個の全ての複合体に関して得られた相互作用サイトのアミノ酸出現傾
向（自然対数）（図５－６）と比較すると、疎水性のアミノ酸の値がプラスにな
っており、荷電アミノ酸（Arg を除く）の値がマイナスになっている点では全
体に傾向が似ているが、傾向が全く逆になっているアミノ酸（A, H, W, Y, R）
もいくつか見られる。特に、芳香族性の側鎖を持つアミノ酸（Trp, Tyr）や荷
電アミノ酸の Arg における違いが特徴的であり、この違いが Kyte & Doolittle
の疎水性指標との精度の差を生み出すと考えられる。
68
図５－５
図５－６
Kyte & Doolittle の疎水性指標
1794 個の全ての複合体に関して得られた
相互作用サイトのアミノ酸出現傾向（自然対数）
69
K & Dの疎水
性指標を使用
プ
ロ
溶
媒
露
出
残
面
積
に
よ
基
る
ご
重
み
と
の
予
と
の
予
ご
ッ
チ
パ
図５－７
づ
け
フ
ィー
ル
を
用
い
た
予
測
測
複合体のRP
を使用
測
相関係数
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
Kyte & Doolittle の疎水性指標をパラメータとした場合と、
1794 個の全ての複合体のパラメータを用いた場合の違い
５.１.２単量体からの予測
unbound, bound 予測結果
図５－８において、左から unbound, bound の PDB コード、両者の RMSD(Å)
（Root Mean Square Deviation; 根二乗平均）、unbound, bound の相関係数、
タンパク質の機能に関する記述（ PDB データによる）を示す。相関係数は
unbound に対して降順に並べ、対応する bound の結果を横に並べた。RMSD
の計算については本研究室で開発された公開プログラム「MATRAS」による構
造アラインメントを用いており、全アミノ酸配列に対して配列アラインメント
を行って Cα 原子間の対応を決定した後、構造アラインメントにおける主鎖の
Cα 原子間距離から RMSD を算出した。図５－８の結果から、相関係数の頻度
分布をまとめたのが図５－９である。
70
図５－８
unbound および bound からの予測結果
71
8
タンパク質の数
7
6
5
Unbound
Bound
4
3
2
1
1
2
3
4
5
6
7
8
0.
0.
0.
0.
0.
0.
0.
0
0.
.2
.3
.4
.1
-0
-0
-0
-0
-0
.5
0
相関係数
図５－９
相関係数の頻度分布
データセットの相関係数は unbound の場合 0.206、bound の場合 0.218 とな
り、やや bound からの予測の方が良い結果となったが、図５－９から unbound
構造からの予測は bound 構造からの予測と同程度の予測精度が得られている
ことが分かる。したがって、コンフォメーション変化等の構造変化の影響を受
けないロバストなアルゴリズムであると言える。これは非常に重要な点であり、
例えばホモロジーモデリングによって得られた立体構造であったとしても、テ
ンプレート構造とのズレがそれほど大きくなければ、本予測手法を適用し、相
互作用サイトを予測することがある程度実現可能であることを意味する。
また、図５－９において二つの分布のピークはいずれも 0.5 付近に位置して
おり、多くのタンパク質が高い精度で予測されているが、相関係数の低い方に
裾が広がっていることが分かる。このことは、相関係数が大きく負になってし
まう、本手法では予測が困難なタンパク質が存在していることを示している。
図５－８より、一部の例外を除いて unbound と bound の予測精度は同じ傾
向を示しており、unbound で予測精度の高いものは bound でも高かった。例
外的に、1l2nA と 1euvB のように unbound では予測精度が高いが bound では
低いものが見られた。この場合は RMSD が 4.47Å と高く、表面残基に与えら
72
れたスコアを詳細に調べてみると、残基番号 65 のアミノ酸 (Phe)において
bound の溶媒露出面積が 4 Å 2（埋没）なのに対し unbound では 82 Å 2 と高く、
その結果 unbound において残基番号 65 のアミノ酸が含まれるパッチに対して
はいずれも高いスコアが付与されていた（図５－１０）。
予測対象タンパク質（SMT3; 1l2nA）, 相手タンパク質（ULP1 protease domain）
残基番号 65 のアミノ酸(Phe)。左：unbound(82 Å 2 [露出]), 右：bound(4 Å 2 [埋没])
図５－１０
bound と unbound の溶媒露出面積の違い
unbound は NMR 実験によって構造決定されたものが多いため、インヒビタ
ーのような小さなタンパク質が多く含まれていた(4.1.5 参照)。インヒビターは
図５－８で緑の丸で表示されており、比較的上位に集中していることが分かっ
た。インヒビターはプロテアーゼの表面に突き刺さることによって、プロテア
ーゼの活性部位を阻害するので、一般にインタフェースの形状は突出している。
本研究手法は式（８）と（９）で示されるように溶媒露出面積で重みづけして
いるため、溶媒露出面積の大きい（突出した）アミノ酸残基に対しては高いス
コアを与えることになる。このような理由からインヒビターの予測に関しては
比較的良好な結果が得られたのではないかと考えられる。
73
予測が外れた原因とその改善策について
次に、予測がうまく行かなかったもの（図５－８の矢印より上側の 10 個の
タンパク質）に関して、その原因を立体構造および分子機能の観点から詳細に
考察し、その改善策について提案する。
1kj5A / 1ijvA は今回の予測で最下位になったタンパク質であり、正解に対し
て極めて逆相関となっている。予測されたサイトはインタフェースを大きく外
しており、そこには疎水性や芳香族の側鎖を持つアミノ酸が含まれていた。イ
ンタフェースを観察すると少数の荷電アミノ酸によるソルト・ブリッジで会合
が生じていることが分かった。このタンパク質は defensin という殺菌作用の働
きを有するものであり、細菌の細胞壁に存在する糖を認識して結合し、細胞壁
を破壊することで殺菌作用を起こすと考えられる。インタフェースと異なるサ
イトに疎水性や芳香族の側鎖を持つアミノ酸が含まれていたことを考慮する
と、このタンパク質は疎水基や芳香族の側鎖と環状の糖分子とを相互作用させ、
糖を認識しているのではないかと考えられる。
1pco- / 1lpbA も大きくインタフェースを外して予測しており、予測された場
所に疎水性の残基が集中していた。このタンパク質は colipase というリパーゼ
のコファクターであり、リパーゼを脂質につなぎ止めるアンカーとしての役割
を果たしている。インタフェースでないところにある疎水性の残基は、脂質に
自分自身をつなぎ止めておくための脂質結合サイトではないかと考えられる。
この疎水性の残基が誤って予測されてしまったと考えられる。
上記の例を考慮し予測手法を改善するためには、疎水性や芳香族性のアミノ
酸が「意図的」に配置されていたり、あるいは必要以上に多く分布し、荷電ア
ミノ酸が全く存在しなかったりする場合は、それを「罠」だと判断し、あえて
予測しないとするアルゴリズムを導入する工夫が必要であると考えられる。
2jhbA / 1e50B においては、インタフェースだけでなくその隣接するサイト
まで予測され、精度が上がらなかった。そのサイトには Arg や芳香族性の側鎖
を持つアミノ酸が多く含まれていた。このタンパク質は DNA のコアと呼ばれ
る部分に結合する転写因子であり、予測対象タンパク質である β サブユニット
は、相互作用する相手タンパク質である α サブユニットが DNA に結合するの
74
を促進している。DNA 結合サイトには正の電荷を持つアミノ酸や芳香族性の
側鎖を持つアミノ酸が多く含まれていることが分かっており、最近では比較的
高い精度での予測も可能になってきている(Stawiski et al., 2003; Jones et al.,
2003)。DNA 結合サイトは Arg や芳香族性の側鎖を持つアミノ酸が多いという
点でタンパク質間相互作用サイトと共通した性質を持ち、両者を区別するのは
難しいと考えられる。したがって、誤って予測されてしまったサイトは DNA
結合サイトである可能性が高い。
DNA 結合タンパク質は転写因子だけでなく様々なものが含まれる。1ruv- /
1dy5A はリボヌクレアーゼであり、複合体の表面の片側に正の電荷を持つアミ
ノ酸が多く含まれていた。この部分が DNA 結合サイトであると考えられ、Arg
などが原因で比較的高いスコアが与えられていた。インタフェース自体７残基
と小さく、分子間のソルト・ブリッジのみで会合しており極めて予測しにくい
構造を有していた。
上記の転写因子も考え合わせると、DNA 結合サイトをあらかじめ既存の手
法で予測し、そのサイトを除去した上でタンパク質間相互作用サイトを予測す
るという２段構成にする方法が改善策として考えられる。
1btb- / 1ay7B はリボヌクレアーゼインヒビターであり、3.4.1 に例として挙
げたバルナーゼ・バルスター複合体のうちのバルスターである。図３－１１に
示されるとおり、インタフェースには負の電荷を持つアミノ酸が多く、正の電
荷を持つアミノ酸は全く含まれていない。このインヒビターは一分子のリボヌ
クレアーゼに対して一分子が結合し、機能を阻害することが知られている。リ
ボヌクレアーゼ側のインタフェースを観察すると、相補的に正の電荷を持つア
ミノ酸が多く含まれ、どの荷電アミノ酸も Arg であった。また、芳香族性の側
鎖を持つアミノ酸も多く含まれていることを考えると、このサイトは DNA 結
合サイトであり、インヒビターはリボヌクレアーゼ側の DNA 結合サイトに結
合することにより、DNA 結合能を阻害しているのではないかと考えられる。
これまでにもタンパク質間相互作用と DNA 相互作用とを同一のサイトで行っ
ているタンパク質の存在が知られており(Hall, 2003)、こう考えるとインヒビ
75
ター側のインタフェースが負電荷のアミノ酸ばかり含まれていたことが説明で
きる。
3.4.2 からソルト・ブリッジを形成している荷電アミノ酸はインタフェースを
嫌う傾向があることが示されたが、逆に言えば、ソルト・ブリッジを形成して
いない荷電アミノ酸は分子機能的に重要な働きをする必要があるためにエネル
ギー的に不利な状況を越えて表面に露出し、インタフェースに比較的好んで出
現する結果となったと考えられる。したがって、負電荷を持つアミノ酸が著し
く多く含まれているサイトは、逆にタンパク質間相互作用サイトだと予測すれ
ば精度が改善される可能性がある。このようなサイトは、今のアルゴリズムで
はまず予測することは不可能である。
40 個のヘテロ複合体を予測するにあたり、プロフィールを利用した予測を行
ったが、プロフィールを利用したことでかえって予測精度が落ちてしまったも
のがある(表５－１)。1nukA / 1kgyA は膜タンパク質、1avu- / 1avwB は対立
遺伝子から発現される３種類の変異体が存在するトリプシンインヒビター、
1rgp- / 1tx4A は Rho に結合する GAP であり、いずれもファミリー内で構造が
類似した異なる機能を有するタンパク質の存在を示唆するものである。
PSI-BLAST によってインタフェースが保存されていないタンパク質まで集め
てしまうと、かえって予測精度が低下してしまうことになる。インタフェース
が保存されているかいないかでファミリーを分ける必要があると考えられる。
unbound / bound
プロフィールを利用した予測
プロフィールを利用しない予測
1nukA / 1kgyA
1avu- / 1avwB
1rgp- / 1tx4A
-0.1040 / 0.0258
0.0621 / -0.1370
0.0853 / 0.1128
0.0658 / 0.2784
0.4595 / 0.3857
0.1232 / 0.1956
プロフィールを利用しない予測とは、溶媒露出面積による重みづけした予測（式８）を表す。
表５－１
プロフィールの影響で予測がうまく行かなかった例
1dtvA / 1dtdB においては、unbound と bound とで予測精度が大きく異なる
結果が得られている（unbound : -0.1043, bound : 0.2009）。このタンパク質は
カルボキシペプチダーゼであり、立体構造を詳細に観察するとインタフェース
付近で比較的大きなコンフォメーション変化が生じていることが分かった。
76
bound state では疎水性や芳香族性の側鎖を持つアミノ酸がインタフェースに
多く含まれているが、unbound state では Glu と Asp がインタフェースに割り
込み、疎水性や芳香族性の側鎖を持つアミノ酸を覆い隠してしまう。その結果
インタフェースのスコアが低くなり、予測精度が激減したと考えられる。
1coo- / 1lb2B は RNA ポリメラーゼの C 末ドメインであり、転写の制御因子
との相互作用や、プロモーターの上流部分と相互作用を行うことが知られてい
る。立体構造からとくにスコアの高くなりそうなサイトは見つからず、また実
際のスコアも表面全体に渡って均一であった。インタフェースにも分子間ソル
ト・ブリッジが形成されている様子は見られなかった。このことから、RNA ポ
リメラーゼの C 末ドメイン以外の部分が DNA や他のタンパク質と相互作用し、
間接的に C 末ドメインが周囲のタンパク質と近接することになったのではない
かと考えられる。
今回のデータセットには含まれていないもので、予測が外れると思われるも
のは、抗原（疎水性相互作用ではなく特異的な分子認識を行い、かつ進化的に
インタフェースが保存されない傾向があるため）、α へリックスで絡みついた
コイルドコイル状のインタフェース（コイルドコイルのインタフェースには
Glu 等のスコアの低いアミノ酸が出現しやすい）、主鎖の水素結合によって会合
しているもの（側鎖のアミノ酸に依存しない相互作用であるため）、インタフェ
ースに金属イオン、水分子、リガンドを含んでいるもの（インタフェースのア
ミノ酸組成に変化をもたらすため）、インタフェースの形が丸くないもの等、で
ある。このようなタンパク質が統計的にどの程度含まれているかを調査し、種々
のタンパク質の多様性に適合したアルゴリズムを開発していくことが必要であ
ると考えられる。
５.１.３ソルト・ブリッジ情報を用いた予測
図３－１２で得られた 25 種類のアミノ酸(荷電アミノ酸をソルト・ブリッジ
の有無によって二種類に分割した)に対するインタフェース出現頻度の値を用
い、すべてのデータセットに対して溶媒露出面積による重みづけをした予測（プ
77
ロフィールを利用しない）を行った（図５－１１）。パッチサイズとスコアの閾
値は様々に変化させ、データセットの相関係数が最大となったものを予測結果
とした。最適条件はパッチサイズが 25 から 40 の間、スコアの閾値が-1.0 から
1.4 の間に収まった。どのデータセットについてもソルト・ブリッジの情報を
用いたことによる予測精度の向上は見られず、むしろソルト・ブリッジの情報
を用いない方が精度は高かった。
この原因を明らかにするため、1794 個の全ての複合体データに対しソルト・
ブリッジを形成している荷電アミノ酸（Asp, Glu, His, Lys, Arg）の数を実際
に調べると表５－２のような結果が得られた。全表面残基に対してソルト・ブ
リッジを形成している荷電アミノ酸の占める割合を式（１２）に従って調べる
と、6.7 %と非常に少ないことが分かった。
0.35
0.3
ソルトブリッジ
情報なし
0.2
ソルトブリッジ
情報あり
0.15
0.1
0.05
0
複
合
ダ体
イ
ママ
ルー
チ
マ
ー
ホ
モ
ヘ
ホ
モテ
ヘダロ
テイ
マ
ホロダー
モイ
ヘママ
テルー
ロチ
ママ
ルー
チ
マ
ー
相関係数
0.25
図５－１１
ソルト・ブリッジ情報を用いた予測結果
78
表面残基の数(286650)
ソルト・ブリッジであるもの
ソルト・ブリッジでないもの
Asp
4132
Asp
16320
Glu
5255
Glu
19970
His
813
His
6764
Lys
4131
Lys
17860
Arg
4758
Arg
14422
計 19089
計 75336
表５－２
全ての複合体（1794 個)におけるソルト・ブリッジの数
ソルト・ブリッジである荷電アミノ酸の総数（19089）
× 100 = 6.7% ・・・
（１２）
全表面残基数（286650）
図３－１３より、予測の際にソルト・ブリッジを形成していない荷電アミノ
酸に対して与えるスコアにはほとんど変化がなく、実際にスコアが減少するの
はソルト・ブリッジを形成している荷電アミノ酸であり、その寄与がこれだけ
小さいと予測精度に結果として現れてこないと考えられる。逆にパラメータの
数を増加させたことが原因となり、かえって精度が低下してしまったと考えら
れる。ソルト・ブリッジの定義(3.4.2 参照)を 4 Å から 10 Å まで変えてみても
結果はそれほど変わらなかった。
ソルト・ブリッジ以外にも、例えば Cys 間のジスルフィド結合のインタフェ
ース出現傾向を調べると新しい知見が得られるかもしれないが、依然としてそ
の統計的寄与はかなり小さいことが予想されるため、おそらく統計的な予測手
法の改善には結びつかないと推察される。統計的により多くのアミノ酸残基に
対して影響を及ぼすと思われる性質（例えばタンパク質表面の凹、凸、平面性
など）を新たなパラメータとして導入すれば、予測結果の改善につながるかも
しれない。
79
５.２予測されたタンパク質間相互作用サイ
トの例
本節では、図５－８に示した unbound と bound の予測結果の中から、相関
係数が比較的上位に位置するものやシグナル伝達に関与しているものなど生物
学的に重要な機能を有すると思われるタンパク質を選び、予測されたサイトの
具体例を示す（図５－８において青丸で示したタンパク質）。左側、右側がそれ
ぞれ unbound, bound の立体構造であり、それぞれの相関係数とともに示す。
bound state においてドット（小さい点の集合）で表したものは、相互作用す
る相手タンパク質である。色が赤に近づくほど各表面残基に割り当てられたス
コアが高く、逆に青くなるほどスコアが低くなることを示している。具体的な
操作は、まずスコアを 0 から 100 に正規化し、RasMol の温度因子の項をその
スコアに書き換えることによって、スコアの分布をカラーで表示できるように
した。
80
＜40 タンパク質中
1 位＞
予測対象タンパク質：Inhibitor,
相手タンパク質：Serine protease
2rel-, Homo sapiens
1fleI, Homo sapiens
Corr.Coef . = 0.66
＜40 タンパク質中
Corr.Coef . = 0.69
２位＞
予測対象タンパク質：Transferase,
1qszA, Homo sapiens
相手タンパク質：Growth factor
1fltY, Homo sapiens
Corr.Coef . = 0.53
Corr.Coef . = 0.48
81
＜40 タンパク質中
７位＞
予測対象タンパク質：Cyclin,
相手タンパク質：CDK2
1vin-, Bos taurus
1h1rB, Homo sapiens
Corr.Coef . = 0.46
＜40 タンパク質中
Corr.Coef . = 0.49
12 位＞
予測対象タンパク質：GAP,
相手タンパク質：Rac
1he9A, Pseudomonas aeruginosa
1he1A, Pseudomonas aeruginosa
Corr.Coef . = 0.40
Corr.Coef . = 0.42
82
＜40 タンパク質中
16 位＞
予測対象タンパク質：Che A,
相手タンパク質：Che Y
1fwp-, Escherichia coli
1eayC, Escherichia coli
Corr.Coef . = 0.33
Corr.Coef . = 0.30
５.３従来の相互作用サイト予測と本研究手
法との比較
予測結果をより客観的に評価するため、先行研究（Fariselli et al. , 2002）と
本研究手法との比較を行う。先行研究では、PDB からホモダイマー、プロテア
ーゼ / インヒビター、マルチマー、膜タンパク、ペプチド、コイルドコイルを
除き、最終的に得られた 226 個のヘテロダイマーをデータセットとし、ニュー
ラルネットワークに対してパッチに含まれる表面残基のプロフィールを入力す
ることで予測を行っている。このデータセットに対して本研究手法（プロフィ
ールを用いた予測）を適用し、得られた結果を先行研究とともに表５－３に示
す。なお、最適条件はパッチサイズ 15、スコアの閾値 1.00 であった。
83
予測手法
評価法
相関係数
Q 2 (%)
先行研究
本研究
0.43
73
0.37
79
0.56
0.52
0.72
0.50
0.85
0.86
0.73
0.87
インタフェースの
Coverage
インタフェースの
Re liability
インタフェース以外の
Coverage
インタフェース以外の
Re liability
表５－３
先行研究と本研究手法との比較
相関係数は式（１０）で計算し、 Q 2 (%)、インタフェースの Coverage 、イ
ンタフェースの Re liability 、インタフェース以外の Coverage 、インタフェース
以外の Re liability については以下の計算に従うものとする。
Q2 =
a+d
a+b+c+d
・・・（１３）
a
a+c
インタフェースの Coverage =
インタフェースの Re liability =
・・・（１４）
a
a+b
インタフェース以外の Coverage =
インタフェース以外の Re liability =
・・・（１５）
d
b+d
d
c+d
・・・（１６）
・・・（１７）
Q 2 とは正答率を表し、全表面残基中、正しく予測できた残基（インタフェー
ス残基をインタフェース残基だと予測し、インタフェース以外の残基をインタ
フェース以外の残基だと予測できた数）の割合を表している。 Coverage とは、
84
正解の網羅率（対象とする残基のうち正解したものの割合）を表し、Re liability
とは、予測の信頼度（対象とするものを予測した残基のうち正解したものの割
合）を表す。表５－３から、相関係数については若干先行研究に劣るものの、
その他の評価法ではほぼ同程度の精度が得られていることが分かる。本研究に
おいては、ニューラルネットワークでないシンプルなアルゴリズムを用いてい
るので、予測アルゴリズムの行っている物理化学的な意味を把握したり、アル
ゴリズム自体を改良したりすることが容易であるという点で評価できると言え
る。
85
第６章今後の課題
本章では、今後の課題として、新たなパラメータの導入と予測アルゴリズム
の改良法に関して述べる。
１．
新たなパラメータの導入
本研究手法ではパラメータとして、主に相互作用サイトのアミノ酸出現傾向
を用い、改良点として溶媒露出面積やプロフィール等を導入し、それらのパラ
メータの有効性を示してきた。しかしながら、先行研究 (Jones & Thornton,
1997)で用いられている６つのパラメータのうちの残り４つ（溶媒ポテンシャ
ル、疎水性、平面性、突出性）に関してはまだ本研究に取り入れていない。溶
媒ポテンシャルと疎水性に関しては相互作用サイトのアミノ酸出現傾向と同じ
ような傾向を示すことが推察されるが、平面性や突出性のようなタンパク質表
面の形状に関する幾何学的解析についてはまだまだ研究の余地が残されてい
る。パラメータ自身の問題（例えば平面性と突出性という表現法でよいのか）
や、パラメータ間の相関、重要度の違いなどについては先行研究においてもま
だ明らかにされていない。
新規のパラメータの導入に関しては、5.1.2 の「予測が外れた原因とその改善
策について」で提案したことを統計的に調査し、予測アルゴリズムに取り入れ
ていきたいと考えている。現段階では、パッチに属するアミノ酸を独立なもの
とし、かつ均等に扱っているが、アミノ酸どうしが相互に影響を及ぼしあって
いるのではないか、疎水性や芳香族性のアミノ酸の数に上限がないのか、ある
規則に基づいて配置されているのではないか、負電荷を持つアミノ酸ばかりが
含まれているものは逆にインタフェースになりやすいのではないか等、立体構
86
造に隠された様々な情報を解明し、統計学の手法を駆使して予測精度を向上さ
せていきたいと考えている。
２．
予測アルゴリズムの改良
「パッチ」は距離計算に基づいて作成されており、インタフェースの形が円
に近いコンパクトな形状であることを前提にしている。しかしながら、実際の
インタフェースは細長いものや環状のものなどかなり複雑な形をしており、大
きさに関しても様々である。また、インタフェースの縁(Rim)に関してはパラ
メータ値の平均化の際にインタフェースでないアミノ酸までも含めてしまうた
め、予測を外しやすいと考えられる。このような問題を回避するためには、「パ
ッチ」を距離計算に基づくものではなく、あらかじめインタフェースの形に適
合したものにしておく必要があると考えられる。
例えば、膜タンパク質における膜貫通へリックス予測においては、Kyte &
Doolittle の疎水性指標の値をパラメータとし、予測対象残基を含んだウインド
ウのサイズを決定するにあたり動的計画法や隠れマルコフモデルを用いて最適
条件を探索している。但し、膜貫通へリックスのような１次元問題と異なり、
タンパク質間相互作用サイトは３次元的に分布しているため単純に動的計画法
を適用しても最適解を求めるのは容易ではない。インタフェースの形や大きさ
として好ましいものを推定する方法を現在検討している。
87
第７章結論
タンパク質間相互作用サイトの予測は、単量体の立体構造のみを手がかりに、
そのタンパク質の機能（相互作用）を探ろうとするものであり、分子認識、分
子機能制御メカニズムと密接に関連した研究である。しかしながら、予測に用
いるパラメータとしてどのようなものが有効か、またタンパク質間相互作用サ
イトにうまく適合した予測手法はどのようなものか等についてはそれほど詳細
に調べられていない。
本研究においては、データセットを拡張してタンパク質間相互作用サイトの
特性を統計的に調査し、相互作用サイトのアミノ酸出現傾向や溶媒露出面積の
パラメータとしての有効性を示した。また統計解析の過程で、ソルト・ブリッ
ジを形成している荷電アミノ酸は相互作用サイトに出現しにくいなど、静電相
互作用に関わるアミノ酸の興味深い性質を新規に発見した。
相互作用サイトの予測に関しては、主に相互作用サイトのアミノ酸出現傾向
を用い、溶媒露出面積やプロフィールの保存情報などを取り入れてシンプルな
アルゴリズムを工夫して構築し、ニューラルネットワークに匹敵する高い精度
を有する予測手法を開発することができた。
予測の応用例として、相互作用する相手タンパク質の情報を一切用いること
なく、単量体（unbound）の立体構造のみから相互作用サイトを予測した。そ
の結果、複合体（bound）からの予測と同程度の精度が得られ、コンフォメー
ション変化等の構造変化の影響に対してロバストなアルゴリズムであることを
示した。また予測結果の詳細な考察の過程で、分子機能的に重要な働きを持つ
サイトには相互作用サイトのアミノ酸出現傾向に従わない例外的な出現傾向が
見られることを示した。本研究手法をさらに発展させ、予測精度を向上するた
88
めには、このような例外的な性質をうまく取り込み、より現実的なタンパク質
間相互作用に近いモデルを構築していくことが必要と考えられる。
89
謝辞
本研究を進める上で情報科学研究科、川端猛客員助教授に適切な御指導、御
助言を賜りました。私が化学系、バイオ系を経て情報系へと進路変更し、情報
に関して全く知識のなかった頃から丁寧に御指導して頂き、一人の研究者とし
てここまで成長させて頂きました。情報系として新たな人生を歩むきっかけを
私に与えて下さった川端猛客員助教授に対し、心から感謝申し上げます。
情報科学研究科、Gautam Basu 客員助教授には、科学者としての正しい考
え方、生き方を御指導して頂きました。心より感謝致します。
情報科学研究科、郷信広客員教授には、研究者としての的確なあり方を御教
示して頂きました。心から感謝致します。
日本原子力研究所関西研究所の由良敬氏、河野秀俊氏を始めとする皆様に
は、セミナー等を通して有意義な議論を頂き、心より感謝致しております。
情報科学研究科、箱嶋敏雄教授には、博士課程入試、修士論文発表などを通
して数々の的確な御助言をいただきました。心から感謝致しております。
情報科学研究科、小笠原直毅教授には、私が本学に入学する前から研究室配
属のカウンセリング等を通して相談に乗って頂きました。また、タンパク質間
相互作用に関する共同研究を提案して頂き、幅広い研究活動を行う機会を与え
て下さいました。心から感謝申し上げます。
本研究室の皆様方には、研究に関する数々のアドバイスをして頂き、日常生
活においても大変お世話になりました。特に、特許庁審査官の植原克典氏には、
一年間の本学在学時に共に学び、研究活動だけでなく人間関係などを含めて私
の支えになっていただきました。
中村建介氏には、本研究を進めるにあたって必要不可欠な技術として、C 言
語などのプログラミングの習得に大変お世話になりました。また、谷本心氏に
90
は英会話・ヒアリングの技術の習得を始め、コンピュータについての様々な相
談にのっていただきました。
松田敬子氏、Saharuddin Bin Mohamad 氏、Jitender Jit Singh Cheema 氏、
石部大介氏には、数多くの有用なアドバイスをいただきました。また、秘書の
町田淳子氏には日々の研究室の活動を支えていただきました。
皆様に心より深く感謝申し上げます。
91
参考文献
Altschul SF., Gish W, Miller W, Meyers EW., Lipman DJ. Basic Local
Alignment Search Tool. J Mol Biol. 1990;215(3):403-410.
Altschul SF., Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W,
Lipman DJ. Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs. Nucleic Acids Res. 1997;25: 3389-3402.
Arthur M. Lesk 著 “バイオインフォマティクス基礎講義－一歩進んだ発想を
みがくために”、株式会社メディカル・サイエンス・インターナショナル、2003
Carugo O. Predicting residue solvent accessibility from protein sequence
by considering the sequence environment. Protein Eng. 2000;13(9):607-9.
Chakrabarti P, Janin J. Dissecting Protein-Protein Recognition Sites.
Proteins. 2002;47:334-343.
Cynthia Gibas, Per Jambeck 著 “実践バイオインフォマティクス－ゲノム研
究のためのコンピュータスキル”、株式会社オライリー・ジャパン、2002
Fariselli P, Pazos F, Valencia A, Casadio R. Prediction of protein-protein
interaction sites in heterocomplexes with neural networks. Eur. J.
Biochem. 2002;269:1356-1361.
92
Fernandez A, Scheraga HA. Insufficiently dehydrated hydrogen bonds as
determinants of protein interactions. PNAS. 2003;100:113-118
Garnier J, Osguthorpe DJ, Robson B. Analysis of the accuracy and
implications of simple methods for predicting the secondary structure of
globular proteins. J Mol Biol. 1978;120(1):97-120.
Hall
TMT.
SAM
breaks
its
stereotype.
Nature
Structural
Biology.
2003;10:677-679.
Henrick K, Thornton JM. PQS : a protein quaternary structure file server.
1998;23(9):358-361.
Holley LH, Karplus M. Neural networks for protein structure prediction.
Methods Enzymol. 1991;202:204-24.
Hu Z, Ma B, Wolfson H, Nussinov R. Conservation of Polar Residues as Hot
Spots at Protein Interfaces. Proteins. 2000;39:331-342.
Jones S, Thornton JM. Protein-protein interactions: a review of protein
dimer structures. Prog. Biophys. Molec. Biol. 1995;63:31-65.
Jones S, Thornton JM. Principles of protein-protein interactions. Proc.
Natl. Acad. Sci. USA. 1996;93:13-20.
Jones S, Thornton JM. Analysis of Protein-Protein Interaction Sites using
Surface Patches. J. Mol. Biol. 1997;272:121-132.
93
Jones S, Thornton JM. Prediction of Protein-Protein Interaction Sites
using Patch Analysis. J. Mol. Biol. 1997;272:133-143.
Jones S, Shanahan HP, Berman HM, Thornton JM. Using electrostatic
potentials to predict DNA-binding sites on DNA-binding proteins. Nucleic
Acids Research. 2003;31:7189-7198.
Kabsch W, Sander C. Dictionary of protein secondary structure: Pattern
recognition of hydrogen-bonded and geometrical feature. Biopolymers.
1983;22:2577-2637.
Kumar S, Ma B, Tsai CJ, Nussinov R. Electrostatic Strengths of Salt
Bridges
in
Thermophilic
and
Mesophilic
Glutamate
Dehydrogenase
Monomers. Proteins. 2000;38:368-383.
Kyte J, Doolittle RF. A simple method for displaying the hydropathic
character of a protein. J. Mol. Biol. 1982;157(1):105-32.
Larsen TA, Olson AJ, Goodsell DS. Morphology of protein-protein
interfaces. Structure. 1998;6:421-427.
Lee B, Richards FM. The interpretation of protein structures: estimation of
static accessibility. J. Mol. Biol. 1971;55(3):379-400.
Ma B, Elkayam T, Wolfson H, Nussinov R. Protein-protein interactions:
Structurally conserved residues distinguish between binding sites and
exposed protein surfaces. PNAS. 2003;100:5772-5777.
Matthews BW. Comparison of the predicted and observed secondary
94
structure of T4 phage lysozyme. Biochim Biophys Acta. 1975;405(2):442-51.
Nooren IMA, Thornton JM. Structural Characterisation and Functional
significance of Transient Protein-Protein Interactions. J. Mol. Biol.
2003;325:991-1018.
Ofran Y, Rost B. Analysing Six Types of Protein-Protein Interfaces. J. Mol.
Biol. 2003;325:377-387.
Ofran Y, Rost B. Predicted protein-protein interaction sites from local
sequence information. FEBS. 2003;544:236-239.
Qian N, Sejnowski TJ. Predicting the secondary structure of globular
proteins using neural network models. J. Mol. Biol. 1988;202(4):865-84.
Rost B, Sander C. Prediction of protein secondary structure at better than
70% accuracy. J. Mol. Biol. 1993;232(2):584-99.
Stawiski EW, Gregoret LM, Mandel-Gutfreund Y. Annotating Nucleic
Acid-Binding
Function
Based
on
Protein
Structure.
J.
Mol.
Biol.
2003;326:1065-1079.
Wodak SJ, Janin J. “Advances in protein chemistry (Volume 61)－Protein
Modules and Protein-Protein Interaction”, Academic Press, 2002, p9-p73.
Xu D, Tsai CJ, Nussinov R. Hydrogen bonds and salt bridges across
protein-protein interfaces. Protein Engineering. 1997;10:999-1012.
95
Zhou HX, Shan Y. Prediction of Protein Interaction Sites From Sequence
Profile and Residue Neighbor List. Proteins. 2001;44:336-343.
96

修士論文 表面アミノ酸分布を用いた タンパク質間相互作用サイトの予測

Comments

Description

Transcript

修士論文表面アミノ酸分布を用いたタンパク質間相互作用サイトの予測