Comments
Description
Transcript
修士論文 マイクロアレイデータによる枯草菌のオペロン予測 清水仁
NAIST-IS-MT0251046 修士論文 マイクロアレイデータによる枯草菌のオペロン予測 清水 仁 2004 年 2 月 6 日 奈良先端科学技術大学院大学 情報科学研究科 情報生命科学専攻 本論文は奈良先端科学技術大学院大学情報科学研究科に 修士 (工学) 授与の要件として提出した修士論文である。 清水 仁 審査委員: 石井 信 教授 小笠原 直毅 教授 金谷 重彦 助教授 マイクロアレイデータによる枯草菌のオペロン予測∗ 清水 仁 内容梗概 原核生物のオペロン構造を決定することは遺伝子ネットワークを解明するため の初期のステップであり、これまでに DNA マイクロアレイデータ (以下、マイク ロアレイデータ) を用いて大腸菌などのオペロン構造予測を行う手法が開発され てきた。本研究では従来の手法を改良して、枯草菌 (Bacillus subtilis) についてマ イクロアレイデータに基づくオペロン構造の予測性能を向上させることを目指す ことを目的とする。 マイクロアレイデータにおける遺伝子間の相関関係とオペロン構造とを繋ぐベ イジアンネットワークモデルを提案し、提案モデルを用いて枯草菌のオペロン構 造を予測した。提案手法と従来手法の予測性能を比較した結果、有意な性能の向 上は見られなかった。この原因について考察を行った。 キーワード マイクロアレイ, 枯草菌, ベイジアンネットワーク, オペロン予測 ∗ 奈良先端科学技術大学院大学 情報科学研究科 情報生命科学専攻 修士論文, NAIST-ISMT0251046, 2004 年 2 月 6 日. i Operon prediction by microarray data in Bacillus subtilis ∗ Hitoshi Shimizu Abstract The aim of this research is to improve the performance of operon prediction by microarray data in Bacillus subtilis. In this report, I have developed a method that predicts the operon structure using DNA microarray data based on a Bayesian network model. But there was no significant difference between performance of the proposed method and that of the conventional one. Keywords: microarray, Bacillus subtilis, Bayesian network, operon prediction ∗ Master’s Thesis, Department of Bioinformatics and Genomics, Graduate School of Information Science, Nara Institute of Science and Technology, NAIST-IS-MT0251046, February 6, 2004. ii 目次 1. 序論 1 2. 生物学的な背景 2 2.1 分子生物学の基本的概念 . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 原核生物の転写機構とオペロン . . . . . . . . . . . . . . . . . . . 3 2.3 枯草菌について . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.4 DNA マイクロアレイについて . . . . . . . . . . . . . . . . . . . . 4 2.5 オペロン予測問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3. 本研究の目的 7 4. オペロン構造予測問題の定式化 8 4.1 予測の対象となる遺伝子対 . . . . . . . . . . . . . . . . . . . . . . 8 4.2 隠れ変数の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.3 正解率の定義と予測結果の評価 . . . . . . . . . . . . . . . . . . . 10 5. 従来手法 12 6. 提案手法 15 6.1 ベイジアンネットワークについて . . . . . . . . . . . . . . . . . . 15 6.2 モデルの構築 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.3 変分ベイズ法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 7. 相関係数の分布の推定 21 8. 本研究で扱うデータの特徴 22 8.1 マイクロアレイデータの特徴 . . . . . . . . . . . . . . . . . . . . 22 8.2 枯草菌に関するオペロン構造情報 . . . . . . . . . . . . . . . . . . 24 8.3 ラベルの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 iii 9. 結果 9.1 29 OP と NOP の発現量と相関係数の比較 . . . . . . . . . . . . . . . 29 9.1.1 実際の発現量の例 . . . . . . . . . . . . . . . . . . . . . . . 29 9.1.2 推定した確率密度関数 . . . . . . . . . . . . . . . . . . . . 29 9.2 事前確率の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 9.3 ベイジアンネットワークモデル用いた予測の性能 . . . . . . . . . 31 9.4 オペロン情報源による影響 . . . . . . . . . . . . . . . . . . . . . . 32 10. 数値シミュレーションによる検証 34 10.1 モデルに従って相関係数行列を生成した場合 . . . . . . . . . . . . 34 10.2 特定の母相関係数行列をもつ発現データから相関係数を計算した 場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. オペロン構造予測の性能を向上させるためのその他の試み 35 48 11.1 ゲノム情報の利用 . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 11.2 マイクロアレイデータの分割 48 . . . . . . . . . . . . . . . . . . . . 12. 考察 51 12.1 ベイジアンネットワークモデルの有効性について . . . . . . . . . 51 12.2 生成した相関係数行列の解析結果について . . . . . . . . . . . . . 56 12.3 ラベルの決定に関する問題 . . . . . . . . . . . . . . . . . . . . . . 57 12.4 類似度の選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 12.5 予測に不必要なサンプルの除去 . . . . . . . . . . . . . . . . . . . 58 12.6 生物学的な事前知識の利用 . . . . . . . . . . . . . . . . . . . . . . 58 12.7 ゲノム情報の利用 . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 12.8 他のマイクロアレイデータへの適用 . . . . . . . . . . . . . . . . . 59 12.9 マイクロアレイデータの分割について 59 . . . . . . . . . . . . . . . 13. 総括 61 謝辞 62 iv 参考文献 63 付録 67 A. 相関係数行列の性質 67 B. ヒストグラムに基いた確率密度関数の推定 70 B.1 β 分布を使った推定 . . . . . . . . . . . . . . . . . . . . . . . . . . 70 B.2 正規分布を使った推定 . . . . . . . . . . . . . . . . . . . . . . . . 71 C. オペロン情報の利用 73 D. 従来手法と提案手法の予測の違い 79 v 図目次 1 オペロンとは何か . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 予測の対象となる遺伝子列の大きさ . . . . . . . . . . . . . . . . . 9 3 ベイジアンネットワークモデルの例 . . . . . . . . . . . . . . . . 16 4 マイクロアレイデータの実験間の相関係数行列 . . . . . . . . . . 23 5 DBTBS のオペロンに含まれる遺伝子の個数 . . . . . . . . . . . . 25 6 ノーザンブロットで決定したオペロンに含まれる遺伝子の個数 . 26 7 epr, sacX, sacY の発現量 . . . . . . . . . . . . . . . . . . . . . . . 30 8 epr, sacX の発現量 . . . . . . . . . . . . . . . . . . . . . . . . . . 31 9 sacX, sacY の発現量 . . . . . . . . . . . . . . . . . . . . . . . . . 32 10 隣り合った遺伝子の発現量の相関係数の分布 . . . . . . . . . . . 33 11 OP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 12 NOP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 13 推定した相関係数の確率密度関数 . . . . . . . . . . . . . . . . . . 36 14 両方のオペロン情報を使った場合の予測性能 . . . . . . . . . . . 37 15 ノーザンブロットのオペロン情報のみを使った場合の予測性能 . 38 16 DBTBS のオペロン情報のみを使った場合の予測性能 . . . . . . . 39 17 モデルに従って生成した相関係数行列を用いた場合の予測性能 . 40 18 生成したデータにおける OP と NOP の相関係数の分布 . . . . . . 42 19 生成した相関係数での予測性能 . . . . . . . . . . . . . . . . . . . 44 20 生成モデルのノイズに関するパラメータの予測性能に対する影響 . 45 21 生成モデルのサンプル数に関するパラメータの予測性能に対する 影響 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 46 生成モデルのラベル誤りに関するパラメータの予測性能に対する 影響 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 . . . . . 50 . . . . . . . . . . . . . . . . . 53 . . . . . . . . . . . . . . . . . . 54 23 マイクロアレイデータを部分的に使った場合の予測性能 24 r23 = 0.5 における判別曲線の比較 25 r23 = 0 における判別曲線の比較 26 r23 = −0.5 における判別曲線の比較 vi . . . . . . . . . . . . . . . . 55 27 3 × 3 の相関係数行列の正定値性による制約 . . . . . . . . . . . . 28 3 × 3 の相関係数行列がとり得る値。r23 = 0.5(左)、r23 = 0(中)、 69 r23 = −0.5(右) で r12 (横軸) と r13 (縦軸) がとり得る値は、赤で示し . . . . . . . . . . . . . . . . . . . . . . . . . 70 1 正解率の定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 本研究で用いた DNA マイクロアレイデータの実験条件 . . . . . . 22 3 ラベルの個数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4 ラベルの重複部分 . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5 スペーサ長による予測との組み合わせ . . . . . . . . . . . . . . . 49 た領域に限られる。 表目次 vii 1. 序論 近年の分子生物学の進歩によって、現在までに多数の生物種のゲノムが解読さ れており、ポストゲノム時代がすでに始まっている。ポストゲノム時代において は、細胞内の多数の遺伝子が、どのような機能を持ち、互いにどのように関連し あって、生命全体としての機能を実現しているのかを解明することが、重要な課 題となっている。 大腸菌や枯草菌などの原核生物は、真核生物と比較して遺伝子の数が少なく、 また、ゲノムのサイズが小さく、全ゲノムが解読されている生物種も多い。この ようなモデル生物を対象にして、生命の機能を実現するメカニズムの研究が盛ん に行われている。 これらの原核生物の遺伝子ネットワークを解明するための初期のステップとな るのが、転写単位を決定することである。転写単位を決定することで、どの遺伝 子群が同時に制御されているかを決定する手がかりとなる。しかし、全ゲノムに 対して全ての転写単位を決定するためには、膨大な実験のためのコストと労力が 必要になる。そのため、ゲノムからの情報や DNA マイクロアレイ実験によって 転写単位の予測が可能になれば、メリットが大きいと考えられる。また転写単位 の予測方法は、様々な原核生物に対して一般に有効な手法であることが望ましい。 1 2. 生物学的な背景 2.1 分子生物学の基本的概念 この節では本論文で前提としている分子生物学の基本的概念を簡単に述べる 1 。 主に以降で用いる遺伝子、タンパク質、DNA 等に関する用語を定義することを 目的とする。 アミノ酸とはアミノ基とカルボキシル基をもつ有機化合物である。生物中には、 20 種類のαアミノ酸がある。タンパク質は、多数のアミノ酸のアミノ基とカルボ キシル基が脱水縮合によりペプチド結合を形成してできた化合物であり、構成要 素であるアミノ酸の一次元的な配列によってタンパク質の種類が決定されている。 酵素はタンパク質の一種であり、細胞の中の化学反応を進行させる触媒である。 タンパク質の種類によって、触媒する化学反応が異なる。タンパク質の一次元的 な配列は、細胞内の DNA の配列によってコードされている。核酸塩基 3 つでア ミノ酸 1 つをコードしているため、核酸塩基 3 つを単位としてコドンとよぶ。メ チオニンをコードしているコドンは翻訳開始の位置になることができるので、ス タートコドンとよぶ。タンパク質のアミノ酸配列自身や、そのアミノ配列をコー ドしている DNA の塩基配列のことを遺伝子とよぶ。 DNA はデオキシリボ核酸 (deoxyribonucleic acid) の略であり、糖、リン酸基、塩 基の 3 つの成分からなり、ヌクレオチドを単位として 4 種類の核酸塩基 (A,T,G,C) の配列となっている。DNA には方向があり、5’→3’ 方向と 3’→5’ 方向がある。DNA が複製されるときは 5’→3’ 方向に合成される。DNA は普通 2 本鎖の状態で細胞内 に存在している。DNA2 本鎖は逆向きの相補的な核酸塩基をもつ DNA 鎖から形 成されている。細胞の中に存在する遺伝情報の総体のことをゲノムとよぶが、基 本的に遺伝情報は DNA の塩基配列が保持しているため、一般には細胞内の DNA 配列全体のことをゲノムとよぶ。 生物中で働くタンパク質一つ一つの機能を解明していくことが、現在の生物学 の大きな課題となっている。例えば、ある遺伝子の発現が何によって制御されて いるか、生物の中でどの分子と相互作用するのか、生物の機能の内のどの部分を 1 この節の内容は文献 [22] を参考にした。 2 担っているか、等が様々な方法で研究されている。 2.2 原核生物の転写機構とオペロン 一般に、細胞内でタンパク質が合成されるときには、まず遺伝子をコードした DNA から mRNA に転写が起こり、転写された mRNA からタンパク質に翻訳さ れる。転写とは、DNA の一方鎖を鋳型に RNA が合成される反応であり、RNA ポリメラーゼが鋳型鎖 DNA に対し 3’→5’ 方向に RNA を伸長する [22]。このとき 鋳型鎖 DNA の 5’ 方向 (合成される RNA の 3’ 方向) を下流とよび、鋳型鎖 DNA の 3’ 方向 (合成される RNA の 5’ 方向) を下流とよぶ。 原核生物においては複数の遺伝子がまとまって転写される場合があり、この遺 伝子のまとまりをオペロンと呼ぶ (図 1)。複数の遺伝子がまとまって転写される 場合はポリシストロニック転写といい、単一の遺伝子が単独で転写される場合は モノシストロニック転写という [22]。本研究ではポリシストロニック転写の場合 だけでなく、モノシストロニック転写の場合にも、一つの遺伝子だけを含むオペ ロンであるとみなすことにする。また、生物種の全てのオペロンの集合をオペロ ン構造とよぶことにする。転写はふつう、プロモータとよばれる DNA 配列にタ ンパク質である転写因子が結合することによって開始され、下流へと転写が進み、 ターミネータとよばれる DNA 配列において終結する。 図 1 オペロンとは何か 生物学的機能に関連がある遺伝子群がオペロンになっていることがしばしばあ 3 るため、オペロンという言葉を使うときには機能的側面も意識されることが多い。 本研究のように、転写という現象についてのみ注目する場合には、オペロンの代 わりに、「転写単位」という言葉を使うことがある。 大腸菌における転写に関するデータベースとして、RegulonDB 2 があり、これ までの大腸菌の転写機構に関する研究から得られた知識がまとめられている [18]。 また枯草菌の転写に関するデータベースとして、DBTBS 3 があり、これまでの 枯草菌の転写機構に関する研究から得られた知識がまとめられている [13]。 2.3 枯草菌について 枯草菌は、大腸菌と同様にモデル生物としてよく研究されている細菌である。 ゲノムサイズが 4.3Mb で、約 4000 個の遺伝子を持っている原核生物であり、ゲノ ム配列は決定済みである [12]。本研究で使用した枯草菌のゲノム情報は Subtilist 4 からダウンロードした。 枯草菌ゲノムは環状の DNA 二本鎖であり、Subtilist においては方向 (Orienta- tion) が+か−かで区別されており、遺伝子は DNA の二本鎖のうちのどちらか一 つにコードされている。本研究において遺伝子に添字をつけるときには、Subtilist において座標 (Coordinates) と方向から判断して、スタートコドンの位置がより 上流に位置する遺伝子から下流に位置する遺伝子へと順番に添字が増加するよう につけた。 2.4 DNA マイクロアレイについて この節では本論文で扱う DNA マイクロアレイの技術について簡単に述べる 5 。 近年開発された DNA マイクロアレイの技術によって、多数の遺伝子にわたる 転写量を一度に測定することができるようになった。従来から一般に、細胞内の mRNA 量を測定するためにはノーザンブロットが行われてきた。ノーザンブロッ 2 http://www.cifn.unam.mx/Computational Genomics/regulondb/ http://dbtbs.hgc.jp/ 4 http://genolist.pasteur.fr/SubtiList/ 5 この節の内容は文献 [11] を参考にした。 3 4 トでは、ゲル電気泳動した mRNA に対して目的の mRNA と相補的な DNA 断片 をハイブリダイズさせ、ゲル中の目的の mRNA のバンドに存在する DNA 断片 の量によって mRNA の量を測定する。このプローブとばれる相補的な DNA 断片 を、数千から数万種類用意して、1cm2 程度の平面上に配置したものが DNA マイ クロアレイである。DNA マイクロアレイのように遺伝子の発現量を測定する手 法を発現解析とよぶ。また、DNA マイクロアレイによって測定されたある時点 での多数の遺伝子の発現量を発現プロファイルとよぶ。ただし発現プロファイル という言葉は、ある遺伝子の様々な条件における発現量についても用いられる場 合がある [11] ため紛らわしい。本研究においては、ある時点でのマイクロアレイ 実験の結果をサンプルとよぶことにする6 。 発現解析で用いられる DNA マイクロアレイ技術には、Affymetrix 社の GeneChip 技術とスポット型アレイ技術の二種類あり、主な違いは、Affymetrix 社のチップ では 1 種類の蛍光色素を mRNA の標識のために使うのに対して、スポット型ア レイでは 2 種類の蛍光色素をコントロールとサンプルにそれぞれ標識として使う ことである。しかし、どちらの DNA マイクロアレイを用いるとしても、コント ロールとサンプルを比較して、相対的な変化によって遺伝子の発現量の変化を判 断する点は共通である。本研究においてはスポット型アレイ技術で得られた 2 種 類の蛍光色素の蛍光強度の比 (発現比とよぶ) の、底が 2 の対数をとった値 (対数 発現比とよぶ) をマイクロアレイデータとして扱った。対数発現比は一般に正規 分布に近い分布をとる。 2.5 オペロン予測問題 2.2 節で述べた通り、大腸菌、枯草菌などの比較的研究の進んだモデル生物に おいては、そのオペロン構造に関する知識が蓄積されてきた。そのため、この知 見を利用して、その他の生物種に対しても適用できるようなオペロンを予測する 様々な試みがなされてきた。 解読されたゲノム情報を利用した方法の例として、いくつか列挙する。Selkov 6 ここで定義した意味の他にも、コントロールに対する言葉としての「サンプル」や、確率分 布からの「サンプル」といった表現を使う。 5 ら [19] は大腸菌において、オペロン内の遺伝子間領域が、オペロン間の遺伝子間 領域よりも短い傾向にあることを利用してオペロン構造を予測した。Ermolaeva ら [5] は大腸菌の近縁種について、オペロンは多数の種間で保存されやすいという 性質を利用して、比較ゲノム的手法によりオペロン構造を予測した。Zheng ら [28] は複数の種類の細菌について、代謝経路、すなわち機能的関連と、ゲノム配列上 での遺伝子の並び方を比較してオペロン構造を予測した。 DNA マイクロアレイを利用したオペロン予測手法も提案されている。Tjaden ら [23] は大腸菌に関して、遺伝子配列ばかりでなく、遺伝子間領域の配列に対す るプローブをもマイクロアレイに配置することで、遺伝子間領域の転写量を計測 するデータを得て、HMM によりオペロン構造の予測を行った。Sabatti ら [17] は 大腸菌について、DNA マイクロアレイで測定した発現量の相関係数を用いて予測 を行った。Bockhorst ら [1] は大腸菌について、マイクロアレイデータや様々なゲ ノム情報の特徴量をベイジアンネットワークを用いて組み合わせて事後確率を求 めることで予測性能を向上させた。枯草菌のオペロン構造予測問題に関しても、 Sabatti らの手法を適用した研究として、de Hoon らの研究が発表されている [3]。 DNA マイクロアレイ実験は mRNA を測定しているので、マイクロアレイデー タを用いることは、オペロンとされる部分が本当に転写されているかを実験的 に検証していることにもなる。この結果が、ゲノム配列からオペロン予測をした 予測結果と一致しているかどうかで、転写単位についての理解が深めることがで きる。しかしこれまでのところ、ゲノム配列によるオペロン構造予測結果と組み 合わせることで、より正確なオペロン構造の予測を目指す研究がなされてきてい る [17]。 6 3. 本研究の目的 枯草菌を対象に、マイクロアレイデータから得られる相関係数を用いてオペロ ン構造を予測する方法において、従来手法よりも高い予測性能が得られる手法の 開発を目指した。本研究で提案する手法は、従来手法で使われたゲノム上で隣あっ た遺伝子間の相関係数だけではなく、離れた遺伝子間の相関係数も予測のために 用いることを特長とするため、従来手法と比較して予測性能の向上が期待される。 またオペロン予測の問題を通して枯草菌のオペロンやマイクロアレイに関する 理解を深め、相関係数に関する知見やパターン分類問題における手法を学ぶこと も同時に目指した。 7 4. オペロン構造予測問題の定式化 この章では、Sabatti ら [17] のオペロン予測問題の扱い方をふまえて、マイク ロアレイデータによるオペロン構造予測問題を定式化する。 4.1 予測の対象となる遺伝子対 原核生物では、ゲノム上で同じ方向に連続してコードされている遺伝子群だけ がオペロンになりうる。つまり、ゲノム上で、同じ方向にコードされている、隣 り合った遺伝子のペアが、同じオペロンに属するか否かを決定することで、オペ ロン構造を決定することができる。そこで、同じ方向にコードされている、隣り 合った遺伝子のペアが、同じオペロンに属するか否かを予測することをオペロン 構造予測問題として扱う。 枯草菌のようにゲノムが解読されている生物種の場合は、遺伝子の並び方が わかっているので、予測の対象となる遺伝子対が決定できる。同じ方向にコード されている、隣り合った遺伝子のペアのうち、同じオペロンに属する遺伝子対を OP(Operon Pair) とよび、同じオペロンに属さない遺伝子対を NOP(Non-Operon Pair) とよぶ [17]。以後、既知の OP や NOP のことをラベルとよぶことにする。 同じ方向にコードされている遺伝子が、いくつ連続しているかを数えあげて、 個数についての分布をヒストグラムにしたものを、図 2 に示す。 4.2 隠れ変数の推定 遺伝子対が OP であるか NOP であるかを隠れ変数 zij を用いて表す。 1 遺伝子 i と遺伝子 j が OP のとき zij = 0 遺伝子 と遺伝子 が NOP のとき i (1) j この隠れ変数の集合を、 Z = {zij ∈ {0, 1}|i, j = 1, . . . , N } 8 (2) 500 frequency 400 300 200 100 0 0 10 20 30 number of ORFs in a flagment 図 2 予測の対象となる遺伝子列の大きさ 9 40 のように表すことにする。オペロン構造予測問題は、隠れ変数の集合 Z を推定す る問題であるということができる。 Z は全ての i と j の組み合わせについての隠れ変数を要素とする。しかし実際 には、|i − j| > 1 の場合の zij の事後確率を考えるときには、オペロンの性質か ら、次の条件が成り立つ必要がある。 k 番目の遺伝子が k+1 番目の遺伝子とが OP である事象を xk (= zk,k+1 ) = 1 と表す。 オペロンは連続した遺伝子の集合なので、以下の等式が成り立つ。 zij = j−1 Y xk (3) k=i これは例えば、1 番目の遺伝子と 2 番目の遺伝子が OP であり、かつ、2 番目の 遺伝子と 3 番目の遺伝子が OP であるならば、1 番目の遺伝子と 3 番目の遺伝子 も OP である、という規則を示している。 xk の集合は、X と表す。 X = {xk } = {zk,k+1 }. (4) X が決定すると Z も自動的に決定するため、オペロン構造予測問題は、隠れ変数 の集合 X を推定する問題であるということもできる。 ここで、予測のために用いるデータを D と表すことにすると、事後分布 P (Z|D) を求めることが、オペロン構造予測問題である。 4.3 正解率の定義と予測結果の評価 オペロン構造が既知の部分の発現データの特徴に基づき、未知の部分のオペロ ン構造を予測したい。しかし、未知のオペロン構造に対する予測は評価すること ができないので、既知のオペロン構造を予測したときの予測性能を高めることを 目指す。 オペロン構造予測の結果は、sensitivity と specificity の値によって評価する [17]。 sensitivity とは、正解が「OP」である遺伝子対のうち、推定が「OP」であったも 10 のの割合であり、specificity とは、正解が「NOP」である遺伝子対のうち、推定が A 「NOP」であったものの割合である。つまり表 1 において、sensitivity は A+C で、 D である。本研究では、この 2 つの値をまとめて「正解率」と呼 specificity は B+D ぶ。この 2 つの値ができるだけ大きくなるように推定をすることを目標とする。 表 1 正解率の定義 正解が OP 正解が NOP OP と予測 A B NOP と予測 C D ただし、sensitivity と specificity は、片方を向上させようとすると、他方が悪化 する傾向があるという特徴がある。このような sensitivity と specificity を同時に 評価するために、ROC 曲線を用いる。縦軸に sensitivity、横軸に 1 − specificity をとり、予測の閾値を変化させながら曲線を描き、より左上を通る曲線の予測性 能が高いと判断する。2 つの ROC 曲線は交差する場合があるため、性能を比較 する場合には ROC 曲線と x 軸が作る図形の面積 (ROC 曲線下面積) を比較する 場合がある。 11 5. 従来手法 Sabatti ら [17] が開発したオペロン構造予測の手法の説明を簡単に述べる。 オペロン内の遺伝子群は mRNA が共通しているため、マイクロアレイデータ における発現量の増減は、ノイズがなければ一致するはずであり、ノイズがある 状態でも、発現データは似ているはずである。一方異なるオペロンに属するの遺 伝子間では、発現データは比較的似ていないはずである。この傾向を利用してオ ペロン予測を行う。 まず、各遺伝子のマイクロアレイデータが似ているかどうかを判断するために、 類似度の尺度を決める必要がある。Sabatti らは、オペロン予測のために以下の ように計算される相関係数を類似度の尺度とした [17]。 ここで、i 番目の遺伝子の l 番目のサンプルでの対数発現比を yil とする。i 番目 の遺伝子と j 番目の遺伝子の相関係数 (rij ) は、i 番目の遺伝子の標準偏差 (SDi ) と i 番目の遺伝子と j 番目の遺伝子の共分散 (Covij ) とを用いて rij = Covij SDi SDj (5) のように表される。相関係数は −1 から 1 までの実数値をとり、完全に相関して いる場合には 1、無相関の場合には 0 になり、完全に逆相関している場合には −1 になる。 二つの遺伝子が同一のオペロンに属する場合、発現量の増減は完全に一致し、 相関係数は 1 になるはずである。しかし、一般に発現比の測定値にノイズがある 等の原因で、相関係数は厳密に 1 にはならない。それでも、オペロンである場合 と、オペロンでない場合とでは相関係数の傾向に差があるために、この値に基づ いてオペロン構造を予測することができる [17]。 Sabatti らは、次の仮説 A を設けた。 i, j 番目の遺伝子の発現ベクトルの相関係数 rij は、以下の条件によって 定まる確率密度関数 g(r) から生成されている。 • OP であるか NOP であるか、すなわち zij OP であるときの確率密度関数を g OP (r)、とし、NOP であるときの確率密度関 12 数を、g NOP (r)、とする。これらの確率密度関数は、ラベルのある遺伝子対の相 関係数から推定する (7 章参照)。 このモデルにより、|i − j| = 1 のときの、i 番目の遺伝子と j 目の遺伝子の相関 係数 rij を観測した時に、その二つの遺伝子が同じオペロンである事後確率、す なわち隠れ変数の事後確率が求められる。 P (zij = 1|rij ) = P (rij |zij = 1)P (zij = 1) P (rij ) (6) ただし、 P (rij ) = X P (rij |zij )P (zij ) (7) zij ={0,1} である。尤度の部分は、推定した確率密度関数 g O (r), g N (r) を使って p(rij |zij = 1) = g O (rij ) = g O ij p(r |z = 0) = g N (r ) = g N ij ij ij ij (8) のように書ける。 ただし、相関係数 rij を観測したとき、対応する OP、NOP の確率密度関数に rij を代入したときの値を、それぞれ gijO 、gijN と省略表現する。また、P (zij = 0) = 1 − P (zij = 1) である。 求めた事後確率が、閾値以上ならば「OP」、閾値以下ならば「NOP」と予測す る。今回、「OP」を「NOP」と誤って判断してしまうときのリスクと、「NOP」 を「OP」と誤って判断してしまうときのリスクとを区別しなかったので、通常 は閾値を 0.5 とする。DNA 鎖上で隣り合う遺伝子ペア (つまり |i − j| = 1) の全て に対して、この方法を適用することで、オペロン構造を予測することができる。 Sabatti らの手法を用いるとき、隣り合う遺伝子対がオペロンであることの事 前確率 P (zij = 1) が必要となる。作成したラベルにおける OP と NOP の割合か ら、隣り合う遺伝子対がオペロンである事前確率を求めることもできるが、オペ ロンは文献において報告されやすいが、オペロンでない遺伝子対についての情報 は文献において報告されることは少ないため、この方法では OP のほうに偏りが 13 生じる。de Hoon らによると、報告されたオペロンの長さから、隣り合う遺伝子 対がオペロンである事前確率を求めるほうが、より妥当な値が求められると言わ れている [3]。具体的には、オペロンにいくつの遺伝子が含まれているかに注目 して、オペロンに平均 n 個の遺伝子が含まれている場合の、隣り合う遺伝子対が オペロンである事前確率 p を、 p= (n − 1) n の式をもとに算出する。 14 (9) 6. 提案手法 従来手法においては隣り合う遺伝子間の相関係数のみを用いて予測を行ってい た。しかし、相関係数は離れた遺伝子間についても求めることができる。この離 れた遺伝子間の相関係数を予測に用いることで予測性能を向上させることができ ないかと考えた。そこで、離れた遺伝子間の相関係数を予測に用いるために、ベ イジアンネットワークモデルを構築した。 つまり、従来手法では隣り合った遺伝子間の相関係数 rij の集合を全データ D としていたが、本研究では、このマイクロアレイデータから遺伝子間の相関係数 rij を要素とする相関係数行列 R を計算し、これを全データ D とする。 D = {rij |i, j = 1, . . . , N } (10) 6.1 ベイジアンネットワークについて 確率変数の関係を図示する方法の一つとして、ベイジアンネットワーク7 があ る。ベイジアンネットワークにおいては、隠れ変数を四角のノードで示し、観測 される変数を丸のノードで示し、矢印で変数間の依存関係を示す。 ベイジアンネットワークをオペロン予測問題に応用した先行研究として、Bock- horst ら [1] があるが、彼らは様々な特徴量の関係をベイジアンネットワークで表 したのに対して、本研究ではマイクロアレイデータのみに注目し、相関係数行列 と遺伝子間の関係をベイジアンネットワークで表した。 6.2 モデルの構築 ベイジアンネットワークを使って、オペロン予測に必要な変数間の関係を表現 できる。図 3 では、遺伝子 1 から遺伝子 5 までが連続して同じ方向に並んでいる ときの例を示している。同じ方向に連続して並んでいる遺伝子の数が多いほど、 ネットワークの階層は深くなる。 7 ベイジアンネットワークの基本的な概念は文献 [16] における信念ネットワークと共通である。 15 r1,2 Z1,2 r2,3 r3,4 r4,5 r1,3 Z2,3 r2,4 Z3,4 r3,5 Z1,3 r1,4 Z2,4 r2,5 Z3,5 Z1,4 r1,5 Z2,5 Z1,5 図 3 ベイジアンネットワークモデルの例 16 Z4,5 赤い四角が相関係数を表している。青い丸が遺伝子間の関係に対応する隠れ変 数を表している。矢印で各変数間の依存関係を表している。 我々が提案するモデルでも、Sabatti らの仮説と同様の仮説 A を設ける。ただ し、|i − j| > 1 の場合にも仮説を適用することで、離れた遺伝子間の相関係数を 扱えるようにする。 6.3 変分ベイズ法 ベイジアンネットワークモデルにおいて正確に事後確率 P (zij = 1|D) を求める 場合、階層の深さ n に対して O(2n ) のオーダーで計算量が増加する。このため、 同じ方向の遺伝子が連続する部分は計算が困難となる。この計算を避けるために、 P (zij = 1|D) を変分ベイズ [8] を用いて近似的に求めることを試みた。 表記法を次のように決める。ただし q は変分ベイズ法の試験分布である。 qij q k = q(zij = 1) (11) = q(xk = 1). p(xk = 1) = α p(x = 0) = 1 − α. k (12) 変分ベイズ法を用いるために、次の独立分解仮定をおく。 k 6= k 0 −→ q(zk,k+1 = 1, zk0 ,k0 +1 = 1) = q(zk,k+1 = 1)q(zk0 ,k0 +1 = 1) (13) すなわち、 qij = j−1 Y k=i 17 qk,k+1 (14) ln p(D) = ln X p(Z|D) Z p(D|Z)P (Z) p(Z|D) p(D|Z)P (Z) の p(Z|D) に関する期待値の対数) p(Z|D) X p(D|Z)P (Z) ≥ q(Z) ln q(Z) Z (= (15) p(D|Z)P (Z) ( = ln の q(Z) に関する期待値) q(Z) X = q(Z){ln p(D|Z) + ln P (Z) − ln q(Z)} ≡ F [q(Z)]. (16) (17) Z この自由エネルギー F[q(Z)] を q(Z) に関して最大化する。 独立分解仮定の下で、自由エネルギーの計算をする。 F[q(Z)] = X q(Z){ln p(D|Z) + ln P (Z) − ln q(Z)} (18) Z 第 1 項を A、第 2 項を B 、第 3 項を C とする。 ここで、 A= X q(Z) = q(Z) X Z = XhXn i,j = = (19) ln p(rij |zij ) (20) i,j oi q(Z) ln p(rij |zij ) (21) ³ ´oi q(Z) ln gijO zij + gijN (1 − zij ) (22) Z Xh X n i,j = Z XhXn i,j ln p(rij |Z) i,j Z X X q(zij ) ln zij ∈{0,1} Xh³ Y i,j ³ q(xk = 1) ´ gijO zij + ln gijO gijN ´oi (1 − zij ) ³ + 1− i≤k<j Y i≤k<j 18 (23) ´ q(xk = 1) ln gijN i . (24) また、 X B= q(X) ln P (X) (25) X i Xh = qk ln α + (1 − qk ) ln(1 − α) (26) k と、 C= X q(X) ln q(X) (27) X i Xh = qk ln qk + (1 − qk ) ln(1 − qk ) (28) k なので、 F[q(Z)] = Xh³ Y i,j + Xh ´ q(xk = 1) ln gijO ³ + 1− i≤k<j i Y ´ q(xk = 1) ln gijN i i≤k<j qk ln α + (1 − qk ) ln(1 − α) k i Xh qk ln qk + (1 − qk ) ln(1 − qk ) − k = Xh³ Y i,j + Xh (29) ´ ³ ´ i Y q(xk = 1) ln gijO + 1 − q(xk = 1) ln gijN i≤k<j i≤k<j i qk (ln α − ln qk ) + (1 − qk )(ln(1 − α) − ln(1 − qk )) . (30) k ここで、qk に関して、この F[q(Z)] を勾配法で最大化する。 ∂ ∂ql Y i≤k<j qk = Q i≤k<j qk i ≤ l < j のとき 0 それ以外のとき ql 19 (31) なので、 ∂F[q(Z)] ∂A ∂B ∂C = + + (32) ∂ql ∂ql ∂ql ∂ql Q i Xh i≤k<j qk = (ln gijO − ln gijN ) ql i≤l<j h i h ql i 1 − ln(1 − ql ) + + ln α − ln(1 − α) − ln ql + 1 − (33) 1 − ql 1 − ql Q i Xh i≤k<j qk O N (ln gij − ln gij ) = ql i≤l<j h i h i + ln α − ln(1 − α) − ln ql − ln(1 − ql ) . (34) DNA 鎖上で隣り合う遺伝子がオペロンであるかどうか、すなわち xk の予測を 最尤法で行うために、勾配法を実行する。勾配法の繰り返しアルゴリズムが収束 したときの試験分布 q を予測結果とする。 20 7. 相関係数の分布の推定 従来手法においても提案手法においても、OP と NOP の場合の相関係数の分布 関数 (p(rij |zij = 1) と p(rij |zij = 0)) がそれぞれ必要となる。マイクロアレイデー タを使った枯草菌におけるオペロン予測の先行研究において、de Hoon ら [3] は 相関係数の分布関数をヒストグラムから Epanechnikov カーネルを使って推定し た。本研究でも、先行研究と同様に Emapnechnikov カーネルを用いて相関係数 の分布を推定することにした。 x1 , . . . , xn を確率変数 X の n 個の独立な観測値とする。カーネル関数 K(•) を 使った確率密度関数の推定では、x における密度 fh (x) の推定量として n 1 X xi − x fh (x) = ) K( nh i=1 h (35) が使われる。ただし h はカーネルの幅に対応する変数である。Epanechnikov カー ネルは、 K(u) = 3 (1 − u2 ) (|u| ≤ 1 のとき) 0 (それ以外のとき) 4 である。 21 (36) 表 2 本研究で用いた DNA マイクロアレイデータの実験条件 培地条件 ストレス応答 系列数 8 系列 3 系列 サンプル数 72 サンプル 16 サンプル 8. 本研究で扱うデータの特徴 8.1 マイクロアレイデータの特徴 本研究では枯草菌のオペロン構造予測を行うために、枯草菌のマイクロアレイ データ (3917 遺伝子× 88 サンプル) を用いた。このマイクロアレイデータは、様々 な培養条件の枯草菌について、ほとんど全て (3917 個) の遺伝子の発現量を測定 したものである [27]。 88 サンプルは培地の種類や、ヒートショックやコールドショックなどの刺激条件 を変えて採取したものである。実験条件は、表 2 に示す通りである。コントロー ルは全て共通で、培養開始から初期 (150 分) の対数増殖期の枯草菌である。本研 究で用いたマイクロアレイデータには、8 種類の培地条件と 3 種類のストレス条 件の時系列データが含まれている。 このデータの中には発現量が測定できなかったものも含まれており、約 6.6% (22654 個) のデータが欠測している。この欠測値は欠測補完アルゴリズムを用い て補完した [15]。 発現プロファイルは実験間でどれくらい似ているかを調べるために、実験間で 相関係数行列を計算した (図 4)。赤い部分は相関係数が大きいことを示し、青い 部分は相関係数が小さいことを示している。黒い四角の枠で、実験条件が同じサ ンプルを囲んだ。枠の中では、左から右 (上から下) の順に時系列になっている。 22 10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 図 4 マイクロアレイデータの実験間の相関係数行列 23 80 8.2 枯草菌に関するオペロン構造情報 枯草菌はゲノム全体の内で、ある程度の部分のオペロン構造が既に調べられて いる。ここで、本研究において既知としたオペロン構造の根拠としたオペロンに 関する情報について述べる。オペロンに関する情報のことを、オペロン情報、ま たはオペロン構造情報とよぶ。 本研究では 2 種類のオペロン情報を用いた。一つ目がノーザンブロットの結果 であり、二つ目が公開データベース DBTBS である。 ノーザンブロットの結果からは、206 の部分が同一の mRNA に転写され得るこ とがわかっている (personal communication) ので、これらを枯草菌のオペロンと 見なすことにした。ノーザンブロットの結果は、情報のある部分がゲノム上にお いて偏っているが、情報のある部分に関してはほとんどの遺伝子に関して網羅さ れているという特徴がある。 公開データベース DBTBS [13] を利用すると、Web サイトからオペロンの情報 を抽出することで、ノーザンブロットの結果とは別のオペロン構造情報を用いる ことができる。DBTBS のオペロンに関する情報は、文献から得られる情報を集 めているため、ノーザンブロットの比較して、情報のある部分がゲノム上に分散 しているという特徴がある。 この二つのオペロン情報におけるオペロンの長さのヒストグラムを図 5 と図 6 に示す。この図から、含まれる遺伝子の数が多くなるにつれて、オペロンの数は 指数関数的に減少していくことがわかる。 8.3 ラベルの作成 相関係数の分布の推定や正解率の計算をするためには、8.2 節の 2 種類のオペ ロン構造情報から遺伝子対の関係を決定する必要がある。 Sabatti ら [17] の決め方に従って、オペロン構造情報をもとにして、DNA 鎖上 で隣り合う二つの遺伝子間の関係を「OP(Operon pair) : 同一のオペロンに属す る」,「NOP(Non-Operon Pair) : 同一のオペロンに属さない」, 「unknown : オ ペロン構造情報からではわからない」の三つのうちどれかを決定した。決定した 24 number of ORF in an operon (DBTBS) 70 60 frequency 50 40 30 20 10 0 0 5 10 15 number of ORF 20 図 5 DBTBS のオペロンに含まれる遺伝子の個数 25 25 30 number of ORF in an operon (northern) 120 100 frequency 80 60 40 20 0 0 2 4 6 number of ORF 8 10 図 6 ノーザンブロットで決定したオペロンに含まれる遺伝子の個数 26 12 表 3 ラベルの個数 ラベルの個数 出現率 DBTBS OP 323 0.718 DBTBS NOP 127 0.282 ノーザンブロット OP 202 0.692 ノーザンブロット NOP 90 0.308 表 4 ラベルの重複部分 DBTBS で OP DBTBS で NOP ノーザンで OP 65 1 ノーザンで NOP 7 22 遺伝子対の関係がラベルとなる。遺伝子 i と遺伝子 i+1 の関係は次のような規則 で決定した。 1. 遺伝子 i が単独でオペロンである場合、「NOP」である。 2. 遺伝子 i+1 のオペロン名が不明の場合、「unknown」である。 3. 遺伝子 i と遺伝子 i+1 のオペロン名が一致する場合、「OP」である。 4. 上のいずれでもない場合、「NOP」である。 ノーザンブロットからのオペロン情報と DBTBS からのオペロン情報には、重 複する部分が存在した。二つのオペロン情報からのラベルが一致する場合が多 かったが、矛盾する場合もいくつかあった (表 4)。これは、重複する部分のうち の 8.4% が、別のオペロン情報と矛盾していることを示している。ラベルが矛盾 した場合、どちらかが誤りであるはずなので、8.4% の半分程度の割合 (4.2% 程 度) で誤りが実際に存在する可能性があると考えられる。 ラベルが矛盾していた場合には、どちらのラベルが正しいかを決定する方法が 27 ないため、確率密度関数の推定や正解率の計算には矛盾している部分を除いて用 いた。 DNA 鎖上で隣り合う遺伝子ペアの場合は以上の規則によって一意に決定でき る。さらに、DNA 鎖上で間に他の遺伝子が存在する遺伝子 i と遺伝子 j の関係を 次のような規則で決めた。 1. 遺伝子 i と遺伝子 j の間のある遺伝子ペアの関係が「NOP」である 場合、「NOP」である。 2. 遺伝子 i と遺伝子 j の間の遺伝子ペアの関係に「NOP」がない場合 であり、かつ、ある遺伝子ペアの関係が「unknown」である場合、 「unknown」である。 3. 上のいずれでもない場合、「OP」である。 以上の方法によってラベルを決定し、性能は「OP」又は「NOP」の部分だけ について評価した。 28 9. 結果 9.1 OP と NOP の発現量と相関係数の比較 9.1.1 実際の発現量の例 epr、sacX、および sacY はこの順番で同じ方向に並んでいる遺伝子であり、こ の前後は逆向きの遺伝子に挟まれているので、この 3 つで 1 つの断片を形成して いる。epr と sacX の間に DegU、SacT、および SacY 等の転写因子が結合する配 列が存在することが知られており [2, 24, 29]、この断片には epr と、sacXY との 2 つのオペロンが存在することになる。つまり、epr と SacX との関係は NOP で あり、SacX と SacY との関係は OP である。 この 3 つの遺伝子の発現量を図 7 に示した。縦線は実験系列の区切り目を表し ており、実験系列内では時系列に左から右へ並んでいる。sacX と sacY の発現量 の増減は、かなり似た挙動を示しているが、epr はこれらとは異なった挙動を示 していることがわかる。このことは以下のように相関係数を用いて定量的に説明 できる。 epr の発現比と sacX の発現比を散布図を図 8、sacX の発現比と sacY の発現比を 散布図を図 9 に示す。epr と sacX の間の相関係数は 0.0739 であり、sacX と sacY の間の相関係数は 0.8066 である。以上のように、OP の相関係数は NOP の相関 係数より大きな値をとる傾向は、他のオペロンにおいても一般的に見られる。 隣り合った遺伝子の発現量の相関係数のヒストグラムを図 10 に示す。また、OP と NOP の相関係数のヒストグラムをそれぞれ図 11、図 12 に示す。 9.1.2 推定した確率密度関数 ラベルの作成にノーザンブロットと DBTBS の情報の両方を用いた場合に、h の値を変化させながら推定した OP と NOP の相関係数の確率密度関数の形を図 13 に示す。推定した確率密度関数はこの範囲の h ならばある程度ヒストグラム の形状 (図 11、12) と近いと思われる。確率密度関数の滑らかさは Epanechnikov カーネルの幅 (h) によって異なり、h が大きいほど確率密度関数は滑らかになる。 29 typical expression pattern of OP and NOP 4 epr sacX sacY log ratio of expression 3 2 1 0 −1 −2 0 10 20 30 40 50 60 experiment number 70 80 90 図 7 epr, sacX, sacY の発現量 一般に、h を決定するためにはクロスバリデーションによって最適化を行う必 要がある [21]。しかし、本研究では従来手法と提案手法の性能の差を調べること を優先したので、この確率密度関数の滑らかさが適当と思われる h の値を共通に 用いた。以降では、Epanechnikov カーネルの幅 h は 0.2 を用いた。 9.2 事前確率の推定 本研究でラベルの作成に用いるオペロン情報のうち、ノーザンブロットから得 られたオペロン情報で同様に計算すると、n = 2.09, p = 0.52 となった。そこで以 降では、隣り合う遺伝子対がオペロンである事前確率を、0.52 となる。 遺伝子の長さに偏りがある場合には、オペロンに含まれる遺伝子の個数より も、オペロンに含まれる塩基対の数で計算するほうが正しい値が求められるかも しれない。そこで、単位を bp にして同様の計算を試みた。オペロンの平均長さ 30 scatter plot of NOP 3.5 3 2.5 log ratio of sacX 2 1.5 1 0.5 0 −0.5 −1 −1.5 −2 −1.5 −1 −0.5 0 0.5 1 log ratio of epr 1.5 2 2.5 3 図 8 epr, sacX の発現量 は 1978bp であり、一つの遺伝子の長さの平均は 880bp であり、よってオペロン 中の遺伝子の個数の平均は 2.25 個となり、p = 0.55 となる。 この結果から、遺伝子の個数で計算した場合と比較して、大きな差はないこと がわかった。そこで、隣り合う遺伝子対がオペロンである事前確率の値として、 先行研究と同様の方法で求めた、0.52 を用いた。 9.3 ベイジアンネットワークモデル用いた予測の性能 ラベルの決定しているデータから推定した相関係数の確率密度関数と、前節で 求めた事前確率を用いて、従来手法と提案手法によってオペロン構造予測を行っ 31 scatter plot of OP 2.5 2 log ratio of sacY 1.5 1 0.5 0 −0.5 −1 −1.5 −1.5 −1 −0.5 0 0.5 1 1.5 log ratio of sacX 2 2.5 3 3.5 図 9 sacX, sacY の発現量 た。ベイジアンネットワークモデルを用いた予測の性能と、従来手法の予測の性 能を ROC 曲線によって比較した (図 14)。意外なことに、提案手法は従来手法の 予測性能を上回らなかった。 9.4 オペロン情報源による影響 ノーザンブロットの結果からのオペロン情報と DBTBS のオペロン情報とを両 方使ってラベルを作成した場合には、提案手法と従来手法とで、予測性能に有意 な差は見られなかった。しかし、二つのオペロン情報に質的な差が存在する可能 性も考えられる。 32 adjacent ORFs 450 400 350 frequency 300 250 200 150 100 50 0 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 correlation coefficient 0.4 0.6 0.8 1 図 10 隣り合った遺伝子の発現量の相関係数の分布 そこで次に、それぞれのラベルを別々に作成した場合には、提案手法と従来手 法とで、予測性能に差が見られるかを検討した。 オペロン情報として、ノーザンブロットの結果のみ、DBTBS のオペロン情報、 ROC 曲線で示した (図 15, 16)。赤い線がベイジアンネットワークモデルを用い た場合の性能で、青い線が従来手法の性能である。ROC 曲線から判断する限り、 どちらのオペロン情報から正解データを作成しても、提案手法と従来手法には有 意な差は見られなかった。 33 OP 160 140 120 frequency 100 80 60 40 20 0 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 correlation coefficient 0.4 0.6 0.8 1 図 11 OP 10. 数値シミュレーションによる検証 実際のマイクロアレイデータに対してオペロン構造予測を行った結果、ベイジ アンネットワークモデルの有効性を確認することはできなかった。その原因とし て、モデルに問題がある場合と、マイクロアレイデータに問題がある場合との二 通りが考えられる。どちらが原因か調べるために、計算機を使い、生成モデルに 基く相関係数行列を生成して数値シミュレーションを行うことで検証することを 試みた。 10.1 モデルに従って相関係数行列を生成した場合 まず、ラベルに基いて OP と NOP の相関係数の確率密度関数を推定する。そ して、推定した確率密度関数に従った相関係数行列を生成し、この相関係数行列 34 NOP 25 frequency 20 15 10 5 0 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 correlation coefficient 0.4 0.6 0.8 1 図 12 NOP に対して従来手法と提案手法でオペロン構造の予測を行った。 この場合、ベイジアンネットワークを使った手法は、ROC 曲線での評価におい て、従来手法の性能を上回った (図 17)。ただし実線がベイジアンネットワークモ デルによる予測であり、点線が従来手法による予測であり、丸印が閾値 0.5 の点で ある。ただし、このように生成した相関係数行列は、必ずしも正定ではなく、現 実の相関係数行列ではありえない行列になってしまうことがある (付録 A 参照)。 10.2 特定の母相関係数行列をもつ発現データから相関係数を計算 した場合 次に数値シミュレーションにおいて、正定である相関係数行列に対して提案手 法の有効性を検証することを試みた。正定である相関係数行列を生成するために、 35 estimated distribution (h = 0.1) 0.035 0.03 OP NOP 0.025 0.015 0.005 0.005 −0.5 0 correlation 0.5 0 −1 1 estimated distribution (h = 0.3) 0.03 0.02 density density 0.015 0.01 −0.5 0.5 1 estimated distribution (h = 0.4) OP NOP 0.01 −0.5 OP NOP 0 correlation 0.5 1 estimated distribution (h = 0.6) 0.02 OP NOP 0.015 0.015 0.01 0.01 0.005 0.005 −0.5 0 correlation 0.5 0 −1 1 estimated distribution (h = 0.7) 0.02 −0.5 0.014 0.5 1 OP NOP 0.012 density 0.015 0 correlation estimated distribution (h = 0.8) 0.016 OP NOP density 0.5 0.015 0 −1 1 density density 0 correlation estimated distribution (h = 0.5) 0.025 0 −1 0 correlation 0.005 0.005 0.02 −0.5 0.025 OP NOP 0.02 0 −1 0.015 0.01 0.01 0.025 OP NOP 0.02 0.02 density density 0.025 0 −1 estimated distribution (h = 0.2) 0.03 0.01 0.01 0.008 0.006 0.005 0.004 0.002 0 −1 −0.5 0 correlation 0.5 0 −1 1 −0.5 図 13 推定した相関係数の確率密度関数 36 0 correlation 0.5 1 ROC curves 1 0.9 0.8 0.7 Sensitivity 0.6 0.5 0.4 0.3 0.2 proposed method 0.1 conventional method 0 0 0.1 0.2 0.3 0.4 0.5 1 − Specificity 0.6 0.7 0.8 図 14 両方のオペロン情報を使った場合の予測性能 37 0.9 1 ROC curves 1 0.9 0.8 0.7 Sensitivity 0.6 0.5 0.4 0.3 0.2 proposed method 0.1 conventional method 0 0 0.1 0.2 0.3 0.4 0.5 1 − Specificity 0.6 0.7 0.8 0.9 図 15 ノーザンブロットのオペロン情報のみを使った場合の予測性能 38 1 ROC curves 1 0.9 0.8 0.7 Sensitivity 0.6 0.5 0.4 0.3 0.2 proposed method 0.1 conventional method 0 0 0.1 0.2 0.3 0.4 0.5 1 − Specificity 0.6 0.7 0.8 図 16 DBTBS のオペロン情報のみを使った場合の予測性能 39 0.9 1 1 Sensitivity 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 1 − Specificity 0.8 図 17 モデルに従って生成した相関係数行列を用いた場合の予測性能 40 1 マイクロアレイデータを生成する簡単なモデルを作成し、そのモデルから生成さ れたデータの相関係数行列を数値シミュレーションに用いた。 特定の母相関係数行列をもつデータの生成は、指定した母相関係数行列をコレ スキ分解8 して得られた行列を、正規乱数に乗じることで実現できる。OP の母 相関係数、NOP の母相関係数はパラメータとして指定する。このように作成し た相関のある行列に、測定ノイズを加えて生成マイクロアレイデータとする。さ らに 8.2 節において調べたようなラベル誤りの影響を調べるために、θ の割合で ラベル (OP と NOP) の置換を行う。 具体的には以下のようになる。 まず、サンプル数 d と遺伝子数 q を決める。生成マイクロアレイデータのもと になる正規乱数行列 (d × q) を M とする。M の各要素を、N (0, 12 ) からのサンプ ルとする。母相関係数行列 (q × q) を R、測定ノイズ (d × q) を N = N (0, n2 ) から のサンプルとする。ノイズの大きさ n は N (0, σ 2 ) からのサンプルである。ただし σ は、ノイズの大きさを調節するパラメータとする。母相関係数行列のコレスキ 分解 L は、R = LLT を満たし、これを用いて、生成マイクロアレイデータ E は、 E = ML + N (37) とする。 ただし、実際のマイクロアレイデータは実験間に相関があるため (8.1 節参照)、 全ての実験が独立である生成発現データを生成すると、相関係数の分布が実際の マイクロデータから計算した相関係数の分布とは異なった形になる。そこで M の 行列の大きさを調節して実際の相関係数の分布に近くできるようにサンプル数 d をパラメータとして設定する。 以上のモデルにおいてパラメータは、OP と NOP の母相関係数、ラベル誤り の割合、ノイズの大きさ、サンプル数、遺伝子数、OP と NOP の出現する比率で ある。このモデルにおいて、遺伝子数が 3 の場合を考えた。これは、離れた遺伝 子間の相関係数を考えることができる最小の遺伝子数であり、この場合において 8 コレスキ分解とは、正定値行列 A を下三角行列 L を用いて、A = LLT となるように分解す る方法である [7]。 41 提案手法の有効性を確かめることができれば、遺伝子数が多数の場合の有効性も 類推できるだろうと考えたからである。 パラメータの設定を、OP の母相関係数を 0.99、NOP の母相関係数を 0.2、シ グナルに対するノイズの大きさ σ = 0.5、サンプル数 d = 10、ラベル誤りの割合 θ = 0.05、OP と NOP の出現する比率 0.5 とすることによって、実データの相関 係数の分布とよく似た分布を得ることができた。 このような遺伝子列のデータを 1000 ずつ、合計 4000 生成し、生成したデータ の相関係数を計算し、OP の場合と NOP の場合でヒストグラムから確率密度関 数を推定した (図 18)。 estimated distribution (h = 0.2) 0.05 OP NOP density 0.04 0.03 0.02 0.01 0 -1 -0.5 0 correlation 0.5 1 図 18 生成したデータにおける OP と NOP の相関係数の分布 長距離相関がオペロン予測に有効であるかどうかを検証するために、この方法 で生成した相関係数を対象として、ベイジアンネットワークモデルによる予測と、 42 従来手法による予測を行い、予測性能を比較した。ただし予測する際の事前確率 は、真の値である p(zij = 1) = p(zij = 0) = 0.5 を用いた。また、提案手法のベイ ジアンネットワークの階層はこの場合 2 階層であるため、変分ベイズ法を用いず に結合事後確率を直接求めてから周辺化することによって、各遺伝子対が OP で ある確率を求めた。 結果を ROC 曲線で表した (図 19)。赤い線でベイジアンネットワークモデルで の予測性能を示し、青い線で従来手法の予測性能を示し、丸印で閾値を 0.5 に設 定したときの正解率を示している。ベイジアンネットワークモデルによる予測が 従来手法の予測よりも、正解率において上回っている部分もあり、また、下回っ ている部分もあるため、有意な差があるかどうかを判断することは難しい。 この生成モデルのパラメータを変化させることによって、提案手法が従来手法 の予測性能を上回る条件があるかどうかを調べた。前述のパラメータのうち、シ グナルに対するノイズの大きさ σ のみ、サンプル数 d のみ、ラベル誤りの割合 θ のみの値を変化させたときの提案手法と従来手法の性能の変化を ROC 曲線の下 の面積の変化によって、それぞれ、図 20、図 21、図 22 に示した。青線が提案手 法、赤線が従来手法の ROC 曲線下面積である。ROC 曲線下面積は、3 回のシミュ レーション結果の平均値を用いた。これらの図から、この生成モデルにおいては、 ノイズの大きい場合、サンプル数が多い場合には、提案手法の予測性能が従来手 法の予測性能を上回る可能性があるが、ラベル誤りの割合の変化による影響はほ とんどないことが示唆された。 43 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 図 19 生成した相関係数での予測性能 44 0.8 1 ! "#$! 図 20 生成モデルのノイズに関するパラメータの予測性能に対する影響 45 '()* + ,)* !#"%$& 図 21 生成モデルのサンプル数に関するパラメータの予測性能に対する影響 46 '()* + ,-)* "!#$&% 図 22 生成モデルのラベル誤りに関するパラメータの予測性能に対する影響 47 11. オペロン構造予測の性能を向上させるためのその他 の試み 11.1 ゲノム情報の利用 ゲノム DNA のうち遺伝子をコードしていない部分をスペーサと呼ぶ。スペー サの長さをスペーサ長と呼ぶことにする。オペロン内でのスペーサ長は、オペロ ンの境界のスペーサ長よりも短い傾向がある [26]。以前からスペーサ長を利用し たオペロン予測が可能であったが、この予測とマイクロアレイデータによる予測 とを組み合わせることで、片方だけ使った場合よりも予測性能を向上させられる ことが、大腸菌や枯草菌の解析において報告されている [17] [3]。 本研究でも、スペーサ長での予測を組み合わせることによって、予測性能の向 上を目指した。枯草菌のゲノムデータについては、フランスのパスツール研究所 の Web サイト subtilist から入手した [14] ゲノム情報からスペーサ長を計算した。 このスペーサ長による予測をマイクロアレイデータによる予測と組み合わせるこ とで、閾値を 0.5 としたときの正解率を向上させられることが確認できた (表 5)。 Bockhorst ら [1] は、マイクロアレイデータに加えて、プロモータ予測の手法か らの特徴量や、ターミネータ予測の手法からの特徴量を利用して大腸菌のオペロ ンに対する予測性能を向上させた。枯草菌においてもこれらの手法は有効である だろうと考えられるが、枯草菌では大腸菌よりも ρ 因子非依存性ターミネータが 重要であると報告されており [25]、手法の適用に工夫が必要な部分があるかもし れない。 11.2 マイクロアレイデータの分割 この節では、マイクロアレイデータのうち、培地条件の実験系列だけを使った 場合と、ストレス応答の実験系列だけを使った場合とで、オペロン予測の性能に 差があるかどうかを調べる。 マイクロアレイデータを表 2 のように、培地条件実験系列と、ストレス応答実 験系列に分けて、それぞれを使い相関係数行列を求め、それぞれでオペロン構造 48 予測方法 表 5 スペーサ長による予測との組み合わせ sensitivity specicifity スペーサ長のみ 0.79 0.77 マイクロアレイデータのみ(従来手法) 0.80 0.79 マイクロアレイデータ(従来手法)+スペーサ長 0.83 0.84 マイクロアレイデータのみ(提案手法) 0.78 0.80 マイクロアレイデータ (提案手法)+スペーサ長 0.82 0.81 予測を行い、ROC 曲線を求めたグラフを図 23 に示す。 赤い線が培地条件実験系列のデータのみから求めた相関係数を使った場合、青 い線がストレス応答実験系列のデータのみから求めた相関係数を使った場合、黒 い線が全てのデータを使って求めた相関係数を使った場合である。 培地条件実験系列のほうは、全データの場合とほとんどかわらない性能を示し ているが、ストレス応答実験系列のほうは、性能が大きく悪化する。ただし、培 地条件実験系列は 72 サンプルあるのに対して、ストレス応答実験系列は 16 サン プルしかないので、単純に比べることはできない。 49 ROC curves 1 0.9 0.8 0.7 Sensitivity 0.6 0.5 0.4 0.3 0.2 medium condition 0.1 stress response all samples 0 0 0.1 0.2 0.3 0.4 0.5 1 − Specificity 0.6 0.7 0.8 図 23 マイクロアレイデータを部分的に使った場合の予測性能 50 0.9 1 12. 考察 12.1 ベイジアンネットワークモデルの有効性について マイクロアレイデータの相関係数を用いてオペロン予測を行うことに関して、 提案手法は従来手法よりも扱うデータの量が多くなるために、性能が向上するの は一見当然であるかのように思える。しかし残念ながら、実データに対して提案 手法による性能向上は有意には見られなかった。そこで、その原因を調べるため に提案手法と従来手法の予測がどのように異なるかを調べた。 従来手法におけるオペロン予測は、相関係数の入力 1 次元、事後確率の出力 1 次元の関数と考えることで、平面上のグラフにも図示しやすいために対応関係が 理解しやすい。しかし提案手法においては、同じ方向に並んでいる遺伝子の数に よって入力次元が変化し、場合によっては大きな次元になるために、入力と出力 の関係が理解しにくい。そこで、予測する対象である隠れ変数の添字が z12 となる ように添字を付け直した場合に、z12 を予測するために相関係数の内で r12 , r23 , r13 の 3 次元を使う状況のみを考えることにする。3 次元ならばグラフで図示するこ とが容易であるからである。また、解析に便利なように z12 , z23 の両方のラベル が OP か NOP に決定している部分のみを扱うことにした。以上の条件を満たす データは 439 個あった。提案手法のベイジアンネットワークの階層はこの場合 2 階層であるため、変分ベイズ法を用いずに結合事後確率を直接求めてから周辺化 することによって、P (z12 = 1|r12 , r23 , r13 ) を求めた。 (x, y, z) = (r12 , r23 , r13 ) の 3 次元空間を考えると、従来手法は、閾値を 0.5 と したときにはおおよそ r12 = 0.530 の平面が判別平面となり、r12 > 0.530 のとき OP と判別し、r12 < 0.530 のとき NOP と判別する。一方提案手法では、3 次元空 間で非線形な判別曲面をつくる。この判別曲面を確認するために、r23 が 0.5、0、 −0.5 のときの (x, z) 平面での判別曲線を、それぞれ図 24、図 25、図 26 に示し た。ただし、横軸が r12 、縦軸が r13 である。青の直線が従来手法による判別境界 で、赤の曲線が提案手法による判別境界を示す。また、同時に、実際のデータ点 のうち、r23 ≥ 0.5、0.5 > r23 > 0、r23 < 0 である点を、それぞれ図 24、図 25、 図 26 に重ねた。赤の○が提案手法によって正しく判別された OP、赤の×が提案 51 手法によって誤って判別された OP、青の○が提案手法によって正しく判別され た NOP、青の×が提案手法によって誤って判別された NOP を示す。 この結果、提案手法では r13 の値が大きければ、r12 の値が小さい場合でも z12 = 1 と判別しやすくなる、という妥当な判別曲面をつくっていることがわかった。ま た、提案手法は r23 の値が大きいときほど、r13 の値を重視して判別するという傾 向が確認できた。しかし、従来手法と提案手法で判別結果が異なるデータ点は 18 個と、少数であることがわかった。このデータ点が表している遺伝子を、付録 D に示す。このように従来手法と提案手法で判別結果が異なるデータ点が少ないこ との原因として、付録 A で示したような相関係数の正定値性が影響していること が考えられる。 ベイジアンネットワークモデルは、いくつかの仮定をおいた上で構築したモデ ルであるが、その中の暗黙の仮定として、相関係数行列の各要素が zij にのみ依 存して生成されるという仮定が存在することになった。しかし、これが実際の相 関係数行列の特性 (例えば正定値性) に適合していないために、予測性能が向上し ない原因の一つではないかと考える。もしモデルを改良するならば、相関係数行 列が正定値であることを考慮にいれたモデルに変更するとよいかもしれない。 また、提案手法では事後分布 P (Z|D) を求めることができるモデルを採用し ているが、変分ベイズ法を使う場合には独立分解仮定をおいたために、個々の p(zk,k+1 |D) の近似的な値を求めることになってしまった。さらに性能の評価にお いては、変分ベイズ法を用いない場合にも個々の p(zk,k+1 |D) を事後分布を周辺化 することで求めたので、予測性能が見かけ上低下してしまった可能性はないとは いえない。 以上のような様々な可能性はさらに調べる必要があるが、逆に本研究で扱った マイクロアレイデータの相関係数を用いたオペロン予測問題に対しては、提案し たベイジアンネットワークモデルの有効性を有意に示すことは不可能である可能 性もあるだろう。しかし、生物学の分野に限らず、何らかの観測変数を扱うにあ たって、オペロン構造で見られたような依存関係のある隠れ変数をもつような課 題に対しては、もしかしたら本研究で構築したベイジアンネットワークモデルが 有効であるケースがあるかもしれない。 52 図 24 r23 = 0.5 における判別曲線の比較 53 図 25 r23 = 0 における判別曲線の比較 54 図 26 r23 = −0.5 における判別曲線の比較 55 12.2 生成した相関係数行列の解析結果について 提案手法の有効性が確認できない原因を調べるために、まず数値シミュレーショ ンにおいて、提案モデルに従って生成した相関係数行列に対して提案手法と従来 手法の比較を行った。この場合には、提案手法の性能が従来手法の性能を上回る ことが確認できた。このことから、実際のデータには提案モデルで表現できない 性質があることが示唆された。 次に行った数値シミュレーションでは、マイクロアレイデータの生成モデルを 作成して、その相関係数行列に対して提案手法と従来手法の比較を行った。マイ クロアレイデータの生成モデルは、実データにおける相関係数の分布を再現する ことを目的として作成したので、かなり単純なモデルである。そのために、実際 のデータに必ずしも対応する生成モデルではないが、相関係数の分布の傾向に関 しては実データと似た相関係数行列が得られた。この相関係数行列に対して、オ ペロン構造予測を行った結果、実データに対して行った予測結果と同様に、ベイ ジアンネットワークモデルの有効性は見られなかった。 以上二つの数値シミュレーションではどちらも実データの相関係数の分布を再 現した相関係数行列を生成したが、後者はかならず相関係数行列の条件を満たす (正定である) データが得られるので、より現実に近いと言えるだろう。この後者 の数値シミュレーションにおいて、前者の数値シミュレーションで観察された提 案手法による予測性能の向上が見られなかったことは、本研究で扱ったマイクロ アレイデータが偶然提案手法に不利なデータであった可能性よりは、ベイジアン ネットワークモデルで表現できない正定値性が現実の相関係数にはあるために、 マイクロアレイデータに対して予測性能の向上が見られないという可能性のほう が大きいであろうと思われる。 このマイクロアレイデータ生成モデルを用いることで、提案手法と従来手法の 比較に加えて、ノイズの大きさやラベルの誤りが予測性能に与える影響を考察す ることができた。このマイクロアレイデータ生成モデルの妥当性には疑問が残る が、このモデルがもし妥当であれば、マイクロアレイデータのノイズを小さくし て、オペロン情報を正確にすることで、予測性能が向上すると考えられる。また、 他のサンプルとの相関がなるべく小さいような実験を数多く行うことで、予測性 56 能が向上することが推察される。そして、ノイズが大きい場合や、実験回数が多 い場合には、提案手法が従来手法を上回る性能を示す可能性もあることが示唆さ れた。 12.3 ラベルの決定に関する問題 オペロン情報からラベルを決定する方法には様々な方法が考えられるが、本研 究では先行研究 [17] に従った方法で決定した。しかし、ラベルの誤りは予測性能 に大きな悪影響を与えるため、ラベルを決定する方法が妥当であるかは、さらに 検討の余地が残されていると思われる。 12.4 類似度の選択 本研究を通して、相関係数を類似度の尺度として用いてきた。しかし類似度の 尺度には、相関係数以外にも、例えばユークリッド距離のように、いくつか候補が ある [3]。先行研究 [3] [17] において、相関係数以上に予測性能が向上するような 類似度の尺度が見つけられていなかったため本研究では相関係数を用いたが、相 関係数以外も検討する余地はある。ただし、例えばユークリッド距離にも三角不 等式を満たさなければいけない等の、相関係数における正定値性のような制約が 存在する場合には、その性質を考慮に入れて手法を開発するべきであると考える。 オペロン予測問題は類似度を選択してしまえば、あとはゲノム上で隣接する場 合にのみ同一のクラスタになることができるという制約が存在するクラスタリン グの問題として扱うことができる。そのためクラスタリングに関する手法をその まま応用することができる場合もあるだろう。例えば階層的次元数減少 [4] によっ て、相関係数の高い遺伝子群の発現ベクトルを平均することによって、本研究で 利用しようとした離れた遺伝子間の相関係数を、実質的に考慮した手法ができる かもしれない。 57 12.5 予測に不必要なサンプルの除去 マイクロアレイデータからの相関係数行列が正定値になるためには少なくとも 3 サンプル必要である。また、ある程度のサンプル数が存在しないと、相関係数の 値が不安定になり、十分なオペロン構造予測が期待できない。しかし、本研究で 用いたマイクロアレイデータのうち、ストレス応答実験系列を除いた部分だけを 用いても、全データを用いた場合と比較して、予測性能は有意には下がらなかっ た。このことから、単純にマイクロアレイ実験の回数を増やし続けれても、オペ ロン構造予測の性能は必ずしも向上しつづけるとは限らないことが示唆される。 先行研究においては、より多くの遺伝子の制御が変化する実験を、数多く行う ことで、予測性能を向上することができるということが、データ生成モデルを構 築した上で議論されている [17]。このようにオペロン予測問題は、単純に現在の マイクロアレイデータを使って予測性能を向上させることだけでなく、何回のマ イクロアレイ実験を行うと十分な性能のオペロン構造予測ができるのか、という 問題も含むと言えるだろう。 本研究では扱う範囲を越えていたために試してはいないが、サンプルを一つず つ削減していく手法を用いることで、どのサンプルが実際にオペロン予測に必要 であったかが検討できるのではないだろうか。 12.6 生物学的な事前知識の利用 本研究では、生物種や実験条件に依存する部分を考慮に入れず、マイクロアレ イデータによってオペロン予測をする場合の一般的な手法を開発することを目的 とした。しかしながら本研究で扱った枯草菌は、どのような培養条件でどのよう な遺伝子の発現が変化するかを調べた研究が数多く発表されている。そのような 研究の結果を事前知識として取り入れることによって、個々の実験条件を考慮し たマイクロアレイデータ生成モデルを構築したり、遺伝子間の類似度の尺度を改 良したりすることができるのではないだろうか。事前知識を考慮することは、単 にオペロン予測の性能を向上させることだけでなく、生物種のメカニズムの理解 を深めることにも大きく貢献するはずである。 58 12.7 ゲノム情報の利用 ゲノム配列からオペロン予測を行う方法は、単純にスペーサ長を利用する方法 以外にも発表されている。例えば、プロモータ予測の手法や、ターミネータ予測 の方法を組み合わせる方法がある [1]。本研究で用いたマイクロアレイデータに よる予測に加えて、それらの手法を組み合わせることで、オペロン予測性能を向 上させることができると思われる。 12.8 他のマイクロアレイデータへの適用 京都大学ゲノムネットの KEGG には、マイクロアレイデータがいくつか公開 されていて、枯草菌のデータも利用可能である [10] [9]。このようなマイクロア レイデータを使ってオペロン構造予測を行うことで、オペロン構造予測のために は、どのようなマイクロアレイデータが必要かを検討していくことができると思 われる。 本研究ではスポット型アレイのデータを用いたために、マイクロアレイデータ は全てコントロールに対する対数発現比であった。そのため、例えばコントロー ルにおいてのみ大きく発現量が異なる NOP があるならば、判別するのは難しい だろう。しかし Affymetrix 社のチップのように、各条件で別々に発現量を測定し たデータであればこのような制約がないので、より偏りの少ないマイクロアレイ データを扱えることになるのではないだろうか。 12.9 マイクロアレイデータの分割について マイクロアレイデータのうちストレス応答実験系列のサンプルを除いたデータ から、相関係数を計算してオペロン予測を行っても、予測性能はマイクロアレイ データ全てを用いた場合と比較して、ほとんど差は見られなかった。 このマイクロアレイデータのストレス応答実験系列のサンプルに問題があるの か、それとも、そもそもオペロン予測を行う場合にはストレス応答実験のサンプ ルをマイクロアレイデータに含める必要がないのかは、現在の段階では判断でき 59 ない。しかし、実験を繰り返すことで、前者の可能性を検証することができると 考えられる。 このように、マイクロアレイデータのうちどのサンプルがオペロン予測に貢献 しているかを調べることで、今後オペロン予測のためのマイクロアレイ実験を計 画する段階での、有意義な情報を提供できるだろう。 60 13. 総括 本研究の結果から、離れた遺伝子間の相関係数を用いて、隣り合った遺伝子間 の相関係数によるオペロン構造予測の性能を大きく向上させることは難しいとい えそうである。しかし、類似度の選択や、マイクロアレイデータのサンプルの選択 等、オペロン予測の方法にはいくつか議論の余地が残されていると言えるだろう。 また、今後オペロン構造は知られていないがゲノム配列が解読されている原核生 物に対して、オペロン構造予測のためにマイクロアレイ実験を行おうとする場合 には、どのようなマイクロアレイ実験を計画するべきかを検討するときに、本研 究のようなオペロン予測に関する一連の研究が役に立つのではないかと考える。 一方で、予測性能を向上させること以外の目的は十分達成できた、と筆者は考 えている。 61 謝辞 本研究は、指導教官である石井 信 教授の温かい叱咤激励と御指導御鞭撻を受 けてまとめることができました。心から感謝致します。 論理生命学分野助手の大羽 成征 博士から日々の有益な助言と貴重な議論を頂 きました。大変感謝しています。 忙しい中、度々ディスカッションをして頂きました論理生命学分野の前田新一 博士と中村泰博士に感謝します。前田さんには修士論文をまとめる直前まで大変 有意義な助言を頂きました。 単調になりがちな大学院生活を起伏のあるものにしていただいき、いろいろ大 変お世話になりました五十嵐康伸修士に感謝します。 研究しているときに困ったことがあるといつも助けていただき、また、修士論 文を引用させて頂き、この修士論文に対しても助言を頂きました行縄直人修士に 感謝します。 論理生命学分野の先輩、同輩、後輩の皆様に、心強いサポートをして頂き、有 意義な研究生活を送ることができましたことに深く感謝申し上げます。 本研究で使用したマイクロアレイデータとノーザンブロットのデータは奈良先 端科学技術大学院大学の小笠原直毅教授と小林和夫博士から提供を受けたもので す。貴重なデータを頂きありがとうございました。 62 参考文献 [1] J. Bockhorst, M. Craven, D. Page, J. Shavlik, and J. Glasner. A bayesian network approach to operon prediction. Bioinformatics, Vol. 19(10), pp. 1227–35, 2003. [2] V. Dartois, M. Debarbouille, F. Kunst, and G. Rapoport. Characterization of a novel member of the DegS-DegU regulon affected by salt stress in Bacillus subtilis. J Bacteriol., Vol. 180(7), pp. 1855–61, 1998. [3] M.J.L. de Hoon, S. Imoto, K. Kobayashi, N. Ogasawara, and S. Miyano. Predicting the operon structure of Bacillus subtilis using operon length, intergene distance, and gene expression information. In Pacific Symposium on Biocomputing, 2004. [4] Richard O. Duda, Peter E. Hart, and David G. Stork. パターン識別, pp. 582–583. 新技術コミュニケーションズ, 2001. 尾上 守夫 監訳. [5] M.D. Ermolaeva, O. White, and S.L. Salzberg. Prediction of operons in microbial genomes. Nucleic Acids Research, Vol. 29, pp. 1216–1221, 2001. [6] 林周二. 統計および統計学. 基礎課程. 東京大学出版会, 1988. [7] 広中平祐(編). 現代数理科学事典. [8] 樺島祥介, 上田修功. 第 III 部 平均場近似・EM 法・変分ベイズ法. 計算統計 I:確率計算の新しい手法, 統計科学のフロンティア 11. 岩波書店, 2003. [9] M. Kanehisa, S. Goto, S. Kawashima, Y. Okuno, and M. Hattori. The KEGG resource for deciphering the genome, 2004. http://www.genome.ad.jp/kegg/expression/. [10] 金久實(編). ゲノムネットのデータベース利用法. 第3版, 2002. [11] Steen Knudsen. わかる!使える!DNA マイクロアレイデータ解析入門. 羊 土社, 2002. 塩島 聡, 松本 治, 辻本 豪三 監訳. 63 [12] F. Kunst, N. Ogasawara, I. Moszer, et al. The complete genome sequence of the gram-positive bacterium Bacillus sabtilis. Nature, Vol. 390, pp. 249–256, 1997. [13] Y. Makita, M. Nakao, N. Ogasawara, and K. Nakai. DBTBS: Database of transcriptional regulation in Bacillus subtilis and its contribution to comparative genomics. Nucleic Acids Research, Vol. 32, pp. D75–77, 2004. [14] I. Moszer, L.M. Jones, S. Moreira, C. Fabry, and A. Danchin. Subtilist: the reference database for the Bacillus subtilis genome. Nucleic Acids Research, Vol. 30(1), pp. 62–5, 2002. [15] S. Oba, M. Sato, I. Takemasa, M. Monden, K. Matsubara, and S. Ishii. A bayesian missing value estimation method. Bioinformatics, Vol. 19, pp. 2088–2096, 2003. [16] Stuart Russell and Peter Norvig. エージェントアプローチ 人工知能, 15 章: 確率的推論システム, pp. 439–473. 共立出版, 1997. 古川 康一 監訳, 石塚 満 訳. [17] C. Sabatti, L. Rohlin, M. Oh, and J.C. Liao. Co-expression pattern from dna microarray experiments as a tool for operon prediction. Nucleic Acids Research, Vol. 30(13), pp. 2886–2893, 2002. [18] H. Salgado, S. Gama-Castro, A. Martinez-Antonio, E. Diaz-Peredo, F. Sanchez-Solano, M. Peralta-Gil, D. Garcia-Alonso, V. JimenezJacinto, A. Santos-Zavaleta, C. Bonavides-Martinez, and J. ColladoVides. RegulonDB (version 4.0): Transcriptional regulation, operon organization and growth conditions in Escherichia coli K-12, 2004. http://www.cifn.unam.mx/Computational/Genomics/regulondb/. [19] E. Selkov, N. Maltsev, G.J. Olsen, R. Overbeek, and W.B. Whitman. A reconstruction of the metabolism of Methanococcus jannaschii from sequence data. Gene, Vol. 197, pp. 11–26, 1997. 64 [20] 竹村彰通. 第 I 部 多変量解析入門. 統計学の基礎 I:線形モデルからの出発, 統計科学のフロンティア 1. 岩波書店, 2003. [21] 竹澤邦夫. みんなのためのノンパラメトリック回帰. 吉岡書店, 2001. [22] 田村隆明, 山本雅(編). イラストレイテッド 分子生物学. 羊土社, 第2版, 2003. [23] B. Tjaden, D.R. Haynor, S. Stolyar, C. Rosenow, and E. Kolker. Identifying operons and untranslated regions of transcripts using Escherichia coli rna expression analysis. Bioinformatics, Vol. 18 Suppl.1, pp. S337–S344, 2002. [24] P. Tortosa and D. Le Coq. A ribonucleic antiterminator sequence (RAT) and a distant palindrome are both involved in sucrose induction of the Bacillus subtilis sacXY regulatory operon. Microbiology, Vol. 141(Pt11), pp. 2921–7, 1995. [25] Valentina Tosatoa, Kresimir Gjuracicb, Kristian Vlahovicekb, Sandor Pongorb, Antoine Danchinc, and Carlo V. Bruschi. The DNA secondary structure of the Bacillus sabtilis genome. FEMS Microbiology Letters, Vol. 218(1), pp. 23–30, 2003. [26] T. Yada, M. Nakao, Y. Totoki, and K. Nakai. Modeling and predicting transcriptional units of Escherichia coli genes using hidden markov models. Bioinformatics, Vol. 15(12), pp. 987–93, 1999. [27] K. Yoshida, K. Kobayashi, Y. Miwa, C. Kang, M. Matsunaga, H. Yamaguchi, S. Tojo, M. Yamamoto, R. Nishi, N. Ogasawara, T. Nakayama, and Y. Fujita. Combined transcriptome and proteome analysis as a powerful approach to study genes under glucose repression in Bacillus subtilis. Vol. 29(3), pp. 683–692, 2001. [28] Y. Zheng, J.D. Szustakowski, L. Fortnow, R.J. Roberts, and S. Kasif. Computational identification of operons in microbial genomes. Genome Research, 65 Vol. 12, pp. 1221–1230, 2002. [29] M.M. Zukowski, L. Miller, P. Cosgwell, K. Chen, S. Aymerich, and M. Steinmetz. Nucleotide sequence of the sacs locus of Bacillus subtilis reveals the presence of two regulatory genes. 1990. 66 付録 A. 相関係数行列の性質 一般に、数値データからなるデータ行列が与えられたときは、平均、分散、お よび相関係数を求めることが基本である9 。本文と同様に、i 番目の遺伝子の l 番 目のサンプルでの対数発現比を yil とするが、その他の表記法は文献 [20] に従う。 また、l 番目のサンプルの全遺伝子についての対数発現比ベクトルを yl と表す。 以下では遺伝子が p 個、サンプル数が n ある場合を考える。i 番目の遺伝子の対 Pn 数発現比の平均値を ȳi = l=1 yil /n とすると、これを要素とする標本平均ベクト ルは、 y¯1 . . ȳ = . y¯q (38) である。 i 番目の遺伝子の標本分散 (sii ) は Pn (yil − ȳi )2 sii = l=1 n (39) である。 i 番目の遺伝子と j 番目の遺伝子の標本共分散 (sij ) は Pn (yil − ȳi )(yjl − y¯j ) sij = l=1 n (40) である。 sij を要素とする標本共分散行列 S は、p × p 行列であり、S を行列表記すると、 n 1X S = (sij ) = (yl − ȳ)(yl − ȳ)0 n l=1 である。 9 この章の内容は文献 [20] を参考にした。 67 (41) i 番目の遺伝子と j 番目の遺伝子の相関係数は rij = √ sij sii sjj (42) であり、これを要素とする標本相関係数行列 R は p × p 行列である。ここで、各 −1/2 遺伝子の対数発現比の標準偏差の逆数 sii −1/2 を対角成分とする対角行列 D−1/2 = −1/2 diag(s11 , . . . , spp ) を使うと、 R = D−1/2 SD−1/2 (43) と書くことができ、標本相関係数行列と標本共分散行列との関係が理解しやすく なる。 ところで、一般に p × p の実数対称行列 K が任意のゼロでないベクトル a = (a1 , . . . , ap )0 6= 0 に対して、 a0 Ka > 0 (44) を満たすとき、K は正定値行列であるという。また、 a0 Ka ≥ 0 (45) を満たすとき、K は半正定値行列であるという。また、対称行列が正定値である ことは、全ての固有値が正であることと同値であり、対称行列が半正定値である ことは、全ての固有値が非負であることと同値である。 ここで、相関係数行列 R について考えてみると、 n a0 Ra = a0 D−1/2 SD−1/2 a = 1 X 0 −1/2 aD (yl − ȳ)(yl − ȳ)0 D0−1/2 a n l=1 (46) n 1 X 0 −1/2 (a D (yl − ȳ))(a0 D−1/2 (yl − ȳ))0 = n l=1 (47) n 1 X 0 −1/2 = (a D (yl − ȳ))2 ≥ 0 n l=1 (48) となり、相関係数行列 R は半正定値行列であることが示される。 また、等号成立条件を考えると、p 次元空間 Rp において n 個の点が a0 yl = c 68 (49) となる超平面上にのっている場合である。これは、ある 2 つの遺伝子間の相関係 数が 1 または −1 になったり、ある遺伝子の対数発現比が常に同じ値になった場合 に対応するが、そのようなことがない場合には、相関係数行列は正定値である。 ある行列が正定値であるかを判定するためには、その行列の主小行列式が全て 正であるかを調べる方法や、固有値が全て正であるかを調べる方法が一般的であ る。特に p = 3 の場合を考えると、 1 r12 r13 R= r12 1 r23 r13 r23 1 (50) が正定値行列であるためには、 1 + 2r12 r23 r13 − ((r12 )2 + (r23 )2 + (r13 )2 ) > 0 (51) を満たさなければならない。(x, y, z) = (r12 , r23 , r13 ) の 3 次元空間を考えると、こ の条件を満たす点は、|x| < 1, |y| < 1, |z| < 1 の立方体に内接する四面体を少し 膨らませたような図形を描く (図 27)。r23 がある値をとる場合の、r12 と r13 がと り得る範囲は、この図形の y 軸に垂直な平面による切り口の形となる (図 (28))。 r13 r23 r12 図 27 3 × 3 の相関係数行列の正定値性による制約 69 図 28 3 × 3 の相関係数行列がとり得る値。r23 = 0.5(左)、r23 = 0(中)、r23 = −0.5(右) で r12 (横軸) と r13 (縦軸) がとり得る値は、赤で示した領域に限られる。 B. ヒストグラムに基いた確率密度関数の推定 ヒストグラムから確率密度関数を推定する方法には、パラメトリックな手法と、 ノンパラメトリックな手法がある。ここでいうパラメトリックとは、データの背 後にあるデータ生成モデルを探る指向のことであり、ノンパラメトリックとは、 データに沿ってできるだけ実用的な推定や回帰を行う指向のことである [21]。本 研究では相関係数の分布関数を推定するために、先行研究と同様なノンパラメト リックな手法を使ったが、データから計算される相関係数の生成されるメカニズ ムを探るために、パラメトリックな手法を適用することを試みた。 B.1 β 分布を使った推定 ラベルのある部分の相関係数をヒストグラムにすると、区切りのとり方にもよ るが、OP の相関係数も NOP の相関係数も概ね 1 つのピークをもつ分布になる。 また、複数のピークをもつようなモデルを、現在のデータから構築することは困 難だと考えられる。そのため、相関係数のような限られた区間で 1 つのピークを もつ分布の代表的なものとして、β 分布に当てはめて確率密度関数を推定するこ とを考えた。 β 分布は 0 から 1 までの値をとり、分布の形状を決定する 2 つのパラメータ a, b R∞ Γ(a+b) を使うと、 をもち、Γ 関数 Γ(x) = 0 tx−1 e−t dt を用いて表される係数 c = Γ(a)Γ(b) cxa−1 (1 − x)b−1 と書ける。これを線形変換して相関係数の確率密度関数の推定と 70 する。データから β 分布のパラメータ a, b を決定するときは、標本平均 x̄ と標本 分散 s2 を用いて、 a = x̄ ³ x̄(1 − x̄) ´ −1 s2 ³ x̄(1 − x̄) ´ b = (1 − x̄) −1 s2 (52) (53) を用いればよい。 この方法で、OP と NOP についてある程度ヒストグラムの形状と近い確率密度関 数が推定できた (data not shown)。この確率密度関数を予測に用いても、Epanech- nikov カーネルを用いた場合と比較して性能はほとんど変わらなかった。しかし、 β 分布に基いた乱数を発生させることは比較的容易にできるため、数値シミュレー ションにおいてモデルに基く相関係数行列を生成する場合には、ここで推定した 確率密度関数を用いた。 B.2 正規分布を使った推定 この節では、OP や NOP であるときの母相関係数が特定の値であるというモ デルに基いた場合の、相関係数の確率密度関数を求める方法について述べる10 一般に、2 つの変数に相関があるかどうかを調べるときには、 「母相関係数が 0 である」という帰無仮説を使って有為性を検定する。これは、母相関係数 ρ が 0 であるとき、2 次元正規分布から n 個のサンプルを取り出すときの標本相関係数 の分布が、自由度 (n − 2) の t 分布になることを利用している。母相関係数 ρ が 0 でないときの分布も知られており、密度関数は Z 1 xn−2 dx n−2 2 (n−1)/2 2 (n−4)/2 (1 − ρ ) (1 − r ) ·√ f (r) = n−1 π 1 − x2 0 (1 − ρrx) (54) で与えられる。この分布は複雑なので使いにくいが、R.A. フィッシャーは、 10 z= 1 1+r loge 2 1−r (55) ξ= 1 1+ρ loge 2 1−ρ (56) この節の内容は、文献 [6] を参考にした。 71 によって r と ρ を z 変換すると、z は平均 ξ 、分散 1/(n − 3) にほぼ従うことを示 した。 このことを利用して、OP と NOP の標本相関係数を z 変換してからそれぞれ の平均と分散を求め、それを逆変換することで、OP と NOP の相関係数の確率 密度を推定できるだろうと考えた。その結果、ある程度ヒストグラムに近い分布 を得ることができたが、これを用いたオペロン予測の結果はあまりよくなかった (data not shown)。マイクロアレイデータのノイズ等の影響により、2 次元正規分 布を仮定することに無理があったのではないかと考える。 本研究の数値シミュレーションに用いたマイクロアレイデータの生成モデルに おいても基本的に 3 次元正規分布を仮定しているが、さらに大きさにばらつきの あるノイズを加えることによって、実データに近い相関係数の分布をもつ生成マ イクロアレイデータを得ることができた。 72 C. オペロン情報の利用 ノーザンブロットの結果から、以下の遺伝子群がオペロンであるとした。 遺伝子数1 yfmQ yfmP yfmK yfmG pel treP yfkM yfkJ yfjS yfjP yfjM yfiG yfiQ yfiT yfiW yfhK ansR yqzH yqjV yqjM yqjL zwf yqjG bmrU yqzF yqiG ywaA katX yxlA yxkJ yxkI aldY yxkC yxjN pepT yxjJ yxjG yxjA citH yxiO hutP yxeD iolR yxbG aldX yxbB yxnA yxaC gntR ahpF yydK fbp yycS rapG yycB ppaC yybN yybE yyaL yyaC yyaB tetB yybF yybH yybS yycE yycO yxaF yxaG htpG mmsA yxeF yxiB yxxD yxxE bglP wapA yxjB yxjC yxkD yxkF cydA sigY licR licB spo0A yqiH yqiX yqjN yqjP nudF fur yfhS yfhP yfhF yfiV yfiU yfiS yfjA yfjR yfkA yfkK yflE yflG yflI yflL yfmB yfmC 遺伝子数2 yflS citS yflN yflM yflK nagP yfkD yfjT yfmS yfmR yfmO yfmL yfjO yfjN yfjL acoA yfiC yfiD yfiE yfiF yfiK lipB yfiX yfiZ yfhA yfhB yfhC yfhG yfhH yfhI yfhL yfhM csbB yfhQ yqkF yqkD yqjU proI bmr bmrR yxjI yxjH iolS yxcE yxcD csbC phrG rocR yycA cotF yyaS yyaO spo0J yyaE ccpB yyaK yybI yybP purA yycF yycP yycQ yycR yydG bglA yxaA yxaB yxaD yxaH yxaJ yxaL yxbC yxbD yxbF yxdK yxeC yxeJ yxeK yxxB deoR yxxG yxiM deaD licT bglS katE yxiS yxiT msmX yxkH yqjI yqjK yfiR padR yfkL yfkT yfmJ yfmM 遺伝子数3 treA treR yfkO yfkI yfkH yfkE yfiA malP yfiB yfiH yfiI yfiJ fabL sspE yhfE yybD yybC yyaT yybT rplI dnaC rocE rocF yycN yxeG yxeH yxeI bglH yxiE yxxF yqiI yqiK mmgA yqiY yqiZ yqjA yfhE yfhD yfiY yfkB yfkC yfkF citT yflP citM 73 gntK gntP gntZ ahpC 遺伝子数4 rnpA spoIIIJ jag thdF gidA gidB yyaA soj yydH yydI yydJ yyzE dra nupC pdp yxiA scoA scoB yxjF galE cydB cydC cydD yxkO licC licA licH spoIIIAA ripX drm punA dacF spoIIAA spoIIAB sigF spoVAA yfmD yfmE yfmF yfmI 遺伝子数5 yxbA yxnB asnH yxaM yxaI yybM yybL yybK yybJ yybG yyaF rpsF ssb rpsR exoA accC yqhY nusB folD yqiB yqjB yqjC yqjD yqjE yqjH yqjQ dsdA coaA yqjT yqjY yqjZ yqkA yqkB yqkC yqkE 遺伝子数6 acoB acoC acoL acoR sspH malA hutH hutU hutI hutG hutM yxeE yycG yycH yycI yycJ yyxA rocD yxlC yxlD yxlE yxlF yxlG yxlJ mmgB mmgC mmgD mmgE yqiQ bkdR spoVAB spoVAC spoVAD spoVAE spoVAF lysA yfjB yfjC yfjD yfjE yfjF yfjQ 遺伝子数7 yxeL yxeM yxeN yxeO yxeP yxeQ yxeR yqiC yqiD dxs yqxC ahrC recN spoIVB yqxK ansA ansB mleN mleA yqkK spoIIM 遺伝子数8 dnaA dnaN yaaA recF yaaB gyrB gyrA yfmT spoIIIAB spoIIIAC spoIIIAD spoIIIAE spoIIIAF spoIIIAG spoIIIAH accB ptb bcd buk lpdV bkdAA bkdAB bkdB yqiW 遺伝子数10 iolB iolC iolD iolE iolF idh iolH iolI fbaB yxdJ 74 DBTBS のオペロン情報から、以下の遺伝子群がオペロンであるとした。 acoA-acoB-acoC-acoL acuA-acuB-acuC adaA-adaB addAB ahpCF alsS-alsD ansA-ansB araABDLMNPQ-abfA araE araR azlB-azlC-azlD-azlE-azlF bglPH beta-glucanase licT-bglS bioWAFDBI-orf2 blt-bltD bmr bofA bofC bsaA-ypgQR cgeAB operon cgeCDE aconitase citG citM-yflN citZC comEA comFA-comFB-comFC comGA cotE cotH cotJA-cotJB-cotJC sspO-sspP cotVWX cotYZ yvqAB cwlD cwlD-ybaL cwlJ cysJI dacB dacF dhbACEBF dltABCDE dppABCDE dra-nupC-pdp operon uxaC-yjmBCD-uxuA-yjmF-exuTR-uxuBA fatR-cyp102A3 feuABCybbA fla/che operon fruRBA ftsA-ftsZ 75 gabP-P1 gabP-P2 gabTD yvbQ-gap-pgk-tpi-pgm-eno gerAA-gerAB-gerAC gerBA-gerBB-gerBC gerD glgBCDAP glnRA operon glpFK glpTQ glpT-glpQ (glp operon) gltAB gnt-operon gpr groESL glucitol dehydrogenase gutBA yvqAB hutPHUIGM;hutO-CR1 ilv-leu operon kdgRKAT operon kinA lctEP levDEFG-sacC operon licBCAH lmrAB lrp operon lytA-lytB-lytC lytRABC lytD lytF glvARC mcpA mcpB mcpC minC-minD mmgABCDE iolABCDEFGHIJ iolABCDEFGHIJ- iolRS mntABCD motA-motB narGHJI nitrate assimilation gene nasBCDEF nitrate assimilation gene nasDEF nfrA-ywcH nrgAB phoB phoPR phrC pssA-ybfM-psd pstSACB1B2 76 ptb-bcd-buk-lpdV-bkdA12-bkdB ptsGHI pucABCDE pucFG pucJKLM purEKBCSQLFMNHD purEKBCALQFMNHD operon pyrPBCADFE operon petCBD operon rapC-phrC rbsR-rbsK-rbsD-rbsA-rbsC-rbsB resABCDE riboflavin operon rncS-smc-ftsY rocABC rocDEF sacPA operon sacXY sboA-sboX-albA-albB-albC-albD-albEFG rpoD rpoD-cccA-yqfN sigD sigY-yxlCDEFG sinI-sinR sleB-ypeB splAB spo0A spo0F spo0M spoIIAA-spoIIAB-sigF spoIID spoIIIAABCDFGH spoIIID-mbl spoIIM spoIIP-yqxA spoIVA spoIVCB spoIVFA-spoIVFB spoVAA-spoVAB-spoVAC-spoVAD spoVB spoVD spoVE spoVFA-spoVFB-asd-dapG-dapA spoVG spoVID-ysxE spoVK spoVM spoVR spoVS srfAAB-comS-srfACD sspA sspB sspC sspD sspE sspF sspG-yurS sspJ 77 sspK sspL sspM sspN-tlp tagAB tagDEF tenAI operon tlpA-mcpA tlpB trpEDCFBA operon tuaA-tuaBCDEFGH ureA-ureB-ureC ureABC-P3 ORF8-ORF9 xyl operon xynCB yaaH ybaK-cwlD ycdHI-yceA yciAB yclNOPQ ycsF-ycsG-ycsI-kipI-kipA-kipR-ycsK ycxE-gdh ydaDE yesL-yesK yfhS yfiZyfhA/yfiY sspH yfmCD yhaRQ yhcN yhcN-yhcO yhcRS yjbCD yjmC ykuNOP ykzB-ykoL yneABC yoaW yojLM ypiBF-qcrABC yqfS-yqfU yrbA ysfA ysfA-ysfB ytxGHJ yveKLMNOPQRST-yvfABCDEF yvyC-fliDST yvyD yvyF-flgM-yvyG-flgK yvyF-flgM-yvyG-flgK-flgL ywbLMN ywfBCDE(FG) ywfFG ywhE yxjJI yyaF-rpsF-ssb 78 D. 従来手法と提案手法の予測の違い ラベル r12 r23 r13 gerBA - gerBB - gerBC OP-OP 0.4910 0.4795 0.6666 aroH - trpE - trpD OP-OP 0.4557 0.4996 0.7645 pel - yflS - citS OP-NOP 0.5554 -0.0231 0.1834 spoVFA - spoVFB - asd OP-OP 0.5072 0.7803 0.5497 yneA - yneB - ynzC OP-OP 0.5213 -0.0327 0.0861 yybE - yybD - yybC OP-OP 0.5658 0.1340 -0.1057 cydB - cydC - cydD OP-OP 0.5927 0.3766 0.0564 yrdF - azlB - azlC OP-OP 0.5689 0.1772 0.2558 yqjQ - dsdA - coaA OP-OP 0.5542 0.4862 0.3938 yfjA - yfjB - yfjC OP-OP 0.5689 0.8903 0.5613 feuA - feuB - feuC OP-OP 0.5414 0.7800 0.4972 veg - sspF - ispE NOP-NOP 0.5254 -0.3251 0.0063 yfjN - yfjM - yfjL NOP-OP 0.5511 0.4256 0.3011 yycN - yycO - yycP NOP-OP 0.5061 0.9032 0.5946 yxxD - yxxE - bglP NOP-NOP 0.5771 0.0862 -0.2757 hag - yvyC - fliD NOP-OP 0.5320 0.8030 0.4094 mdh - phoP - phoR NOP-OP 0.5174 0.8192 0.3119 NOP-OP 0.4043 0.3255 0.8844 遺伝子名 OP に対する予測が改善した例 OP に対する予測が悪化した例 NOP に対する予測が改善した例 NOP に対する予測が悪化した例 mcpB - tlpA - mcpA 79