Comments
Description
Transcript
ポストゲノム生命科学方法論
ポストゲノム生命科学方法論 (榊原担当の第4回) 慶應義塾大学生命情報学科 榊原康文 Gene Ontology (GO)とは何か ① Gene Ontologyはゲノム分野のオントロジーとして標準となり つつある – NCBIのデータベースをはじめとして,GOのアノテーションが追加され るようになった ② GOの開発目的は,遺伝子産物の機能を表現する語彙(その 分野で用いる言葉を集めたもの)を形式化することである ③ 注意すべき点は,GOは人間だけでなく,計算機にも理解可 能なように形式化されていることである ④ この形式化をもって全遺伝子をカバーすることを目的として, 計算機による生物機能のゲノムワイドな解析を可能とする ⑤ URLは: http://www.geneontology.org/ GOアノテーションの例 Gene Ontology (GO)の経緯 ① 多くのモデル生物のゲノム配列決定により,生物間のゲノム 比較による,生命の根本原理の網羅的な解析がポストゲノム として始まる ② しかし,障壁となったのは,生物種による言葉遣いの相違で あった (例) CDC2 (Homo sapiens) cell division cycle protein (cell division control, cell cycle controller) CDC28 (Saccharomyces cerevisiae) catalytic subunit of the main cell cycle cyclin dependent kinase Cdk2 (Mus musculus) cyclin-dependent kinase オントロジーとは ① オントロジーとは?:(情報科学の分野において) 対象とする領域について概念を網羅的に収集し,各概念の 明確な定義を行うとともに,概念間の関係を定義したもの. さらに,人間と計算機の両方に可読,処理できるようにした もの ② 概念とは?:人間がその領域において共有している考え (集合論的には)ある基準で定義されるものの集まり (例)「ヘモグロビン」は,「分子生物学」という領域における概念 「ヘモグロビン」は,ある分子機能を有するタンパク質の集まり ③ 概念間の関係とは?:概念間の上位下位関係(is-a関係)と 部分全体関係(part-of関係)からなる オントロジー (例) “山”という概念 属性による概念化 “山”という概念 “山”という概念の外延 属性: 形状 標高 所在 土壌 概念間の関係 地形 富士山 高尾山 浅間山 山 河川 火山 里山 湖 平野 オントロジー オントロジーにおける主要な概念関係 ① is-a関係 概念間の上位下位(汎化特殊)関係 例:齧歯類is-a ほ乳類, ほ乳類is-a 脊椎動物 下位概念は上位概念の属性を継承する 概念階層における多重継承を許す ② part-of関係 概念間の部分全体関係 多重継承 職業 人間 教師 例:爪part-of 指, 指part-of 手 GOアノテーションの例 3つの生物機能のOntology: molecular function, biological process, celluar component Gene Ontology (GO)の構造 GO term:GOの各ブロックは,term(用語)と呼ばれるものから 成る. (GOの構造)GO termは,次の要素からなる: ID番号:7桁のaccession番号 概念名 3つの生物機能のontology: molecular function, biological process, celluar component 別名(synonyms) 概念定義(definition) 参考資料 概念間の関係 is-a関係とpart-of関係 コメント 概念名 例題 ID番号 生物機能オントロジー 別名 概念関係 例題 Gene Ontology (GO)の構造 3つの生物機能のontology : ① 分子機能(molecular function) 遺伝子産物の生化学的機能を表す.このオントロジーは,遺伝子産 物が「いつ」あるいは「どこで」働くではなく,「何をするか」を定義.例 としては,「酵素」,「トランスポーター」,「リガンド」,など. ② 生体内作用(biological process) 分子機能よりも大きな概念で,複数の分子の協調的な活動によって 引き起こされる生物学的役割.時間や物質変化を伴うもので,「DNA 複製」や「シグナル伝達」など. ③ 細胞内構成要素(celluar component) 細胞内に存在するより高次な構造や複合体などの物体の構成要素. 「染色体」,「リボソーム」,など. Gene Ontology (GO)の構造 概念間の関係: ① is-a関係 「B is a A」という英語表現に由来して,概念Bは概念Aの属性を受け 継いでいるという関係. (例) mouse is an animal. E. coli is a bacteria. is-a関係の特徴は,推移律が無条件で使える.推移律とは,「C is a B」と「B is a A」という2つの関係が成り立つ場合に,「C is a A」も成り 立つという規則. (例) mouse is a rodent. rodent is a mammal. ⇒ mouse is a mammal. ② part-of関係 「B is a part of A」という英語表現に由来して,概念Bが概念Aの部分 であることを示す. (例) finger is a part of hand. Japan is a part of Asia. Associated-gene関係 を持つ遺伝子数 all is-a関係を表す GO:0003674 GOの概念間の関係 概念階層における多重継承: 最上位概念へ至る上位下位関係 の道筋が複数ある GO:0005488 GO:0003676 GO:0030528 GO:0003677 GO:0003700 GOの概念間の関係 性質の継承:上位概念の属性は,下位概念に継承される all Elemental “activities” molecular_function The “selective interaction” of a molecule with one or more “specific sites” on another molecule binding “Interacting selectively” with any “nucleic acid” nucleic acid binding “Interacting selectively” with “DNA” DNA binding transcription factor activity The function of “binding” to a “specific DNA” sequence in order to modulate “transcription” GOの概念間の関係の例: 分子機能(molecular function) 分子機能 核酸結合 DNA結合 クロマチン結合 ラミン / クロマチン結合 酵素 ヘリカーゼ DNA ヘリカーゼ アデノシン トリ ホスファターゼ ATP依存性 ヘリカーゼ ATP依存性 DNAヘリカーゼ DNA依存性 アデノシン トリ ホスファターゼ GOの概念間の関係の例: 生体内作用(biological process) DNAの代謝 DNAの パッケージング DNAの分解 DNAの複製 DNAの修復 DNAの組換え DNA依存性 DNA複製 DNA複製開始 複合体の 形成と維持 DNAの 巻き戻し DNAの複製 プライミング DNAの 複製開始 ラギング鎖 の伸長 DNA鎖 の伸長 DNA鎖 の連結 リーディング鎖 の伸長 GOの概念間の関係の例: 細胞内構成成分要素(celluar component) 細胞 細胞質 核 核小体 核質 複製フォーク δDNA ポリメラーゼ DNA複製因子 A複合体 DNA複製因子 C複合体 核膜 DNA複製開始 複合体 複製起点 認識複合体 GOの応用:クラスタリング結果の解析 発現プロファイルのクラスタリングで得られた各クラスターに 含まれる遺伝子群の解析: クラスターに含まれる遺伝子群に割当てられるGO termの 統計的優位性の解析 “Statistically over-represented” 手順: 遺伝子発現プロファイルを階層的クラスタリング 各クラスターに含まれる遺伝子群に関して顕著なGO termを見出す 発現データを解釈する 階層的クラスタリング の結果: 各クラスターの遺伝子群 に顕著なGO term (例)がん遺伝子のクラスタリング “Systematic Variation in gene expression patterns in Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000 これらのクラスターに分類された遺伝子群は,それぞれの がんの種類に関して,統計的に優位であるのか? GOの応用:クラスタリング結果の解析(1) 最も単純な方法:手順: クラスター内の遺伝子について,各メンバ遺伝子とassociated gene 関係にあるGO termを数え上げる 最も数の多いGO termをそのクラスターに顕著な(代表的な)GO termとする 各遺伝子とassociated gene関係にあるGO termだけでなく,その termからrootまでのtermも合わせて数え上げる クラスター内に機能未知の遺伝子があれば,顕著なGO termをその 遺伝子の機能と予測する 最大数のGO term その他のGO term 本当にこの方法でよいのか? 例えば,最も数の多いGO termの割合が,80%以上なら統計的に有 意と言えるのか?60%未満ならそのGO termは顕著でないと言える のか? GOの応用:クラスタリング結果の解析(2) GO termの優位性の統計的検定: ⇒ 超幾何分布による検定 クラスター内の遺伝子群に顕著なGO termの統計的優位性を超幾何 分布を用いて検定する 手順: ① 超幾何分布を仮定して,無作為抽出による偶然の確率を計算 ② 発現プロファイル全体の遺伝子群に対して,バックグラウンドでの GO termの出現頻度を超幾何分布のパラメータに組み入れる ③ クラスター内のGO termの出現頻度に対して,超幾何分布を用い て,p-値を計算 (クラスタリングの評価にも使用できる)各クラスターに顕著なGO term のp-値が低ければ有意なクラスターが得られている,すなわち,よい クラスタリングが行われた,と判断できる 超幾何分布 母集団は全部で N個の要素からなり,ある特性Aを持つもの M個と持たな いもの NM個で構成されているとする この母集団から無作為に非復元抽出(一度取り出した要素は元に戻さず 次を抽出)により,n個の要素を選び,その中で特性Aを持つものの個数を xとする. この xの確率分布を超幾何分布といい,H(n,M,N)と書く 超幾何分布の確率関数: M C x N M p( x) Cn x N Cn 全部でN個の要素からn個を選ぶ選び方は,NCn通りある.特定Aを持つ M個からx個を選ぶ選び方はMCx通りであり,それに対して特性Aを持たない NM個からnx個を選ぶ選び方はNMCnxとなるので,上記の確率関数が 与えられる 超幾何分布を用いた検定 N:発現プロファイル(マイクロアレイ)中の全遺伝子数 M:あるGO term Aとassociated gene関係にある遺伝子数 n:あるクラスターに属する遺伝子数 m:クラスター中でGO term Aにアノテーションされる遺伝子数 この時, GO term Aのp-値は: n p ( x m) xm M個 n p( x) xm M C x N M Cn x N Cn m個 N個 n個 超幾何分布を用いた検定 超幾何分布における確率分布 N=1000, M=500, n=20 m=10, p-値=0.411007 m=15, p-値=0.005508 m=18, p-値=1.7119e-05 N=1000, M=200, n=20 m=10, p-値=0.000488 m=15, p-値=8.9165e-09 m=18, p-値=4.2491e-13