...

ポストゲノム生命科学方法論

by user

on
Category: Documents
21

views

Report

Comments

Transcript

ポストゲノム生命科学方法論
ポストゲノム生命科学方法論
(榊原担当の第4回)
慶應義塾大学生命情報学科
榊原康文
Gene Ontology (GO)とは何か
① Gene Ontologyはゲノム分野のオントロジーとして標準となり
つつある
–
NCBIのデータベースをはじめとして,GOのアノテーションが追加され
るようになった
② GOの開発目的は,遺伝子産物の機能を表現する語彙(その
分野で用いる言葉を集めたもの)を形式化することである
③ 注意すべき点は,GOは人間だけでなく,計算機にも理解可
能なように形式化されていることである
④ この形式化をもって全遺伝子をカバーすることを目的として,
計算機による生物機能のゲノムワイドな解析を可能とする
⑤ URLは: http://www.geneontology.org/
GOアノテーションの例
Gene Ontology (GO)の経緯
① 多くのモデル生物のゲノム配列決定により,生物間のゲノム
比較による,生命の根本原理の網羅的な解析がポストゲノム
として始まる
② しかし,障壁となったのは,生物種による言葉遣いの相違で
あった
(例)
CDC2 (Homo sapiens)
cell division cycle protein
(cell division control, cell cycle controller)
 CDC28 (Saccharomyces cerevisiae)
 catalytic subunit of the main cell cycle cyclin dependent
kinase
 Cdk2 (Mus musculus)
cyclin-dependent kinase

オントロジーとは
① オントロジーとは?:(情報科学の分野において)
対象とする領域について概念を網羅的に収集し,各概念の
明確な定義を行うとともに,概念間の関係を定義したもの.
さらに,人間と計算機の両方に可読,処理できるようにした
もの
② 概念とは?:人間がその領域において共有している考え
(集合論的には)ある基準で定義されるものの集まり
(例)「ヘモグロビン」は,「分子生物学」という領域における概念
「ヘモグロビン」は,ある分子機能を有するタンパク質の集まり
③ 概念間の関係とは?:概念間の上位下位関係(is-a関係)と
部分全体関係(part-of関係)からなる
オントロジー
(例) “山”という概念
属性による概念化
“山”という概念
“山”という概念の外延
属性:
形状
標高
所在
土壌
概念間の関係
地形
富士山
高尾山
浅間山
山
河川
火山
里山
湖
平野
オントロジー
オントロジーにおける主要な概念関係
①
is-a関係

概念間の上位下位(汎化特殊)関係
 例:齧歯類is-a ほ乳類, ほ乳類is-a 脊椎動物
 下位概念は上位概念の属性を継承する
 概念階層における多重継承を許す
②
part-of関係
 概念間の部分全体関係
多重継承
職業
人間
教師
 例:爪part-of 指, 指part-of 手
GOアノテーションの例
3つの生物機能のOntology:
molecular function, biological process, celluar component
Gene Ontology (GO)の構造
GO term:GOの各ブロックは,term(用語)と呼ばれるものから
成る.
 (GOの構造)GO termは,次の要素からなる:
 ID番号:7桁のaccession番号
 概念名
 3つの生物機能のontology:
molecular function, biological process, celluar component
 別名(synonyms)
 概念定義(definition)
参考資料
 概念間の関係
is-a関係とpart-of関係
 コメント

概念名
例題
ID番号
生物機能オントロジー
別名
概念関係
例題
Gene Ontology (GO)の構造
3つの生物機能のontology :
① 分子機能(molecular function)
 遺伝子産物の生化学的機能を表す.このオントロジーは,遺伝子産
物が「いつ」あるいは「どこで」働くではなく,「何をするか」を定義.例
としては,「酵素」,「トランスポーター」,「リガンド」,など.
② 生体内作用(biological process)
 分子機能よりも大きな概念で,複数の分子の協調的な活動によって
引き起こされる生物学的役割.時間や物質変化を伴うもので,「DNA
複製」や「シグナル伝達」など.
③ 細胞内構成要素(celluar component)
 細胞内に存在するより高次な構造や複合体などの物体の構成要素.
「染色体」,「リボソーム」,など.
Gene Ontology (GO)の構造
概念間の関係:
① is-a関係
 「B is a A」という英語表現に由来して,概念Bは概念Aの属性を受け
継いでいるという関係.
 (例) mouse is an animal. E. coli is a bacteria.
 is-a関係の特徴は,推移律が無条件で使える.推移律とは,「C is a
B」と「B is a A」という2つの関係が成り立つ場合に,「C is a A」も成り
立つという規則.
 (例)
mouse is a rodent. rodent is a mammal. ⇒ mouse is a mammal.
② part-of関係
 「B is a part of A」という英語表現に由来して,概念Bが概念Aの部分
であることを示す.
 (例) finger is a part of hand. Japan is a part of Asia.
Associated-gene関係
を持つ遺伝子数
all
is-a関係を表す
GO:0003674
GOの概念間の関係
概念階層における多重継承:
最上位概念へ至る上位下位関係
の道筋が複数ある
GO:0005488
GO:0003676
GO:0030528
GO:0003677
GO:0003700
GOの概念間の関係

性質の継承:上位概念の属性は,下位概念に継承される
all
Elemental “activities”
molecular_function
The “selective interaction” of a molecule with
one or more “specific sites” on another molecule
binding
“Interacting selectively” with any “nucleic acid”
nucleic acid binding
“Interacting selectively” with “DNA”
DNA binding
transcription factor activity
The function of “binding” to a “specific DNA”
sequence in order to modulate “transcription”
GOの概念間の関係の例:

分子機能(molecular function)
分子機能
核酸結合
DNA結合
クロマチン結合
ラミン /
クロマチン結合
酵素
ヘリカーゼ
DNA
ヘリカーゼ
アデノシン
トリ ホスファターゼ
ATP依存性
ヘリカーゼ
ATP依存性
DNAヘリカーゼ
DNA依存性
アデノシン
トリ ホスファターゼ
GOの概念間の関係の例:

生体内作用(biological process)
DNAの代謝
DNAの
パッケージング
DNAの分解
DNAの複製
DNAの修復
DNAの組換え
DNA依存性
DNA複製
DNA複製開始
複合体の
形成と維持
DNAの
巻き戻し
DNAの複製
プライミング
DNAの
複製開始
ラギング鎖
の伸長
DNA鎖
の伸長
DNA鎖
の連結
リーディング鎖
の伸長
GOの概念間の関係の例:

細胞内構成成分要素(celluar component)
細胞
細胞質
核
核小体
核質
複製フォーク
δDNA
ポリメラーゼ
DNA複製因子
A複合体
DNA複製因子
C複合体
核膜
DNA複製開始
複合体
複製起点
認識複合体
GOの応用:クラスタリング結果の解析
発現プロファイルのクラスタリングで得られた各クラスターに
含まれる遺伝子群の解析:
 クラスターに含まれる遺伝子群に割当てられるGO termの
統計的優位性の解析
“Statistically over-represented”
 手順:

 遺伝子発現プロファイルを階層的クラスタリング
 各クラスターに含まれる遺伝子群に関して顕著なGO termを見出す
 発現データを解釈する
階層的クラスタリング
の結果:
各クラスターの遺伝子群
に顕著なGO term
(例)がん遺伝子のクラスタリング
“Systematic Variation in gene expression patterns in
Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000

これらのクラスターに分類された遺伝子群は,それぞれの
がんの種類に関して,統計的に優位であるのか?
GOの応用:クラスタリング結果の解析(1)

最も単純な方法:手順:
 クラスター内の遺伝子について,各メンバ遺伝子とassociated gene
関係にあるGO termを数え上げる
 最も数の多いGO termをそのクラスターに顕著な(代表的な)GO
termとする
 各遺伝子とassociated gene関係にあるGO termだけでなく,その
termからrootまでのtermも合わせて数え上げる
 クラスター内に機能未知の遺伝子があれば,顕著なGO termをその
遺伝子の機能と予測する
最大数のGO term

その他のGO term
本当にこの方法でよいのか?
 例えば,最も数の多いGO termの割合が,80%以上なら統計的に有
意と言えるのか?60%未満ならそのGO termは顕著でないと言える
のか?
GOの応用:クラスタリング結果の解析(2)

GO termの優位性の統計的検定:
⇒ 超幾何分布による検定
 クラスター内の遺伝子群に顕著なGO termの統計的優位性を超幾何
分布を用いて検定する
 手順:
① 超幾何分布を仮定して,無作為抽出による偶然の確率を計算
② 発現プロファイル全体の遺伝子群に対して,バックグラウンドでの
GO termの出現頻度を超幾何分布のパラメータに組み入れる
③ クラスター内のGO termの出現頻度に対して,超幾何分布を用い
て,p-値を計算
 (クラスタリングの評価にも使用できる)各クラスターに顕著なGO term
のp-値が低ければ有意なクラスターが得られている,すなわち,よい
クラスタリングが行われた,と判断できる
超幾何分布

母集団は全部で N個の要素からなり,ある特性Aを持つもの M個と持たな
いもの NM個で構成されているとする
この母集団から無作為に非復元抽出(一度取り出した要素は元に戻さず
次を抽出)により,n個の要素を選び,その中で特性Aを持つものの個数を
xとする.

この xの確率分布を超幾何分布といい,H(n,M,N)と書く

超幾何分布の確率関数:

M C x  N M
p( x) 
Cn x
N Cn
全部でN個の要素からn個を選ぶ選び方は,NCn通りある.特定Aを持つ
M個からx個を選ぶ選び方はMCx通りであり,それに対して特性Aを持たない
NM個からnx個を選ぶ選び方はNMCnxとなるので,上記の確率関数が
与えられる
超幾何分布を用いた検定





N:発現プロファイル(マイクロアレイ)中の全遺伝子数
M:あるGO term Aとassociated gene関係にある遺伝子数
n:あるクラスターに属する遺伝子数
m:クラスター中でGO term Aにアノテーションされる遺伝子数
この時, GO term Aのp-値は:
n
p ( x  m) 

xm
M個
n
p( x) 

xm
M
C x  N  M Cn x
N Cn
m個
N個
n個
超幾何分布を用いた検定

超幾何分布における確率分布
N=1000, M=500, n=20
m=10, p-値=0.411007
m=15, p-値=0.005508
m=18, p-値=1.7119e-05
N=1000, M=200, n=20
m=10, p-値=0.000488
m=15, p-値=8.9165e-09
m=18, p-値=4.2491e-13
Fly UP