...

講演資料 - 明治大学・バイオインフォマティクス研究室

by user

on
Category: Documents
24

views

Report

Comments

Transcript

講演資料 - 明治大学・バイオインフォマティクス研究室
2012/3/9
生命システム情報統合データベース
KEGG および GenomeNet の活用方法
KEGG および
GenomeNet の活用方法
第202回生存研シンポジウム
「バイオテクノロジーと情報科学の接点」
2012/3/5
京都大学化学研究所
バイオインフォマティクスセンター
化学生命科学領域
時松 敏明
URL
• KEGG
– 英語
• http://www.kegg.jp/kegg/
– 日本語
• http://www.kegg.jp/kegg/kegg_ja.html
• GenomeNet
– 英語
• http://www.genome.jp/
– 日本語
• http://www.genome.jp/ja/
• GoogleでKEGG, GenomeNet(ゲノムネット)で検索すると、ト
ップヒットで出てきます。
1
2012/3/9
KEGG: Kyoto Encyclopedia of Genes and Genomes
様々な種類のデータを「生命現象の総体」として再構築
高次機能
ツールの提供
EGassembler
KAAS
GENIES
KegArray
機能の階層分類
相互参照用データ
KEGG BRITE
ツールの提供
e-zyme
PathPred
SIMCOMP
KegArray
研究者の知識をゲノムレベルのデータと結びつける
3
KEGG: Kyoto Encyclopedia of Genes and Genomes
http://www.kegg.jp/kegg/
4
http://www.kegg.jp/kegg/kegg2.html
2
2012/3/9
KEGG: Kyoto Encyclopedia of Genes and Genomes
システムの知識
KEGG PATHWAY
KEGG BRITE
KEGG MEDICUS
ゲノムの知識
KEGG GENES
化合物の知識
KEGG LIGAND
http://www.kegg.jp/kegg/
5
KEGG の高次システム情報データベース
• 基礎科学に関する情報
– PATHWAY
– BRITE
– MODULE
パスウェイマップ
パスウ
イマップ
機能階層情報
モジュールと機能ユニット
• 応用科学に関する情報(MEDICUS)
– DISIEASE
– DRUG
– ENVIRON
ヒトの病気
医薬品情報
生薬や健康関連の物質
3
2012/3/9
KEGG のゲノム(配列)情報データベース
• ORTHOLOGY KEGG Orthology (KO)
• GENOMES
• GENES
生物種ごとのゲノム情報
遺伝子カタログ
– マニュアルもしくはKOALAアノテーション
• DGENES
遺伝 カタ グ
遺伝子カタログ
– 自動アノテーション
• SSDB
GENESの配列類似性
KEGG の化学情報データベース(LIGAND)
• COMPOUND 代謝産物などの低分子
• GLYCAN
(タンパク修飾)糖鎖
•
•
•
•
REACTION
RPAIR
RCLASS
ENZYME
生化学反応
Reactant pairの化学変換情報
RPAIRによる反応のクラス分類
Enzyme nomenclature (EC番号)
– 下4つの統合入り口として REACTIONがある
4
2012/3/9
ゲノムネット
データベース検索システム:DBGET/LinkDB
KEGGと国内外の様々なデータベースを統合的に検索するシステム
ゲノムネット医薬品データベース
その他のプロジェクトデータベース
http://www.genome.jp/ja/
9
ゲノムネット計算ツール
ホモロジー検索、モチーフ検索
マルチプルアライメント
遺伝子機能アノテーション、予測など
化学構造比較、パス予測など
英語: http://www.genome.jp/
日本語: http://www.genome.jp/ja/
10
5
2012/3/9
KEGG PATHWAY
生体内(外)の分子間ネットワーク図
• 代謝系
– 12+1カテゴリ (162+3マップ)
– 中間代謝、二次代謝、薬の代
謝、全体像
像
• 制御系
– 20カテゴリ
– 遺伝制御、環境シグナル、細
胞プロセス、生体システム他
• 疾患
– がん、免疫・神経変性・循環
器・代謝疾患、感染症
http://www.kegg.jp/kegg/pathway.html
• 薬の開発
– 開発の歴史、標的ベース、構
造ベース
11
代謝系Pathway Mapの3つのタイプ
(1) Standard Pathway Map
6
2012/3/9
代謝系Pathway Mapの3つのタイプ
(2) Global Map
Metabolic pathways
Biosynthesis of secondary metabolites
Microbial metabolism in diverse environments
代謝系Pathway Mapの3つのタイプ
(3) Overview map
7
2012/3/9
KO, REACTION, COMPOUND, PATHWAY
‐ KEGG PATHWAYの構造 ‐
• 生物種ごとのPathwayは遺伝子と化合物の相互ネットワーク
f
P
h
は
KOやR
i と化合物の相互ネ トワ ク
• R
Reference
Pathway
は、KOやReactionと化合物の相互ネットワーク
• 文献を元に新しいPathwayを作成することにより、新しいKOが定義される
GENES
Species pathways
ath:AT2G30490
A. thaliana (ath)
osa:4329324
osa:4329329
osa:4338409
ppp: PHYPADRAFT_140533
ppp: PHYPADRAFT_149501
O. sativa (osa)
……………..
……………..
……………..
……………..
……
Reference pathways
……………..
P. patens patens (ppp)
KO (KOと化合物)
(例: C4H)
KO
K00487
REACTION
REACTION
(反応と化合物)
R02253
KEGG GENES データベース
( http://www.kegg.jp/kegg/genes.html)
配列の種類
アノテーションの種類
(manual、KOALA、KAAS)
KEGG GENESの
サブカテゴリ
登録データの一覧表へのリンク
生物種単位、サンプル単位
16
8
2012/3/9
KEGG Organisms
‐ GENES, DGENESに登録されている生物種 ‐
分類
生物種コード
生物種名
データソース
17
生物種のゲノム情報
‐ 種の系統、データソース、アノテーションレベル、文献などの詳細情報 ‐
9
2012/3/9
KO (KEGG Orthology)
• KEGGでは同じ機能を有している
と考えられるオーソログ遺伝子を
集め、同一のID(K番号)をつける
ことでその機能を表現している
• 新規ゲノムが新しくGenesに登録
されるとき、遺伝子をオーソログ
グループ(KO)に追加することで、
遺伝子の機能アノテーションを
行っている
KOのアサイン
• KEGGでは基本的にはSSDBフィールドの情報
をもとに 遺伝子にKOの付与(機能アノテ
をもとに、遺伝子にKOの付与(機能アノテー
ション)を行う
• KEGGの機能アノテーションはmanual、KOALA
、KAASの3段階の精度
KAASの3段階の精度
10
2012/3/9
KOのアノテーションレベル
• Manual
•
KOALAによる自動アノテーションの情報とオーソログ情報を参考にし、そ
れぞれの遺伝子に対して個別に、知識にも基づく機能アノテーションを手
作業で行う
– KOALA
•
GENESに登録される生物種において、SWスコア、ベストヒット、系統分類、
ドメイン情報などをもとにスコアリングを行い、配列に自動で機能アノテー
ションを行う
– KAAS
•
•
SWスコアの計算には非常に時間がかかるため、頻繁にデータ更新があ
りうる
りうるDGENES, EGENESや配列数の多いMGENESをKOALAで機能アノテー
や配列数の多い
を
で機能アノテ
ションするのは困難
BLASTの相同性スコア、ベストヒットの情報をもとにしたアノテーションツー
ル、KAASによって DGENES、EGENES、MGENESに登録されている配列の
自動機能アノテーションを行う
KAAS ( http://www.genome.jp/tools/kaas/ )
‐ 自動、機能アノテーションサービス ‐
11
2012/3/9
KAAS
‐ 自動、機能アノテーションサービス ‐
• 入力データ
Query
種Xの網羅的
遺伝子配列
・・・
– 大規模シークエンスによっ
て得られた特定の種の大
量のアミノ酸・ヌクレオチド
配列
– ORFの配列をmulti‐FASTA
形式で
テンプレート
GENES
KO
PATHWAY
• 出力結果
ション
– KO アノテ
アノテーション
– KOに基づく遺伝子の階層
分類データ(BRITE)
– PATHWAY マップ
Results
種XのPATHWAY
KAAS
‐ 自動、機能アノテーションサービス ‐
• Complete or Draft genome
– 入力配列が特定の種の遺伝子で、
ある程度網羅性が期待できると来、
BBHを指標により精度の高いアノ
テーションを行う
• Partial genome
– 入力が網羅的でないときには、
Bidirectionalな意味がないので、
SBH(片方向ベストヒット)を用いて
アノテーションを行う
– 入力が少量の場合、対話式に結
果を得ることができる
• ESTs
– 入力データがESTの時に用いる。ヌ
クレオチド配列を全パターン翻訳
するため計算量が増える
12
2012/3/9
PATHWAY の検索とマッピング
• キーワード検索
–
Entry, Name, Description フィールドとマップ
中のオブジェクト(遺伝子、オーソログ、反応、
化合物)や注釈を対象とした検索
–
複数キーワードは AND 検索
• オブジェクトマッピング
KEGG Mapper
–
マップ中のオブジェクトを指定してパスウェイに
マッピング
–
複数オブジェクトを指定するとマッチしたものす
べてをマッピング
–
Search Pathway
–
Search & Color Pathway
•
•
–
指定したオブジェクトを赤く色づけ
指定したオブジェクトを自由に色づ
け
Color Pathway
•
指定したパスウェイにオブジェクト
の色データを与えて色づけ、数値を
与えることも可能
25
http://www.kegg.jp/kegg/pathway.html
KEGG GENOME
http://www.kegg.jp/kegg/genome.html
• KEGG 生物種ごとの入り口
– GENES/DGENES:ゲノムが決定
された生物種
– EGENES:ESTで作成された遺伝
子セット
– MGENES:メタゲノムデータ
– Pangenomes:近縁生物種をま
とめたもの
– Viruses
– 生物種の組み合わせ
26
13
2012/3/9
複数生物種の情報を PATHWAY にマッピング
• 共生関係
• 寄生関係
• ヒトと腸内細菌叢など
• ミヤコグサ
– マメ科モデル植物
• Mesorhizobium loti
– 共生根粒菌
27
複数生物種の情報を PATHWAY にマッピング
ミヤコグサ
根粒菌
共通
28
14
Fly UP