Comments
Description
Transcript
講演資料 - 明治大学・バイオインフォマティクス研究室
2012/3/9 生命システム情報統合データベース KEGG および GenomeNet の活用方法 KEGG および GenomeNet の活用方法 第202回生存研シンポジウム 「バイオテクノロジーと情報科学の接点」 2012/3/5 京都大学化学研究所 バイオインフォマティクスセンター 化学生命科学領域 時松 敏明 URL • KEGG – 英語 • http://www.kegg.jp/kegg/ – 日本語 • http://www.kegg.jp/kegg/kegg_ja.html • GenomeNet – 英語 • http://www.genome.jp/ – 日本語 • http://www.genome.jp/ja/ • GoogleでKEGG, GenomeNet(ゲノムネット)で検索すると、ト ップヒットで出てきます。 1 2012/3/9 KEGG: Kyoto Encyclopedia of Genes and Genomes 様々な種類のデータを「生命現象の総体」として再構築 高次機能 ツールの提供 EGassembler KAAS GENIES KegArray 機能の階層分類 相互参照用データ KEGG BRITE ツールの提供 e-zyme PathPred SIMCOMP KegArray 研究者の知識をゲノムレベルのデータと結びつける 3 KEGG: Kyoto Encyclopedia of Genes and Genomes http://www.kegg.jp/kegg/ 4 http://www.kegg.jp/kegg/kegg2.html 2 2012/3/9 KEGG: Kyoto Encyclopedia of Genes and Genomes システムの知識 KEGG PATHWAY KEGG BRITE KEGG MEDICUS ゲノムの知識 KEGG GENES 化合物の知識 KEGG LIGAND http://www.kegg.jp/kegg/ 5 KEGG の高次システム情報データベース • 基礎科学に関する情報 – PATHWAY – BRITE – MODULE パスウェイマップ パスウ イマップ 機能階層情報 モジュールと機能ユニット • 応用科学に関する情報(MEDICUS) – DISIEASE – DRUG – ENVIRON ヒトの病気 医薬品情報 生薬や健康関連の物質 3 2012/3/9 KEGG のゲノム(配列)情報データベース • ORTHOLOGY KEGG Orthology (KO) • GENOMES • GENES 生物種ごとのゲノム情報 遺伝子カタログ – マニュアルもしくはKOALAアノテーション • DGENES 遺伝 カタ グ 遺伝子カタログ – 自動アノテーション • SSDB GENESの配列類似性 KEGG の化学情報データベース(LIGAND) • COMPOUND 代謝産物などの低分子 • GLYCAN (タンパク修飾)糖鎖 • • • • REACTION RPAIR RCLASS ENZYME 生化学反応 Reactant pairの化学変換情報 RPAIRによる反応のクラス分類 Enzyme nomenclature (EC番号) – 下4つの統合入り口として REACTIONがある 4 2012/3/9 ゲノムネット データベース検索システム:DBGET/LinkDB KEGGと国内外の様々なデータベースを統合的に検索するシステム ゲノムネット医薬品データベース その他のプロジェクトデータベース http://www.genome.jp/ja/ 9 ゲノムネット計算ツール ホモロジー検索、モチーフ検索 マルチプルアライメント 遺伝子機能アノテーション、予測など 化学構造比較、パス予測など 英語: http://www.genome.jp/ 日本語: http://www.genome.jp/ja/ 10 5 2012/3/9 KEGG PATHWAY 生体内(外)の分子間ネットワーク図 • 代謝系 – 12+1カテゴリ (162+3マップ) – 中間代謝、二次代謝、薬の代 謝、全体像 像 • 制御系 – 20カテゴリ – 遺伝制御、環境シグナル、細 胞プロセス、生体システム他 • 疾患 – がん、免疫・神経変性・循環 器・代謝疾患、感染症 http://www.kegg.jp/kegg/pathway.html • 薬の開発 – 開発の歴史、標的ベース、構 造ベース 11 代謝系Pathway Mapの3つのタイプ (1) Standard Pathway Map 6 2012/3/9 代謝系Pathway Mapの3つのタイプ (2) Global Map Metabolic pathways Biosynthesis of secondary metabolites Microbial metabolism in diverse environments 代謝系Pathway Mapの3つのタイプ (3) Overview map 7 2012/3/9 KO, REACTION, COMPOUND, PATHWAY ‐ KEGG PATHWAYの構造 ‐ • 生物種ごとのPathwayは遺伝子と化合物の相互ネットワーク f P h は KOやR i と化合物の相互ネ トワ ク • R Reference Pathway は、KOやReactionと化合物の相互ネットワーク • 文献を元に新しいPathwayを作成することにより、新しいKOが定義される GENES Species pathways ath:AT2G30490 A. thaliana (ath) osa:4329324 osa:4329329 osa:4338409 ppp: PHYPADRAFT_140533 ppp: PHYPADRAFT_149501 O. sativa (osa) …………….. …………….. …………….. …………….. …… Reference pathways …………….. P. patens patens (ppp) KO (KOと化合物) (例: C4H) KO K00487 REACTION REACTION (反応と化合物) R02253 KEGG GENES データベース ( http://www.kegg.jp/kegg/genes.html) 配列の種類 アノテーションの種類 (manual、KOALA、KAAS) KEGG GENESの サブカテゴリ 登録データの一覧表へのリンク 生物種単位、サンプル単位 16 8 2012/3/9 KEGG Organisms ‐ GENES, DGENESに登録されている生物種 ‐ 分類 生物種コード 生物種名 データソース 17 生物種のゲノム情報 ‐ 種の系統、データソース、アノテーションレベル、文献などの詳細情報 ‐ 9 2012/3/9 KO (KEGG Orthology) • KEGGでは同じ機能を有している と考えられるオーソログ遺伝子を 集め、同一のID(K番号)をつける ことでその機能を表現している • 新規ゲノムが新しくGenesに登録 されるとき、遺伝子をオーソログ グループ(KO)に追加することで、 遺伝子の機能アノテーションを 行っている KOのアサイン • KEGGでは基本的にはSSDBフィールドの情報 をもとに 遺伝子にKOの付与(機能アノテ をもとに、遺伝子にKOの付与(機能アノテー ション)を行う • KEGGの機能アノテーションはmanual、KOALA 、KAASの3段階の精度 KAASの3段階の精度 10 2012/3/9 KOのアノテーションレベル • Manual • KOALAによる自動アノテーションの情報とオーソログ情報を参考にし、そ れぞれの遺伝子に対して個別に、知識にも基づく機能アノテーションを手 作業で行う – KOALA • GENESに登録される生物種において、SWスコア、ベストヒット、系統分類、 ドメイン情報などをもとにスコアリングを行い、配列に自動で機能アノテー ションを行う – KAAS • • SWスコアの計算には非常に時間がかかるため、頻繁にデータ更新があ りうる りうるDGENES, EGENESや配列数の多いMGENESをKOALAで機能アノテー や配列数の多い を で機能アノテ ションするのは困難 BLASTの相同性スコア、ベストヒットの情報をもとにしたアノテーションツー ル、KAASによって DGENES、EGENES、MGENESに登録されている配列の 自動機能アノテーションを行う KAAS ( http://www.genome.jp/tools/kaas/ ) ‐ 自動、機能アノテーションサービス ‐ 11 2012/3/9 KAAS ‐ 自動、機能アノテーションサービス ‐ • 入力データ Query 種Xの網羅的 遺伝子配列 ・・・ – 大規模シークエンスによっ て得られた特定の種の大 量のアミノ酸・ヌクレオチド 配列 – ORFの配列をmulti‐FASTA 形式で テンプレート GENES KO PATHWAY • 出力結果 ション – KO アノテ アノテーション – KOに基づく遺伝子の階層 分類データ(BRITE) – PATHWAY マップ Results 種XのPATHWAY KAAS ‐ 自動、機能アノテーションサービス ‐ • Complete or Draft genome – 入力配列が特定の種の遺伝子で、 ある程度網羅性が期待できると来、 BBHを指標により精度の高いアノ テーションを行う • Partial genome – 入力が網羅的でないときには、 Bidirectionalな意味がないので、 SBH(片方向ベストヒット)を用いて アノテーションを行う – 入力が少量の場合、対話式に結 果を得ることができる • ESTs – 入力データがESTの時に用いる。ヌ クレオチド配列を全パターン翻訳 するため計算量が増える 12 2012/3/9 PATHWAY の検索とマッピング • キーワード検索 – Entry, Name, Description フィールドとマップ 中のオブジェクト(遺伝子、オーソログ、反応、 化合物)や注釈を対象とした検索 – 複数キーワードは AND 検索 • オブジェクトマッピング KEGG Mapper – マップ中のオブジェクトを指定してパスウェイに マッピング – 複数オブジェクトを指定するとマッチしたものす べてをマッピング – Search Pathway – Search & Color Pathway • • – 指定したオブジェクトを赤く色づけ 指定したオブジェクトを自由に色づ け Color Pathway • 指定したパスウェイにオブジェクト の色データを与えて色づけ、数値を 与えることも可能 25 http://www.kegg.jp/kegg/pathway.html KEGG GENOME http://www.kegg.jp/kegg/genome.html • KEGG 生物種ごとの入り口 – GENES/DGENES:ゲノムが決定 された生物種 – EGENES:ESTで作成された遺伝 子セット – MGENES:メタゲノムデータ – Pangenomes:近縁生物種をま とめたもの – Viruses – 生物種の組み合わせ 26 13 2012/3/9 複数生物種の情報を PATHWAY にマッピング • 共生関係 • 寄生関係 • ヒトと腸内細菌叢など • ミヤコグサ – マメ科モデル植物 • Mesorhizobium loti – 共生根粒菌 27 複数生物種の情報を PATHWAY にマッピング ミヤコグサ 根粒菌 共通 28 14