Comments
Description
Transcript
公共データベースとは? - DDBJ
公共データベースを使い倒した 知のめぐりのよい生命科学研究 坊農 秀雅 情報・システム研究機構 ライフサイエンス統合データベース センター(DBCLS) [email protected] © 2014 DBCLS Licensed under CC BY 2.1JAPAN 公共データベースとは? • 誰でも自由に使えるデータベース(DB)! • 世界中の研究者が協力して維持! • 日本では「統合データベースプロジェクト」! – NBDC DBCLS DDBJ を中心に多くの大学 や研究機関が協力! –安心してすぐに利用できるデータを提供! –公共DBとして外に出す際にデータを綺麗に 2 © 2014 DBCLS Licensed under CC BY 2.1JAPAN DBCLS移転しました • 2014年度から! • 柏の葉キャンパス駅前のビル! • 遺伝研DDBJ/CIBの隣のビル! • 「統合」なのに分割移転w! • 予算的、制度的な都合! • 地理的に と統合 3 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 本日のトピック: 統合DBの 1. 現状 2. 活用法 3. 活用事例 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 3つの「センター」 • DDBJ: DNAデータアーカイブ! http://dbcls.rois.ac.jp/about • DBCLS: データベース統合基盤技術開発! 5 • NBDC: 戦略立案、funding © 2014 DBCLS Licensed under CC BY 2.1JAPAN NBDC • Since 2011 (4年目)! • http://biosciencedbc.jp/ 6 © 2014 DBCLS Licensed under CC BY 2.1JAPAN integbio.jp 7 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://integbio.jp/dbcatalog/ DBを探す(カタログ) 8 © 2014 DBCLS Licensed under CC BY 2.1JAPAN データを探す(横断検索) http://biosciencedbc.jp/dbsearch/ 9 © 2014 DBCLS Licensed under CC BY 2.1JAPAN データを使う(アーカイブ) http://dbarchive.biosciencedbc.jp/ 10 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 本日のトピック: 統合DBの 1. 現状 2. 活用法 3. 活用事例 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 2. 統合DBの活用法 • 使い方動画! –統合TV! • 文献! –新着論文レビュー・ 領域融合レビュー! –PubMed+PMC! • Allie/colil/inMexes! –OMIM+gene! • gendoo! 12 • DNA配列! –GGRNA/GGGenome! –DBCLS SRA! • 遺伝子発現! –発現目次! –RefEx! • RDF! –togogenome! –togotable © 2014 DBCLS Licensed under CC BY 2.1JAPAN togotv(統合TV) • 動画によるDBやツールのチュートリアル! –各DBやツール名で検索! http://togotv.dbcls.jp/ • 統合データベース講演会AJACSの動画も! • YouTubeにも! http://youtube.com/togotv ! ! • 約770の動画 (アップデート込) クリエイティブ・コモンズ 表示 2.1 日本 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 13 NGS 14 14 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 15 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 16 16 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 17 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 流行りのクラウド化! 18 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 謹告 クラウド化とはいうものの… • 統合TV作り手を募集しています! –生命科学のDBやウェブツールに興味のある方! –Camtasia studioというソフトウェアで作成! –作成プロトコール: 「統合TVの作り方」! – http://togotv.dbcls.jp/20120220.html ! – http://togotv.dbcls.jp/20120221.html! –国立遺伝学研究所(三島市)まで来れる方(応相談) 19 20 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 大人気のサービス © 2014 DBCLS Licensed under CC BY 2.1JAPAN 新着論文レビュー http://first.lifesciencedb.jp/ 21 クリエイティブ・コモンズ 表示 2.1 日本 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://leading.lifesciencedb.jp/ 22 © 2014 DBCLS Licensed under CC BY 2.1JAPAN Pubmed & PMC http://www.ncbi.nlm.nih.gov/gquery/?term=ALL%5Bfilter%5D © 2014 DBCLS Licensed under CC BY 2.1JAPAN 23 Allie http://allie.dbcls.jp/ 24 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://colil.dbcls.jp/ 25 © 2014 DBCLS Licensed under CC BY 2.1JAPAN inMeXes http://docman.dbcls.jp/im/ 26 © 2014 DBCLS Licensed under CC BY 2.1JAPAN gendoo http://gendoo.dbcls.jp/ 遺伝子、疾患について、関連する疾患、薬剤、臓器、生 命現象などの特徴をキーワードでリスト表示するツール Nakazato T et al. Nucl.Acids Res. (2009) 37, W166-W169 27 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 28 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 塩基配列データベース http://www.insdc.org/ Annotated sequences INSDC! NCBI! DDBJ/(EMBL)/GenBank RefSeq Next generation reads nr/nt Title:Nucleotide collection (nt) Description:The nucleotide collection consists of GenBank+EMBL+DDBJ+PDB+RefSeq sequences, but excludes EST, STS, GSS, WGS, TSA, patent sequences as well as phase 0, 1, and 2 HTGS sequences. The database is partially non-redundant. Capillary reads TraceArchive Sequence Read Archive (SRA) © 2014 DBCLS Licensed under CC BY 2.1JAPAN 29 RefSeq • Reference Sequenceの略! • NCBIが提供する配列解析に使うための文字通 り "reference"(リファレンス)となるべき配列 データベースのこと! • その配列の多くは核酸配列データベースの DDBJやEMBL、GenBank由来であり、それら の中からもっとも代表としてふさわしい(参照 の基準となる)ものが、目で見て選ばれている 30 © 2014 DBCLS Licensed under CC BY 2.1JAPAN GGRNA http://ggrna.dbcls.jp/ あらゆるキーワードや 塩基配列・アミノ酸配列 から遺伝子(RefSeqの mRNA+ncRNA)を Google のように検索で きるウェブサーバ Naito Y and Bono H Nucl.Acids Res. (2012), 40, W592-W596 31 © 2014 DBCLS Licensed under CC BY 2.1JAPAN GooGle ライクな Genome 検索エンジン http://GGGenome.dbcls.jp/ Genomeも検索できたらええなあ… やりましょう!! 32 32 © 2014 DBCLS Licensed under CC BY 2.1JAPAN Probe Search http://probe.dbcls.jp/ プローブも検索できたらええなあ… やりましょう!! GGRNA GGGenomeへ © 2014 DBCLS Licensed under CC BY 2.1JAPAN 33 SRA(Sequence Read Archive) • NGSのデータベース(除くヒト個人のデータ)! • NCBI/EBI/DDBJによって維持管理! –DDBJではDRAとも呼称 NBDCヒトデータベース! http://humandbs.biosciencedbc.jp/ Image generated by http://sra.dbcls.jp/ 34 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://sra.dbcls.jp/ 35 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://sra.dbcls.jp/ 36 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://sra.dbcls.jp/ 37 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://sra.dbcls.jp/ 38 © 2014 DBCLS Licensed under CC BY 2.1JAPAN © 2014 DBCLS Licensed under CC BY 2.1JAPAN 39 遺伝子発現データベース • GEO(NCBI)とArrayExpress(EBI)! –http://www.ncbi.nlm.nih.gov/geo/ ! –http://www.ebi.ac.uk/arrayexpress/ ! • かつてはCIBEX(DDBJ)も! • RNAseqデータはこちらにも登録がある! –Transcriptome analysisとも! • 必要なデータを見つけづらい 40 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 遺伝子発現目次 http://lifesciencedb.jp/geo/ 41 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 42 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://RefEx.dbcls.jp 43 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 44 © 2014 DBCLS Licensed under CC BY 2.1JAPAN RDFによるDB統合 ゲノムの配列情報と多種多様なアノテーションデータを個別のオン トロジー、データ変換プログラムを開発し RDF 形式にして統合 オントロジー ゲノム配列 NCBO: BioPortal, OBO (GO, SO ...) DBCLS: MEO, GMO, MCCV ... NCBI: BioProject/RefSeq -- 既存のリファレンス配列 DDBJ: Annotation pipeline/GTPS -- 新規ゲノ ム配列 アノテーション 実験・メタデータ UniProt: Protein functions and links Formats: GFF3, GTF, GVF, DAS, BED ... Tools: Cufflinks, BLAST, InterProt ... INSDC, NCBI: SRA, GEO DBCLS: RefEx, Kusarinoko GOLD, GSC: 環境メタデータ Bulk data: 文献, 画像 ... Slide from トーゴーの日シンポジウム2013 「データベース統合の実現に向けて2」 by 岡本忍 (DBCLS) 45 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://togogenome.org/ Togogenome • 生物種とゲノムに関連する多種多様な情報をセマ ンティック・ウェブ技術により集約し、ゲノム情 報の統合的で新しい検索を実現したシステム 46 © 2014 DBCLS Licensed under CC BY 2.1JAPAN http://togotable.dbcls.jp/ TogoTable • EXCELなどの表形式データに記載されているバイオ データベースのID番号やアクセッション番号からア ノテーション情報をネットワーク経由で取得し、元 の表形式データに追加するウェブアプリケーション © 2014 DBCLS Licensed under CC BY 2.1JAPAN 47 祝! PDB record数10万越え • TogoTableによるDB紐付け→Togogenomeによ るNGS readの可視化!?! ! • 参考! –塩基配列 171M records, 202G bases (DDBJ Rel.96)! • http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html! –遺伝子発現 50k experiments, 1.4M samples (Arrayexpress latest) http://www.ebi.ac.uk/arrayexpress/ 48 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 本日のトピック: 統合DBの 1. 現状 2. 活用法 3. 活用事例 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 3. 統合DBの活用事例 A. ヒト疾患モデル化研究: パーキンソン 病様のカイコ! B. ブタ成熟脂肪細胞の脱分化機構の網 羅的解析 50 © 2014 DBCLS Licensed under CC BY 2.1JAPAN パーキンソン病 • Parkinson’s disease(PD)! • 神経変性疾患! doi:10.1371/journal.pone.0069130.g001 • 症状の進行に伴って血液中の尿酸量が減少! –その理由はこれまで不明! • PDモデル生物種:尿酸代謝系に異常を持つ 変異体は未発見! –PDの症状に似た特徴があり、なおかつ尿酸代謝 系に異常を持つカイコ変異体系統(op) © 2014 DBCLS Licensed under CC BY 2.1JAPAN 51 非モデル生物には! 遺伝子機能アノテーションがない ないものは作ればいい → Kaiko functional annotation pipeline 「localBLASTで遺伝子対応表作成」http://bonohu.jp/blog/2013/07/25/ B.mori Ka00003 0.1 0.5 CAAATAA. Ka00005 0.2 -1.2 TAGCGA. Ka00006 0.3 1.0 GGCTTC. …… TBLASTX Sequence GOID ENST00000373371 ATTGGCTGC.. ENST00000394878 ATGCCCAGG.. ENST00000277541 GCGCGTGT... …… …… …… …… …… Kaiko array 11,285 IDs in B.mori ! (5,854 H.sapiens transcript IDs) Data source: ftp://ftp.ensembl.org/ pub/release-68/fasta/ B.mori H.sapiens E-value Description Ka00003 Ka00005 ENST00000373371 ENST00000394878 5e-16 2e-21 Ka00006 ENST00000277541 2e-12 solute carrier family 2 ribosomal protein, large notchP0 1 …… …… …… 52 H.sapiens WT op50 Sequence Conversion table © 2014 DBCLS Licensed under CC BY 2.1JAPAN ヒトのIDに変換すると… • ヒトで使われているツールが利用可能! –市販のパスウェイ解析ソフト KeyMolnet®を利用! • KeyMolnet®はUniProtIDを入力として受け付けるの で、対応するそのIDをBiomartで付与! –参考:「BioMartを使ってさまざまなIDの変換対応表を作成す る」 http://togotv.dbcls.jp/20110927.html B.mori Ensembl Ka00003 ENST000003733 Ka00005 ENST000003948 Ka00006 ENST000002775 …… …… UniProt Q9NY64 UniProt ID GTR8_HUMAN P46531 …… NOTC1_HUMAN …… © 2014 DBCLS Licensed under CC BY 2.1JAPAN 53 研究者によるmanual curation! を経て… Induced expression Activation or direct binding 54 doi:10.1371/journal.pone.0069130.g002 © 2014 DBCLS Licensed under CC BY 2.1JAPAN qPCR in wild-type & op mutant Relative Quantification (RQ) Relative Quantification (RQ) • 脂肪体(左)と精巣(右) doi:10.1371/journal.pone.0069130.g002 Tabunoki H, Ono H, Ode H, Ishikawa K, Kawana N, Banno Y, Shimada T, Nakamura Y, Yamamoto K, Satoh J, Bono H. PLOS ONE 8(7): e69130. (2013)! http://dx.plos.org/10.1371/journal.pone.0069130 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 55 3. 統合DBの活用事例 A. ヒト疾患モデル化研究: パーキンソン 病様のカイコ! B. ブタ成熟脂肪細胞の脱分化機構の網 羅的解析 56 © 2014 DBCLS Licensed under CC BY 2.1JAPAN ブタ成熟脂肪細胞の脱分化機構の 網羅的解析 • 日大生物資源科学部 加野浩一郎教授との共同研究! • 脱分化脂肪細胞(dedifferentiated fat cells: DFAT) vs 成熟脂肪細胞(mature adipocytes: MAs) http://www.med.nihon-u.ac.jp/department/saisei/dfat.html より 57 © 2014 DBCLS Licensed under CC BY 2.1JAPAN DFAT cells vs MAs Ono H, Oki Y, Bono H, Kano K. Biochem Biophys Res Commun. (2011) 407, 562-7. doi: 10.1016/j.bbrc.2011.03.063. 58 © 2014 DBCLS Licensed under CC BY 2.1JAPAN ブタをヒトに対応づける A!y HG U133-PLUS-2 Ensembl Transcript Description Ssc.26492.1.A1_at 1553137_s_at ENST00000305883 Kruppel-like factor 11 [Source:HGNC Symbol;Acc:11811] Ssc.27622.1.S1_at 1553137_s_at ENST00000305883 Kruppel-like factor 11 [Source:HGNC Symbol;Acc:11811] Ssc.9136.1.S1_at 1554283_at ENST00000515616 Ssc.17478.1.A1_at 1558101_at ENST00000403491 CCR4 carbon catabolite repression 4-like (S. cerevisiae) [Source:HGNC Symbol;Acc:14254] nuclear factor I/A [Source:HGNC Symbol;Acc:7784] Ssc.22678.1.S1_at 1558101_at ENST00000403491 nuclear factor I/A [Source:HGNC Symbol;Acc:7784] Ssc.23810.3.A1_at 1558101_at ENST00000403491 nuclear factor I/A [Source:HGNC Symbol;Acc:7784] Ssc.9986.1.A1_at 1558101_at ENST00000403491 nuclear factor I/A [Source:HGNC Symbol;Acc:7784] Ssc.17286.1.A1_at 201236_s_at ENST00000290551 BTG family, member 2 [Source:HGNC Symbol;Acc:1131] Ssc.9707.1.A1_at 201236_s_at ENST00000290551 BTG family, member 2 [Source:HGNC Symbol;Acc:1131] Ssc.22550.1.A1_at 201465_s_at ENST00000371222 jun proto-oncogene [Source:HGNC Symbol;Acc:6204] Ssc.9075.1.A1_at 201465_s_at ENST00000371222 jun proto-oncogene [Source:HGNC Symbol;Acc:6204] Ssc.3411.1.A1_at 201531_at ENST00000248673 Ssc.16460.1.S1_at 201693_s_at ENST00000239938 zinc finger protein 36, C3H type, homolog (mouse) [Source:HGNC Symbol;Acc:12862] early growth response 1 [Source:HGNC Symbol;Acc:3238] Ssc.19629.1.A1_at 201693_s_at ENST00000239938 early growth response 1 [Source:HGNC Symbol;Acc:3238] Ssc.19629.2.S1_s_at 201693_s_at ENST00000239938 early growth response 1 [Source:HGNC Symbol;Acc:3238] .... .... .... A!y Porcine .... ブタのマイクロアレイデータをヒトに外挿! ヒトのマイクロアレイ解析ツールが利用可能に!! © 2014 DBCLS Licensed under CC BY 2.1JAPAN 59 対応付けの詳細 • BLASTを自分でやる方法! • biomartを使う方法! –「BioMartを使って二つの生物種の対応するデー タを取得する」 http://togotv.dbcls.jp/20120628.html ! –「BioMartを使ってさまざまなIDの変換対応表を 作成する」 http://togotv.dbcls.jp/20110927.html 60 © 2014 DBCLS Licensed under CC BY 2.1JAPAN During MA dedifferentiation • 308 down-regulated genes! • 368 up-regulated genes Data analyzed with Ingenuity Pathways Analysis(IPA) 61 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 62 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 詳細な手順は統合TVに • 「DAVIDを使ってマイクロアレイデータを解 析する」 http://togotv.dbcls.jp/20120927.html! • 「DAVIDの使い方 実践編」 http://togotv.dbcls.jp/20130528.html Affymetrix webinarにも…! http://bit.ly/bonoaffywebinar © 2014 DBCLS Licensed under CC BY 2.1JAPAN 63 同じプラットフォームなら 別グループのデータも比較可能 • NCBI GEOの同じプラット フォームで検索! –GSE15472 “Induced Pluripotent Stem Cells from the Pig Somatic Cells”! • 自分のデータと混ぜて正規 化+クラスタリング • 統合TVの「発現制御解析」! • http://togotv.dbcls.jp/ja/contents/category/expression 64 © 2014 DBCLS Licensed under CC BY 2.1JAPAN 結論: それ、統合TVでできるよ • Local BLASTの使い方! –Windows http://togotv.dbcls.jp/20110119.html ! • 導入・準備編 ! • 検索実行・オプション編! –MacOSX http://togotv.dbcls.jp/20110420.html ! • 導入・準備編! • 検索実行・オプション編! –AJACS名古屋 http://motdb.dbcls.jp/?AJACS32%2Fbono © 2014 DBCLS Licensed under CC BY 2.1JAPAN 65 謹告 • 統合TV作り手! 募集 –三島エリアで一緒にコンテンツ作成してくれる人! •インターン ‒公共DBを使い倒した大規模データ解析を一緒に ‒単なるデータ解析でなく、統合TVの新しいコンテ ンツとなるような解析事例を「共同研究」で ‒大学院生や若手のポスドクを想定 ‒「解析請負」ではなく、「解析技術教育請負」 ‒2014年夏にDBCLSのスペースが出来てから… 66 © 2014 DBCLS Licensed under CC BY 2.1JAPAN