Comments
Description
Transcript
CellMontage
平成23年度 第一回データベース講習会@お台場 「創薬研究における統合データベースの活用」 ヒト細胞 細胞分化デ タベ ス ヒト細胞・細胞分化データベース CELLPEDIA/CellMontage CELLPEDIA/ CellMontageの活用 の活用 産業技術総合研究所 生命情報工学研究センター 生命情報工学研究 センター 細胞機能設計チーム 千葉啓和,, 幡野晶子, 千葉啓和 幡野晶子, 藤渕航 ヒト幹細胞研究の進展と その創薬応用に向けて 創薬応 向 多様なiPS細胞の作製 多様なiPS 細胞の作製 各組織細胞の分化誘導、創薬に応用 Muscle cell 細胞情報の多様化・大規模化 多様化・大規模化 iPS cells 細胞情報データベース・・ 細胞情報データベース 高速検索ツールの必要性 高速検索ツ ルの必要性 Pancreas cell Blood cell ヒト細胞・細胞分化デ タベ ス ヒト細胞・細胞分化データベース および検索ツールの紹介 CELLPEDIA 遺伝子発現プロファイル検索: CellMontage 遺伝子モジュール検索: SAMURAI ヒト細胞・細胞分化デ タベ ス ヒト細胞・細胞分化データベース および検索ツールの紹介 CELLPEDIA 遺伝子発現プロファイル検索: CellMontage 遺伝子モジュール検索: SAMURAI ヒト細胞統合データベース CELLPEDIA ヒト細胞統合データベース CELLPEDIA ヒト細胞の分類、 ヒト細胞の分類 、遺伝子発 現データ、 データ、形態 形態 正常細胞デ 正常細胞 正常細胞データ デ データ タ 2296細胞種分類、 2296 細胞種分類、365 365画 画 像、878 像、 878遺伝子発現データ、 遺伝子発現データ、 336論文 336 論文 幹細胞データ 36画像、 36 画像、92 92遺伝子発現 遺伝子発現 データ、86 データ、 86論文 論文 細胞分化データ 細 分 ユーザーからのサブミッション 可能 CELLPEDIAの細胞分化データ CELLPEDIA の細胞分化データ (文献から抽出) Pancreatic cell(膵細胞) cell(膵細胞)は何から分化するか? は何から分化するか? 親細胞は膵前駆細胞(さらにその親は膵幹細胞) 親細胞 は膵前駆細胞(さらにその親は膵幹細胞) Pancreatic <<- Pancreatic progenitor <- Pancreatic stem 分化転換する 分化転換するのは小腸幹細胞、肝前駆細胞 分化転換 する は小腸幹細胞 肝前駆細胞 するのは小腸幹細胞、肝前駆細胞 Pancreatic < <-- Small intestinal stem Pancreatic <<- Liver progenitor ヒト細胞・細胞分化デ タベ ス ヒト細胞・細胞分化データベース および検索ツールの紹介 CELLPEDIA 遺伝子発現プロファイル検索: CellMontage 遺伝子モジュール検索: SAMURAI 遺伝子発現プロファイル検索 CellMontage 遺伝子発現プロフ イル検索 CellMontage 遺伝子発現プロファイル検索 C llM CellMontageの遺伝子プロファイル比較法 CellMontage の遺伝子プロファイル比較法 (H16下期産総研優秀特許 (H16 下期産総研優秀特許158 158選 選) UniGeneIDにより8割以上のGEOアレイデータが検索可能 開発アルゴリズム(GIW ( 2006)により通常の5倍以上高速 ) 重み付き順位相関係数でクロスプラットフォームにも対応可能 ソフトウェア配布→ProfileMatcher-1.0.1.tar.gz High Expression Gene Rank Order Low Expression W. Fujibuchi, L. Kiseleva, T. Taniguchi, H. Harada, P. Horton, Bioinformatics (2007) n Gene Weighted Rank Correlation: CorrW x1, x 2 w r g r w r g r i 1 i 1w i 2 i 2w i n n w r g r w r g r 2 i 1 i i 1w 2 i 2 i i 2w , r1w w i r1 gi n w i i , r2w w i r2 gi n w i i CellMontage検索で得られる情報 CellMontage 検索で得られる情報 はっきりと知られていなかった細胞間の類似性(例:Pancreasで検索) pancreas(4)、stomach(1)、pancreas(2)、small intestine(1)、liver(1) Fetal Liver Adult Liver Skeletal Muscle 類似細胞と分化転換のしやすさ 肝臓、膵臓、小腸、胃などはお互いに変換可 能な細胞である Liver Pancreas Small Intestine Stomach http://www.aki.che.tohoku.ac.jp/soft-j.html 類似細胞ネットワーク表示 膵臓から深さ2の類似細胞ネットワーク 遺伝子発現プロファイル検索 GEO(138,832 UniGene / 119,474 Refseq) ArrayExpress(30 168 UniGene/ 30,065 ArrayExpress(30,168 30 065 Refseq) 例 embryonic 例: b i stem t sapiens i を入れて検索 遺伝子発現プロファイル検索 結果をそのままクエリーに してプロファイル比較可能 ヒト細胞・細胞分化デ タベ ス ヒト細胞・細胞分化データベース および検索ツールの紹介 CELLPEDIA 遺伝子発現プロファイル検索: CellMontage 遺伝子モジュール検索: SAMURAI 遺伝子モジュール検索 SAMURAI 遺伝子モジュール検索 SAMURAI 遺伝子モジュール高速検索システム トランザクションデータベース 飽和アイテム集合 Θ以上の消費者に同時に購 入される商品の最大集合 マイニング θ = 最少サポート値 高速アルゴリズムLCM 高速アル リ ((T. Uno et al.,, 2004)) 離散化された発現データ 遺伝子2 遺伝子3 遺伝子4 H…高発現 遺伝子5 Θ以上の実験で同じ発現パタン を持つ遺伝子の最大集合 バイクラスタリング 実 験 遺伝子1 飽和アイテム集合(=モジュール) L…低発現 O…その他 A H C H E H H H H B L D L L L SAMURAIによる発見モジュールの例 SAMURAI による発見モジュールの例 ヒトの組織細胞の発現デ タ 適用( ヒトの組織細胞の発現データへ適用(20,703遺伝子×83細胞種) 遺伝子 細胞種) 脳細胞で発現し、心臓で抑制さ 脳細胞で発現し 心臓で抑制さ れる遺伝子のモジュール ポタシウム カルシウムチャネル ポタシウム・カルシウムチャネル グルタミン酸レセプター グ プ ホルモンレセプター 近年、脳で強く発現していることが報告された 遺伝子(GALNT9, MOBPなど) 他手法との性能比較(以前のバージョン) 人工的に埋め込まれたモジュールの抽出精度 本法(網羅探索)と他手法(Bi 本法(網羅探索)と他手法(Bimaxのみ網羅探索)によって抽出されたモジュール のみ網羅探索)によ て抽出されたモジ ル Implanted modules Bimax(分割で) (分割 ) OPSM ISA Samba 4500 計算時間 > 4436 sec テストデータ: S. Cerevisiae, 2993遺伝子 and 173 実験 Pentium4, 2,4GHz CPU, 1GB RAM, Linux上でテスト 896 sec 1000 800 600 400 378 sec 365 sec 142 sec 58 sec 200 0 SAMURAI OPSM ISA Okada, Y., Horton, P., and Fujibuchi, W. (2007), IAENG 34 Awarded “Certificate of merit” in Bioinformatics session SAMBA CC Bimax CC SAMURAIの高速・高性能化 SAMURAI の高速・高性能化 の高速 高性能化 ユーザーのクエリプロファイルと類似したモジュールを探索する⇒ データの大規模圧縮が可能(=高速) デ タの大規模圧縮が可能( 高速) SAMURAIモジュール機能の統計評価 SAMURAIモジュール機能の統計評価 圧倒的に有意な機能モジュールが含まれる 圧倒的に有意な機能 ジ ルが含まれる KEGG パスウェイ評価 Significancee of KEGG pathways (‐logg10P) ( ) Extracted (a) E t t d (raw) ( ) modules d l GO/KEGGとも P<10-10でも 多数存在 製薬ITソリューションEXPO(2008.7.3)で発表 製薬ITソリューションEXPO(2008.7.3) で発表 日刊工業新聞掲載 日刊工業新聞掲載(2008.7.3) (2008.7.3) ( ) 遺伝子データ高速探索ツール販売 日経 日経BP BPバイオテクノロジー バイオテクノロジーJNL JNL取材 取材(2008.7.4) (2008.7.4) DNAマイクロアレイやDNA DNAマイクロアレイや DNAシーケンサーのデータ解 シーケンサーのデータ解 析に用いるシステム (b) Gene‐shuffled modules 遺伝子シャッフル後 出版物 Significance of GO terms (‐log10P) 英文著書: Fujibuchi, W. et al, Methods in Mol. Biol., 2009. GO遺伝子機能グループ評価 22 次世代創薬に向けた CELLPEDIA利用法 CELLPEDIA 利用法 演習 23 1. CELLPEDIA CELLPEDIA細胞分化解析 細胞分化解析演習 演習 肝細胞(hepatocyte 肝細胞( hepatocyte)に分化転換する細胞は? )に分化転換する細胞は? 手順 http://cellpedia.cbrc.jp/ ① Hepatocyteの検索 Top → keyword search → “hepatocyte”を入力 → image ID 45 をクリックで表示 ② 親細胞のチェック Cell NeighborhoodでParent Cellを見る → H Hepatoblast, t bl t Liver Li progenitor it cell, ll Oval O l cellから llから 分化することが分かる ③ 分化転換細胞のチェック Cell NeighborhoodでTransdifferentiationを見る → Pancreatic progenitor cell, Acinar cell, B cell からも転換することが分かる ④ さらにこれらの細胞を作るには? cell ID:902 → Pancreatic progenitor cell → Cell N i hb h d → Transdifferentiationを見る Neighborhood T diff ti ti を見る → 小腸や大腸から転換することが分かる 2. 遺伝子発現プロファイル比較 遺伝子発現プロファイル比較演習 演習 膵臓(pancreas 膵臓( pancreas)はどんな組織に似ているか? )はどんな組織に似ているか? 手順 http://cellpedia.cbrc.jp/ ① Pancreas遺伝子発現データの検索 P 遺伝子発現デ タの検索 Top → Cell Analysis Tools → CellMontage → Profile Retrieval → “sapiens pancreas” で表示 ② Profile Matcherへの取り込み 55番目 Affymetrix HG-U133A pancreasの左端 → CM Profile Matcherボタンをクリック → 取り込み ③ 検索実行 データベースの選択 Database settings → CMDB → CELLPEDIA → normal cell (673 samples) normal_cell 他はデフォルトのまま Subset → Unigene Specify Genes used to search → all genes Query settings → Specify query → Paste Query 実行 Begin Search * 胎児肺などの次に気管や腸や胃が近い 相関係数の確率の右のグラフィックス → 詳細表示 55番目の GSM18977 の左側 CM Profile Matcher をクリック Profile Matcher に取り込まれる データベースに CELLPEDIAを 選択して Begin Search 検索開始と終了 時刻 クエリーと同 一プロファイ プロファイ ル(相関係数 R=1.0) 膵臓と遺伝子発 現プロファイルが 類似した組織が 検索できる 相関係数 をt検定で 確率にし てソートし たリスト 3. 遺伝子発現モジュール解析 遺伝子発現モジュール解析演習 演習 膵臓(pancreas 膵臓( pancreas)と共通のモジュール探索 pancreas)と共通のモジュ )と共通のモジュール探索 )と共通のモジュ ル探索 手順 ① S SAMURAIデモページへログイン U デ ジ グイン http://samurai.cbrc.jp/samurai-demo/ user “samurai”, password “samurai”でログイン ② データベースとマージ法の設定 データベースの選択 デ タベ スの選択 Database settings → cellpedia normal cell 673 – 0.01 クエリーの設定 Query settings → Specify query → Example Query: human pancreas (GPL96) マージ法の選択 Merge method → All combinatorial (display…) ノイズ許容率の選択 Parameter settings → Acceptable noize ratio → 0.25 ③ 検索実行 実行 Extract Module p → 詳細表示→ Enrichment 左のグラフィックスtop Analysis(KEGG) → 00561 Glycerolipid metabolism * 時間が余った方はES細胞データなどで実行してみて下さい データベースに normal cell User: samurai Pass: samurai クエリ に クエリーに Example マージ法を All combinatorial Extract Module 詳細表示 KEGG 評価で 00561を クリック ノイズを 0.25 KEGG でマッチしたマップ とその近郊マップが表示 これらの4つの遺伝子は、 れらの の遺伝子は、 •PNLIP pancreatic lipase •CEL carboxyl ester lipase •PNLIPRP1 pancreatic lipase-related protein 1 •PNLIPRP2 PNLIPRP2 pancreatic ti li lipase-related l t d protein t i 2 膵臓のリパーゼ関係遺伝子モジュールであることが分かる *注意 SAMURAIを購入された場合、この表示部 分は別途KEGGライセンスが必要です。 本演習は以上です