Comments
Description
Transcript
Illumina 説明資料
次世代シーケンサー Genome Analyzerで解明するゲノム y 2009年11月26日 イルミナ株式会社 マーケティング部 田中 亜矢子 © 2009 Illumina Illumina, Inc Inc. All rights reserved reserved. Illumina, illuminaDx, Solexa, Making Sense Out of Life, Oligator, Sentrix, GoldenGate, GoldenGate Indexing, DASL, BeadArray, Array of Arrays, Infinium, BeadXpress, VeraCode, IntelliHyb, iSelect, CSPro, and GenomeStudio are registered trademarks or trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners. 今日の内容 イルミナGenome Analyzer – 基本原理 – 性能 – アプリケーション 研究例 – エピゲノム解析、トランスクリプトーム解析 エピゲノム解析 トランスクリプト ム解析 バイサルファイトシーケンス RNAシーケンス ChIPシーケンス – ターゲットリシーケンス – 診断手法開発への応用 診断手法開発 の応用 –シ シーケンスキャプチャー法 ケンスキャプチャ 法 2 2 Genome Analyzer のワ のワークフロー クフ サンプル調製 シーケンス データ解析 リシーケンス DNA de novo アセンブル 次世代シーケンサー Genome Analyzer システム RNA DNAメチル化 ヒストン修飾 遺伝子発現 Small RNA 3 3 これまでの従来型シーケンサーとの比較 れまでの従来型シ ケンサ との比較 次世代シーケンサー 従来型キャピラリシーケンサー Genome Analyzer 原理 スループット スル プット ヒトゲノム解読 (30億塩基) 酵素反応→電気泳動→塩基読み取り 酵素反応→塩基読み取り 800bp x 384並列 100bp x2 x135M並列 = 約30万塩基情報 = 約270億塩基情報 より長く、より正確に 低コストで、より多くのデータを 「ヒトゲノムプロジェクト」 約30日 約570万円で可能 約30日、約570万円で可能 13年で3000億円 (x27で実施した場合) 従来型キャピラリシーケンサー vs 次世代シーケンサー 時間:約160分の1 時間 約 分 コスト:約52,000分の1 ランあたりのデータ量:9万倍 4 4 1塩基合成をもちいた Genome Analyzer ワ ワークフロー クフ 3’ 5’ A DNA (0.1-1.0 ug) G C A T C G A T G C T TT GG CC CT AA CC GG AA TT AA CC CC CC GG AA TT CC GG AA TT 5’ 1. サンプル調製 1 2 3 2. クラスター形成 4 5 6 7 8 3. シーケンス 9 TGCTACGAT… 4. イメージ処理 5 5 5. 塩基決定 イメ ジ解析から塩基配列決定: イメージ解析から塩基配列決定:ベースコールおよびアライメント ス ルおよびアライメント 各クラスターごとの 各クラスタ ごとの 塩基配列よみとり (「リード」とよぶ) 各塩基のクオリティスコア リファレンスへの アライメント結果 6 6 デ タ解析のながれと対応する解析ツ ル データ解析のながれと対応する解析ツール 一次解析 二次解析 三次解析 下流解析 視覚化 Sequencing Control Software Genome Studio Pipeline DNAシーケンス RNAシーケンス ChIPシーケンス Pipeline Visual Controller CASAVA 3rd Party Software 7 7 新製品 cBot Cluster Generation System: 新しいクラスター増幅装置 これまでのCluster Station & PCを一体化 使いやすさを改善 1. 2. 3. 4. 5. 試薬キットの簡素化による操作性の向上 ハンズオン&ランタイムの短縮 ソフトウェアの改善 マニフォールドの簡素化 その他 Genome Analyzerのシンプルなワ クフ をさらに使いやすく Analyzerのシンプルなワークフローをさらに使いやすく 8 8 シングルリ ド法 ア ンド法 シングルリード法・ペアエンド法 シングルエンド DNA断片の片側を100bp読み取り ペアエンド DNA断片の両端を100bp読み取り DNA断片の長さにより、さらに2つに区分 – 200-500bp p ペアエンド法(イルミナシステムのみ) – 2-5kb メイトペア法 ・両端を読むことで、データ量が2倍に ・アライメント時の効率アップ アライメント時の効率アップ 9 9 ペアエンド法 200-400bp メイトペア法 2-5kb GAIIx 現在の 現在のパフォーマンス フォ マンス リード長 ラン 日数 リード数 Gb/ラン Gb/日 basecall >Q30 精度 完全 コスト 一致率 致率 /Mb 1x 35bp 2 138-168M 4.5-6 2.3-3 75-90% >99% >90% 109円 2x 35bp 4 276-336M 6.5-11.5 2.4-2.9 75-90% >99% >90% 102円 2x 50bp 5 276-336M 13.5-16.5 2.7-3.3 75-90% >99% >85% 83円 2x 75bp 7.5 276-336M 20.5-25 2.7-3.3 70-85% >98.5% >80% 62円 2x 100bp 9.5 276-336M 27.5-33 2.9-3.3 ≧70% >98% >70% 58円 GAIIx 新試薬 10 10 アプリケ ション スト例 アプリケーションコスト例 アプリケーション アプリケ ション コスト ヒトゲノムリシーケンス 100bp ペアエンド、フローセル4枚 約760万円 3Gb (x38) フローセルごとにコントロール1レーン 66円/Mb バクテリアゲノムシーケンス 100bp ペアエンド、フローセル1枚 約230万円 5Mb (x825) 7種 バクテリア1種 1レーン 78円/Mb ル とに ント ル ン フローセルごとにコントロール1レーン mRNAシーケンス 100bp シングルリード、フローセル1枚 約104万円 72円/Mb Small RNA 36bp シングルリード、フローセル1枚 約65万円 約5,000円/Millionタグ ChIPシーケンス 11 11 50bpシングルリード、フローセル1枚 約80万円 1.5億>タグ 約5,400円/Millionタグ 現在の フォ マンスと今後の 現在のパフォーマンスと今後のロードマップ ドマップ ランあたり95Gb産出へむけて • リード長を増やす リ ド長を増やす • リード数(クラスター数)を増やす 12 12 Genome Analyzerの更なる進化 リード長を伸ばす – 現在100bpを 125bp, 125bp 150bpへ – 試薬とアルゴリズムの改良 – 短鎖ペアエンド法と150bpを組み合わせると: ひとつづきの 250bp配列情報 クラスター密度を増やし、 抽出アルゴリズムを改良 13 13 Genome Analyzerの特長 短いリード(100塩基+)を大量に(>1億リード) – 現在のスループット: 33Gb (100bpペアエンド法) 自動化されたシンプルなワークフロー ゲノムセンターから研究室まで ゲノムセンタ から研究室まで、世界中で広く導入されている実績 世界中で広く導入されている実績 – 多くの手法がGAで開発されている – 圧倒的な論文数(2009年10月現在 400報以上) さらなる改良 – 販売開始から1年でデータ量15倍 – 2009年末までに95G達成を目標 多様なアプリケーションに対応 14 14 Genome Epigenome • SNP • CNV • 染色体再編成 • DNAメチル化 • ヒストン修飾 • DNA結合タンパク Transcriptome T i t • 遺伝子発現 • microRNA • エクソンスプライス リ ド長、リ ド数とアプリケ ション リード長、リード数とアプリケーション リシーケンス リシ ケンス mRNAシーケンス d novoバクテリア de バクテリア S ll RNA Small DNAメチル化 ChIPシーケンス 35 50 de novoシーケンス真核生物、メタゲノム 75 100 200 Genome Analyzer リード数が 必要 15 15 リード長、リード数(データ量)が 必要 Genome 何を読むか どう読むか • • • • • • シーケンス (de novo アセンブル) • リシーケンス ヒト 動物 植物 微生物 メタゲノム どこを読むか • 全ゲノム • ターゲット領域 どれだけ読むか • 10x • 20x • 30x 16 16 Epigenome: イサルファイトシ ケンス Epigenome:バイサルファイトシーケンス MethylC-Seq Bisulphite-Seq Reduced Representation BSSeq Methyl-Seq* Lister, Ecker ‘09 17 17 Epigenome:ChIP Seq Epigenome:ChIP-Seq 遺伝子発現調節の全ゲノム網羅的解析 クロマチン免疫沈降で回収したDNA断片をシーケ ンス – DNAメチル化 – 転写因子結合 プロモーター エンハンサー 発現調節領域 節領 – クロマチン構造 – RNA結合タンパク 18 18 Transcriptome mRNA-Seq: ランダムプライマーを用いてmRNAから全長 cDNA合成 – スプライスバリアント – cSNP – 新規転写産物 ストランド情報をもつプロトコルもご提供 Directional RNA-Seq Workflow Total RNA Poly-A Selection mRNA Fragmentation Small RNA: マイクロRNA、siRNAなどのSmall RNA全長をシーケンス S ll RNA探索 – Small RNA fragment clean-up RNA Adapter Ligations Perform RT-PCR Amplification Purify Library 19 19 今日の内容 イルミナGenome Analyzer – 基本原理 – 性能 – アプリケーション 研究例 – エピゲノム解析、トランスクリプトーム解析 エピゲノム解析 トランスクリプト ム解析 バイサルファイトシーケンス RNAシーケンス ChIPシーケンス – ターゲットリシーケンス – 診断手法開発への応用 診断手法開発 の応用 –シ シーケンスキャプチャー法 ケンスキャプチャ 法 20 20 エピゲノム解析 トランスクリプト ム解析 トランスクリプトーム解析 21 21 高解像度DNAメチル化解析 Nature. 2009 Oct 14. ES細胞(H1)と胎児繊維芽細胞(IMR90)でのDNAメチル化比較 – – – – 22 22 MethylC-Seq (+ Bisulphite PCR) mRNA-Seq RNA S ChIP-Seq Small RNA 細胞間でのメチル化部位の違いを比較 MethylC-Seq + Bisulfate PCR 23 23 Non-mCG Non mCG DNAメチル化の特徴 TSSからの距離とDNAメチル化度合いの関係 – Exon領域ではnon-mCGなDNAメチル化の割合が高い – 転写レベルとの関係があるのではないか? 24 24 Non mCGなDNAメチル化度合いと遺伝子発現との相関 Non-mCGなDNAメチル化度合いと遺伝子発現との相関 Strand-specific RNA-Seq 25 25 DNA タン ク質相互作用とDNAメチル化 DNA-タンパク質相互作用とDNAメチル化 ChIP-Seq 26 26 DNAメチル化の全体像 27 27 リシーケンス 28 28 アフリカ人ゲノムリシ ケンス アフリカ人ゲノムリシーケンス Nature 2008 Nov 6; 456(7218):53-9 3つのリシーケンスプロジェクトをまとめた論文 – BACクローン:6番染色体MHC領域 162Kb – X染色体:リンパ球芽培養細胞 X染色体 リンパ球芽培養細胞 153Mb – 全ゲノム:ヨルバ族アフリカ人男性 3Gb 135Gb, 2x 35 PE, 4,000M リード数 200bp, 2kb インサート ペアエンド 29 29 リシーケンス: リシ ケンス: SNP探索と検証 約400万のSNPを検出 Study – 74% は既知のSNP (db SNP) ジェノタイピングアレイ HapMap 550 SNP数 552,710 カバー率 99.60% – 552,710 552 710 SNP コールの一致 コ ルの 致 99 57% 99.57% – コール一致:99.57% コールの不一致 0.43% ジェノタイピングアレイ (HumanHap550)での検証 99.91% ホモザイガスSNP ヘテロザイガスSNP 98.74% – コ コール不一致:0 ル不 致:0.43% 43% 30 30 Human GT>Seq 0.35% Seq>GT 0.05% その他 他 0.03% - GT>Seq 0 35% (1,940) (1 940) 0.35% - Seq>GT 0.05% (258) - その他 0.03% (183) SNPを SNPをコールするにはどれだけのカバレッジが必要か? ルするにはどれだけのカ レッジが必要か? ■ All SNP ▲ Heterozygous SNP ● Homozygous SNP 31 31 3.6kbにわたるホモザイガスな欠失 異常な長さ(2kp以上) でマップされたペアエンドリード 2kbでマップされた ペアエンドリード 異常な長さ(200bp以上) でマップされたペアエンドリード 200bpでマップされた ペアエンドリード 32 32 ヘテロザイガスな欠失 テ ザイガスな欠失 リード深度の変化から29 kbのヘテロザイガスな欠失を検出 – McCarroll et al. (2006)のLOHデータと比較して検証 – この欠失はTuzun et al. (2005)でも観察されている 4 5 depth 3 5 303 0 d e p リ リード深度 度 404 0 2 5 202 0 1 5 101 0 5 00 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 w in d o w 33 33 3 0 0 0 3 5 0 0 4 0 0 0 4 5 0 0 5 0 0 0 癌における転座の例 Identification of somatically acquired rearrangements in cancer using genome-wide massively parallel paired-end sequencing Nature Genetics, 2008 34 34 リファレンスにない 配列の挿入を検出 異常な長さ(200bp以下) 常な さ でマップされたペアエンドリード 片側しかマップされなかったペア エンドリード 200bpでマップされた ペアエンドリード 短鎖インサートペアエンドでのみ 検出できた81bpの配列挿入 35 35 局所的なde novoアセンブルが明らかにした挿入配列 リファレンスにマップ しなかった塩基配列リード de novoでアセンブル して挿入配列の同定 36 36 200bp以下の挿入は んなにある 200bp以下の挿入はこんなにある 37 37 ターゲットキャプチャー法 38 38 タ ゲットリシ ケンス ターゲットリシーケンス SureSelect Target Enrichment System アジレントテクノロジー社 ジ ジ 社 全ゲノムを使ってGAサンプル調製後、目的領域 からデザインしたオリゴ(ビオチン)をハイブリして キャプチャー – 最大3.3Mbの領域を対象 最大3 3Mbの領域を対象 – 120mer オリゴ、55K種類 – GAでシーケンス(1レーン) 39 39 タ ゲットリシ ケンス ターゲットリシーケンス ヒトの全エクソン領域をキャプチャー トの全 クソン領域をキャプチャ ペアエンド法と組み合わせて利用 40 40 Genome Analyzerの特長 短いリード(100塩基+)を大量に(>1億リード) – 現在のスループット: 33Gb (100bpペアエンド法) 自動化されたシンプルなワークフロー ゲノムセンターから研究室まで ゲノムセンタ から研究室まで、世界中で広く導入されている実績 世界中で広く導入されている実績 – 多くの手法がGAで開発されている – 圧倒的な論文数(2009年10月現在 400報以上) さらなる改良 – 販売開始から1年でデータ量15倍 – 2009年末までに95G達成を目標 多様なアプリケーションに対応 41 41 Genome Epigenome • SNP • CNV • 染色体再編成 • DNAメチル化 • ヒストン修飾 • DNA結合タンパク Transcriptome T i t • 遺伝子発現 • microRNA • エクソンスプライス