...

Illumina 説明資料

by user

on
Category: Documents
25

views

Report

Comments

Transcript

Illumina 説明資料
次世代シーケンサー
Genome Analyzerで解明するゲノム
y
2009年11月26日
イルミナ株式会社
マーケティング部 田中 亜矢子
© 2009 Illumina
Illumina, Inc
Inc. All rights reserved
reserved.
Illumina, illuminaDx, Solexa, Making Sense Out of Life, Oligator, Sentrix, GoldenGate, GoldenGate Indexing, DASL, BeadArray, Array of Arrays, Infinium, BeadXpress, VeraCode, IntelliHyb,
iSelect, CSPro, and GenomeStudio are registered trademarks or trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners.
今日の内容
イルミナGenome Analyzer
– 基本原理
– 性能
– アプリケーション
研究例
– エピゲノム解析、トランスクリプトーム解析
エピゲノム解析 トランスクリプト ム解析
バイサルファイトシーケンス
ƒ RNAシーケンス
ƒ ChIPシーケンス
ƒ
– ターゲットリシーケンス
– 診断手法開発への応用
診断手法開発 の応用
–シ
シーケンスキャプチャー法
ケンスキャプチャ 法
2
2
Genome Analyzer のワ
のワークフロー
クフ
サンプル調製
シーケンス
データ解析
リシーケンス
DNA
de novo アセンブル
次世代シーケンサー
Genome Analyzer システム
RNA
DNAメチル化
ヒストン修飾
遺伝子発現
Small RNA
3
3
これまでの従来型シーケンサーとの比較
れまでの従来型シ ケンサ との比較
次世代シーケンサー
従来型キャピラリシーケンサー
Genome Analyzer
原理
スループット
スル
プット
ヒトゲノム解読
(30億塩基)
酵素反応→電気泳動→塩基読み取り
酵素反応→塩基読み取り
800bp x 384並列
100bp x2 x135M並列
= 約30万塩基情報
= 約270億塩基情報
より長く、より正確に
低コストで、より多くのデータを
「ヒトゲノムプロジェクト」
約30日 約570万円で可能
約30日、約570万円で可能
13年で3000億円
(x27で実施した場合)
従来型キャピラリシーケンサー vs 次世代シーケンサー
時間:約160分の1
時間
約
分
コスト:約52,000分の1
ランあたりのデータ量:9万倍
4
4
1塩基合成をもちいた Genome Analyzer ワ
ワークフロー
クフ
3’ 5’
A
DNA
(0.1-1.0 ug)
G
C
A
T
C
G
A
T
G
C
T
TT
GG
CC
CT
AA
CC
GG
AA
TT
AA
CC
CC
CC
GG
AA
TT
CC
GG
AA
TT
5’
1. サンプル調製
1
2
3
2. クラスター形成
4
5
6
7
8
3. シーケンス
9
TGCTACGAT…
4. イメージ処理
5
5
5. 塩基決定
イメ ジ解析から塩基配列決定:
イメージ解析から塩基配列決定:ベースコールおよびアライメント
ス
ルおよびアライメント
各クラスターごとの
各クラスタ
ごとの
塩基配列よみとり
(「リード」とよぶ)
各塩基のクオリティスコア
リファレンスへの
アライメント結果
6
6
デ タ解析のながれと対応する解析ツ ル
データ解析のながれと対応する解析ツール
一次解析
二次解析
三次解析
下流解析
視覚化
Sequencing Control Software
Genome Studio
Pipeline
DNAシーケンス
RNAシーケンス
ChIPシーケンス
Pipeline Visual Controller
CASAVA
3rd Party Software
7
7
新製品 cBot Cluster Generation System:
新しいクラスター増幅装置
これまでのCluster Station & PCを一体化
使いやすさを改善
1.
2.
3.
4.
5.
試薬キットの簡素化による操作性の向上
ハンズオン&ランタイムの短縮
ソフトウェアの改善
マニフォールドの簡素化
その他
Genome Analyzerのシンプルなワ
クフ
をさらに使いやすく
Analyzerのシンプルなワークフローをさらに使いやすく
8
8
シングルリ ド法 ア ンド法
シングルリード法・ペアエンド法
シングルエンド
DNA断片の片側を100bp読み取り
ペアエンド
DNA断片の両端を100bp読み取り
DNA断片の長さにより、さらに2つに区分
– 200-500bp
p ペアエンド法(イルミナシステムのみ)
– 2-5kb
メイトペア法
・両端を読むことで、データ量が2倍に
・アライメント時の効率アップ
アライメント時の効率アップ
9
9
ペアエンド法
200-400bp
メイトペア法
2-5kb
GAIIx 現在の
現在のパフォーマンス
フォ マンス
リード長
ラン
日数
リード数
Gb/ラン
Gb/日
basecall
>Q30
精度
完全
コスト
一致率
致率
/Mb
1x 35bp
2
138-168M
4.5-6
2.3-3
75-90%
>99%
>90%
109円
2x 35bp
4
276-336M
6.5-11.5
2.4-2.9
75-90%
>99%
>90%
102円
2x 50bp
5
276-336M
13.5-16.5
2.7-3.3
75-90%
>99%
>85%
83円
2x 75bp
7.5
276-336M
20.5-25
2.7-3.3
70-85%
>98.5%
>80%
62円
2x 100bp
9.5
276-336M
27.5-33
2.9-3.3
≧70%
>98%
>70%
58円
GAIIx
新試薬
10
10
アプリケ ション スト例
アプリケーションコスト例
アプリケーション
アプリケ
ション
コスト
ヒトゲノムリシーケンス
100bp ペアエンド、フローセル4枚
約760万円
3Gb (x38)
フローセルごとにコントロール1レーン
66円/Mb
バクテリアゲノムシーケンス
100bp ペアエンド、フローセル1枚
約230万円
5Mb (x825) 7種
バクテリア1種 1レーン
78円/Mb
ル とに ント
ル
ン
フローセルごとにコントロール1レーン
mRNAシーケンス
100bp シングルリード、フローセル1枚
約104万円
72円/Mb
Small RNA
36bp シングルリード、フローセル1枚
約65万円
約5,000円/Millionタグ
ChIPシーケンス
11
11
50bpシングルリード、フローセル1枚
約80万円
1.5億>タグ
約5,400円/Millionタグ
現在の フォ マンスと今後の
現在のパフォーマンスと今後のロードマップ
ドマップ
ランあたり95Gb産出へむけて
• リード長を増やす
リ ド長を増やす
• リード数(クラスター数)を増やす
12
12
Genome Analyzerの更なる進化
リード長を伸ばす
– 現在100bpを 125bp,
125bp 150bpへ
– 試薬とアルゴリズムの改良
– 短鎖ペアエンド法と150bpを組み合わせると:
ひとつづきの
250bp配列情報
クラスター密度を増やし、
抽出アルゴリズムを改良
13
13
Genome Analyzerの特長
短いリード(100塩基+)を大量に(>1億リード)
– 現在のスループット: 33Gb (100bpペアエンド法)
自動化されたシンプルなワークフロー
ゲノムセンターから研究室まで
ゲノムセンタ
から研究室まで、世界中で広く導入されている実績
世界中で広く導入されている実績
– 多くの手法がGAで開発されている
– 圧倒的な論文数(2009年10月現在 400報以上)
さらなる改良
– 販売開始から1年でデータ量15倍
– 2009年末までに95G達成を目標
多様なアプリケーションに対応
14
14
Genome
Epigenome
• SNP
• CNV
• 染色体再編成
• DNAメチル化
• ヒストン修飾
• DNA結合タンパク
Transcriptome
T
i t
• 遺伝子発現
• microRNA
• エクソンスプライス
リ ド長、リ ド数とアプリケ ション
リード長、リード数とアプリケーション
リシーケンス
リシ
ケンス
mRNAシーケンス
d novoバクテリア
de
バクテリア
S ll RNA
Small
DNAメチル化
ChIPシーケンス
35
50
de novoシーケンス真核生物、メタゲノム
75
100
200
Genome Analyzer
リード数が
必要
15
15
リード長、リード数(データ量)が
必要
Genome
何を読むか
どう読むか
•
•
•
•
•
• シーケンス
(de novo アセンブル)
• リシーケンス
ヒト
動物
植物
微生物
メタゲノム
どこを読むか
• 全ゲノム
• ターゲット領域
どれだけ読むか
• 10x
• 20x
• 30x
16
16
Epigenome: イサルファイトシ ケンス
Epigenome:バイサルファイトシーケンス
MethylC-Seq
Bisulphite-Seq
Reduced Representation BSSeq
Methyl-Seq*
Lister, Ecker ‘09
17
17
Epigenome:ChIP Seq
Epigenome:ChIP-Seq
遺伝子発現調節の全ゲノム網羅的解析
クロマチン免疫沈降で回収したDNA断片をシーケ
ンス
– DNAメチル化
– 転写因子結合
プロモーター
ƒ エンハンサー
ƒ 発現調節領域
節領
ƒ
– クロマチン構造
– RNA結合タンパク
18
18
Transcriptome
mRNA-Seq: ランダムプライマーを用いてmRNAから全長
cDNA合成
– スプライスバリアント
– cSNP
– 新規転写産物
ストランド情報をもつプロトコルもご提供
Directional RNA-Seq Workflow
Total RNA
Poly-A Selection
mRNA Fragmentation
Small RNA: マイクロRNA、siRNAなどのSmall
RNA全長をシーケンス
S ll RNA探索
– Small
RNA fragment clean-up
RNA Adapter Ligations
Perform RT-PCR Amplification
Purify Library
19
19
今日の内容
イルミナGenome Analyzer
– 基本原理
– 性能
– アプリケーション
研究例
– エピゲノム解析、トランスクリプトーム解析
エピゲノム解析 トランスクリプト ム解析
バイサルファイトシーケンス
ƒ RNAシーケンス
ƒ ChIPシーケンス
ƒ
– ターゲットリシーケンス
– 診断手法開発への応用
診断手法開発 の応用
–シ
シーケンスキャプチャー法
ケンスキャプチャ 法
20
20
エピゲノム解析
トランスクリプト ム解析
トランスクリプトーム解析
21
21
高解像度DNAメチル化解析
Nature. 2009 Oct 14.
ES細胞(H1)と胎児繊維芽細胞(IMR90)でのDNAメチル化比較
–
–
–
–
22
22
MethylC-Seq (+ Bisulphite PCR)
mRNA-Seq
RNA S
ChIP-Seq
Small RNA
細胞間でのメチル化部位の違いを比較
MethylC-Seq + Bisulfate PCR
23
23
Non-mCG
Non
mCG DNAメチル化の特徴
TSSからの距離とDNAメチル化度合いの関係
– Exon領域ではnon-mCGなDNAメチル化の割合が高い
– 転写レベルとの関係があるのではないか?
24
24
Non mCGなDNAメチル化度合いと遺伝子発現との相関
Non-mCGなDNAメチル化度合いと遺伝子発現との相関
Strand-specific RNA-Seq
25
25
DNA タン ク質相互作用とDNAメチル化
DNA-タンパク質相互作用とDNAメチル化
ChIP-Seq
26
26
DNAメチル化の全体像
27
27
リシーケンス
28
28
アフリカ人ゲノムリシ ケンス
アフリカ人ゲノムリシーケンス
Nature 2008 Nov 6; 456(7218):53-9
3つのリシーケンスプロジェクトをまとめた論文
– BACクローン:6番染色体MHC領域 162Kb
– X染色体:リンパ球芽培養細胞
X染色体 リンパ球芽培養細胞 153Mb
– 全ゲノム:ヨルバ族アフリカ人男性 3Gb
135Gb, 2x 35 PE, 4,000M リード数
200bp, 2kb インサート ペアエンド
29
29
リシーケンス:
リシ
ケンス: SNP探索と検証
約400万のSNPを検出
Study
– 74% は既知のSNP (db SNP)
ジェノタイピングアレイ HapMap 550
SNP数
552,710
カバー率
99.60%
– 552,710
552 710 SNP
コールの一致
コ
ルの 致
99 57%
99.57%
– コール一致:99.57%
コールの不一致
0.43%
ジェノタイピングアレイ
(HumanHap550)での検証
99.91%
ƒ
ホモザイガスSNP
ƒ
ヘテロザイガスSNP 98.74%
– コ
コール不一致:0
ル不 致:0.43%
43%
30
30
Human
ƒ
GT>Seq
0.35%
ƒ
Seq>GT
0.05%
ƒ
その他
他
0.03%
- GT>Seq
0 35% (1,940)
(1 940)
0.35%
- Seq>GT
0.05% (258)
- その他
0.03% (183)
SNPを
SNPをコールするにはどれだけのカバレッジが必要か?
ルするにはどれだけのカ レッジが必要か?
■ All SNP
▲ Heterozygous SNP
● Homozygous SNP
31
31
3.6kbにわたるホモザイガスな欠失
異常な長さ(2kp以上)
でマップされたペアエンドリード
2kbでマップされた
ペアエンドリード
異常な長さ(200bp以上)
でマップされたペアエンドリード
200bpでマップされた
ペアエンドリード
32
32
ヘテロザイガスな欠失
テ ザイガスな欠失
リード深度の変化から29 kbのヘテロザイガスな欠失を検出
– McCarroll et al. (2006)のLOHデータと比較して検証
– この欠失はTuzun et al. (2005)でも観察されている
4 5
depth
3 5
303 0
d e p
リ
リード深度
度
404 0
2 5
202 0
1 5
101 0
5
00
0
5 0 0
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
w in d o w
33
33
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
5 0 0 0
癌における転座の例
Identification of somatically acquired rearrangements
in cancer using genome-wide massively parallel
paired-end sequencing
Nature Genetics, 2008
34
34
リファレンスにない
配列の挿入を検出
異常な長さ(200bp以下)
常な さ
でマップされたペアエンドリード
片側しかマップされなかったペア
エンドリード
200bpでマップされた
ペアエンドリード
短鎖インサートペアエンドでのみ
検出できた81bpの配列挿入
35
35
局所的なde novoアセンブルが明らかにした挿入配列
リファレンスにマップ
しなかった塩基配列リード
de novoでアセンブル
して挿入配列の同定
36
36
200bp以下の挿入は んなにある
200bp以下の挿入はこんなにある
37
37
ターゲットキャプチャー法
38
38
タ ゲットリシ ケンス
ターゲットリシーケンス
SureSelect Target Enrichment System
アジレントテクノロジー社
ジ
ジ 社
全ゲノムを使ってGAサンプル調製後、目的領域
からデザインしたオリゴ(ビオチン)をハイブリして
キャプチャー
– 最大3.3Mbの領域を対象
最大3 3Mbの領域を対象
– 120mer オリゴ、55K種類
– GAでシーケンス(1レーン)
39
39
タ ゲットリシ ケンス
ターゲットリシーケンス
ヒトの全エクソン領域をキャプチャー
トの全 クソン領域をキャプチャ
ペアエンド法と組み合わせて利用
40
40
Genome Analyzerの特長
短いリード(100塩基+)を大量に(>1億リード)
– 現在のスループット: 33Gb (100bpペアエンド法)
自動化されたシンプルなワークフロー
ゲノムセンターから研究室まで
ゲノムセンタ
から研究室まで、世界中で広く導入されている実績
世界中で広く導入されている実績
– 多くの手法がGAで開発されている
– 圧倒的な論文数(2009年10月現在 400報以上)
さらなる改良
– 販売開始から1年でデータ量15倍
– 2009年末までに95G達成を目標
多様なアプリケーションに対応
41
41
Genome
Epigenome
• SNP
• CNV
• 染色体再編成
• DNAメチル化
• ヒストン修飾
• DNA結合タンパク
Transcriptome
T
i t
• 遺伝子発現
• microRNA
• エクソンスプライス
Fly UP