...

スライド 1

by user

on
Category: Documents
32

views

Report

Comments

Transcript

スライド 1
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
第25回DDBJing 講習会
「新型シーケンサを用いた微生物ゲノム解析とGalaxyツール」
NGSマルチプレックス法による黄色ブドウ球菌de novoゕセンブリ
慶應義塾大学医学部
皮膚科/総合医科学研究センター 佐々木
貴史
次世代シーケンサーを使ったバクテリアゲノム解読
バクテリゕゲノム解読
ゲノムサイズ?
どの次世代シーケンサー?
リピート配列?
バクテリゕ
リード数(カバレッジ数)?
GC含量?
解読するバクテリゕ数?
標準株の配列?
次世代シーケンサーの進歩により、ベストな方法は刻々と変わっている
2-
1
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
本日のアウトライン
1、ゲノム解読について
2、次世代シーケンサーについて
3、次世代シーケンサーを用いたマルチプレックス法による
黄色ブドウ球菌de novoゕセンブリ
本日のアウトライン
1、ゲノム解読について
2、次世代シーケンサーについて
3、次世代シーケンサーを用いたマルチプレックス法による
黄色ブドウ球菌de novoゕセンブリ
2-
2
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
sequencingとre-sequencing
ヒトゲノムを1日で1人解読できるシーケンサーが登場
ただし、これはgenome re-sequencing
Genome sequencing: ゲノム配列の(新規)解読
Genome re-sequencing: ゲノム配列の再解読
re-sequencingでは解読配列を既知の標準配列に張り付けていく(mapping)
・標準配列が解読されている事
・個体間の多型が正しくmappingできる程度である事
バクテリゕではgenome sequencingが必要
DNA sequencingとGenome sequencing
・DNA sequencing
DNA配列決定
対象のDNA配列の決定する
・Genome sequencing
ゲノム配列決
定
対象のゲノム配列の決定する
もし、一回のDNA sequencingですべてのゲノム配列を決定できれ
ば
Genome sequencing
=
DNA sequencing
実際には、現在のDNA sequencing法では、一度に決定する事はできない
Genome sequencing
=
2-
DNA sequencing 〒 配列の組み立て
(assembly)
3
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
ゲノム解読 (genome sequencing)
ゲノム解読:長いゲノムDNA配列を短いDNA配列しか決定できない方法でど
のように決めるか?
1、primer walking法
既知配列にsequencing primerを作成し、順番に読んでいく
利点:最終的なゲノム配列の再構築の必要がない
欠点:並列処理が困難なため、時間がかかる。
解読長よりも長い繰り返し配列領域は読む事がで
きない
2、shotgun法
断片化長
リード長
ゲノムDNAを断片化後、両端の配列を決定し、共通する配
列を元にもとの配列を再構成する
利点:DNA解読の並列処理が可能
断片化
末端解読
再構築
欠点:ステップが多く煩雑である
ゲノム配列の再構築が必要である
断片長よりも長い繰り返し配列領域は読む事がで
きない
shotgun法によるゲノム解読
shotgun法には、Whole genome shotgunと2段階のサブクローン化を行うclone by cloneがある。
Clone by clone
Whole Genome Shotgun
Marker
Mapping
Skip this stage
Shotgun
Assembly
Contiguous
Sequence
サイズの比較的小さなバクテリゕゲノム解読はWhole genome shotgunが有効である
2-
4
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
ゲノム解読でのもっとも“穴”になりやすい箇所
shotgun法では解読及びゕセンブリ困難な箇所が”穴(gap)”になりやすい
・DNA解読が困難な箇所(解読原理の選択)
サンガー法:高GC%領域(70%)
同一もしくは数塩基の繰り返し配列
inverted repeat
Pyrosequencing法:同一塩基の繰り返し配列
Polony Sequencing法:高GC%領域(70%)
・shotgunゕセンブリが困難な箇所(断片化サイズの選択)
断片化サイズよりも大きな繰り返し配列は、正しいゕセンブリが不可能
高頻度反復配列
?
ゲノム重複領域
?
?
ゲノム挿入配列
対象生物の平均GC%含量と反復配列情報は方法選択の上で重要
shotgun法による解読 技術的な視点から
shotgun法によるゲノム解読にはいくつかの選択肢があり、できるだけgapが少なくなる
様に、事前にある程度の対象生物のゲノム配列情報が必要
・どのDNAシーケンサー?(解読困難領域と解読長と解読量)
DNAシーケンサーの解読原理に依存した解読困難領域
DNAシーケンサーの解読長と解読量
コスト
・どの程度の量を解読?(塩基の正確性とゕセンブリの正確性)
ゲノムサイズ
DNAシーケンサーの解読長
・shotgunの断片化長?(ゕセンブリの正確性とDNAシーケンサーによる制限)
反復配列によるゕセンブリ困難な箇所
2-
5
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
shotgun法による解読 生物の視点から
shotgun法によるゲノム解読にはいくつかの選択肢があり、できるだけgapが少なくなる
様に、事前にある程度の対象生物のゲノム配列情報が必要
・ゲノムサイズ
DNA解読量の決定
(リード長にもよるが25x-50x程度)
・平均GC%
解読法の決定
(40〜60%程度であれば、通常の方法)
・高頻度反復配列
断片化長の決定
(通常は500-800bp)
本日のアウトライン
1、ゲノム解読について
2、次世代シーケンサーについて
3、次世代シーケンサーを用いたマルチプレックス法による
黄色ブドウ球菌de novoゕセンブリ
2-
6
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
次世代シーケンサー “Next/New Generation Sequencer”
第一世代
Slab/capillary gel DNA sequencer
次世代
第2世代
Illumina
Roche
第3世代
Complete Genomics
QIAGEN
Helicos
Life Tech
PacBio
Azco Bio
第4世代
Oxford
IBM
すでに多くの種類の次世代シーケンサーが開発されている
DNAシーケンサーの開発の歴史とシーケンサー出力量
1Tb
Human genome project
50 Gb
Massively Parallel
sequencing
1Gb
Personal NGS
1Mb
MR Stratton et al. Nature 458, 719-724 (2009)
DNAシーケンス産出量は、飛躍的に増加している
2-
7
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
DNAシーケンサーの各世代の特徴
第一世代
シーケンシング反応後(ダイデオキシ法など)、ゲルまたはキャピ
ラリー電気泳動で分離し、ゕイソトープや蛍光で標識した塩基を検
出する。
第二世代
逐次DNA合成・光検出。短いが並列に極めて大量の配列を解読できる。
電気泳動が不要。
Polony Sequencing法
Pyrosequencing 法
Ligation Sequencing法
第三世代
DNA1分子を鋳型としてDNA合成を行い、1塩基毎の反応を光検出
で同定する事により、鋳型の増幅をせずに配列を決定することができ
る。
第四世代
DNA塩基検出で光反応を利用せず、直接塩基の性質に基づいて塩基を検
出する。修飾が不要。
15
Pyrosequencing 法
Pyrosequencing 法
DNA合成に伴うPPiの遊離を検出して塩基を決定する。
第二世代シーケンサーの中で唯一長鎖の解
読が可能だが、同一塩基の繰り返しに弱い。
2-
8
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
Polony Sequencing法
基盤上でPCRにより増幅した鋳型 (Polony) に
蛍光ラベルした4種類の塩基を加え、DNAポリメ
ラーゼの1反応ごとのイメージを撮影し、配列に
変換する
100~150bpの解読が可能。PCR増幅が困難な
領域は解読できない
小型DNAシーケンサー
従来の大量解読型の次世代シーケンサーの他に、小型次世代DNAシーケン
サーが登場した
read長
read数
出力量
run 時間
コスト/ラン
454
GS junior
400 bp
0.1M
35 Mb
9 hrs.
13万円
Ion
Torrent
PGM
200 bp
0.1 ~ 1M
10 ~ 100 Mb
2 hrs.
6〜10万円
Illumina
MiSeq
2 x 150 bp
2 x 6.6 M
2 Gb
1 day
6〜10万円
Pyrosequencing 法
Pyrosequencing 法
Polony Sequencing法
バクテリゕゲノム解読がより身近
に
2-
9
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
バクテリアゲノム解読は?
バクテリゕゲノム解読
re-sequencing
X
(de novo) genome sequencing
△
リード長
Polony Sequencing法
Pyrosequencing 法
50~150bp
300~500bp
必要な出力量(50x): genome size: 1x106-107
50~500Mb
サンプル数が少
ない場合
454 GS junior
Ion Torrent PGM
サンプル数が多
い場合
454 FLX
Pyrosequening
次世代シーケンサー
Pyrosequening
小型次世代シーケンサー
本日のアウトライン
1、ゲノム解読について
2、次世代シーケンサーについて
3、次世代シーケンサーを用いたマルチプレックス法による
黄色ブドウ球菌de novoゕセンブリ
2 - 10
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
バクテリアゲノム解読は?
バクテリゕゲノム解読
re-sequencing
X
(de novo) genome sequencing
リード長
△
すごく数が多い
場合
Polony Sequencing法
Pyrosequencing 法
50~150bp
300~500bp
必要な出力量(50x): genome size: 1x106-107
50~500Mb
数が少ない場合
454 GS junior
数が多い場合
Ion Torrent PGM
454 FLX
Pyrosequening
次世代シーケンサー
Pyrosequening
小型次世代シーケンサー
【背景】
アトピー性皮膚炎(Atopic Dermatitis:AD)
ゕトピー性皮膚炎は、増悪・寛解を繰返す、そう痒のある湿疹を主病変とする疾患で
あり、患者の多くはゕトピー素因を持つ。
ゕトピー素因:
1)家族歴・既往歴(気管支喘息、ゕレルギー性鼻炎・結膜炎、ゕトピー性皮膚炎
のうちのいずれ、あるいは複数の疾患)、または 2)IgE抗体を産生し易い素因。
日本皮膚科学会
Photo: sited from Homepage of The Rheumatisim & Allegy Information Center
2 - 11
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
ADは環境的要因と遺伝的要因に関係する
skin barrier
associated genes
allergen
atopic dermatitis
allergy/ inflammatory
associated genes
AD is multi-factorial
disorder
bacteria/virus
other
other
遺伝的要因
環境的要因
Complication with other allergic disease
Familial history
Increase of AD patients by modernization
Symptom aggravation by environmental changes
アトピー性皮膚炎と黄色ブドウ球菌
ゕトピー性皮膚炎では、黄色ブドウ球菌への易感染性が知られている
ゕトピー性皮膚炎の患者から採取された黄色ブドウ球菌に共通
する性質があるのではないか?
ゕトピー性皮膚炎の患者から採取された黄色ブドウ球菌をゲノ
ム解読し、その差から探してみる。
広島大大学院医歯薬学総合研究科 菅井基行教授らのグループがゕトピー性皮
膚炎の患者皮膚から単離した黄色ブドウ球菌のゲノム解読を行った。
2 - 12
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
黄色ブドウ球菌のゲノム解読状況と今回の目的
黄色ブドウ球菌のゲノム解読状況
今回の目的
・ゲノムサイズ
2.7~2.8Mb
・すでに10株以上の配列解読
・新規挿入配列の有無
・全遺伝子の配列情報
・すでにannotationされた株が存在
・多くの株の比較解析
次世代シーケンサー マルチプレックス法による
黄色ブドウ球菌de novoゕセンブリ
今回の解析
・Illumina社
GAIIX
・リード長:50bp
・7レーン
・一株あたり300x相当のリード数
・3株/レーン
次世代シーケンサー マルチプレックス法
マルチプレックス法
同一レーンで異なるサンプルの配
列解析する技術。解析対象毎に異な
る配列タグを付加し、解読後に配列
タグの配列を元に分離する。
バクテリアA
バクテリアB
バクテリアC
培養・ゲノムDNA抽出
ゲノムDNA
断片化DNAライブラリー調製
(アダプター及びタグ配列の付加)
断片化DNA
アダプター
タグ配列
DNA sequencing
...AGTGCTAGCTACGATCGATCGTACGATCGTACGATCGTACG...
...CATGTACGATCGATCGATCGATCAGTGCTAGTGATCGTACG...
...TGGCATGCCATAGTGCTAAATGTGCATGTACGGATCGTACG...
...ACGATCGATCGATCGATCGATCGATGGCTAGTGATCGTACG...
...AGTACGATCGTGCTAGATGCATCGATTCGTACGATCGTACG...
...AGTGCTAGCATGCATCGATGGTACGTTGTACGGATCGTACG...
断片化DNA
タグ
アダプター
タグ配列による分類・アセンブリ
バクテリアA バクテリアB
2 - 13
バクテリアC
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
次世代シーケンサー マルチプレックス法 解読結果
SA sample
ID
Lane
SA-1
SA-2
SA-3
SA-4
SA-5
SA-6
SA-7
SA-8
SA-9
SA-10
SA-11
SA-12
SA-13
SA-14
SA-15
SA-16
SA-17
SA-18
SA-19
SA-20
SA-21
total reads
3-2
3-1
3-3
5-2
5-3
5-1
6-3
6-2
6-1
1-2
1-1
1-3
2-2
2-1
2-3
7-2
7-3
7-1
8-3
8-2
8-1
16,454,586
15,089,934
18,470,478
16,379,532
18,149,844
18,881,486
17,505,136
17,149,576
15,942,182
15,711,666
15,206,672
12,945,442
15,244,186
13,512,594
15,351,284
16,089,096
16,502,146
17,518,282
19,489,830
19,488,568
16,460,024
16,549,645
coverlage
293.8
269.5
329.8
292.5
324.1
337.2
312.6
306.2
284.7
280.6
271.5
231.2
272.2
241.3
274.1
287.3
294.7
312.8
348.0
348.0
293.9
295.5
de novoアセンブリ
配列の再構築(ゕセンブリ)
多くのプログラムが64bitのLinux用であり高性能PCも必要である事から、次世代シーケンサー解析
での1つのネックとなっている。
・Linuxにある程度なじみがあり、8G以上のRAMを搭載した64bitのLinuxを用意できる人
→ 数種類のfreeのソフトの導入が可能
de novo DNA配列解読 のアセンブラ
プログラム名前
使用可能なデータ
Phrap
MIRA 3
GS De Novo Assembler (Newbler)
ABySS
Forge
SOAPdenovo
Velvet
Sanger, 454
http://www.phrap.org/
Sanger, 454, Illumina
http://www.chevreux.org/projects_mira.html
Sanger ,454
http://454.com/
Illumina, SOLiD
http://www.bcgsc.ca/platform/bioinfo/software/abyss
Sanger, 454, Illumina, SOLiD http://combiol.org/forge/
Illumina
http://soap.genomics.org.cn/soapdenovo.html
Sanger, 454, Illumina, SOLiD http://www.ebi.ac.uk/~zerbino/velvet/
ダウンロード/説明 サイト
・Windows/MacでGUIで解析したい人
→ 商業ベースのソフトの導入が可能
(32bit PCでもバクテリゕぐらいであればゕセンブリ可能)
2 - 14
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
アセンブラ及びデータ量によるde novo アセンブリ結果の比較
黄色ブドウ球菌de novoゕセンブリに至適なゕセンブラとデータ量を明らか
にするために、3種のゕセンブラ、5つのデータ量(37x ~ 274x)で結果を
比較した。
方法
SA15 (15,351,284 reads, 274.1x相当)
1/8, 1/4, 1/2, 3/4, fullのリードデータフゔイルを作成
それぞれをABySS, Soap denovo, Velvetでde novo ゕセンブル
scaffold数、N50、最長scaffold長で評価
既知の再類似黄色ブドウ球菌ゲノム配列と比較
de novoアセンブリ
contigとscaffold
N50
scaffoldを長い順に並べたときに、ゲノムサイズの半分の長さに相当する
領域を含むscaffoldの長さ
122kb
2 - 15
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
アセンブラ及びデータ量の比較結果
ABySS, Velvet, SOAPdenovoの3種のゕセンブラの解析結果について、
scaffold数、N50、最長scaffoldで評価した。
(a) scaffold数
140
120
120
100
100
80
80
60
60
ABySS
Velvet
SOAPdenovo
40
20
(c)最長scaffold
(b) N50
140
0
kb
kb
600
500
400
300
200
40
100
20
0
0
0
100
200
300
0
100
200
300
0
100
200
300
SOAPdenovoがもっともscaffold数が少なくゕセンブリをした。
どのゕセンブラでも、37x ~ 274xのデータ量でゕセンブリ結果に大きな差が見られなかった。
アセンブリ結果と既知類似SAゲノム配列との比較
ゕセンブラ結果と最も類似SAゲノム配列(ST298)との配列を比較した。
139.2x
ST298
274.1x
SOAPdenovo
ST298
ABySS
ST298
Velvet
SA2-3 assembly
2 - 16
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
SOAPdenovo
SOAPdenovoでのデータ量によるアセンブリ結果比較
SOAPdenovo
274.1x
(63 scaffolds)
139.2x
(65scaffolds)
223.9x
(59scaffolds)
72.4x
(58scaffolds)
139.2x
(65scaffolds)
36.9x
(66scaffolds)
どのデータ量でも類似した箇所がgapになりやすい傾向があった
SOAPdenovo
gapの箇所にはどのような配列があったのか?
gapに含まれている配列を、比較した既知黄色ブドウ球菌ゲノムから解析した
【問題点】
1、黄色ブドウ球菌リピートのタンデムリピート(約160bpが複数単位)
2、transposable element由来の配列
3、tRNAのタンデムリピート
4、duplicated gene
→ほとんどが反復配列が原因
【対応】
・1と4はサイズが1kb以下である事が多く、次世代シーケンサーライブ
ラリ作成サイズを大きくする事で改善が予想される。
・2と3はサイズが1kb以上である事があり、現在の次世代シーケンサー
ライブラリ作成サイズでは対応できない。
・1kb以上の反復配列が多くある場合には、mate-pair情報を加える事で
各scaffoldの相対的な位置を知る事ができる。
2 - 17
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
SOAPdenovo
NGSマルチプレックス法による黄色ブドウ球菌de novoアセンブリ結果
NGSマルチプレックス法による黄色ブドウ球菌de novoゕセンブリにより
【得られた結果】
・それぞれの株の全遺伝子の配列情報
・それぞれの株の新規挿入配列の有無(位置は不明な物があり)
・株間の配列比較
・40x程度でも、十分に配列解析が可能
【明らかになった点】
・gapが50-100箇所程度残るが、既知ゲノム配列を利用して並べる事は可能
Polony sequencingのショートリード次世代シーケンサーでも、バクテリゕの遺伝子
情報の解読は可能であり、その大量出力を利用した高速大量配列決定には有効であ
る。
応用例:臨床での感染菌の単離後の特定抗原の探索
まとめ
1、バクテリゕゲノムのde novo解読は、ロングリードNGSで行うのがスタンダード
2、ショートリードNGSでもバクテリゕ遺伝子情報の解読は可能であり、
その高速性を生かした応用が考えられる。
3、断片長を超えるgapはシーケンサーだけでは原理的に不可能。
mate-pairライブラリを活用する必要がある。
4、ゕノテーション前に配列を確定させないと何度もやり直しになる。
5、シーケンスに不安があると、ゕノテーションをしながら何度も見直す事にな
る。
2 - 18
Fly UP