Comments
Description
Transcript
スライド 1
第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ 第25回DDBJing 講習会 「新型シーケンサを用いた微生物ゲノム解析とGalaxyツール」 NGSマルチプレックス法による黄色ブドウ球菌de novoゕセンブリ 慶應義塾大学医学部 皮膚科/総合医科学研究センター 佐々木 貴史 次世代シーケンサーを使ったバクテリアゲノム解読 バクテリゕゲノム解読 ゲノムサイズ? どの次世代シーケンサー? リピート配列? バクテリゕ リード数(カバレッジ数)? GC含量? 解読するバクテリゕ数? 標準株の配列? 次世代シーケンサーの進歩により、ベストな方法は刻々と変わっている 2- 1 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ 本日のアウトライン 1、ゲノム解読について 2、次世代シーケンサーについて 3、次世代シーケンサーを用いたマルチプレックス法による 黄色ブドウ球菌de novoゕセンブリ 本日のアウトライン 1、ゲノム解読について 2、次世代シーケンサーについて 3、次世代シーケンサーを用いたマルチプレックス法による 黄色ブドウ球菌de novoゕセンブリ 2- 2 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ sequencingとre-sequencing ヒトゲノムを1日で1人解読できるシーケンサーが登場 ただし、これはgenome re-sequencing Genome sequencing: ゲノム配列の(新規)解読 Genome re-sequencing: ゲノム配列の再解読 re-sequencingでは解読配列を既知の標準配列に張り付けていく(mapping) ・標準配列が解読されている事 ・個体間の多型が正しくmappingできる程度である事 バクテリゕではgenome sequencingが必要 DNA sequencingとGenome sequencing ・DNA sequencing DNA配列決定 対象のDNA配列の決定する ・Genome sequencing ゲノム配列決 定 対象のゲノム配列の決定する もし、一回のDNA sequencingですべてのゲノム配列を決定できれ ば Genome sequencing = DNA sequencing 実際には、現在のDNA sequencing法では、一度に決定する事はできない Genome sequencing = 2- DNA sequencing 〒 配列の組み立て (assembly) 3 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ ゲノム解読 (genome sequencing) ゲノム解読:長いゲノムDNA配列を短いDNA配列しか決定できない方法でど のように決めるか? 1、primer walking法 既知配列にsequencing primerを作成し、順番に読んでいく 利点:最終的なゲノム配列の再構築の必要がない 欠点:並列処理が困難なため、時間がかかる。 解読長よりも長い繰り返し配列領域は読む事がで きない 2、shotgun法 断片化長 リード長 ゲノムDNAを断片化後、両端の配列を決定し、共通する配 列を元にもとの配列を再構成する 利点:DNA解読の並列処理が可能 断片化 末端解読 再構築 欠点:ステップが多く煩雑である ゲノム配列の再構築が必要である 断片長よりも長い繰り返し配列領域は読む事がで きない shotgun法によるゲノム解読 shotgun法には、Whole genome shotgunと2段階のサブクローン化を行うclone by cloneがある。 Clone by clone Whole Genome Shotgun Marker Mapping Skip this stage Shotgun Assembly Contiguous Sequence サイズの比較的小さなバクテリゕゲノム解読はWhole genome shotgunが有効である 2- 4 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ ゲノム解読でのもっとも“穴”になりやすい箇所 shotgun法では解読及びゕセンブリ困難な箇所が”穴(gap)”になりやすい ・DNA解読が困難な箇所(解読原理の選択) サンガー法:高GC%領域(70%) 同一もしくは数塩基の繰り返し配列 inverted repeat Pyrosequencing法:同一塩基の繰り返し配列 Polony Sequencing法:高GC%領域(70%) ・shotgunゕセンブリが困難な箇所(断片化サイズの選択) 断片化サイズよりも大きな繰り返し配列は、正しいゕセンブリが不可能 高頻度反復配列 ? ゲノム重複領域 ? ? ゲノム挿入配列 対象生物の平均GC%含量と反復配列情報は方法選択の上で重要 shotgun法による解読 技術的な視点から shotgun法によるゲノム解読にはいくつかの選択肢があり、できるだけgapが少なくなる 様に、事前にある程度の対象生物のゲノム配列情報が必要 ・どのDNAシーケンサー?(解読困難領域と解読長と解読量) DNAシーケンサーの解読原理に依存した解読困難領域 DNAシーケンサーの解読長と解読量 コスト ・どの程度の量を解読?(塩基の正確性とゕセンブリの正確性) ゲノムサイズ DNAシーケンサーの解読長 ・shotgunの断片化長?(ゕセンブリの正確性とDNAシーケンサーによる制限) 反復配列によるゕセンブリ困難な箇所 2- 5 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ shotgun法による解読 生物の視点から shotgun法によるゲノム解読にはいくつかの選択肢があり、できるだけgapが少なくなる 様に、事前にある程度の対象生物のゲノム配列情報が必要 ・ゲノムサイズ DNA解読量の決定 (リード長にもよるが25x-50x程度) ・平均GC% 解読法の決定 (40〜60%程度であれば、通常の方法) ・高頻度反復配列 断片化長の決定 (通常は500-800bp) 本日のアウトライン 1、ゲノム解読について 2、次世代シーケンサーについて 3、次世代シーケンサーを用いたマルチプレックス法による 黄色ブドウ球菌de novoゕセンブリ 2- 6 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ 次世代シーケンサー “Next/New Generation Sequencer” 第一世代 Slab/capillary gel DNA sequencer 次世代 第2世代 Illumina Roche 第3世代 Complete Genomics QIAGEN Helicos Life Tech PacBio Azco Bio 第4世代 Oxford IBM すでに多くの種類の次世代シーケンサーが開発されている DNAシーケンサーの開発の歴史とシーケンサー出力量 1Tb Human genome project 50 Gb Massively Parallel sequencing 1Gb Personal NGS 1Mb MR Stratton et al. Nature 458, 719-724 (2009) DNAシーケンス産出量は、飛躍的に増加している 2- 7 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ DNAシーケンサーの各世代の特徴 第一世代 シーケンシング反応後(ダイデオキシ法など)、ゲルまたはキャピ ラリー電気泳動で分離し、ゕイソトープや蛍光で標識した塩基を検 出する。 第二世代 逐次DNA合成・光検出。短いが並列に極めて大量の配列を解読できる。 電気泳動が不要。 Polony Sequencing法 Pyrosequencing 法 Ligation Sequencing法 第三世代 DNA1分子を鋳型としてDNA合成を行い、1塩基毎の反応を光検出 で同定する事により、鋳型の増幅をせずに配列を決定することができ る。 第四世代 DNA塩基検出で光反応を利用せず、直接塩基の性質に基づいて塩基を検 出する。修飾が不要。 15 Pyrosequencing 法 Pyrosequencing 法 DNA合成に伴うPPiの遊離を検出して塩基を決定する。 第二世代シーケンサーの中で唯一長鎖の解 読が可能だが、同一塩基の繰り返しに弱い。 2- 8 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ Polony Sequencing法 基盤上でPCRにより増幅した鋳型 (Polony) に 蛍光ラベルした4種類の塩基を加え、DNAポリメ ラーゼの1反応ごとのイメージを撮影し、配列に 変換する 100~150bpの解読が可能。PCR増幅が困難な 領域は解読できない 小型DNAシーケンサー 従来の大量解読型の次世代シーケンサーの他に、小型次世代DNAシーケン サーが登場した read長 read数 出力量 run 時間 コスト/ラン 454 GS junior 400 bp 0.1M 35 Mb 9 hrs. 13万円 Ion Torrent PGM 200 bp 0.1 ~ 1M 10 ~ 100 Mb 2 hrs. 6〜10万円 Illumina MiSeq 2 x 150 bp 2 x 6.6 M 2 Gb 1 day 6〜10万円 Pyrosequencing 法 Pyrosequencing 法 Polony Sequencing法 バクテリゕゲノム解読がより身近 に 2- 9 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ バクテリアゲノム解読は? バクテリゕゲノム解読 re-sequencing X (de novo) genome sequencing △ リード長 Polony Sequencing法 Pyrosequencing 法 50~150bp 300~500bp 必要な出力量(50x): genome size: 1x106-107 50~500Mb サンプル数が少 ない場合 454 GS junior Ion Torrent PGM サンプル数が多 い場合 454 FLX Pyrosequening 次世代シーケンサー Pyrosequening 小型次世代シーケンサー 本日のアウトライン 1、ゲノム解読について 2、次世代シーケンサーについて 3、次世代シーケンサーを用いたマルチプレックス法による 黄色ブドウ球菌de novoゕセンブリ 2 - 10 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ バクテリアゲノム解読は? バクテリゕゲノム解読 re-sequencing X (de novo) genome sequencing リード長 △ すごく数が多い 場合 Polony Sequencing法 Pyrosequencing 法 50~150bp 300~500bp 必要な出力量(50x): genome size: 1x106-107 50~500Mb 数が少ない場合 454 GS junior 数が多い場合 Ion Torrent PGM 454 FLX Pyrosequening 次世代シーケンサー Pyrosequening 小型次世代シーケンサー 【背景】 アトピー性皮膚炎(Atopic Dermatitis:AD) ゕトピー性皮膚炎は、増悪・寛解を繰返す、そう痒のある湿疹を主病変とする疾患で あり、患者の多くはゕトピー素因を持つ。 ゕトピー素因: 1)家族歴・既往歴(気管支喘息、ゕレルギー性鼻炎・結膜炎、ゕトピー性皮膚炎 のうちのいずれ、あるいは複数の疾患)、または 2)IgE抗体を産生し易い素因。 日本皮膚科学会 Photo: sited from Homepage of The Rheumatisim & Allegy Information Center 2 - 11 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ ADは環境的要因と遺伝的要因に関係する skin barrier associated genes allergen atopic dermatitis allergy/ inflammatory associated genes AD is multi-factorial disorder bacteria/virus other other 遺伝的要因 環境的要因 Complication with other allergic disease Familial history Increase of AD patients by modernization Symptom aggravation by environmental changes アトピー性皮膚炎と黄色ブドウ球菌 ゕトピー性皮膚炎では、黄色ブドウ球菌への易感染性が知られている ゕトピー性皮膚炎の患者から採取された黄色ブドウ球菌に共通 する性質があるのではないか? ゕトピー性皮膚炎の患者から採取された黄色ブドウ球菌をゲノ ム解読し、その差から探してみる。 広島大大学院医歯薬学総合研究科 菅井基行教授らのグループがゕトピー性皮 膚炎の患者皮膚から単離した黄色ブドウ球菌のゲノム解読を行った。 2 - 12 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ 黄色ブドウ球菌のゲノム解読状況と今回の目的 黄色ブドウ球菌のゲノム解読状況 今回の目的 ・ゲノムサイズ 2.7~2.8Mb ・すでに10株以上の配列解読 ・新規挿入配列の有無 ・全遺伝子の配列情報 ・すでにannotationされた株が存在 ・多くの株の比較解析 次世代シーケンサー マルチプレックス法による 黄色ブドウ球菌de novoゕセンブリ 今回の解析 ・Illumina社 GAIIX ・リード長:50bp ・7レーン ・一株あたり300x相当のリード数 ・3株/レーン 次世代シーケンサー マルチプレックス法 マルチプレックス法 同一レーンで異なるサンプルの配 列解析する技術。解析対象毎に異な る配列タグを付加し、解読後に配列 タグの配列を元に分離する。 バクテリアA バクテリアB バクテリアC 培養・ゲノムDNA抽出 ゲノムDNA 断片化DNAライブラリー調製 (アダプター及びタグ配列の付加) 断片化DNA アダプター タグ配列 DNA sequencing ...AGTGCTAGCTACGATCGATCGTACGATCGTACGATCGTACG... ...CATGTACGATCGATCGATCGATCAGTGCTAGTGATCGTACG... ...TGGCATGCCATAGTGCTAAATGTGCATGTACGGATCGTACG... ...ACGATCGATCGATCGATCGATCGATGGCTAGTGATCGTACG... ...AGTACGATCGTGCTAGATGCATCGATTCGTACGATCGTACG... ...AGTGCTAGCATGCATCGATGGTACGTTGTACGGATCGTACG... 断片化DNA タグ アダプター タグ配列による分類・アセンブリ バクテリアA バクテリアB 2 - 13 バクテリアC 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ 次世代シーケンサー マルチプレックス法 解読結果 SA sample ID Lane SA-1 SA-2 SA-3 SA-4 SA-5 SA-6 SA-7 SA-8 SA-9 SA-10 SA-11 SA-12 SA-13 SA-14 SA-15 SA-16 SA-17 SA-18 SA-19 SA-20 SA-21 total reads 3-2 3-1 3-3 5-2 5-3 5-1 6-3 6-2 6-1 1-2 1-1 1-3 2-2 2-1 2-3 7-2 7-3 7-1 8-3 8-2 8-1 16,454,586 15,089,934 18,470,478 16,379,532 18,149,844 18,881,486 17,505,136 17,149,576 15,942,182 15,711,666 15,206,672 12,945,442 15,244,186 13,512,594 15,351,284 16,089,096 16,502,146 17,518,282 19,489,830 19,488,568 16,460,024 16,549,645 coverlage 293.8 269.5 329.8 292.5 324.1 337.2 312.6 306.2 284.7 280.6 271.5 231.2 272.2 241.3 274.1 287.3 294.7 312.8 348.0 348.0 293.9 295.5 de novoアセンブリ 配列の再構築(ゕセンブリ) 多くのプログラムが64bitのLinux用であり高性能PCも必要である事から、次世代シーケンサー解析 での1つのネックとなっている。 ・Linuxにある程度なじみがあり、8G以上のRAMを搭載した64bitのLinuxを用意できる人 → 数種類のfreeのソフトの導入が可能 de novo DNA配列解読 のアセンブラ プログラム名前 使用可能なデータ Phrap MIRA 3 GS De Novo Assembler (Newbler) ABySS Forge SOAPdenovo Velvet Sanger, 454 http://www.phrap.org/ Sanger, 454, Illumina http://www.chevreux.org/projects_mira.html Sanger ,454 http://454.com/ Illumina, SOLiD http://www.bcgsc.ca/platform/bioinfo/software/abyss Sanger, 454, Illumina, SOLiD http://combiol.org/forge/ Illumina http://soap.genomics.org.cn/soapdenovo.html Sanger, 454, Illumina, SOLiD http://www.ebi.ac.uk/~zerbino/velvet/ ダウンロード/説明 サイト ・Windows/MacでGUIで解析したい人 → 商業ベースのソフトの導入が可能 (32bit PCでもバクテリゕぐらいであればゕセンブリ可能) 2 - 14 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ アセンブラ及びデータ量によるde novo アセンブリ結果の比較 黄色ブドウ球菌de novoゕセンブリに至適なゕセンブラとデータ量を明らか にするために、3種のゕセンブラ、5つのデータ量(37x ~ 274x)で結果を 比較した。 方法 SA15 (15,351,284 reads, 274.1x相当) 1/8, 1/4, 1/2, 3/4, fullのリードデータフゔイルを作成 それぞれをABySS, Soap denovo, Velvetでde novo ゕセンブル scaffold数、N50、最長scaffold長で評価 既知の再類似黄色ブドウ球菌ゲノム配列と比較 de novoアセンブリ contigとscaffold N50 scaffoldを長い順に並べたときに、ゲノムサイズの半分の長さに相当する 領域を含むscaffoldの長さ 122kb 2 - 15 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ アセンブラ及びデータ量の比較結果 ABySS, Velvet, SOAPdenovoの3種のゕセンブラの解析結果について、 scaffold数、N50、最長scaffoldで評価した。 (a) scaffold数 140 120 120 100 100 80 80 60 60 ABySS Velvet SOAPdenovo 40 20 (c)最長scaffold (b) N50 140 0 kb kb 600 500 400 300 200 40 100 20 0 0 0 100 200 300 0 100 200 300 0 100 200 300 SOAPdenovoがもっともscaffold数が少なくゕセンブリをした。 どのゕセンブラでも、37x ~ 274xのデータ量でゕセンブリ結果に大きな差が見られなかった。 アセンブリ結果と既知類似SAゲノム配列との比較 ゕセンブラ結果と最も類似SAゲノム配列(ST298)との配列を比較した。 139.2x ST298 274.1x SOAPdenovo ST298 ABySS ST298 Velvet SA2-3 assembly 2 - 16 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ SOAPdenovo SOAPdenovoでのデータ量によるアセンブリ結果比較 SOAPdenovo 274.1x (63 scaffolds) 139.2x (65scaffolds) 223.9x (59scaffolds) 72.4x (58scaffolds) 139.2x (65scaffolds) 36.9x (66scaffolds) どのデータ量でも類似した箇所がgapになりやすい傾向があった SOAPdenovo gapの箇所にはどのような配列があったのか? gapに含まれている配列を、比較した既知黄色ブドウ球菌ゲノムから解析した 【問題点】 1、黄色ブドウ球菌リピートのタンデムリピート(約160bpが複数単位) 2、transposable element由来の配列 3、tRNAのタンデムリピート 4、duplicated gene →ほとんどが反復配列が原因 【対応】 ・1と4はサイズが1kb以下である事が多く、次世代シーケンサーライブ ラリ作成サイズを大きくする事で改善が予想される。 ・2と3はサイズが1kb以上である事があり、現在の次世代シーケンサー ライブラリ作成サイズでは対応できない。 ・1kb以上の反復配列が多くある場合には、mate-pair情報を加える事で 各scaffoldの相対的な位置を知る事ができる。 2 - 17 第25回DDBJing 講習会in 三島: NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ SOAPdenovo NGSマルチプレックス法による黄色ブドウ球菌de novoアセンブリ結果 NGSマルチプレックス法による黄色ブドウ球菌de novoゕセンブリにより 【得られた結果】 ・それぞれの株の全遺伝子の配列情報 ・それぞれの株の新規挿入配列の有無(位置は不明な物があり) ・株間の配列比較 ・40x程度でも、十分に配列解析が可能 【明らかになった点】 ・gapが50-100箇所程度残るが、既知ゲノム配列を利用して並べる事は可能 Polony sequencingのショートリード次世代シーケンサーでも、バクテリゕの遺伝子 情報の解読は可能であり、その大量出力を利用した高速大量配列決定には有効であ る。 応用例:臨床での感染菌の単離後の特定抗原の探索 まとめ 1、バクテリゕゲノムのde novo解読は、ロングリードNGSで行うのがスタンダード 2、ショートリードNGSでもバクテリゕ遺伝子情報の解読は可能であり、 その高速性を生かした応用が考えられる。 3、断片長を超えるgapはシーケンサーだけでは原理的に不可能。 mate-pairライブラリを活用する必要がある。 4、ゕノテーション前に配列を確定させないと何度もやり直しになる。 5、シーケンスに不安があると、ゕノテーションをしながら何度も見直す事にな る。 2 - 18