Comments
Description
Transcript
Ion PGM™シーケンサは高精度な ロングリードシーケンシングが可能
参考文献 アプリケーションノート Ion PGM™シーケンサ 1.Rothberg JM et al. (2011) An integrated semiconductor device enabling non-optical genome sequencing. Nature doi:10.1038/nature10242. 2.Mellman A et al. (2011) Prospective genomic characterization of the German enterohemorrhagic Escherichia coli O104:H4 outbreak by rapid next generation sequencing technology. PLoS One doi:10.1371/journal.pone.0022751. 3.Rohde H et al. (2011) Open-source genomic analysis of shiga-toxin–producing E. coli O104:H4. N Eng J Med doi:0.1056/NEJMoa1107643. 4.Miller W et al. (2011) Genetic diversity and population structure of the endangered marsupial Sarcophilus harrisii (Tasmanian devil). Proc Natl Acad Sci U S A doi:10.1073/pnas.1102838108. 5.Illumina Application Note: Sequencing, entitled “E. coli Sequencing on the MiSeq System and Ion Torrent PGM System” ™ ™ Ion PGM™シーケンサは高精度な ロングリードシーケンシングが可能 Data generated internally. Kits and protocols expected to be released in Q4 2011. § 発売開始から数ヵ月で、他社のベンチトップ型次世代シーケンサよりも 高いパフォーマンスを実現 • Ion PGM™シーケンサーで最長265塩基 265塩基対の完全な読み取りに成功 対のリードをシーケンシング。 • 他社ベンチトップ型次世代シーケンサの150 塩基目のエラー率が11.2% であったのに対 し、Ion PGM™ シー ケンサ の エラ ー 率 は 2.99%と低く、高い精度で解析が可能。 • 他社ベンチトップ型次世代シーケンサで は、データ精度の期待値と実測値が少なか 図1. Ion PGM™シーケンサで、265塩基対を完全に読み取った例(E.coli DH10B) 。このときのリード数は約 350,000、平均リード長は163塩基対でした。うち、112,000リードは、200bp塩基対以上を読み取りました。 らず乖離する傾向が見られた。 Ion Torrent ™ Personal Genome E.coli DH10B を解析した時のミスマッチ精度 Machine™(Ion PGM™ )シ ー ケ ン サ は、 レーザやスキャナーが不要な PostLight™テ クノロジ ー に 基 づくシ ー ケン サ で す [1]。 2011年市場に導入されて以来、Ion PGM™ シーケンサはこれまでにないスケーラビリ ティを提供し、リード長と精度の両方が劇的 に改良されてきました。Ion PGM™ シーケ ンサは、最速のシーケンシングワークフロー を提供することによって、既に40か国以上の 国の研究機関などに導入され、高いフィデリ http://www.appliedbiosystems.jp 取扱店 研究用にのみ使用できます。診断目的およびその手続き上での使用は出来ません。 記載の社名および製品名は弊社または各社の商標または登録商標です。 価格、包装および仕様等は予告なしに改定される場合があります。 The trademarks mentioned herein are the property of Life Technologies Corporation or their respective owners. MiSeq™ is a trademark of Illumina Inc. ©2011 Life Technologies Japan Ltd.All rights reserved. Printed in Japan, 09/2011, ION019-A1109OB ティと記録的なスピードを提供しています [2,3,4]。 本社:〒108-0023 東京都港区芝浦 4-2-8 先頃、ヨーロッパで発生した病原性大腸菌の 感染拡大に対して、Ion PGM™シーケンサ が利用され、各地でこの病原性大腸菌の全 TEL.03(6832)9300 FAX. 03(6832)9580 http://www.lifetechnologies.co.jp ては数週間を要した解析が数日間で完了し、 大阪:〒564-0052 大阪府吹田市広芝町 10-28 TEL.06(6389)1201 FAX. 06(6389)1206 MiSeq™-DH10Bのミスマッチ-Phred 30 25 20 15 10 5 0 0 ゲノムデータの解析が実施されました。かつ ライフテクノロジーズジャパン株式会社 PGM™-DH10Bのミスマッチ-Phred 35 1塩基あたりの平均測定精度-Phredスケール ™ Ion PGM™シーケンサのスピードと使いや すさが証明されました。この重要な研究につ いては、非常に高精度の Ion PGM™シーケ 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 各リードにおける読み取り塩基対の位置 図2. Ion PGM™シーケンサと他社ベンチトップ型次世代シーケンサの1塩基あたりのミスマッチ精度の比較。これ らのデータは、各リード長における塩基位置の関数としてプロットされています。このプロットは、アライメントの中 のギャップ(すなわち挿入欠失)ではなく塩基置換として現れるエラーを示しています。(Ion PGM™シーケンサ のデータは、E.coli DH10B のシーケンシングを行った B14-387より) されており[2、3]、ゲノムデータはE. coli O104株のスクリーニングに有効な研究用 アッセイの構築に使用されています。 最近リリースされた他社ベンチトップ型次世 代シーケンサのデータ[5]との直接比較に より、Ion PGM™シーケンサのより高い精度 が証明されました。Ion PGM™ シーケンサ は、販売開始からわずか8 ヵ月後にその他の すべてのパーソナルシーケンサを上回る、高 品質のデータを提供するとともに、測定基準 の全体を飛躍的に改良しています。高品質 のロングリードを特長とする最近のデータに より、半導体ベースのシーケンシングテクノ ロジーがシーケンシングの活用法そのもの 全体的な平均カバレッジ 塩基置換のエラー数 トータルゲノムのカバレッジ率 150塩基目におけるエラー率 (全タイプのエラー) Ion PGM™シーケンサ ロングリード-DH10B Illumina MiSeq™-DH10B 10x 421x 0 11 99.98% 94.17% 2.99% 11.2% 1.2% 2.8% PGM™シーケンサのエラー曲線は、半導体 Ion PGM™シーケンサは、現在利用できる最も迅速、簡単で、最速のスケーリングが可能なシーケンシングテクノロジーとして、最先端の研究 Ion 318™ Chip* ベースのシーケンシングの頑強性を反映して を続ける研究者や研究室において、高い有用性が証明されています(図4)。最近、リード長が平均150塩基対以上へと飛躍的に増加したことお おり、リード長をさらに急速に増大させること 1 Gb よび265塩基対というロングリードが可能になったことは、Ion PGM™シーケンサの絶え間ない確実な改良の体現といえます。本稿で言及した が可能です。150塩基目で測定された高い 通り、Ion PGM™シーケンサは既に他社のプラットフォームよりも高い精度を実現し、2012年には400塩基対の高精度な読み取りデータを提供 データ品質(表1)と比較的フラットなエラー プロファイル(図2)をあわせて考慮すると、 Ion PGM™シーケンサのリード長は400塩基 という目標に向かって急速に増大し続けると 1塩基あたりの平均総エラー率 結論 リード長全体にわたって比較的フラットな Ion 予測できます。 Sequence output ンサのデータを用いた2報の論文が既に公表 できる予定です。 Ion 316™ Chip データ解析 100 Mb すべてのデータを以下のサイトからダウンロードすることができます。 Ion 314™ Chip ランB14-387に関するIon PGM™シーケンサのデータ 表1. Ion PGM™シーケンサと他社ベンチトップ型次世代シーケンサのコンセンサス配列の比較。コンセンサス 配列は、データ解析セクションに記載されている方法にしたがって解析しました。両プラットフォームに関して、 「150塩基目におけるエラー率」を除き、全てのリードを150塩基でトリミングを行い解析を実施しました。Ion PGM™シーケンサのデータにはホモポリマーに由来する32の indel が見られましたが、塩基置換によるエラーは 全く見られませんでした。indel エラー率は過去6 ヵ月間で1/10に改良されており、今後6 ヵ月間でも同じように 解析を最優先する Illumina MiSeq™プラットフォームのデータ エラー率の本当の意味を理解するには、クオ 改良できるものと予測しています。(Ion PGM™シーケンサのデータは、E.coli DH10B のシーケンシングを行っ リティ値(QV)の期待値と実測値を区別する た B14-387より) ことが重要です。現在、 ほとんどすべてのシー を変える刺激的な技術的ブレークスルーを ケンシングシステムは、コールされた塩基の 実現し続けることが証明されています。 品質をPhred アルゴリズムのスケールに基 づ い て 報 告して います(Q20は 精 度99%、 Q30は精度99.9% を意味します)。 Ion PGM™シーケンサの正確な http://ioncommunity.iontorrent.com/community/torrent_dev 10 Mb Read length 100 bp Q1 2011 Q3 2011 200 bp* 400 bp* Q4 2011 2012 事前の通知なく内容を変更することがあります。 *The content provided herein may relate to products that have not been officially released and is subject to change without notice. * 本稿は正式に発売されていない製品についての記載内容も含む可能性があり、 図4. Ion PGM™シーケンサのリード長とスループットの拡張性。Ion PGM™シーケンサのスループットは、1年間 で100倍という速さで増大し続けています。リード長も2011年の間に増大し続けており、本稿では265塩基対の読 http://www.illumina.com/downloads/Data/SequencingRuns/DH10B/MiSeq_Ecoli_DH10B_110721.bam http://www.illumina.com/downloads/Data/SequencingRuns/MG1655/MiSeq_Ecoli_MG1655_110721.bam 解析スキーム み取り実績が報告されています。Ion PGM™シーケンサは、2012年の間に400塩基対の読み取りの達成を目指し コンセンサス配列の構築と解析(表1の2列目およびキャプション) ています。 変異のコールには Samtools mpileup と以下のパラメータを使用しました: samtools mpileup -Q0 -o 10 -e 17 -m4 -uf ref.fasta input.bam | bcftools view -cvg > output.vcf ロングリード アウトプットファイルで報告されるクオリティ Ion PGM™シーケンサを使用した技術的進 値は、製造メーカーや機器によって固有のパ 歩により、リード長の劇的な増大が可能にな ラメータから算出されます。したがって、これ りました。特に、E. coli データセットに関す らのクオリティ値は精度の推定値でしかあり コンセンサス配列の品質 る最近の報告から、最大265塩基まで読み取 ません。真のデータ精度を求めるためには、 コンセンサス配列の作成にデータをどの程度利用できるかは、データの有用性に関する重要 り可能であることが証明されました(図1)。 読み取りデータを既知のリファレンス配列で な測定基準です。Ion PGM™シーケンサのデータと他社のプラットフォームのデータをアライ 1塩基あたりの総エラー率(表1の4列目と5列目) このロングリードは、リード数約350,000、平 アライメントを行い、エラーを報告します。 メントおよびマッピングしてコンセンサス精度を既知のリファレンス配列と比較すると、他社の samtools calmd(samtools calmd in.bam reference.fa > out.sam)でエラー情報を生成後、out.sam ファイルの解析およびNM フィー 均リード長163塩基対(Q17以上)のランで 読み取りデータが既知のリファレンスゲノム プラットフォームはカバレッジが42倍高いにもかかわらず、Ion PGM™シーケンサを下回る結 ルドの合計を全リードの総アライメント長で除した値を求めることにより、読み取りデータを解析しました。 得られた結果です。うち、112,000リードにつ にマッピングされると、真のデータ精度(実 果となります。半導体シーケンシングの優れた精度は、複数のパラメータと相関しています。 いては、リード長が200塩基対以上でした。こ 測値)の算出と予測されたクオリティ値との Ion PGM™シーケンサと他社のプラットフォームはいずれもコンセンサス精度99.99%以上を のデータセットは、Ion PGM™シーケンサの 比較が可能になります。図3に示すように、他 達成可能ですが、得られるコンセンサス配列は著しく異なります。 ミスマッチ精度の実測値が他社ベンチトップ 図3. 他社ベンチトップ型次世代シーケンサの精度の期待値と実測値。他社のプラットフォームで報告されている 両方のストランドで1リード以上のエビデンスが認められた変異のみをカウントしました。挿入および欠失は1サイトごとにカウントします。 ミスマッチエラーおよびカバレッジの解析(表1の1列目と3列目および図2) 各読み取り位置におけるミスマッチ率は、bam ファイルの MD タグを利用して算出しました。Samtools depth を使用して、全体的なゲノムの カバレッジ率を推定しました。 エラー率の期待値と実測値の比較(図3) Step 1 bam ファイルを以下よりダウンロードしてください http://www.illumina.com/systems/miseq/ecoli.ilmn データをデータ解析の項に記載されている方法にしたがってマッピングしたところ、その精度の期待値とマッピング 社のベンチトップ型次世代シーケンサのデー 型次世代シーケンサの公式データより優れ した結果(実測値)に差異が見られました。(MiSeq™ のデータは、E. coli MG1655のシーケンシングを行った タはクオリティ値の期待値と実測値の間に一 シーケンシング時のミスマッチに起因する塩基置換エラーは一塩基変異(single nucleotide ていることも示しています。Ion PGM™シー MiSeq™ランより) 桁程度の違いがあります。これは、エラー率 variation、SNV)として報告され、ダウンストリームにおけるバリデーションを必要とするため http://www.broadinstitute.org/gsa/wiki/index.php/Downloading_the_GATK ケンサのミスマッチ精度の実測値は、他社ベ の期待値が1/1,000なら実測値は1/100であ 特に重大です。他社のプラットフォームは Ion PGM™シーケンサの400倍のカバレッジがあっ ンチトップ型次世代シーケンサの限界に相当 Step 3 GATK CountCovariates を実行し、リキャリブレーションデータを生成します ることを意味しており、この差異は有意です。 ても塩基置換のエラーが見られました。Ion PGM™シーケンサを使用して得られるカバレッジ java -Xmx3g -jar GenomeAnalysisTK.jar -l INFO -R reference.fasta -I input.bam -T CountCovariates -cov する150塩基目までのすべての塩基位置に Step 2 GATK をBroad よりダウンロードしてください。Git リポジトリから最新版をダウンロードしてビルドされることを推奨します。 高いデータ精度の確保を促すため、本研究 はそれほど高くはないものの、ばらつきがないことも証明されました。表1のデータは、Ion ReadGroupCovariate -cov QualityScoreCovariate -cov CycleCovariate -cov PositionCovariate -recalFile output.csv おいて優れています。Ion PGM™シーケン ベースコール精度が低いため読み取りデータの最後を最終的にトリミングしなければならない ではクオリティ値の期待値ではなく、アライ PGM™シーケンサはカバレッジがわずか10x でもIon 314™チップを使用してゲノムのほぼ --run_with out_dbsnp_potentially_ruining_quality サ の1塩 基 あたりの エラー 率 は1.2% で あ のであれば、リード長を増やしてもほとんど利点がありません。図2に示すように、Ion PGM™ メントに基づく実測値を報告しています。 全域をカバーできるのに対して、他社のプラットフォームはこの単純な原核ゲノムの5% をカ K12のデータには多くの変異がないと予測されるため、--run_without_dbsnp_potentially_ruining_quality を使用してします。 り、他社のプラットフォームのエラー率2.8% シーケンサはリード長200塩基を越えるロングリードに対しても非常に正確なベースコールが可 バーできないことがはっきりと示されています。Ion PGM™シーケンサは販売開始からわずか よりもはるかに優れています。また、他社の 能です。一方、他社ベンチトップ型次世代シーケンサではリード長が増えるにつれてエラー率が 8 ヵ月間のうちに、他社ベンチトップ型次世代シーケンサのケミストリーを上回る性能を達成し プラットフォームの精度については、いくつ 急速に増加します。図2では、他社のプラットフォームのエラー率が20塩基目で増加し始めるこ ました。 かの異常データ(例:29塩基目および34塩 とを示す変曲点が見られ、100塩基以降ではエラー率が著しく増加し、150塩基目のエラー率は ル内に記載されています) 基目)が観察されています(図2)。 11.2% となっています。 java -Xmx3g -jar AnalyzeCovariates.jar -recalFile output.csv -outputDir outdir -resources Sting/R 報告された QV値と比較する目的で、リキャリブレーションを実施し、ベースコール数およびアライメントした読み取りデータ中のエラー数から経 験的な QV値を算出しています。 Step 4 AnalyzeCovariates を実行して、位置あたりの経験的な QV値と報告されたQV値を生成します(*.PositionCovariate.dat ファイ resources引数では、GATK とともに配布されるR スクリプトを指定します。 ベース品質のリキャリブレーションに関する詳細な説明は、GATK wiki(http://www.broadinstitute.org/gsa/wiki/index.php/Base_ quality_score_recalibration)にも記載されています。 されており[2、3]、ゲノムデータはE. coli O104株のスクリーニングに有効な研究用 アッセイの構築に使用されています。 最近リリースされた他社ベンチトップ型次世 代シーケンサのデータ[5]との直接比較に より、Ion PGM™シーケンサのより高い精度 が証明されました。Ion PGM™ シーケンサ は、販売開始からわずか8 ヵ月後にその他の すべてのパーソナルシーケンサを上回る、高 品質のデータを提供するとともに、測定基準 の全体を飛躍的に改良しています。高品質 のロングリードを特長とする最近のデータに より、半導体ベースのシーケンシングテクノ ロジーがシーケンシングの活用法そのもの 全体的な平均カバレッジ 塩基置換のエラー数 トータルゲノムのカバレッジ率 150塩基目におけるエラー率 (全タイプのエラー) Ion PGM™シーケンサ ロングリード-DH10B Illumina MiSeq™-DH10B 10x 421x 0 11 99.98% 94.17% 2.99% 11.2% 1.2% 2.8% PGM™シーケンサのエラー曲線は、半導体 Ion PGM™シーケンサは、現在利用できる最も迅速、簡単で、最速のスケーリングが可能なシーケンシングテクノロジーとして、最先端の研究 Ion 318™ Chip* ベースのシーケンシングの頑強性を反映して を続ける研究者や研究室において、高い有用性が証明されています(図4)。最近、リード長が平均150塩基対以上へと飛躍的に増加したことお おり、リード長をさらに急速に増大させること 1 Gb よび265塩基対というロングリードが可能になったことは、Ion PGM™シーケンサの絶え間ない確実な改良の体現といえます。本稿で言及した が可能です。150塩基目で測定された高い 通り、Ion PGM™シーケンサは既に他社のプラットフォームよりも高い精度を実現し、2012年には400塩基対の高精度な読み取りデータを提供 データ品質(表1)と比較的フラットなエラー プロファイル(図2)をあわせて考慮すると、 Ion PGM™シーケンサのリード長は400塩基 という目標に向かって急速に増大し続けると 1塩基あたりの平均総エラー率 結論 リード長全体にわたって比較的フラットな Ion 予測できます。 Sequence output ンサのデータを用いた2報の論文が既に公表 できる予定です。 Ion 316™ Chip データ解析 100 Mb すべてのデータを以下のサイトからダウンロードすることができます。 Ion 314™ Chip ランB14-387に関するIon PGM™シーケンサのデータ 表1. Ion PGM™シーケンサと他社ベンチトップ型次世代シーケンサのコンセンサス配列の比較。コンセンサス 配列は、データ解析セクションに記載されている方法にしたがって解析しました。両プラットフォームに関して、 「150塩基目におけるエラー率」を除き、全てのリードを150塩基でトリミングを行い解析を実施しました。Ion PGM™シーケンサのデータにはホモポリマーに由来する32の indel が見られましたが、塩基置換によるエラーは 全く見られませんでした。indel エラー率は過去6 ヵ月間で1/10に改良されており、今後6 ヵ月間でも同じように 解析を最優先する Illumina MiSeq™プラットフォームのデータ エラー率の本当の意味を理解するには、クオ 改良できるものと予測しています。(Ion PGM™シーケンサのデータは、E.coli DH10B のシーケンシングを行っ リティ値(QV)の期待値と実測値を区別する た B14-387より) ことが重要です。現在、 ほとんどすべてのシー を変える刺激的な技術的ブレークスルーを ケンシングシステムは、コールされた塩基の 実現し続けることが証明されています。 品質をPhred アルゴリズムのスケールに基 づ い て 報 告して います(Q20は 精 度99%、 Q30は精度99.9% を意味します)。 Ion PGM™シーケンサの正確な http://ioncommunity.iontorrent.com/community/torrent_dev 10 Mb Read length 100 bp Q1 2011 Q3 2011 200 bp* 400 bp* Q4 2011 2012 事前の通知なく内容を変更することがあります。 *The content provided herein may relate to products that have not been officially released and is subject to change without notice. * 本稿は正式に発売されていない製品についての記載内容も含む可能性があり、 図4. Ion PGM™シーケンサのリード長とスループットの拡張性。Ion PGM™シーケンサのスループットは、1年間 で100倍という速さで増大し続けています。リード長も2011年の間に増大し続けており、本稿では265塩基対の読 http://www.illumina.com/downloads/Data/SequencingRuns/DH10B/MiSeq_Ecoli_DH10B_110721.bam http://www.illumina.com/downloads/Data/SequencingRuns/MG1655/MiSeq_Ecoli_MG1655_110721.bam 解析スキーム み取り実績が報告されています。Ion PGM™シーケンサは、2012年の間に400塩基対の読み取りの達成を目指し コンセンサス配列の構築と解析(表1の2列目およびキャプション) ています。 変異のコールには Samtools mpileup と以下のパラメータを使用しました: samtools mpileup -Q0 -o 10 -e 17 -m4 -uf ref.fasta input.bam | bcftools view -cvg > output.vcf ロングリード アウトプットファイルで報告されるクオリティ Ion PGM™シーケンサを使用した技術的進 値は、製造メーカーや機器によって固有のパ 歩により、リード長の劇的な増大が可能にな ラメータから算出されます。したがって、これ りました。特に、E. coli データセットに関す らのクオリティ値は精度の推定値でしかあり コンセンサス配列の品質 る最近の報告から、最大265塩基まで読み取 ません。真のデータ精度を求めるためには、 コンセンサス配列の作成にデータをどの程度利用できるかは、データの有用性に関する重要 り可能であることが証明されました(図1)。 読み取りデータを既知のリファレンス配列で な測定基準です。Ion PGM™シーケンサのデータと他社のプラットフォームのデータをアライ 1塩基あたりの総エラー率(表1の4列目と5列目) このロングリードは、リード数約350,000、平 アライメントを行い、エラーを報告します。 メントおよびマッピングしてコンセンサス精度を既知のリファレンス配列と比較すると、他社の samtools calmd(samtools calmd in.bam reference.fa > out.sam)でエラー情報を生成後、out.sam ファイルの解析およびNM フィー 均リード長163塩基対(Q17以上)のランで 読み取りデータが既知のリファレンスゲノム プラットフォームはカバレッジが42倍高いにもかかわらず、Ion PGM™シーケンサを下回る結 ルドの合計を全リードの総アライメント長で除した値を求めることにより、読み取りデータを解析しました。 得られた結果です。うち、112,000リードにつ にマッピングされると、真のデータ精度(実 果となります。半導体シーケンシングの優れた精度は、複数のパラメータと相関しています。 いては、リード長が200塩基対以上でした。こ 測値)の算出と予測されたクオリティ値との Ion PGM™シーケンサと他社のプラットフォームはいずれもコンセンサス精度99.99%以上を のデータセットは、Ion PGM™シーケンサの 比較が可能になります。図3に示すように、他 達成可能ですが、得られるコンセンサス配列は著しく異なります。 ミスマッチ精度の実測値が他社ベンチトップ 図3. 他社ベンチトップ型次世代シーケンサの精度の期待値と実測値。他社のプラットフォームで報告されている 両方のストランドで1リード以上のエビデンスが認められた変異のみをカウントしました。挿入および欠失は1サイトごとにカウントします。 ミスマッチエラーおよびカバレッジの解析(表1の1列目と3列目および図2) 各読み取り位置におけるミスマッチ率は、bam ファイルの MD タグを利用して算出しました。Samtools depth を使用して、全体的なゲノムの カバレッジ率を推定しました。 エラー率の期待値と実測値の比較(図3) Step 1 bam ファイルを以下よりダウンロードしてください http://www.illumina.com/systems/miseq/ecoli.ilmn データをデータ解析の項に記載されている方法にしたがってマッピングしたところ、その精度の期待値とマッピング 社のベンチトップ型次世代シーケンサのデー 型次世代シーケンサの公式データより優れ した結果(実測値)に差異が見られました。(MiSeq™ のデータは、E. coli MG1655のシーケンシングを行った タはクオリティ値の期待値と実測値の間に一 シーケンシング時のミスマッチに起因する塩基置換エラーは一塩基変異(single nucleotide ていることも示しています。Ion PGM™シー MiSeq™ランより) 桁程度の違いがあります。これは、エラー率 variation、SNV)として報告され、ダウンストリームにおけるバリデーションを必要とするため http://www.broadinstitute.org/gsa/wiki/index.php/Downloading_the_GATK ケンサのミスマッチ精度の実測値は、他社ベ の期待値が1/1,000なら実測値は1/100であ 特に重大です。他社のプラットフォームは Ion PGM™シーケンサの400倍のカバレッジがあっ ンチトップ型次世代シーケンサの限界に相当 Step 3 GATK CountCovariates を実行し、リキャリブレーションデータを生成します ることを意味しており、この差異は有意です。 ても塩基置換のエラーが見られました。Ion PGM™シーケンサを使用して得られるカバレッジ java -Xmx3g -jar GenomeAnalysisTK.jar -l INFO -R reference.fasta -I input.bam -T CountCovariates -cov する150塩基目までのすべての塩基位置に Step 2 GATK をBroad よりダウンロードしてください。Git リポジトリから最新版をダウンロードしてビルドされることを推奨します。 高いデータ精度の確保を促すため、本研究 はそれほど高くはないものの、ばらつきがないことも証明されました。表1のデータは、Ion ReadGroupCovariate -cov QualityScoreCovariate -cov CycleCovariate -cov PositionCovariate -recalFile output.csv おいて優れています。Ion PGM™シーケン ベースコール精度が低いため読み取りデータの最後を最終的にトリミングしなければならない ではクオリティ値の期待値ではなく、アライ PGM™シーケンサはカバレッジがわずか10x でもIon 314™チップを使用してゲノムのほぼ --run_with out_dbsnp_potentially_ruining_quality サ の1塩 基 あたりの エラー 率 は1.2% で あ のであれば、リード長を増やしてもほとんど利点がありません。図2に示すように、Ion PGM™ メントに基づく実測値を報告しています。 全域をカバーできるのに対して、他社のプラットフォームはこの単純な原核ゲノムの5% をカ K12のデータには多くの変異がないと予測されるため、--run_without_dbsnp_potentially_ruining_quality を使用してします。 り、他社のプラットフォームのエラー率2.8% シーケンサはリード長200塩基を越えるロングリードに対しても非常に正確なベースコールが可 バーできないことがはっきりと示されています。Ion PGM™シーケンサは販売開始からわずか よりもはるかに優れています。また、他社の 能です。一方、他社ベンチトップ型次世代シーケンサではリード長が増えるにつれてエラー率が 8 ヵ月間のうちに、他社ベンチトップ型次世代シーケンサのケミストリーを上回る性能を達成し プラットフォームの精度については、いくつ 急速に増加します。図2では、他社のプラットフォームのエラー率が20塩基目で増加し始めるこ ました。 かの異常データ(例:29塩基目および34塩 とを示す変曲点が見られ、100塩基以降ではエラー率が著しく増加し、150塩基目のエラー率は ル内に記載されています) 基目)が観察されています(図2)。 11.2% となっています。 java -Xmx3g -jar AnalyzeCovariates.jar -recalFile output.csv -outputDir outdir -resources Sting/R 報告された QV値と比較する目的で、リキャリブレーションを実施し、ベースコール数およびアライメントした読み取りデータ中のエラー数から経 験的な QV値を算出しています。 Step 4 AnalyzeCovariates を実行して、位置あたりの経験的な QV値と報告されたQV値を生成します(*.PositionCovariate.dat ファイ resources引数では、GATK とともに配布されるR スクリプトを指定します。 ベース品質のリキャリブレーションに関する詳細な説明は、GATK wiki(http://www.broadinstitute.org/gsa/wiki/index.php/Base_ quality_score_recalibration)にも記載されています。 されており[2、3]、ゲノムデータはE. coli O104株のスクリーニングに有効な研究用 アッセイの構築に使用されています。 最近リリースされた他社ベンチトップ型次世 代シーケンサのデータ[5]との直接比較に より、Ion PGM™シーケンサのより高い精度 が証明されました。Ion PGM™ シーケンサ は、販売開始からわずか8 ヵ月後にその他の すべてのパーソナルシーケンサを上回る、高 品質のデータを提供するとともに、測定基準 の全体を飛躍的に改良しています。高品質 のロングリードを特長とする最近のデータに より、半導体ベースのシーケンシングテクノ ロジーがシーケンシングの活用法そのもの 全体的な平均カバレッジ 塩基置換のエラー数 トータルゲノムのカバレッジ率 150塩基目におけるエラー率 (全タイプのエラー) Ion PGM™シーケンサ ロングリード-DH10B Illumina MiSeq™-DH10B 10x 421x 0 11 99.98% 94.17% 2.99% 11.2% 1.2% 2.8% PGM™シーケンサのエラー曲線は、半導体 Ion PGM™シーケンサは、現在利用できる最も迅速、簡単で、最速のスケーリングが可能なシーケンシングテクノロジーとして、最先端の研究 Ion 318™ Chip* ベースのシーケンシングの頑強性を反映して を続ける研究者や研究室において、高い有用性が証明されています(図4)。最近、リード長が平均150塩基対以上へと飛躍的に増加したことお おり、リード長をさらに急速に増大させること 1 Gb よび265塩基対というロングリードが可能になったことは、Ion PGM™シーケンサの絶え間ない確実な改良の体現といえます。本稿で言及した が可能です。150塩基目で測定された高い 通り、Ion PGM™シーケンサは既に他社のプラットフォームよりも高い精度を実現し、2012年には400塩基対の高精度な読み取りデータを提供 データ品質(表1)と比較的フラットなエラー プロファイル(図2)をあわせて考慮すると、 Ion PGM™シーケンサのリード長は400塩基 という目標に向かって急速に増大し続けると 1塩基あたりの平均総エラー率 結論 リード長全体にわたって比較的フラットな Ion 予測できます。 Sequence output ンサのデータを用いた2報の論文が既に公表 できる予定です。 Ion 316™ Chip データ解析 100 Mb すべてのデータを以下のサイトからダウンロードすることができます。 Ion 314™ Chip ランB14-387に関するIon PGM™シーケンサのデータ 表1. Ion PGM™シーケンサと他社ベンチトップ型次世代シーケンサのコンセンサス配列の比較。コンセンサス 配列は、データ解析セクションに記載されている方法にしたがって解析しました。両プラットフォームに関して、 「150塩基目におけるエラー率」を除き、全てのリードを150塩基でトリミングを行い解析を実施しました。Ion PGM™シーケンサのデータにはホモポリマーに由来する32の indel が見られましたが、塩基置換によるエラーは 全く見られませんでした。indel エラー率は過去6 ヵ月間で1/10に改良されており、今後6 ヵ月間でも同じように 解析を最優先する Illumina MiSeq™プラットフォームのデータ エラー率の本当の意味を理解するには、クオ 改良できるものと予測しています。(Ion PGM™シーケンサのデータは、E.coli DH10B のシーケンシングを行っ リティ値(QV)の期待値と実測値を区別する た B14-387より) ことが重要です。現在、 ほとんどすべてのシー を変える刺激的な技術的ブレークスルーを ケンシングシステムは、コールされた塩基の 実現し続けることが証明されています。 品質をPhred アルゴリズムのスケールに基 づ い て 報 告して います(Q20は 精 度99%、 Q30は精度99.9% を意味します)。 Ion PGM™シーケンサの正確な http://ioncommunity.iontorrent.com/community/torrent_dev 10 Mb Read length 100 bp Q1 2011 Q3 2011 200 bp* 400 bp* Q4 2011 2012 事前の通知なく内容を変更することがあります。 *The content provided herein may relate to products that have not been officially released and is subject to change without notice. * 本稿は正式に発売されていない製品についての記載内容も含む可能性があり、 図4. Ion PGM™シーケンサのリード長とスループットの拡張性。Ion PGM™シーケンサのスループットは、1年間 で100倍という速さで増大し続けています。リード長も2011年の間に増大し続けており、本稿では265塩基対の読 http://www.illumina.com/downloads/Data/SequencingRuns/DH10B/MiSeq_Ecoli_DH10B_110721.bam http://www.illumina.com/downloads/Data/SequencingRuns/MG1655/MiSeq_Ecoli_MG1655_110721.bam 解析スキーム み取り実績が報告されています。Ion PGM™シーケンサは、2012年の間に400塩基対の読み取りの達成を目指し コンセンサス配列の構築と解析(表1の2列目およびキャプション) ています。 変異のコールには Samtools mpileup と以下のパラメータを使用しました: samtools mpileup -Q0 -o 10 -e 17 -m4 -uf ref.fasta input.bam | bcftools view -cvg > output.vcf ロングリード アウトプットファイルで報告されるクオリティ Ion PGM™シーケンサを使用した技術的進 値は、製造メーカーや機器によって固有のパ 歩により、リード長の劇的な増大が可能にな ラメータから算出されます。したがって、これ りました。特に、E. coli データセットに関す らのクオリティ値は精度の推定値でしかあり コンセンサス配列の品質 る最近の報告から、最大265塩基まで読み取 ません。真のデータ精度を求めるためには、 コンセンサス配列の作成にデータをどの程度利用できるかは、データの有用性に関する重要 り可能であることが証明されました(図1)。 読み取りデータを既知のリファレンス配列で な測定基準です。Ion PGM™シーケンサのデータと他社のプラットフォームのデータをアライ 1塩基あたりの総エラー率(表1の4列目と5列目) このロングリードは、リード数約350,000、平 アライメントを行い、エラーを報告します。 メントおよびマッピングしてコンセンサス精度を既知のリファレンス配列と比較すると、他社の samtools calmd(samtools calmd in.bam reference.fa > out.sam)でエラー情報を生成後、out.sam ファイルの解析およびNM フィー 均リード長163塩基対(Q17以上)のランで 読み取りデータが既知のリファレンスゲノム プラットフォームはカバレッジが42倍高いにもかかわらず、Ion PGM™シーケンサを下回る結 ルドの合計を全リードの総アライメント長で除した値を求めることにより、読み取りデータを解析しました。 得られた結果です。うち、112,000リードにつ にマッピングされると、真のデータ精度(実 果となります。半導体シーケンシングの優れた精度は、複数のパラメータと相関しています。 いては、リード長が200塩基対以上でした。こ 測値)の算出と予測されたクオリティ値との Ion PGM™シーケンサと他社のプラットフォームはいずれもコンセンサス精度99.99%以上を のデータセットは、Ion PGM™シーケンサの 比較が可能になります。図3に示すように、他 達成可能ですが、得られるコンセンサス配列は著しく異なります。 ミスマッチ精度の実測値が他社ベンチトップ 図3. 他社ベンチトップ型次世代シーケンサの精度の期待値と実測値。他社のプラットフォームで報告されている 両方のストランドで1リード以上のエビデンスが認められた変異のみをカウントしました。挿入および欠失は1サイトごとにカウントします。 ミスマッチエラーおよびカバレッジの解析(表1の1列目と3列目および図2) 各読み取り位置におけるミスマッチ率は、bam ファイルの MD タグを利用して算出しました。Samtools depth を使用して、全体的なゲノムの カバレッジ率を推定しました。 エラー率の期待値と実測値の比較(図3) Step 1 bam ファイルを以下よりダウンロードしてください http://www.illumina.com/systems/miseq/ecoli.ilmn データをデータ解析の項に記載されている方法にしたがってマッピングしたところ、その精度の期待値とマッピング 社のベンチトップ型次世代シーケンサのデー 型次世代シーケンサの公式データより優れ した結果(実測値)に差異が見られました。(MiSeq™ のデータは、E. coli MG1655のシーケンシングを行った タはクオリティ値の期待値と実測値の間に一 シーケンシング時のミスマッチに起因する塩基置換エラーは一塩基変異(single nucleotide ていることも示しています。Ion PGM™シー MiSeq™ランより) 桁程度の違いがあります。これは、エラー率 variation、SNV)として報告され、ダウンストリームにおけるバリデーションを必要とするため http://www.broadinstitute.org/gsa/wiki/index.php/Downloading_the_GATK ケンサのミスマッチ精度の実測値は、他社ベ の期待値が1/1,000なら実測値は1/100であ 特に重大です。他社のプラットフォームは Ion PGM™シーケンサの400倍のカバレッジがあっ ンチトップ型次世代シーケンサの限界に相当 Step 3 GATK CountCovariates を実行し、リキャリブレーションデータを生成します ることを意味しており、この差異は有意です。 ても塩基置換のエラーが見られました。Ion PGM™シーケンサを使用して得られるカバレッジ java -Xmx3g -jar GenomeAnalysisTK.jar -l INFO -R reference.fasta -I input.bam -T CountCovariates -cov する150塩基目までのすべての塩基位置に Step 2 GATK をBroad よりダウンロードしてください。Git リポジトリから最新版をダウンロードしてビルドされることを推奨します。 高いデータ精度の確保を促すため、本研究 はそれほど高くはないものの、ばらつきがないことも証明されました。表1のデータは、Ion ReadGroupCovariate -cov QualityScoreCovariate -cov CycleCovariate -cov PositionCovariate -recalFile output.csv おいて優れています。Ion PGM™シーケン ベースコール精度が低いため読み取りデータの最後を最終的にトリミングしなければならない ではクオリティ値の期待値ではなく、アライ PGM™シーケンサはカバレッジがわずか10x でもIon 314™チップを使用してゲノムのほぼ --run_with out_dbsnp_potentially_ruining_quality サ の1塩 基 あたりの エラー 率 は1.2% で あ のであれば、リード長を増やしてもほとんど利点がありません。図2に示すように、Ion PGM™ メントに基づく実測値を報告しています。 全域をカバーできるのに対して、他社のプラットフォームはこの単純な原核ゲノムの5% をカ K12のデータには多くの変異がないと予測されるため、--run_without_dbsnp_potentially_ruining_quality を使用してします。 り、他社のプラットフォームのエラー率2.8% シーケンサはリード長200塩基を越えるロングリードに対しても非常に正確なベースコールが可 バーできないことがはっきりと示されています。Ion PGM™シーケンサは販売開始からわずか よりもはるかに優れています。また、他社の 能です。一方、他社ベンチトップ型次世代シーケンサではリード長が増えるにつれてエラー率が 8 ヵ月間のうちに、他社ベンチトップ型次世代シーケンサのケミストリーを上回る性能を達成し プラットフォームの精度については、いくつ 急速に増加します。図2では、他社のプラットフォームのエラー率が20塩基目で増加し始めるこ ました。 かの異常データ(例:29塩基目および34塩 とを示す変曲点が見られ、100塩基以降ではエラー率が著しく増加し、150塩基目のエラー率は ル内に記載されています) 基目)が観察されています(図2)。 11.2% となっています。 java -Xmx3g -jar AnalyzeCovariates.jar -recalFile output.csv -outputDir outdir -resources Sting/R 報告された QV値と比較する目的で、リキャリブレーションを実施し、ベースコール数およびアライメントした読み取りデータ中のエラー数から経 験的な QV値を算出しています。 Step 4 AnalyzeCovariates を実行して、位置あたりの経験的な QV値と報告されたQV値を生成します(*.PositionCovariate.dat ファイ resources引数では、GATK とともに配布されるR スクリプトを指定します。 ベース品質のリキャリブレーションに関する詳細な説明は、GATK wiki(http://www.broadinstitute.org/gsa/wiki/index.php/Base_ quality_score_recalibration)にも記載されています。 参考文献 アプリケーションノート Ion PGM™シーケンサ 1.Rothberg JM et al. (2011) An integrated semiconductor device enabling non-optical genome sequencing. Nature doi:10.1038/nature10242. 2.Mellman A et al. (2011) Prospective genomic characterization of the German enterohemorrhagic Escherichia coli O104:H4 outbreak by rapid next generation sequencing technology. PLoS One doi:10.1371/journal.pone.0022751. 3.Rohde H et al. (2011) Open-source genomic analysis of shiga-toxin–producing E. coli O104:H4. N Eng J Med doi:0.1056/NEJMoa1107643. 4.Miller W et al. (2011) Genetic diversity and population structure of the endangered marsupial Sarcophilus harrisii (Tasmanian devil). Proc Natl Acad Sci U S A doi:10.1073/pnas.1102838108. 5.Illumina Application Note: Sequencing, entitled “E. coli Sequencing on the MiSeq System and Ion Torrent PGM System” ™ ™ Ion PGM™シーケンサは高精度な ロングリードシーケンシングが可能 Data generated internally. Kits and protocols expected to be released in Q4 2011. § 発売開始から数ヵ月で、他社のベンチトップ型次世代シーケンサよりも 高いパフォーマンスを実現 • Ion PGM™シーケンサーで最長265塩基 265塩基対の完全な読み取りに成功 対のリードをシーケンシング。 • 他社ベンチトップ型次世代シーケンサの150 塩基目のエラー率が11.2% であったのに対 し、Ion PGM™ シー ケンサ の エラ ー 率 は 2.99%と低く、高い精度で解析が可能。 • 他社ベンチトップ型次世代シーケンサで は、データ精度の期待値と実測値が少なか 図1. Ion PGM™シーケンサで、265塩基対を完全に読み取った例(E.coli DH10B) 。このときのリード数は約 350,000、平均リード長は163塩基対でした。うち、112,000リードは、200bp塩基対以上を読み取りました。 らず乖離する傾向が見られた。 Ion Torrent ™ Personal Genome E.coli DH10B を解析した時のミスマッチ精度 Machine™(Ion PGM™ )シ ー ケ ン サ は、 レーザやスキャナーが不要な PostLight™テ クノロジ ー に 基 づくシ ー ケン サ で す [1]。 2011年市場に導入されて以来、Ion PGM™ シーケンサはこれまでにないスケーラビリ ティを提供し、リード長と精度の両方が劇的 に改良されてきました。Ion PGM™ シーケ ンサは、最速のシーケンシングワークフロー を提供することによって、既に40か国以上の 国の研究機関などに導入され、高いフィデリ http://www.appliedbiosystems.jp 取扱店 研究用にのみ使用できます。診断目的およびその手続き上での使用は出来ません。 記載の社名および製品名は弊社または各社の商標または登録商標です。 価格、包装および仕様等は予告なしに改定される場合があります。 The trademarks mentioned herein are the property of Life Technologies Corporation or their respective owners. MiSeq™ is a trademark of Illumina Inc. ©2011 Life Technologies Japan Ltd.All rights reserved. Printed in Japan, 09/2011, ION019-A1109OB ティと記録的なスピードを提供しています [2,3,4]。 本社:〒108-0023 東京都港区芝浦 4-2-8 先頃、ヨーロッパで発生した病原性大腸菌の 感染拡大に対して、Ion PGM™シーケンサ が利用され、各地でこの病原性大腸菌の全 TEL.03(6832)9300 FAX. 03(6832)9580 http://www.lifetechnologies.co.jp ては数週間を要した解析が数日間で完了し、 大阪:〒564-0052 大阪府吹田市広芝町 10-28 TEL.06(6389)1201 FAX. 06(6389)1206 MiSeq™-DH10Bのミスマッチ-Phred 30 25 20 15 10 5 0 0 ゲノムデータの解析が実施されました。かつ ライフテクノロジーズジャパン株式会社 PGM™-DH10Bのミスマッチ-Phred 35 1塩基あたりの平均測定精度-Phredスケール ™ Ion PGM™シーケンサのスピードと使いや すさが証明されました。この重要な研究につ いては、非常に高精度の Ion PGM™シーケ 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 各リードにおける読み取り塩基対の位置 図2. Ion PGM™シーケンサと他社ベンチトップ型次世代シーケンサの1塩基あたりのミスマッチ精度の比較。これ らのデータは、各リード長における塩基位置の関数としてプロットされています。このプロットは、アライメントの中 のギャップ(すなわち挿入欠失)ではなく塩基置換として現れるエラーを示しています。(Ion PGM™シーケンサ のデータは、E.coli DH10B のシーケンシングを行った B14-387より) 参考文献 アプリケーションノート Ion PGM™シーケンサ 1.Rothberg JM et al. (2011) An integrated semiconductor device enabling non-optical genome sequencing. Nature doi:10.1038/nature10242. 2.Mellman A et al. (2011) Prospective genomic characterization of the German enterohemorrhagic Escherichia coli O104:H4 outbreak by rapid next generation sequencing technology. PLoS One doi:10.1371/journal.pone.0022751. 3.Rohde H et al. (2011) Open-source genomic analysis of shiga-toxin–producing E. coli O104:H4. N Eng J Med doi:0.1056/NEJMoa1107643. 4.Miller W et al. (2011) Genetic diversity and population structure of the endangered marsupial Sarcophilus harrisii (Tasmanian devil). Proc Natl Acad Sci U S A doi:10.1073/pnas.1102838108. 5.Illumina Application Note: Sequencing, entitled “E. coli Sequencing on the MiSeq System and Ion Torrent PGM System” ™ ™ Ion PGM™シーケンサは高精度な ロングリードシーケンシングが可能 Data generated internally. Kits and protocols expected to be released in Q4 2011. § 発売開始から数ヵ月で、他社のベンチトップ型次世代シーケンサよりも 高いパフォーマンスを実現 • Ion PGM™シーケンサーで最長265塩基 265塩基対の完全な読み取りに成功 対のリードをシーケンシング。 • 他社ベンチトップ型次世代シーケンサの150 塩基目のエラー率が11.2% であったのに対 し、Ion PGM™ シー ケンサ の エラ ー 率 は 2.99%と低く、高い精度で解析が可能。 • 他社ベンチトップ型次世代シーケンサで は、データ精度の期待値と実測値が少なか 図1. Ion PGM™シーケンサで、265塩基対を完全に読み取った例(E.coli DH10B) 。このときのリード数は約 350,000、平均リード長は163塩基対でした。うち、112,000リードは、200bp塩基対以上を読み取りました。 らず乖離する傾向が見られた。 Ion Torrent ™ Personal Genome E.coli DH10B を解析した時のミスマッチ精度 Machine™(Ion PGM™ )シ ー ケ ン サ は、 レーザやスキャナーが不要な PostLight™テ クノロジ ー に 基 づくシ ー ケン サ で す [1]。 2011年市場に導入されて以来、Ion PGM™ シーケンサはこれまでにないスケーラビリ ティを提供し、リード長と精度の両方が劇的 に改良されてきました。Ion PGM™ シーケ ンサは、最速のシーケンシングワークフロー を提供することによって、既に40か国以上の 国の研究機関などに導入され、高いフィデリ http://www.appliedbiosystems.jp 取扱店 研究用にのみ使用できます。診断目的およびその手続き上での使用は出来ません。 記載の社名および製品名は弊社または各社の商標または登録商標です。 価格、包装および仕様等は予告なしに改定される場合があります。 The trademarks mentioned herein are the property of Life Technologies Corporation or their respective owners. MiSeq™ is a trademark of Illumina Inc. ©2011 Life Technologies Japan Ltd.All rights reserved. Printed in Japan, 09/2011, ION019-A1109OB ティと記録的なスピードを提供しています [2,3,4]。 本社:〒108-0023 東京都港区芝浦 4-2-8 先頃、ヨーロッパで発生した病原性大腸菌の 感染拡大に対して、Ion PGM™シーケンサ が利用され、各地でこの病原性大腸菌の全 TEL.03(6832)9300 FAX. 03(6832)9580 http://www.lifetechnologies.co.jp ては数週間を要した解析が数日間で完了し、 大阪:〒564-0052 大阪府吹田市広芝町 10-28 TEL.06(6389)1201 FAX. 06(6389)1206 MiSeq™-DH10Bのミスマッチ-Phred 30 25 20 15 10 5 0 0 ゲノムデータの解析が実施されました。かつ ライフテクノロジーズジャパン株式会社 PGM™-DH10Bのミスマッチ-Phred 35 1塩基あたりの平均測定精度-Phredスケール ™ Ion PGM™シーケンサのスピードと使いや すさが証明されました。この重要な研究につ いては、非常に高精度の Ion PGM™シーケ 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 各リードにおける読み取り塩基対の位置 図2. Ion PGM™シーケンサと他社ベンチトップ型次世代シーケンサの1塩基あたりのミスマッチ精度の比較。これ らのデータは、各リード長における塩基位置の関数としてプロットされています。このプロットは、アライメントの中 のギャップ(すなわち挿入欠失)ではなく塩基置換として現れるエラーを示しています。(Ion PGM™シーケンサ のデータは、E.coli DH10B のシーケンシングを行った B14-387より)