Comments
Description
Transcript
CLC Genomics Workbench で行う 微生物変異検出解析
2013年3月22日(金) 山口大学遺伝子実験施設センターセミナー CLC Genomics Workbench で行う 微生物変異検出解析 株式会社CLCバイオジャパン シニアフィールドバイオインフォマティクスサイエンティスト 宮本真理 Ph.D. [email protected] 1 アジェンダ • • • • Genomics Workbench 概要 微生物変異解析 活用例 変異解析ワークフロー 各種機能説明 – 変異検出 – 変異比較 • 発現解析 • アノテーション関連新製品紹介 2 Genomics Workbench 概要 3 CLC Genomics Workbench • • • • • • 4 解析ワークフロー 新規生物種 変異解析 ChIP-seq RNA-seq small RNA インポート インポート インポート インポート インポート Quality check Quality check Quality check Quality check タグの抽出 De Novo アッセンブリ マッピング マッピング RNA-seq miRBase ダウンロード BLAST検索 変異検出 ピーク検出 RPKM計算 アノテーション付け GOアノテーション フィルタリング ピーク精査 群間比較 既知のmiRNAと それ以外の分類 5 変異解析活用例 6 活用事例 次世代シーケンサーデータにより、 キャッサバ葉枯細菌病の耐性に関 するエフェクター保存領域を特定。 • キャッサバは芋の一種で熱帯地域で広く栽 培されている植物。 • キャッサバ葉枯細菌病は深刻な病害虫で、 これに耐性をもつタンパクを同定し、キャッ サバを病害虫に耐性のある品種に改良す ることが安定したキャッサバの供給へつな がる。 Bart, R. et al. Correction for Bart et al., High-throughput genomic sequencing of cassava bacterial blight strains identifies conserved effectors to target for durable resistance. Proceedings of the National Academy of Sciences 109, 13130–13130 (2012). 7 活用事例:ワークフロー CBBの分離 Cassava Bacterial Blight キャッサバ病害虫 耐性種の分離 Illumina シーケンス ゲノムDNAを分離し、Illuminaにてシーケンス De Novo De NovoアッセンブリによりContig作成 Mapping 近縁種へマッピング SNV検出 系統間比較 エフェクター予測 変異検出 系統間の比較 エフェクターの予測 8 活用事例:結果 9 変異解析ワークフロー 10 変異解析ワークフロー インポート Quality check マッピング 変異検出 アミノ酸置換の検出 変異の比較 11 2種類の検出方法 • Quality-Based Variant Detection:クオリティと、変異の見ら れる頻度から変異のサイトを検出。 • Probabilistic Variant Detection:確率モデルを使い、変異の サイトを検出。 12 Quality-Based Variant Detection Mapping後のデータに対し、を設定し、許容するミスマッ チや、gap、またQuality ScoreによりSNP detectionに含 めるデータのフィルタリングを行う。 SNP とCallするために、最低必要なカバレッジや、SNPの 頻度を設定する。 13 Probabilistic Variant Detection Algorithm 詳細 Bayes model P(A) A P(B) B P(A∩B) A∩B P( A B ) P( B | A) P( A) P( A B ) P( A | B ) P( B ) P( B | A) P( A) P( A | B ) P( B ) ベイズの定理 事後確率 Posterior P( A | B ) P( B ) P( B | A) P( A) 事前確率 Prior 尤度 Likelihood 14 Probabilistic Variant Detection Algorithm 詳細 Reference A ? A A T T C P( R | S ) P( S ) P( S | R ) P( R ) ? : Site type (ex) A/A, A/T, A/C ... ? S : Site type R : Reads P( R | S ) : Error Model を使って推定 P( S ) : Genome Model を使って推定 15 Probabilistic Variant Detection Algorithm 詳細 • Genome Model – Reference がAのとき、Readの大部分はAになると仮定し、初期の確率を以下のように 設定し、EMアルゴリズムを使ってそれぞれの確率を推定する。 • EMアルゴリズム(Expectation Maximization algorithm)は、得られたデータから推定したい現象が観察できな い場合に、その確率を推定する、一般的な統計の手法。 Site Type A/A A/C A/G A/T T/C T/G T/T G/C C/C G/G G/A/C/T/- Initial Probability 0.2475 0.001 0.001 0.001 0.001 0.001 0.2475 0.001 0.2475 0.2475 0.001 0.001 0.001 0.001 16 Probabilistic Variant Detection Algorithm 詳細 • Error Model – リードに含まれるエラーを考慮するため、尤度のところにエラーを考慮した確 率を推定する。初期値を以下のように設定し、EMアルゴリズムにて確率を推 定する。 Reference Reads A C G T - A C G T - 0.90 0.025 0.025 0.025 0.025 0.025 0.90 0.025 0.025 0.025 0.025 0.025 0.90 0.025 0.025 0.025 0.025 0.025 0.90 0.025 0.025 0.025 0.025 0.025 0.90 17 Probabilistic Variant Detection Algorithm 詳細 変異コール • ErrorモデルとGenomeモデルにより事後確率が計算できました。この時、リ ファレンスと同じアレルである場合も計算されます。 • Reference : A -> A/A と考えます。A/Aの事後確率が15%と計算でき たとします。 • ウィザード中のパラメータで、”参照配列と異なる確率”を指定しています。 これを90%とすると、A/Aの確率は10%以下であるということになります。 • A/Aの確率が15%という事は、指定した閾値を満たさないため、このポジ ションは変異としてコールされません。 A Reference ? それぞれの事後確率 A/A = 0.15 A/T = 0.8 A/C = 0.6 A/G = 0.01 .. etc. 18 Probabilistic Variant Detection Algorithm 詳細 変異コール • 参照配列と異なる確率を80%とすると、A/Aが15%の場合、そのポジションは変 異があるとされ、リファレンスと異なるアレル(≠A/A)のうち、最も事後確率が高 いものを変異のアレルとして返します。 Reference A ? それぞれの事後確率 A/A = 0.15 A/T = 0.8 A/C = 0.6 A/G = 0.01 .. etc. 19 Probabilistic Variant Detection Algorithm 詳細 • Post Filtering • Homopolymer フィルター – 454やPGMのデータにおいてホモポリマー領域に見つかった変異をコー ルしないようにする。 – ホモポリマー領域は、連続する塩基 AAA– というように連続した後に ギャップが入る場合、ホモポリマーとして認識する。 • Forward/Reverse フィルター – Min( (#Forward/#Total), (#Reverse/#Total)) の値が0.05以上のものをリ ストに含める。 – 例: Min((10/40),(5/40))=0.125 <- Callされる Min((10/40),(1/40))=0.025 <- Callされない 20 変異比較ツール 21 DEMO 22 ツールの場所 Track Tools > Annotate and Filter 一般的なアノテーション付とフィルタリング 変異解析に便利なツール群 • Resequencing Analysis > Annotate and Filter • Resequencing Analysis > Compare Variants • Resequencing Analysis > Functional Consequences 23 Annotate and Filter • Annotate from Overlapping Annotations – 変異トラックにオーバーラップするアノテーションを追加。 – インプット:変異トラック、アノテーションに使うトラック • Filter Annotations on Name – 遺伝子名など、興味の対象となるアノテーションの名前からリストをつくり トラックとして登録。 – インプット:アノテーショントラック • Filter against Overlapping Annotations – 興味のあるアノテーショントラックとのオーバーラップの有無に応じてフィ ルタリング。 Filter Annotation on Nameで作成したトラックの活用も可能。 – インプット:変異トラック、フィルターに使用するトラック 24 Compare Variant Within Group • グループ内に変異があるかどうかを検出するツール。たとえ ばグループ内で浸透率が100%でないような変異の場合、% を指定してフィルターをかけることができる。 • インプット:複数の変異トラック A A A A A A A A C C C C 25 Fisher Exact Test • Case-Control study のための検定。Case (例:患者)群と Control(例:健常者)群において、どの変異が統計的に有意 に観測されているかを返す。 • インプット:CaseとControlのトラック、参照ゲノムトラック 変異あり 変異なし Case:Sample 1 5 2 Control:Sample 2 1 8 26 Filter against Control Reads • Caseの変異トラックとControlのリードとの比較。 • CaseとControlの変異トラックを比較した場合、Controlでは変 異としてコールされなかったもの(カバレッジ不足や設定が厳 しすぎるために起こる)がCaseでのみ見られる変異のように 見えてしまうことがある。 • このツールはCaseの変異とControlのリードを比較することで 見落としを防ぐツールとなる。確認としての利用もひとつの使 い方。 • インプット:ケース群の変異トラック、コントロール群のマッピ ングファイル 27 Annotate from Known Variant • Variant Database を取り込み後、変異に対してアノテーショ ン付を行う。たとえばCosmicの変異の情報を追加するなど が行える。 • インプット:変異トラック、フィルターに利用する トラック 28 Filter against known variants • Variant Database トラックとしてインポートされたデータを使っ たフィルタリング。 • インプット:変異トラック、フィルターに利用するトラック。 29 Annotate with Exon Numbers • 何番目のエクソンで起こっている変異かについてアノテー ションとして追加。テーブルにもその数が追加される。 • インプット:変異トラック、mRNAアノテーショントラック 30 Filter Marginal Variant calls • 変異のリストに対して、さらに頻度やForward/reverse balance, 塩基のクオリティなどでフィルターをかける。この ツールを利用することで、再度変異検出を行わずにフィル ターをかけることができる。 • インプット:変異トラック、参照配列 31 機能的アノテーション付 • GO Enrichment Analysis – GOアノテーションを付加する機能。 – インプット:変異トラック、Gene トラック、GOファイル(インポート済みのも の) • Amino Acid Changes – アミノ酸置換の有無を調べる – インプット:変異トラック、CDSトラック、ゲノムトラック • Annotate with Conservation Score – あらかじめ計算されたConservation scoreをインポートし、変異と照らし合 わせて見れるようにする。 – インプット:変異トラック、Conservation score トラック • Predict Splice Site Effect – スプライスサイトへの影響をしらべるためのツール。 – インプット:変異トラック、mRNAトラック 32 RNA-seq 解析 33 RNA-seq 解析ソリューション 参照配列あり 参照配列なし 参照配列へマッピング De Novo アッセンブリで Contig作成 Exon-Exon間にまたがるもの などを修正 アノテーション付加 発現量の計算 アノテーション付けされた Contigに対してRNA-seq 発現量計算 Haas, B.J., and Zody, M.C. Advancing RNA‐Seq analysis Nature Biotechnology (2010) 34 RNA-seq 解析ソリューション • スプライスバリアントの探索 • Milos, Fatih Ozsolak, P. M. RNA sequencing: advances, challenges and opportunities. Nature Reviews Genetics 12, 87–98 (2010). 融合遺伝子の探索 35 small RNA • • • • • miRNA (micro RNA) 長さ21から23塩基ほどの1本鎖RNA。発現の調 節に関与。 stRNA (small temporal RNA) 1993年に初めてE.elegansで発見された。Dicer は関与していない。 siRNA (small interfering RNA) 20-25塩基対からなる二本鎖RNA。RNAiに関与 する。 piRNA (piwi-interacting RNA) small RNAの中ではもっとも長い24-31塩基1本 鎖RNA。トランスポゾンの抑制に関与。 rasiRNA (Repeat associated small interfering RNA) -> piRNA (2007年からpiRNAと呼ばれて る) http://finchtalk.geospiza.com/2009/05/small-rnas-get-smaller.html 36 miRBase • microRNAを登録するデータベース。登録数18000以上 Kozomara, A. & Griffiths-Jones, S. miRBase: integrating microRNA annotation and deep-sequencing data. Nucleic acids research 39, D152-7 (2011). 37 発現解析ソリューション • Genomics Workbench でできること – – – – RNA-seq, 発現量(RPKM)の計算 新規Exonの発見 融合遺伝子の探索 small RNA のタグ分類 • プラグインを使ってできること – 新規Transcriptの探索 Transcript Discovery plug-in (beta) 38 RNA-seq 解析フロー インポート リードデータ、ゲノムのインポート Quality check Quality の低い塩基、リードの排除 RNA-seq ゲノム、トランスクリプトへマッピング RPKM算出 RPKM(reads per kilo base per million)算出 群間比較 ケース・コントロール群があるようなデータの 場合、群間の比較が可能 GO解析 GSEA解析 有意差が見られるものについて、GOやGSEAな どのアノテーション解析が可能。 39 RNA-seq Navigation Areaから使用するリードデータを選択。 Toolboxから RNA-Seq Analysis を選択、ダブルクリック。 ウィザードが起動し、選択したデータが選ばれていることを確認。 40 RNA-seq アノテーション付のデータ、アノテーション無しのリファレンス、いずれか を選択。 インポートしているゲノムのデータを選択。 41 RNA-seq Maximum number of mismatches: (Short read パラメータ) リード中に最大何個までのミスマッチを許容するか。 Minimum length fraction: (Long read パラメータ)マッチする 際に考慮するリードの長さの割合。 Minimum similarity fraction: (Long read パラメータ) Minimum length fraction で指定した長さのうち、一致する べき割合。 Maximum number of hits for a read:1つのリードがマッチ する最大の数。この数以上の箇所にマップされたリードは、 マップされません。 Use color space:カラースペースを使用する場合 Strand specific alignment:センス鎖特異的にマップさせた い場合のオプション Minimum distance:ペアの最小距離 Maximum distance:ペアの最大距離 Use ‘include broken pairs’ counting scheme:指定した距 離に納まらなかったリードもカウントしたい場合 42 RNA-seq Exon discovery:新規エクソンの探索を行いたい場合 Required relative expression level:新規エクソンとする場 合に、その遺伝子の発現量のうち、どのぐらいの割合を 持っている必要があるか。 Minimum number of reads: 新規エクソンとする場合に最低 限必要なリード数。 Minimum length: 新規エクソンとする場合の最小の長さ。 43 RNA-seq Create list of un-mapped sequences: マップされなかった リードをリストとして回収するオプション Create report: レポート作成 Create fusion gene table: Fusion gene の候補をリストで 作成するかどうか。 Minimum read count:(Pair-end オプション)作成する場合、 Fusionとするための最小リードカウント。 Expression value: デフォルトはRPKM。このほか、Total Exonなども選択可。後で変更も可能。 44 RNA-seq 45 RNA-seq Exon-Exon間は点線で表示。緑はセンス鎖、赤はアンチセ ンス鎖にマップされていることを示している。 46 アノテーション関連 新プラグイン 47 De Novo 活用例 • 新規生物種のゲノム同定 ゴムの木のドラフトゲノム Genomics Workbench De Novo 使用 Yamin, A. et al. Draft genome sequence of the rubber tree Hevea brasiliensis. (2013). http://en.wikipedia.org/wiki/Hevea_brasiliensis 48 De Novo 活用例:解析の流れ Illuminaリード Fragment: 200bp, PE Fragment: 200bp, PE Rocheリード shotgun, SE N Fragment: 8 kb, PE N Fragment: 8 kb, SE N SOLiDリード Fragment: 20 kb, PE N Fragment: 20 kb, SE Fragment: 2 kb, PE N Preliminary Contigs *RepeatModeler, RepeatMasker などを使って、リピート領域の推定 N Fragment: 200bp, PE Final Contigs Fragment: 200bp, SE Fragment: 500bp, PE :Newbler Fragment: 2 kb, PE N 49 De Novo 活用例:結果 ドラフト配列から遺伝子の予測、オーソログの確認などを行い、近縁種13種と比較(a)。 共通するものが多かった4種類とさらに比較(b)。 50 De Novo 活用例 • トランスクリプトーム De Novo ニシンのトランスクリプトームゲノム Genomics Workbench De Novo、RNA-seq、 SNP Detection 使用 Roberts, S. B., Hauser, L., Seeb, L. W. & Seeb, J. E. Development of Genomic Resources for Pacific Herring through Targeted Transcriptome Pyrosequencing. 7, (2012). 51 De Novo 活用例:解析の流れ インポート Quality check De novo ORF予測 GO アノテーション RNA-seq SNP 検出 52 De Novo 活用例:結果 53 Whole Genome De Novo ワークフロー クオリティチェック トリミング De novo アッセンブリ コンティグのさらなる 連結 Microbial Finishing Module 54 Transcriptome De Novo ワークフロー クオリティチェック、トリミング De Novo RNA-seq ORF 予測 GO, InterPro BLAST2GO プラグイン 様々な結果から、発現差のあったトランスクリ プトの生物学的な性質を調べたり、変異の有 無を調べる。 55 CLC Microbial Finishing Module 56 Genome Finishing Module概要 • Genome Finishing ModuleはGenomics Workbenchに追加して 利用する有償のモジュールです。 • De Novo 後、作成されたコンティグをつなげたり、間違ってつ ながっているようなところを修正する、リシーケンスのための プライマー設計などが行えるツールです。 • 作成されたContigを近縁種にマップして、つなげていくアプ ローチと、Contig同士の類似度を比較してつなげていくなど のアプローチが可能です。 57 Genome Finishing Module • • • • • • • • • • Add Reads to Contigs. リードを追加する機能 Align Contigs. コンティグを参照配列へ貼り付ける、 またはコンティグ自身に張り付ける Analyze Contigs. コンティグのカバレッジや、アライ メントの間違っている個所などにアノテーションを付 ける。 Collect Paired Reads Statistics. 異なるコンティグに またがってマップされたペアを調べるツール。 Create Amplicons. リシーケンスのために対象となる アンプリコンの領域にアノテーションを付ける。 Create Primers. プライマー設計 Extend Contigs. コンティグを延長し、オーバーラップ を見つけやすくするためのツール Find Sequence. 配列を名前や塩基配列で検索する ツール。 Reassemble Regions. 選択した領域で再度アッセンブ リを行う。小さな間違ったアッセンブリを直すときなど に使う。. Sample Reads. リードが多すぎるときに簡便のため、 リードを減らすツール。 58 Genome Finishing Module 価格 PC固定ライセンス • アカデミック : 937,500 円 → 468,000円 • コマーシャル: 1,875,000 円 → 937,600円 ネットワークライセンス • アカデミック:1,875,000 円 → 937,600 円 • コマーシャル:3,750,000 円 → 1,875,000円 • • • ご利用にあたっては、Genomics Workbench 6.0.1以降が必要となります。 ライセンスには初年度のアップグレード・サポート費用が含まれます。 ライセンスは永続ライセンスとなりますが、2年目以降のアップグレード・サポート 費用は別途メンテナンスライセンスの更新により可能です。 59 機能 • Contig Match テーブルで、Contigの近縁種とのマッチを調べ • Contig同士の重なりをチェック。 60 機能紹介 • 問題なさそうなら、そのままJoin contigsツールで、連結。 • リシーケンスが必要な 可能性のある領域に アノテーションをつけ ておく。 61 機能紹介 • リシーケンスしたいアノ テーションをもつ領域に 対してプライマー設計。 • 対象となるアノテーショ ンをもつ領域すべてに 対して一度にプライ マー設計ができるので、 作業時間の大幅短縮 が可能。 62 BLAST2GO プラグイン概要 • BLAST2GO プラグインはGenomics Workbench に追加して利用する有償 のプラグインです。 • BLAST、GOへのマッピング、アノテー ション付け、InterProでのアノテーション 補完などのツールをGenomics Workbench から直接実行可能です。 • BLASTはGenomics Workbench 内で実 行したもの、または別のマシンで実行し た .xml 形式の結果ファイルを取り込む ことも可能 63 BLAST2GO プラグイン概要 • BLASTデータを BLAST2GO project へ変 換直後。GOやInerProのア ノテーションが何もついて いない状態。 • GOのアノテーションが付い た状態。 64 BLAST2GO プラグイン概要 • GO Slim でGOをシンプル に。 • ツリー構造で書くことで、ど のGOが多く選ばれている か、関係が分かりやすい。 65 BLAST2GO プラグイン概要 • InterProでアノテーションを 付け、マージした状態。 • Genomics Workbenchで実 行していたRNA-seqの結 果にBLAST2GOでまとめ たアノテーションを追加し た状態。 66 RNA-seqの結果へアノテーション付け • トランスクリプトーム De Novoなどでは、リードをContigの状態にし、アノテーション なしでRNA-seqを行います。Contigにしておいた配列をBLAST2GOでアノテーショ ン付けしておくことで、RNA-seqの結果にアノテーション結果を張り付けることが 可能です。 Experiment BLSAT2GOの 結果から作 成したアノ テーション ファイル 67 RNA-seqの結果へアノテーション付け 68 BLAST2GOプラグイン 価格 アカデミックユーザー • Single computer license, 1 year ¥121,900 • Single computer license, 2 year ¥209,400 • Single computer license, 3 year ¥279,400 • Network license, 1 year ¥305,700 • Network license, 2 year ¥486,900 • Network license, 3 year ¥664,400 69