Comments
Description
Transcript
DDBJ Sequence Read Archive
第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 第26回 DDBJing 講習会 in 三島 (2013.1.24) DDBJ Sequence Read Archive DDBJ BioProject の紹介 国立遺伝学研究所 国 遺伝学研究所 生命情報・DDBJ研究センター 日本DNAデータバンク 児玉 悠一 1 DDBJ Sequence Read Archive 次世代 (以降) シークエンサ から出力される 1次データのための公共データベース 2 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 国際協力 Sequence Read Archive DRA 2008 年~ データ形式は3極で同一 形式は共同で策定 登録はどこか1極でOK 公開データは共有される SRA ERA 2007 年~ 2008 年~ 3 次世代データの流れ 解析パイプライン 定量データ 1次データ プロジェクトデータ アノテーションされた塩基配列データ 4 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 登録対象 配列のみのデータ 454 (R (Roche) h ) Solexa (Illumina) @SRR001654.1 9460:7:1:830:763 length=36 GTCAATATTAATCATACCAATATACTCAAAAAATAA +SRR001654.1 9460:7:1:830:763 length=36 I+-&*4)%+5'#%/)&$%$#%"#&%'%"$%#%%!"" @SRR001654.2 9460:7:1:402:781 length=36 GGTCTAAAAAGCAAAATTCAGTCTTCAAAATAATTC +SRR001654.2 9460:7:1:402:781 length=36 II+(%$+%'&+*-0+/*("%&+"*&"(*$""#%%&$ @SRR001654.3 9460:7:1:433:775 length=36 GTGCTTTTTTTTTTCCAGGAAGTTGTCTCCTCTATC +SRR001654.3 9460:7:1:433:775 length=36 II3DI>IIIIIIIB7.,&%&'&)."+%,$"&$&"%# 画像データ 1次データ fastq データ ベースコール Q Quality スポット座標 塩基配列 + Quality Value ランデータ SOLiD (ABI) etc メタデータ (データに関する情報:実験手法、解析方法 etc) 5 登録に必要なデータ ランの結果 “メタデータ メタデータ”” + “ランデータ ランデータ”” どんな実験? どんな研究? どんなサンプル? 6 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 メタデータ 6個の オブジェクト 実体は XML ファイル フ イル ランデータは Run の下に アクセッション番号は それぞれのオブジェクトに 対して発行されます 7 メタデータ in XML <?xml version="1.0" encoding="UTF-8"?> <EXPERIMENT_SET xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <EXPERIMENT alias="2010007891" expected_number_runs="8" expected_number_spots="547063" expected_number_reads="547063" accession="SRX000017"> <TITLE>454 sequencing of Roseburia faecis M72/1 genomic fragment library</TITLE> <STUDY_REF S accession="SRP000011" S refname="2005892953"/> f / <DESIGN> <DESIGN_DESCRIPTION>454 Sequencing of Roseburia faecis M72/1 Whole Genome Shotgun Library</DESIGN_DESCRIPTION> <SAMPLE_DESCRIPTOR accession="SRS000011" refname="Roseburia faecis M72/1"/> <LIBRARY_DESCRIPTOR> <LIBRARY_NAME>2010007891</LIBRARY_NAME> <LIBRARY_STRATEGY>WGS</LIBRARY_STRATEGY> <LIBRARY_SOURCE>GENOMIC</LIBRARY_SOURCE> <LIBRARY_SELECTION>RANDOM</LIBRARY_SELECTION> <LIBRARY_LAYOUT> <SINGLE/> </LIBRARY_LAYOUT> </LIBRARY_DESCRIPTOR> <SPOT_DESCRIPTOR> <SPOT_DECODE_SPEC> <NUMBER_OF_READS_PER_SPOT>2</NUMBER_OF_READS_PER_SPOT> <READ_SPEC> <READ_INDEX>0</READ_INDEX> 8 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 オブジェクトでデータを表現 例) 培養細胞: 薬剤処理 0, 12, 24 h 後の転写プロファイル解析 Submission Study Sample Experiment (24 h) Experiment (12 h) Experiment (0h) Run Run Run 登録後オブジェクトを追加できます 24 h 12 h 0h 9 データ登録 登録マニュアルに従い、まずは 登録アカウントを申請してください 登録受付システム http://trace.ddbj.nig.ac.jp/dra/submission.shtml メタデータ ウェブ上で作成 登録者 ランデータ ファイルを転送 ファイル受付サーバ 10 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 登録アカウント アカウントをウェブ上で取得、 ログインします 新規登録 (drauser-0004) の詳細画面に移動します 新規登録を作成 11 登録詳細画面 メタデータ作成ツール を起動します 12 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 メタデータの作成 オブジェクト に対応したタブ XML を意識することなく、 を意識することなく 情報を入力していくだけで メタデータを作成できます ポップアップ説明 入力支援 13 メタデータの投稿 テンプレートや 過去の登録内容を 利用できます チェックが通ったメタデータを投稿します 入力内容をチェックします。 エラーメッセージが表示された場合は 内容を修正します 14 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 ランデータの転送 機種 454 Illumina SOLiD ファイル sff qseq csfasta + QV.qual 詳細はウェブサイトをご覧ください http://trace.ddbj.nig.ac.jp/dra/documentation.shtml 登録に対応するディレクトリ drauser/submission/drauser-0004 にファイルを転送 ランデータ ファイル ファイル受付サーバ 15 ランデータのチェック 表示されるエラーメッセージに従い メタデータの修正やランデータファイルの 再転送をしてください ランデータファイルの情報 ランデータファイル のチェックを開始 16 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 アクセッション番号発行 アクセッション番号 メタデータとランデータが揃い status が data_validated になった後、査定を開始します。 不備がなければアクセッション番号を発行します。 ※不備がある場合は Submission.Contact に記入された メールアドレス宛に問い合わせます ※Contact にはできるだけ複数の連絡先を指定してください 17 データの更新 メタデータの更新 例) pubmed id の追加 公開予定日の変更 ※4年後まで指定でき、延長可能です 18 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 データの公開 指定された公開予定日になるとデータが自動的に公開されます。 公開されたデータは EBI/NCBI SRA にミラーされます 生物名 etc での絞り込み 検索結果リスト ダウンロード 詳細 19 BioProject 定量データ 次世代シークエンサの登場で 次世代シ クエンサの登場で 生産性が飛躍的に向上! 1次データ ↓ 1つのプロジェクト/ラボからのデータが 複数のデータベースに登録されるように プロジェクトデータ ↓ アノテーションされた塩基配列データ これらをつなぐ ID がない! ↓ BioProject 20 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 データをグループ化 複数のデータベースに存在するデータをグループ化 大きなプロジェクトは2階層で表現 例) ゲノム支援プロジェクト 動物ゲノム 植物ゲノム 21 プロジェクトの登録 プロジェクトを登録するケース ゲノム配列の登録 (必須) 複数のデータベースにまたがって登録する 複数のデ タベ スにまたがって登録する 複数のプロジェクトメンバーからの登録 登録するデータ量が多い 登録アカウントから プロジ クトのゴ ル プロジェクトのゴール、 研究費、対象生物、デー タの種類 etc を登録 22 第26回DDBJing 講習会 in 三島 『DDBJ Sequence Read Archive(DRA), DDBJ BioProject の紹介』 連絡先 DDBJ Sequence Read Archive htt //t http://trace.ddbj.nig.ac.jp/dra ddbj i j /d [email protected] DDBJ BioProject http://trace.ddbj.nig.ac.jp/bioproject [email protected] 23