DDBJ, NIG SuperComputer, 大量配列情報解析

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download DDBJ, NIG SuperComputer, 大量配列情報解析

Transcript

DDBJ, NIG SuperComputer, 大量配列情報解析

第30回 DDBJing 講習会 in 東京 (2014.12.18)
DDBJ, NIG SuperComputer,
大量配列情報解析
DDBJセンター
中村保一
元祖使い倒し系バイオインフォマティスト
http://www.amazon.co.jp/dp/4758108110
編集代表
http://www.amazon.co.jp/dp/4897068746
企画・編集
http://www.amazon.co.jp/dp/4895924262
翻訳分担（第９章・遺伝子予測と遺伝子調節）
植物関係のゲノム解析＋DB屋でした
•著作
The Arabidopsis Genome Initiative (2000)!
Analysis of the genome sequence of the flowering
plant Arabidopsis thaliana.!
Nature, 408, 796-815.!
!
シロイヌナズナゲノムプロジェクトで!
全体の 1/4 (27 Mb, 6200 genes) の領域解析
http://genome.microbedb.jp/cyanobase/!
!
光合成細菌のゲノム解析＋データベース
現在はDDBJ
DDBJのDB構築担当教員です
塩基配列データバンクとはこのような事業
• 全世界で解読された塩基配列情報を
• 査定して受入れ
• データベースに蓄積し
• 公開して共有する
データベース
国際塩基配列データベースの一員
International Nucleotide Sequence
Databank Collaboration
DDBJ (from Release note 92)
Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto,
Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata,
Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee,
Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata,
Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa,
Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai,
Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma,
Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura
!
ENA (from Release note 115)
Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson,
Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu,
Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister,
Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester,
Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane
!
GenBank (from Release note 195)
Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent
Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko,
Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard
McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright,
Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya
Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael
Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena
Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava
Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter
Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric
Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman
DDBJが運営しているデータベース
DDBJ
DRA: DDBJ Sequence Read Archive
JGA: Japanese Genotype-phenotype Archive
DDBJ登録ファイルの例
LOCUS
DEFINITION
AB091058
2109 bp
DNA
linear
BCT 02-SEP-2003!
Gluconacetobacter xylinus cmcase, ccp genes for!
endo-beta-1,4-glucanase, cellulose complementing protein, complete!
cds.!
ACCESSION
AB091058!
VERSION
AB091058.1!
KEYWORDS
.!
SOURCE
Gluconacetobacter xylinus!
ORGANISM Gluconacetobacter xylinus!
Bacteria; Proteobacteria; Alphaproteobacteria; Rhodospirillales;!
Acetobacteraceae; Gluconacetobacter.!
REFERENCE
1 (bases 1 to 2109)!
AUTHORS
Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T.,!
Munekata,M. and Takai,M.!
TITLE
Direct Submission!
JOURNAL
Submitted (28-AUG-2002) to the DDBJ/EMBL/GenBank databases.!
Contact:Kenji Tajima!
Hokkaido University, Graduate School of Engineering; N13W8,!
Kita-ku, Sapporo, Hokkaido 060-8628, Japan!
REFERENCE
2 !
AUTHORS
Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T.,!
Munekata,M. and Takai,M.!
TITLE
Cloning of Cellulose Synthesis Related Genes from Acetobacter!
xylinum ATCC23769 and ATCC53582: Comparison of Cellulose Synthetic!
Ability Between ATCC23769 and ATCC53582!
JOURNAL
Unpublished (2002)!
COMMENT
!
FEATURES
Location/Qualifiers!
source
1..2109!
/db_xref="taxon:28448"!
/mol_type="genomic DNA"!
/note="synonym:Acetobacter xylinum"!
/organism="Gluconacetobacter xylinus"!
/strain="ATCC 53582"!
CDS
10..1038!
/codon_start=1!
/gene="cmcase"!
/product="endo-beta-1,4-glucanase"!
/protein_id="BAC82540.1"!
/transl_table=11!
/translation="MSVMAAMGGAQVLSSTGAFADTAPDAVAQQWAIFRAKYLRPSGR!
VVDTGNGGESHSEGQGYGMLFAASAGDLASFQSMWMWARTNLQHTNDKLFSWRFLKGH!
QPPVPDKNNATDGDLLIALALGRAGKRFQRPDYIQDAMAIYGDVLNLMTMKAGPYVVL!
MPGAVGFTKKDSVILNLSYYVMPSLLQAFDLTADPRWRQVMEDGIRLVSAGRFGQWRL!
PPDWLAVNRATGALSIASGWPPRFSYDAIRVPLYFYWAHMLAPNVLADFTRFWNNFGA!
NALPGWVDLTTGARSPYNAPPGYLAVAECTGLDSAGELPTLDHAPDYYSAALTLLVYI!
ARAEETIK"
CDS
BASE COUNT
ORIGIN
!
1 cgttccttta
61 gcgttcgcag
121 tatcttcgtc
181 gggcagggct
241 atgtggatgt
301 ttcctcaagg
361 ctgatcgcgc
421 gacgccatgg
481 gtcgtcctca
541 tcctattacg
601 cgtcaggtga
661 ctgccccccg
721 tggccgccgc
781 atgctggcgc
841 gccctgccag
901 ggatatcttg
961 gatcatgcgc
1021 gaggagacta
1081 gaagtccgca
1141 cctaccggcc
1201 ggcacttcga
1261 aaatcgcggt
1321 aaaccgcgcc
1381 ccgccgtgcc
1441 ccgcgcctgt
1501 tgccgtatgc
1561 cgccgcaggc
1621 aggtccgcac
1681 ctttcccccg
1741 atgaatggag
1801 atctgagctt
1861 tggcgtccac
1921 acacgaattc
1981 ccacaatggc
2041 gtccttcgct
2101 ctatattca!
1035..2096!
/codon_start=1!
/gene="ccp"!
/product="cellulose complementing protein"!
/protein_id="BAC82541.1"!
/transl_table=11!
/translation="MSASGSDEVAGGGQAGSPQDFQRVLRSFGVEGGQYSYRPFVDRS!
FDVTGVPEAVERHFDQAEHDTAVEEQVTPAPQIAVAPPPPPVVPDPPAIVTETAPPPP!
VVVSAPVTYEPPAAAVPAEPPVQEAPVQAAPVPPAPVPPIAEQAPPAAPDPASVPYAN!
VAAAPVPPDPAPVTPAPQARVTGPNTRMVEPFSRPQVRTVQEGATPSRVPSRSMNAFP!
RTSASSISERPVDRGVADEWSPVPKARLSPRERPRPGDLSFFFQGMRDTRDEKKFFPV!
ASTRSVRSNVSRMTSMTKTDTNSSQASRPGSPVASPDGSPTMAEVFMTLGGRATELLS!
PRPSLREALLRRRENEEES"!
343 a
661 c
661 g
444 t!
//!
!
!
tgtcggtcat
acaccgcccc
ccagcggacg
atggcatgct
gggcgcgcac
ggcatcagcc
ttgcgcttgg
ccatttatgg
tgcccggtgc
tcatgccctc
tggaagacgg
actggctggc
gcttttccta
cgaacgtgtt
gatgggttga
ctgttgccga
ccgattatta
taaagtgagt
ggattttcag
gtttgttgac
tcaggcggag
cgcaccgcca
cccgccgcct
ggcagagcct
gcccccgatt
gaacgtcgcg
gcgcgtgacg
ggtgcaggag
cacatcagca
tcctgttccg
tttctttcag
gcgatcagtt
ctctcaggct
cgaagtgttc
gcgggaggcg
ggcggcgatg
cgatgcggtc
tgtcgtggat
ctttgccgcg
caacctgcag
cccggtgccc
tcgtgcgggc
cgatgtgctg
tgtcggcttt
gctgctgcag
gattcgcctt
ggtgaatcgc
tgatgcgatt
ggctgatttc
tctgacaaca
atgcacgggg
ttccgcagcg
gcttcagggt
cgggtcctgc
cgttcctttg
catgacacgg
ccgccgccag
gtcgtggtca
cccgttcagg
gcggagcagg
gcagcacccg
gggccgaaca
ggggcaaccc
tcgtccataa
aaggcacgcc
gggatgcgcg
cgttctaatg
tctcgtcccg
atgacgctgg
ctgttgcgtc
ggaggggcgc
gcgcagcaat
acgggcaatg
tcggcggggg
cataccaatg
gacaagaaca
aagcgtttcc
aacctgatga
accaagaagg
gcgttcgacc
gtttccgccg
gccaccggtg
cgggtgccgc
acccgattct
ggggcgcgtt
cttgattctg
ttgacgctgc
ctgatgaggt
gttcttttgg
atgtgacagg
cggttgagga
tcgttcctga
gcgctccggt
aagcccccgt
ctcctcccgc
ttccacctga
cccgtatggt
cgtcacgtgt
gtgagcgtcc
tcagcccgcg
acacccgtga
tttccaggat
gcagccccgt
gtggtcgtgc
gtcgtgaaaa
aggtgctttc
gggccatctt
gtggcgaatc
accttgcgtc
acaagctgtt
atgccacaga
agcgccccga
cgatgaaggc
acagcgtgat
ttacggccga
gccgtttcgg
cgctgtcgat
tttattttta
ggaataattt
cgccgtacaa
ccggggaact
tcgtttacat
ggctggggga
tgtcgaaggt
cgtgcccgag
gcaggtcact
cccgcccgcc
cacgtatgaa
gcaggcggcg
ggcgccggac
tcccgcaccg
ggagcccttt
accttcgcgt
ggtggacagg
ggagcgtccg
tgaaaagaag
gaccagcatg
cgcctcgcct
gacggaactc
cgaagaagaa
atccaccggt!
ccgcgccaag!
ccatagtgag!
gttccagtcg!
ttcctggcgg!
tggcgacctg!
ttacattcag!
gggaccgtat!
cctcaacctg!
cccgcgctgg!
gcagtggcgc!
cgcatcggga!
ttgggcgcat!
cggggctaat!
cgccccgcct!
cccgacactg!
cgcgcgggcg!
gggcaggctg!
gggcagtatt!
gctgttgaaa!
cccgcgccac!
atcgtgacgg!
cccccggctg!
ccggttcccc!
ccggcatccg!
gttacgcctg!
tcccgcccgc!
tcaatgaacg!
ggtgttgccg!
cgtcccggcg!
ttctttcccg!
accaagacag!
gatgggtcgc!
ctcagccccc!
tcctaaggcc!
遺伝子・立体構造の論文には登録が不可欠
論文投稿時の注意：論文の著者は、論文で言及した塩基配列や立体構造な
どのデータについて、インターネットで参照可能な公共データベースの登
録番号を掲載しなければならない
©2012 PLoS Licensed Under CC Attribution 2.5
INSDCに多くの配列が登録された生物種
Images created by the Wordle.net web application are licensed
under a Creative Commons Attribution 3.0 United States License.
トウモロコシ
マウス
ブタ
ヒト
ラット
DDBJに登録されている生物種 Top 100の
ワードクラウド（数が多いほど大きい字で
表示）
ウシ
NCBI Taxonomy (30万種)
(30万種
NCBI Taxonomy / Felis catus
生物学の!
情報爆発
http://www.1000genomes.org/
http://1001genomes.org/
「環境」シーケンス
•特定の環境からサンプリングした生物相のDNA
を、培養することなく全解析することができる
•
MetaGenomics
Metagenomics is the study of metagenomes,
genetic material recovered directly from
environmental samples. The broad ﬁeld
may also be referred to as environmental
genomics, ecogenomics or community
genomics. (by Wikipedia)
現在進行中の配列決定プロジェクト
現在進行中の
Metagenome
545
Environmental
6740
https://gold.jgi-psf.org/
NGS!
!
［次世代］Next-Generation Sequencer!
⇩!
［新型］New Generation Sequencer
代表的 NGS 機材
（左）Roche (454): GS FLX+ System
（中）illumina: Genome Analyzer IIx System
（右）Life Technologies: 5500 xl SOLiD System
従来のシーケンサーと新型シーケンサー
従来法
DNAの細分化
新型
DNAの細分化
大腸菌の中でDNAを増やす
試験管のなかで末尾にタグを付加
試験管のなかで複製していく
固体の基盤上に貼付け、DNAをス
ポットとして増幅
反応が途中
で停止する
DNA分子の大きさで分別し蛍光の
色で配列を読み取る
基盤上でDNAを複製していき、各
段階の塩基毎の蛍光を撮影する
NGSの例: illumina: GA の原理
http://www.youtube.com/watch?v=77r5p8IBwJk
フラットな固層上に適当な間隔でDNAを1分子ずつ
固定、基盤上で「ブリッジPCR」を行い、スポット
としてDNAを増幅
相補鎖合成を行いながら化学発光をとらえる
4つの塩基に別々の蛍光標識をつけておいて、結合
した塩基の場所をスポットの光として特定し、塩
基配列を解読していく
元データは時系列の高密度な画像データ
新型シーケンサはなぜ高速？→「集積度」
• 従来法は溶液やゲル中での反応と分離
• 固体担体を用いて超高密度化を可能にした
マイクロプレート
24
16 = 384穴
イルミナ社 GA フローセル
数千万スポット
さらに「ポータブル」シーケンサ
DRA!
!
DDBJ Sequence Read Archive
SRA growth (NCBI)
http://trace.ncbi.nlm.nih.gov/Traces/sra
公開分
1.68 PetaBases
遺伝研スーパー
コンピュータ
DDBJ (http://www.ddbj.nig.ac.jp/)
(http://www.ddbj.nig.ac.jp から
遺伝研スーパーコンピュータを例に
http://sc.ddbj.nig.ac.jp/
遺伝研スーパーコンピュータ（全容）
DDBJ・新スパコン概要 (2014.3 増強)
“thin”
64GB memory
x 554 nodes
7 PB
Lustre
高速HDD
5.5 PB
MAID
大容量省電力HDD
“medium”
2TB memory
x 10
“fat”
10TB memory
(SGI UV)
CC-PD from OpenClipart
電子式計算機
•
1946年 ENIAC
•
•
•
•
•
Electronic Numerical Integrator and
Calculator
「世界最初のコンピュータ」と目される
約 18,000 本の真空管からなる
10進法を採用
歯車式計算機の電子版
プログラム内蔵式ではない
http://commons.wikimedia.org/wiki/File:Eniac.jpg
プログラム内蔵電子式計算機：ノイマン型
•
•
1949年 EDSAC（世界初の実用型）
•
Electronic Delay Storage Automatic Calculator
EDSAC
1951年 EDVAC
•
（ENIAC後継）
Electronic Discrete Variable EDVAC
Automatic Computer
• 二進数を使用
• メモリは遅延記憶装置を使用
ノイマン型計算機
John von Neumann (1903 - 1957)!
!
ハンガリー出身のアメリカ合衆国の数学者。
•
プログラム内蔵型電子計算機
•
結線でなく記憶装置に収めたプログラムを
実行
記憶装置
制御装置
演算装置
累算器
Von Neumann architecture CC BY-SA 3.0
ノイマン型計算機
•
プログラム内蔵型電子計算機
•
•
•
計算機のプログラムをコードで表し、数値
データと同じ様に記憶装置に記憶させる
一方、電気機械式計算機ではプログラムは
記憶されず、一連の命令として紙テープに穿
孔されていて、制御装置は順次テープから
プログラムを読みだして実行する。
命令が記憶装置に入っているので、演算を
行って計算している途中で命令を変更する
ことができる。
UNIX Operating System のはじまり
Bell 研の Ken Thompson,
Dennis Ritchieらが Space
Travel で遊ぶために（の目的だ
けってわけでもないけど）高価で
買ってもらえなかった DEC-10 の
かわりに部屋のスミに転がってい
た借り物の PDP-7 で「えいやっ」
と作ってみた「小さくて」「軽い」
オペレーティングシステム (1968)
Life with UNIX (アスキー出版局; 1990）より引用／改変
ところがどっこい
iOS の基礎部分は Darwin で
あり、NeXTSTEP を先祖に
持つ由緒正しき Berkeley
Software Distribution (BSD)
UNIX の系譜に連なります。
要するに組み込み系の UNIX
(POSIX 準拠) で動作。
MacOS X も勿論 UNIX。
http://commons.wikimedia.org/wiki/File:IPhone_5.png
スパコンの OS だって
•
遺伝研スパコン
•
•
Red Hat Enterprise Linux 6
C、C++、Objective-C、Fortran、Java、Ada
Top 500 で
使われている
OS の推移
Operating systems used on top 500 supercomputers
遺伝研スーパーコンピュータの場合
http://sc.ddbj.nig.ac.jp/
遺伝研スーパーコンピュータ上で使える開発環境
•
「プログラミング環境について」
!
!
!
•
!
「科学技術計算ライブラリについて」
http://sc.ddbj.nig.ac.jp/index.php/system-software-config
… まあ、普通に使うぶんにはとくに用はないか
シェル
•
「シェル環境について」
•
システムへのログインシェルは、bash,
tcsh, zsh が利用可能です。
http://sc.ddbj.nig.ac.jp/index.php/system-software-config
UNIX にコマンドを出すためのプログラムである
「シェル」は複数のなかから選べます。お好きな
ものをどうぞ。
「シェルスクリプト」が書けるようになると、ぐっ
と大量の解析作業が捗るようになりますよ。
スクリプト言語
•
「一般ユーザが利用可能なスクリプト言語」
•
ログインノード、計算ノードで一般ユーザが
利用可能なスクリプト言語環境は以下の通
りです。
http://sc.ddbj.nig.ac.jp/index.php/system-software-config
さらに「スクリプト言語」が使えるようになると、
一連の解析を効率的に繋いで高度化できますよ！
解析パイプラインも提供してます
http://trace.ddbj.nig.ac.jp/dra/
解析パイプライン
NGS s + SC s in Biology
“medium”
2TB memory
x 10
“fat”
10TB memory
(SGI UV)
スパコン利用申請はこちら
•[ 遺伝研スーパーコンピュータ ] で検索
無料です！
遺伝子機能予測
アラインメントによる類似配列探索
未知の配列(問合配列)
Query
配列ライブラリ
（例）DDBJ Rel. 98 (2014.9)
174,391,281 (174万) 配列
166,692,710,729 (1667億) 塩基
類似な配列(返答配列)
Subject
既知遺伝子に配列が類似→機能も類似だろう
ヒト
ヒトとサルの共通の祖先
時間
ヒト
パラログ paralog
オーソログ ortholog
サル
機能予測の根拠の割合
※みなしご (Orphan) 遺伝子:
相同な配列の遺伝子が存在し
ない遺伝子
機能が実験的に予測されている遺伝子は酵母では 30%
に達するが、シロイヌナズナでは 10% しか存在しな
い。それ以外の遺伝子の機能注釈は、計算機の支援に
よる「予測」にすぎない。
「ゲノム２」MEDSi (2002) より
配列類似に
よる機能の
記述の危険
たとえばこんな配列があったとする
“similar to Probable
ubiquinone biosynthesis
protein ubiB”
>similar to Probable ubiquinone biosynthesis protein ubiB
MSPAPMPVTTAEQDRDVVVIDAVVEEVRPPRLPKSHLEDLGPVSDMFPESWEYHPDLIME
FYRKRPLQVLGRLINILFPLLRFILGIWWEKLRGKDPTVSRAKAIQLRELLTNLGPTYIK
VGQALSTRPDLVPPVFLDELTTLQDQLPSFPNEVAYRFIEEELGAPAEEIYAELSPEPIA
AASLGQVYKGKLKTGEAVAVKVQRPDLVRRITLDIYIMRSLSLWARRSVKRLRSDLVAIT
DELASRVFEEMNYYQEAINGEKFAQLYGSLPEIYVPSIYWQYTGRRVLTMEWVEGIKLTN
IKAIQAQGIDATHLVEVGVQCSLRQLLEHGFFHADPHPGNLLAMADGRLAYLDFGMMSTI
QPYQRYGLIEAVVHLVNRDFDSLAKDYVKLDFLKPDTDLKPIIPALGQVFGNALGASVAE
LNFKSITDQMSAMMYEFPFRVPAYYALIIRSMVTLEGIAIGIDPNFKVLSKAYPYIAKRL
LTDQSEELRTSLKELLFKEGSFRWNRLENLLRNAKNSPGFDFDYVLNEATEFLLSDRGQF
IRDRLVAELVNSIDQLGRNTWQQVSHNIQERISFLGDLGNGNGKAHQTKTIKVVPQPAIA
QQEETWQHLQNLWQILKETPGFDPLKFVPVLSQIIVNPTSRRMGQQVAEGLLQKAIARVI
RQWALALESQPNPAIKIRNAA
!
Copy & Paste である、という事実
1. cmd+C
2. cmd+V
similar to
Probable ubiquinone biosynthesis
protein ubiB
3. modify
機能 annotation 完成!
>similar to Probable
ubiquinone biosynthesis
protein ubiB
MSPAPMPVTTAEQDRDVVVIDAVVEEVRPPRLPKSHLEDLGPVSDMFPESWEYHPDLIME
FYRKRPLQVLGRLINILFPLLRFILGIWWEKLRGKDPTVSRAKAIQLRELLTNLGPTYIK
VGQALSTRPDLVPPVFLDELTTLQDQLPSFPNEVAYRFIEEELGAPAEEIYAELSPEPIA
AASLGQVYKGKLKTGEAVAVKVQRPDLVRRITLDIYIMRSLSLWARRSVKRLRSDLVAIT
DELASRVFEEMNYYQEAINGEKFAQLYGSLPEIYVPSIYWQYTGRRVLTMEWVEGIKLTN
IKAIQAQGIDATHLVEVGVQCSLRQLLEHGFFHADPHPGNLLAMADGRLAYLDFGMMSTI
QPYQRYGLIEAVVHLVNRDFDSLAKDYVKLDFLKPDTDLKPIIPALGQVFGNALGASVAE
LNFKSITDQMSAMMYEFPFRVPAYYALIIRSMVTLEGIAIGIDPNFKVLSKAYPYIAKRL
LTDQSEELRTSLKELLFKEGSFRWNRLENLLRNAKNSPGFDFDYVLNEATEFLLSDRGQF
IRDRLVAELVNSIDQLGRNTWQQVSHNIQERISFLGDLGNGNGKAHQTKTIKVVPQPAIA
QQEETWQHLQNLWQILKETPGFDPLKFVPVLSQIIVNPTSRRMGQQVAEGLLQKAIARVI
RQWALALESQPNPAIKIRNAA
!
!
Copy & Paste による
automatic な!
継承で!
ゴミが蓄積される
similar to similar to
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
JOURNAL
!
AL591981
347050 bp
DNA
linear
BCT 16-APR-2005!
Listeria monocytogenes strain EGD, complete genome, segment 9/12.!
AL591981 AL591824!
AL591981.1!
.!
Listeria monocytogenes!
Listeria monocytogenes!
Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria.!
2 (bases 1 to 347050)!
Glaser,P., Frangeul,L. and Rusniok,C.!
Submitted (06-JUN-2001) to the EMBL/GenBank/DDBJ databases. Glaser !
P., Institut Pasteur, Genomique des Microorganismes Pathogenes, 25 !
rue du Docteur Roux, 75724 Paris Cedex 15, FRANCE. !
...!
CDS
complement(12915..14294)!
/transl_table=11!
/gene="lmo1703"!
/note="similar
to similar to RNA
methyltransferases"!
/db_xref="GOA:Q8Y6I1"!
/db_xref="InterPro:IPR001566"!
/db_xref="InterPro:IPR002792"!
/db_xref="InterPro:IPR010280"!
/db_xref="UniProtKB/Swiss-Prot:Q8Y6I1"!
/protein_id="CAC99781.1"!
/translation="MNQNPVEEGQKFPLTIRRMGINGEGIGYFKKAVVFVPGAITGEEV!
VVEAVKVRDRFTEAKLNKIRKKSPNRVTAPCPVYEACGGCQLQHVAYSAQLELKRDIVI!
QSIEKHTKIDPTKLKIRPTIGMEDPWRYRNKSQFQTRMVGSGQVETGLFGANSHQLVPI!
EDCIVQQPVTIKVTNFVRDLLEKYGVPIYDEKAGSGIVRTIVVRTGVKTGETQLVFITN!
SKKLPKKREMLAEIEAALPEVTSIMQNVNQAKSSLIFGDETFLLAGKESIEEKLMELEF!
DLSARAFFQLNPFQTERLYQEVEKALVLTGSETLVDAYCGVGTIGQAFAGKVKEVRGMD!
IIPESIEDAKRNAEKNGIENVYYEVGKAEDVLPKWVKEGFRPDAVIVDPPRSGCDQGLI!
KSLLDVEAKQLVYVSCNPSTLARDLALLAKKYRIRYMQPVDMFPQTAHVETVVLLQLKD!
Copy & paste error!
>gi|91204169|emb|CAJ71822.1| strongly imilar to aspartate
aminotransferase [Candidatus Kuenenia stuttgartiensis]!
MIASRMSNIDSSGIRKVFDLAQKMKSPVNLSIGQPDFDVPGEIKEVAIKSINEGANKYTLTQGIPELRNV!
...!
>gi|31541577|gb|AAP56877.1| predicted methyl transferas
[Mycoplasma gallisepticum R]!
MSALYLVGLPIGNLSEINHRALEILNQLEIIYCENTDNFKKLLNLLNINFRDKKLISYHKFNETNRFIMI!
...
similar to
to!
transferase
SEPT2
LOCUS
XM_392412
2-Sep case in Refseq
2125 bp
mRNA
linear
INV 12-APR-2011
12-APR-2011!
PREDICTED: Apis mellifera septin-2 (2-Sep), mRNA.!
XM_392412!
XM_392412.4 GI:328785636!
.!
Apis mellifera (honey bee)!
Apis mellifera!
Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;!
Neoptera; Endopterygota; Hymenoptera; Apocrita; Aculeata; Apoidea;!
Apidae; Apis.!
COMMENT
MODEL REFSEQ: This record is predicted by automated computational!
analysis. This record is derived from a genomic sequence!
(NW_003378075) annotated using gene prediction method: GNOMON,!
supported by EST evidence.!
Also see:!
Documentation of NCBI's Annotation Process!
!
On Apr 12, 2011 this sequence version replaced gi:110757583.!
FEATURES
Location/Qualifiers!
source
1..2125!
/organism="Apis mellifera"!
/mol_type="mRNA"!
/strain="DH4"!
/db_xref="taxon:7460"!
/linkage_group="LG6"!
gene
1..2125!
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
misc_feature
CDS
「セプチン２」
遺伝子が
「９月２日」に
/gene="2-Sep"!
/note="Derived by automated computational analysis using!
gene prediction method: GNOMON. Supporting evidence!
includes similarity to: 436 ESTs, 11 Proteins"!
/db_xref="BEEBASE:GB17411"!
/db_xref="GeneID:408882"!
164..166!
/gene="2-Sep"!
/note="upstream in-frame stop codon"!
194..1444!
/gene="2-Sep"!
/codon_start=1!
/product="septin-2"!
/protein_id="XP_392412.2"
http://www.biomedcentral.com/1471-2105/5/80
http://www.ncbi.nlm.nih.gov/nuccore/XM_392412
contains similarity ?
DNA binding protein
DNA binding domain
unknown protein
“similar” region
automated annotation:
contains similarity to
DNA-binding protein
↑without the domain!
どうすれば良いのか?
• 配列類似検索の対象は、信頼で
きるライブラリから順に使う
• 配列類似検索以外の機能予測方
法を用いる
• 注釈の「根拠 (evidence)」が明
示できる方法で注釈する
どうすれば良いのか?
• 配列類似検索の対象は、信頼で
きるライブラリから順に使う
• 配列類似検索以外の機能予測方
法を用いる
• 注釈の「根拠 (evidence)」が明
示できる方法で注釈する
類似配列の検索対象ライブラリを選ぶ
最大のデータセットが常に最適な結果をもたらす訳ではない
nr-aa!
(53,846,081 entries)!
UniProt/SwissProt!
GenBankに登録者がつけ
(547,085 entries)!
た注釈そのまま。品質は
ピンキリ
「アノテータ」が review
高品質だがエントリが少い
UniProt/TrEMBL!
(88,589,455 entries)!
SwissProt ライクな自動処理!
review はされていない
どうすれば良いのか?
• 配列類似検索の対象は、信頼で
きるライブラリから順に使う
• 配列類似検索以外の機能予測方
法を用いる
• 注釈の「根拠 (evidence)」が明
示できる方法で注釈する
モチーフ・プロファイル検索
•「モチーフ」とはタンパク質中で局所的に
良く保存されたアミノ酸配列
•タンパク質はそれぞれ特有のモチーフのセッ
トをもった「ドメイン」から成る、こうし
た「配列」と「機能」が結びついたパター
ンを探索することで、機能予測と機能分類
が可能になる
モチーフデータベース
• PROSITE
• http://www.expasy.ch/prosite/
• BLOCKS
• http://www.blocks.fhcrc.org/
• PRINTS
• http://bioinf.man.ac.uk/dbbrowser/PRINTS/
PRINTS.html
ドメインデータベース
•ProDom
•http://prodes.toulouse.inra.fr/prodom/doc/
prodom.html
•Pfam
•http://www.sanger.ac.uk/Software/Pfam/
•SMART
•http://smart.embl-heidelberg.de/
•TIGRFAMs
•http://www.tigr.org/TIGRFAMs/
InterPro でまとめがけ
• 機能と構造単位の諸検索法の統合
•モチーフ・ドメイン・プロファイル
等の名称で呼ばれる機能や構造と結
びついたアミノ酸配列の保存された
領域をまとめたデータベース
• Pfam, PRINTS, PROSITE... 等を総合
し、独自注釈も追加
http://www.ebi.ac.uk/interpro
どうすれば良いのか?
• 配列類似検索の対象は、信頼で
きるライブラリから順に使う
• 配列類似検索以外の機能予測方
法を用いる
• 注釈の「根拠 (evidence)」が明
示できる方法で注釈する
Evidence codes in
GO Annotation
IEA!
Inferred from Electronic
Annotation (automated)
ISS!
Inferred from Sequence or
Structural similarity
IMP!
Inferred from Mutant
Phenotype
IDA!
Inferred from Direct Assay
TAS!
Traceable Author Statement
現在進行中の配列決定プロジェクト
現在進行中の
Complete
Projects
6649
https://gold.jgi-psf.org/
正確な!
解析情報を!
付与して
研究に!
使い倒して!
役立てよう
DDBJ (http://www.ddbj.nig.ac.jp/)
(http://www.ddbj.nig.ac.jp
データベースも
がんばります