Como comparar genes de diferentes especies no ncbi

O GenBank é um banco de dados de Nucleotídeos do NLM/NCBI, localizado no National Institutes of Health (NIH), armazenando informação sobre sequências nucleodídicas de aproximadamente 260.000 espécies (Benson et al, 2013; PMID: 23193287). O GenBank faz parte de uma rede de colaboração juntamente com o European Molecular Biology Laboratory (EMBL) e o DNA DataBank of Japan (DDBJ). Juntos esses três bancos formam a International Nucleotide Sequence Database Collaboration (INSDC), armazenando e trocando informações para reunir as sequências nucleotídicas depositadas nesses bancos e garantir que essas sequências sejam acessadas em todo o mundo. O três bancos de dados de nucleotídeos estão diariamente trocando informações, portanto sequências encontradas em um banco também serão encontradas nos outros bancos.

O crescimento do GenBank

O Genbank começou a acumular sequências e suas versão 3 em 1982 apresentava 606 sequências nucleotídicas e 680.338 bases. O número de sequências acumuladas cresceu muito rápido e atualmente 171 milhões de sequências depositadas. Em 2002, juntamento com o Genbank, começou o acumulo de sequências geradas nos Whole Genome Shotgun (WGS). Esse crescimento foi muito rápido também e podemos observar que o crescimento em bases e número de sequências foi muito maior que o crescimento do GenBank. Alualmente o WGS tem mais bases e quase o mesmo número de sequências que o GenBank. Essas duas divisões, GanBank e WGS, apesar de manterem informações do mesmo tipo (sequências nucleotídicas) elas são mantidas separadas.

As sequências encontradas no GenBank são submetidas por laboratórios individuais que enviam poucas sequências ou um conjunto grande de sequências derivadas de projetos genoma e projetos metagenomas.

Como comparar genes de diferentes especies no ncbi

 Figura 1. Crescimento do GenBank. Painel esquerdo crescimento do GenBank em número de bases, painel direito crescimento do GanBank em número de sequências. https://www.ncbi.nlm.nih.gov/genbank/statistics

Tabela 1. Top Organisms in GenBank (Release 191). Benson et al, 2013.

Como comparar genes de diferentes especies no ncbi

O acesso e uso das informações do GenBank

O GenBank pode ser acessado por toda a comunidade científica em qualquer restrição. Não é exigido nehum tipo de registro ou login para ter acesso aos dados depositados no GenBank. Além de acessar os usuarios estão autorizados a baixar e distribuir as versões do Genbank que são produzidas a cada dois meses. O GenBank não limita acesso para uso, cópia, distribuição de informações que foram depositadas por pessoas ou grupos alegando patente, copyright, ou outra propriedade intelectual.

Pesquisando no GenBank 

As buscas no GenBank podem ser feitas usando números de acesso únicos para cada entrada. Isso irá nos direcionar diretamente para o registro que queremos pesquisar. Esses números de acesso podem ser obtidos quando lemos um artigo e é feita uma referência a sequências depositadas no GenBank. As pesquisas também podem ser feitas usando nomes de genes e proteínas.

Formato GenBank

O formato GenBank é muito detalhado armazenando muito mais informações além da sequência nucleotídica. O GenBank fornece informaçoes sobre anotaçoes biológicas e bibliograficas como referência da sequências depositada. Exemplo de formato GenBank.

Entrada GenBank – Gene Procarioto

 O tamanho reduzido dos genes e a relação linear que existe entre sequência do gene (DNA), mRNA, ORFs e a sequência da proteína faz com que seja muito mais fácil para anotar, armazenar e enternder as entradas do GenBank para organismos procariotos.

Vamos usar o exemplo da dUTPase de Escherichia coli como exemplo (X01714)

Na página do Genbank faça a busca usando o identificador X01714.

A descrição da entrada no formato GenBank irá aparecer.

Nesse formato você encontra a informação quase na forma de texto puro, com apenas alguns links para outros bancos (destacados em azul).

Podemos acessar o formato Genbank dessa entrada na forma de texto puro baixando a informação em arquivo. Os arquivos .gb podem ser abertos com editores de texto puro como bloco de notas.

Figura 2. Salvando a entrada do GenBank em arquivo texto puro.

Informações armazenadas em um arquivo GenBank

LOCUS: “Nome do locus (nome arbitrario)” “Comprimento em pares de bases (bp)”

“Natureza da molecula” “Topologia da molecula: linear ou circular”

LOCUS X01714 1609 bp DNA linear BCT 23-OCT-2008

DEFINITION: uma definiçao curta sobre o gene que corresponde a sequência da entrada

DEFINITION E. coli dut gene for dUTPase (EC 3.6.1.23) (deoxyuridine

5′-triphosphate nucleotidohydrolase).

ACCESSION: número de acesso para essa entrada e a ligação com outros bancos de dados

ACCESSION X01714

VERSION: fornece a versão que a sequência está e outros id sinônimos como o gi, ou ids do passado

VERSION X01714.1 GI:41296

KEYWORDS: uma lista de termos que caracterizam amplamente a entrada. Esses termos podem ser usados para fazer buscas em outros bancos de dados.

KEYWORDS dUTPase; unidentified reading frame.

SOURCE: Nome comum do organismo fonte que essa sequência pertence

SOURCE Escherichia coli

ORGANISM: Nome científico e classificação das espécies que essa sequencia pertence.

ORGANISM Escherichia coli

Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Escherichia.

REFERENCE: parte que da crétidos aos autores da sequência, diferentes partes podem ter diferentes aoutores. A REFERENCE contém diferentes partes fornecendo mais detalhes sobre os creditos (AUTHORS, TITLE, JOURNAL, PUBMED).

REFERENCE 1 (bases 1 to 1609)

AUTHORS Lundberg,L.G., Thoresson,H.O., Karlstrom,O.H. and Nyman,P.O.

TITLE Nucleotide sequence of the structural gene for dUTPase of Escherichia coli K-12

JOURNAL EMBO J. 2 (6), 967-971 (1983)

PUBMED 6139280

COMMENT: texto formato livre. Aqui podem ser adicionado informações que não se ajustam em outros campos superiore. Agradecimentos.

COMMENT Data kindly reviewed (25-NOV-1985) by L. Lundberg.

Vamos Agora descrever a segunda parte do formato GenBank – FEATURES

source: indica a origem de regiões específicas da sequência. Utilizado para distinguir entre sequências do vetor e do hospedeiro. No caso de X01714, a sequência toda vem de E. coli

source 1..1609

/organism=”Escherichia coli”

/mol_type=”genomic DNA”

/db_xref=”taxon:562″

promoter: indica a posição do promotor, indicando nesse caso, especificamente o promotor -35 (286..291) e – 10 (310..316)

promoter 286..291

/note=”-35 region”

promoter 310..316

/note=”-10 region”

misc_feature: miscellaneous feature,indica diferentes características que o autor considera importante. Neste caso posição provável (indicado por um intervalo) de início da transcrição.

misc_feature 322..324

/note=”put. transcription start region”

RBS: último elemento upstream. Ribosome binding site, local de ligação do ribosomo. Neste exemplo 330..333

RBS 330..333

/note=”put. rRNA binding site”

CDS: CoDing Segment, define a open reading frame do gene (ORF) ([codon inicial]..[stop codon])

CDS 343..798

/translation: é a tradução da região CDS traduzida usando o código genético definido pelo pesquisador que está depositando a sequência.

misc_feature: Outra miscellaneous feature,indica diferentes características que o autor considera importante. Neste caso repetições e hairpin loop (stem-loop structure) Elementos regulatórios do gene dUTPase.

misc_feature 831..851

/note=”put.stem-loop structure”

Essa entrada do GenBank é muito bem anotada e apresenta informaçoes sobre o gene que codifica a dUTPase. Além disso, essa entrada do GenBank mostra uma outra característica, regiões que codificam mais de uma proteína. Essa entrada apresenta a possibilidade de uma outra ORF estar sendo codificada nessa mesma região mas em um RBS diferente do primeiro, criando um segundo CDS. Essas informações estão contidas abaixo da primeira CDS.

A região de nucleitideos dessa entrada começa após a palavra ORIGIN e termina com a marca //. Cada linha contém 60 nucleotideos e os numeros no início de cada linha indica o a posição da primeira base daquela linha.

Figura 3.

O formato genBank é muito informativo, mas ele não é aceito na maioria dos programas para análise de sequências. Portanto precisamos converter esse formato em formato FASTA. Logo no início da página mostrando as informações dessa entrada observamos um link para o formato FASTA. Basta clicar e o formato fasta será exibido.

 

Como comparar genes de diferentes especies no ncbi

Figura 4.

Podemos ainda salvar essa sequência no formato FASTA no nosso computador. Basta usar o link Send –> Complete Record –> File –> Format (FASTA) –> Create a File (Figura 5).

 

Como comparar genes de diferentes especies no ncbi

Figura 5.

Agora vamos Passar para um mRNA de Eucarioto e ver como as informações do GenBank podem ser complexas.

Vamos pesquisar no NCBI/nucleotide a entrada U90223. Essa é uma dUTPase humana.

Da mesma forma que fizemos com a entrada do GenBank para o gene bacteriano podemos salvar as informações do GenBank para genes eucariotos.

A parte inicial da entrada contém as mesmas informações do gene dUTPase bacteriano (LOCUS, DEFINITION, ACCESSION, VERSION, SOURCE, ORGANISM, …)

KEYWORDS: Neste exemplo da dUTPase humana está vazio. Isso foi um erro durante o processo de submissão pelo pesquisador. Esse é um problema comum das entradas do GneBank, campos com informação ausente. Isso dificulta a busca dessa sequências usando palavras chave que estão relacionadas com dUTPase. O programa de busca não irão retornar essa sequência se usarmos varintes do termo dUTPase já que esses termos não constam em keywords. Outras informações que algumas vezes vem faltando ou estarem incompletas são SOURCE e REFERENCE.

Não espere que as informações no GenBank estejam atualizadas, podemos fazer buscas e algumas entradas ficarem de fora por falta ou informações incompletas.

Figura 6.

Vamos fazer uma nova busca de um gene humano AF018430. Esse é o gene da dUTPase humana.

Característica de genes eucariotos: genes divididos em partes (exons e introns).

Figura 7.

Figura 8.

LOCUS: nome é HSDUT2, comprimento 1177 bp, tipo DNA, topologia linear

DEFINITION: a definição desse gene traz a informação que a sequência corresponde ao exon 3. Genes humanos são divididos em partes (exons e introns).

ACCESSION: número de acesso para essa entrada e a ligação com outros bancos de dados

VERSION: FORNECE A VERSÃO QUE A SEQU6êNCIA ESTÁ E OUTROS ID SINÔNIMOS COMO O GI, OU IDS DO PASSADO

KEYWORDS: uma lista de termos que caracterizam amplamente a entrada. Esses termos podem ser usados para fazer buscas em outros bancos de dados. Nesse exemplo está em branco, tornando a busca por termos específicos em keywords impossivel.

SEGMENTS: indica que essa entrada é parte de uma outra entrada maior que é dividida em quatro partes. A entrada AF018430 corresponde a segunda (2) de quatro partes.

SEGMENTS: 2 of 4. Para construir o mRNA desse gene nós precisamos de todas as 4 partes.

SOURCE: Nome comum do organismo fonte que essa sequência pertence

ORGANISM: Nome científico e classificação das espécies que essa sequência pertence.

REFERENCE: parte que da créditos aos autores da sequência, diferentes partes podem ter diferentes aoutores. A REFERENCE contém diferentes partes fornecendo mais detalhes sobre os créditos (AUTHORS, TITLE, JOURNAL, PUBMED).

FEATURES: Nas entradas para genes eucariotos é mais longa que nos genes procariotos. Apresentam mais elementos e variações.

Source:

1..1177

/organism=”Homo sapiens”

/mol_type=”genomic DNA”

/db_xref=”taxon:9606″

/map: mapeamento do segmento, neste caso no cromossomo 15. /map=”15q15-q21.1″

gene order(AF018429.1:<1..1735,1..1177,AF018431.1:1..45,

AF018432.1:658..732,AF018432.1:884..954,

AF018432.1:1391..>1447)

Order: determina a ordem que os exons devem ser montados e quais bases de cada segmento fazem parte dessa montagem. Para fazer a montagem o mRNA devemos fazer a seguinte contrução.

1. AF018429.1: 1..1735 +

2. AF018430.1: 1..1177 +

3. AF018431.1: 1..45 +

4. AF018432.1: 658..732 +

5. AF018432.1: 884..954 +

6. AF018432.1: 1391..1447 +

/gene=”DUT”

 Tabela 2. mRNA alternativos do gene dUTPase. Tipo 1 versão direcionada para a mitocôndria. Tipo 2 versão direcionada para o núcleo.

mRNA

AF018429

AF018430

AF018431

AF018432

Tipo 1 (mit)

282 – 561

1034 – 1172

560 – 651

1 – 45

658 – 732

884 – 954

1391 – 1447

Tipo 2 (nuc)

<1018 – 1172

560 – 651

1 – 45

658 – 732

884 – 954

1391 – 1447