Como comparar sequencias no ncbi

Olá pessoal! Hoje iniciaremos uma nova série sobre BLAST! Essa ferramenta é essencial para o desenvolvimento de pesquisas nas áreas da biotecnologia e biomedicina, então abordaremos sobre de que se trata o BLAST, como funciona e o que podemos fazer através dessa ferramenta! Lembrando que o BLAST pode ser usado por meio do webserver e através da linha de comando, então fiquem ligados nos próximos posts!!!

O que é BLAST?

O programa BLAST, ferramenta básica de pesquisa de alinhamento local (Basic Local Alignment Search Tool), foi desenvolvido para a realização de buscas, através da comparação de sequências biológicas primárias, como as sequências de aminoácidos de proteínas ou os nucleotídeos das sequências de DNA e/ou RNA contra um banco de dados que contém uma grande quantidade de informações. Nessa busca, são retornadas as sequências com maior grau de similaridade e de maior significância estatística em relação a sequência submetida.

Por que essa ferramenta é utilizada na bioinformática?

É uma ferramenta rápida que possui diferentes variações, atendendo diversas possibilidades de busca.

Essas possibilidades relacionam-se a cada tipo de BLAST que é disponibilizado pela ferramenta: BLASTn, BLASTp, BLASTx, tBLASTn e tBLASTx, sendo estas variações selecionadas de acordo com o tipo de sequência de entrada utilizada e, também, de acordo com o banco de dados que se deseja buscar.

Como comparar sequencias no ncbi
Diferentes possibilidades de busca de sequências biológicas oferecidas pela ferramenta BLAST. Fonte: NCBI BLAST.

> BLASTn: pesquisa uma sequência de interesse de nucleotídeo em uma base de dados de nucleotídeos, o que é útil na procura de sequências mais distantes e identificar sequências desconhecidas obtidas de sequenciamentos e PCR. O BLASTn permite comparar sequências de interesse com aquelas já depositadas e relacioná-las de forma evolutiva (ou seja, se tem homologia com asequência de interesse, identificar novos genes e mapear características da sequência-alvo.

> BLASTp: realiza a comparação da sequência proteína-proteína e seu algoritmo é a base de muitos outros tipos de pesquisas BLAST , como BLASTx e tBLASTn. Neste tipo de busca é necessário ter uma sequência de aminoácidos (que consitituem as proteínas) para comparar com aquelas já identificadas anteriormente nos bancos de dados. A sequência de interesse pode se originar de um sequenciamento de proteínas ou de buscas nos próprios bancos de dados (NCBI Protein) e permite verificar a homologia entre sequências, conservação de aminoácidos e diferenças pontuais que podem interferir na atividade final das proteínas. O BLAST ainda permite verificar padrões estruturais nas proteínas (domínios) e alinhar de forma global todos os resultados gerados.

> BLASTx: pesquisa nucleotídeos em um banco de dados de proteínas, traduzindo a consulta em tempo real. É mais sensível que o BLASTn, pois a comparação é realizada a nível proteico. Este recurso é muito interessante quando se tem apenas dados genômicos, mas não se conhece os produtos codificados pelos genes, o que é especialmente importante para a anotação estrutural e funcional de novos genes. Neste método, se traduz a sequência de consulta nos seis quadros de leitura e são fornecidas estatísticas de significância, o que é particularmente útil quando o quadro de leitura da sequência de interesse é desconhecido ou contém erros de codificação. Assim, o BLASTx é frequentemente a primeira análise realizada em uma sequência de nucleotídeos recém-determinada ou provinda de plataformas de sequenciamento.

> tBLASTn: pesquisa proteínas em um banco de dados de nucleotídeos, traduzindo o banco de dados em tempo real. Essa opção permite inferir quais genes ou porções do genoma estão relacionadas com uma determinada proteína, quando não se tem a sequência de nucleotídeos disponível. Pode ser especialmente útil em casos de bioprospecção de moléculas provindas de microrganismos do próprio ambiente.

> tBLASTx: a sequência de nucleotídeos será convertida em 6 sequências de aminoácidos (uma para cada fase de leitura), as quais serão comparadas com as 6 possíveis fases de leitura em um banco de dados de nucleotídeos. É a variação mais lenta do BLAST e procura contornar a potencial mudança de quadro e ambiguidades na sequência, o que pode impedir a detecção de quadros de leitura abertos. Isso é muito útil na identificação de proteínas provindas de diversos rounds de sequenciamento e novos genes.

Onde encontrar a ferramenta BLAST?

Os programas BLAST hospedam-se no National Center for Biotechnology Information (NCBI) e possuem ligação com o banco de dados deste centro. As buscas utilizando são realizadas através de um conjunto de algoritmos desenvolvidos para a busca de sequências similares em um banco de dados, através do alinhamento local.

Como o BLAST funciona?

A seguir, trazemos uma visão geral e uma visão detalhada de como funciona o algoritmo de busca!

O algoritmo do BLAST encontra sequências semelhantes, localizando correspondências curtas entre as duas sequências (seeding). Após encontrar essas sequencias, o BLAST começa a fazer alinhamentos locais utilizando conjuntos de 3 letras (para aminoácidos; nucleotídeos, este número é 11), chamados palavras. Como exemplo, a sequência GLKFA seria pesquisada de três em três: GLK, LKF, KFA. O algoritmo heurístico do BLAST localiza todas as palavras de três letras comuns entre a sequência de interesse à sua correspondente no banco de dados. Um par de segmentos é definido como um par de subsequências do mesmo comprimento que formam um alinhamento sem gaps (lacunas). O BLAST calcula todos os pares de segmentos entre a consulta e as sequências do banco de dados, acima de um limite de pontuação. O algoritmo procura por ocorrências de comprimento fixo, que são então estendidas até que um limiar pré-determinado (T) seja alcançado, quando comparadas usando uma matriz de pontuação. O alinhamento é estendido em ambas as direções pelo algoritmo e o valor T vai determinar se uma palavra será incluída ou não no alinhamento. Se esta pontuação for superior ao valor T pré-determinado, o alinhamento será incluído nos resultados fornecidos pelo BLAST. Caso contrário, o alinhamento deixará de se estender, evitando que as áreas de alinhamento incorreto sejam incluídas nos resultados do BLAST. Os pares de segmentos de alta pontuação (High-scoring Segment Pair, HSPs) resultantes formam a base dos alinhamentos que caracterizam a saída do BLAST. O algoritmo procura por alinhamentos de sequência de alta pontuação nos bancos de dados usando uma abordagem heurística (menos precisa, porém 50x mais rápida) semelhante ao algoritmo Smith-Waterman.

Como comparar sequencias no ncbi
Visão geral dos principais passos realizados pelo algoritmo. Direitos de imagem reservados ao OmixData.

Passo-a-passo detalhado de uma pesquisa no BLAST:

Remoção de regiões de baixa complexidade ou repetições de sequência na sequência de consulta
“Região de baixa complexidade” é uma sequência composta de poucos tipos de elementos, como por exemplo repetições de CA. Essas regiões podem fornecer pontuações altas que confundem o programa para localizar as sequências significativas reais no banco de dados, pois são frequentes em muitas sequências. Assim, elas devem ser filtradas.

Quebra das longas sequências em palavras
É definido um valor K que se refere ao espaço de pesquisa. Se K = 3, as palavras serão lidas de três em três, como ocorre para aminoácidos. Para uma sequência de DNA, K = 11.

Listagem das possíveis palavras correspondentes
As pontuações são criadas comparando a palavra na lista com todas as palavras de 3 letras do banco de dados utilizando uma matriz de substituição. As matrizes mais utilizadas para proteínas são BLOSUM62 e para nucleotídeos uma matriz de identidade. Por exemplo, ao comparar a sequência PQG com PEG e PQA (provindos do alinhamento), a pontuação proveniente da matriz BLOSUM62 é de 15 e 12, respectivamente. Para palavras de DNA, uma correspondência é pontuada como +1 e uma incompatibilidade como -3. Depois disso, o valor do limiar T é usado para reduzir o número de palavras correspondentes possíveis, sendo que as palavras cujas pontuações são maiores que T permanecem na lista e aquelas com pontuações mais baixas são descartadas.

Como comparar sequencias no ncbi
Matriz de substituição BLOSUM62.

Busca por correspondências exatas de alta pontuação nos bancos de dados
O algoritmo varre as sequências do banco de dados em busca das palavras de alta pontuação restante (exemplo: PEG). Se uma correspondência exata for encontrada, essa correspondência é usada para semear um possível alinhamento sem gaps entre a consulta e as sequências do banco de dados.

Extensão das correspondências exatas para HSPs
Um par de segmentos de alta pontuação é um alinhamento local sem gaps que atinge uma das pontuações de alinhamento mais altas em uma determinada pesquisa. O BLAST estende o alinhamento em ambas direções a partir da posição onde ocorreu a correspondência exata. Originalmente, essa extensão não parava até a pontuação total acumulada diminuir, porém a atual versão do BLAST (BLAST2 ou BLAST gapped — “com lacunas”) adota um limite inferior de pontuação para as palavras vizinhas. Isso mantém o mesmo nível de sensibilidade para detectar similaridade de sequência e é mais rápido, tornando a lista de palavras correspondentes possíveis na etapa 3 mais longa. Em seguida, as regiões correspondentes exatas serão unidas como uma nova região mais longa. As novas regiões são estendidas pelo método original e os HSPs são criados através da matriz de substituição anterior.

Listagem de todos os HSPs no banco de dados cuja pontuação seja alta o suficiente para ser considerada
Ao comparar as pontuações de alinhamento com sequências aleatórias, uma pontuação bruta (Raw Score, S) é determinada de modo a garantir a significância das HSPs através de um valor alto o suficiente. A pontuação de um alinhamento S, é calculada como a soma das pontuações de substituição e gaps. As pontuações de substituição são fornecidas pelas matrizes de substituição BLOSUM62. Pontuações de gaps são normalmente calculadas como a soma de G, a penalidade de abertura de gap e L, a penalidade de extensão de gap. Dependendo do comprimento n, o custo do gap seria G + Ln. A escolha dos custos de gap, G e L, é empírica, mas costuma-se escolher um valor alto para G (10–15) e um valor baixo para L (1–2). A pontuação por bits (Bits Score, S) é derivada do resultado bruto (S) para incorporar as propriedades estatísticas do sistema de pontuação e comparar os scores de alinhamentos de diferentes buscas.

Avaliação da significância da pontuação HSP
O BLAST avalia em seguida a significância estatística de cada pontuação HSP através do E-value (Expected value, valor esperado) reportado na página de resultados e obtido através de uma equação matemática que leva em conta os parâmetros comentados. O E-value comprova que a sequência tem pouca chance de ocorrer ao acaso e não é fruto de uma má interpretação do algoritmo. Considera-se que quanto menor o E-value, maior a chance de a sequência ser uma correspondente biológica significativa real.

União de duas ou mais regiões HSP em um alinhamento mais longo
Quando duas ou mais regiões HSP em uma sequência podem ser inseridas em um alinhamento mais longo, existem dois métodos que comparar a significância das regiões HSP recentemente combinadas: o método de Poisson (usado no BLAST original) e o método de soma das pontuações (implementado no BLAST2). O método de Poisson dá mais importância ao conjunto com a pontuação inferior máxima, enquanto o método da soma das pontuações leva em conta o valor total do alinhamento.

Exemplo:

Alinhamento 1: scores de duas HSPs = 62, 40.

Alinhamento 2: scores = 52, 45.

O algoritmo original identifica que o segundo caso é o mais adequado de ser escolhido para ser utilizado no alinhamento, enquanto que o BLAST2 determina que o primeiro caso é o mais adequado (em que as somas totais resultam em 105 e 97).

Resultado dos alinhamentos locais com gaps
O BLAST2 produz um único alinhamento com gaps que podem incluir todas as regiões HSP encontradas inicialmente levando em conta o cálculo da pontuação (S’) e E-value com o uso das penalidades de gap adequadas.

E aí, entendeu um pouco melhor como essa ferramenta pode nos ajudar nas pesquisas? Nos próximos posts abordaremos de forma prática os parâmetros usados pelo BLAST e como se relacionam com os resultados! Até a próxima!

Este post utilizou como fontes de informação:

NCBI BLAST Guides

BLAST: an introductory tool for students to Bioinformatics applications

BLAST (Biotechnology)