quinta-feira, 29 de maio de 2014

Python - Lendo arquivos FASTA

Olá pessoal, nesse post nós vamos aprender a ler um arquivo FASTA utilizando a linguagem Python.

O formato FASTA é utilizado para representar sequências de nucleotídeos. Esse formato se tornou um padrão na área de bioinformática.

O cabeçalho desse formato começa com ">". O cabeçalho é desprezível no nosso caso que queremos somente consumir a sequência para podermos fazer algum processamento em cima dela. Portanto a lógica se resume a você "pular" as linhas que começam com ">".

Veja um arquivo no formato FASTA:


Parece fácil não é mesmo? E é fácil mesmo, principalmente se você utilizar a linguagem Python que vem sendo bastante utilizada na área da bioinformática.

O código a seguir contém uma função chamada "ler_fasta" que recebe como parâmetro um arquivo e processa esse arquivo colocando cada sequência referente a um cabeçalho numa lista e ao final retorna essa lista com todas as sequências.


Não tem segredo, a função é bem simples. Perceba que na linha 9 eu verifico se a linha NÃO começa com ">", pois eu irei ignorar os cabeçalhos.

Na linha 16 eu guardo o retorno da função "ler_fasta" na variável "lista" e logo depois eu percorro essa lista mostrando todos os elementos (sequências).

Quaisquer dúvidas deixem nos comentários, até a próxima!


Nenhum comentário: