Zona 2670701 a 2911300, do genoma de uma estirpe da bactéria "Legionella pneumophila"

Somos um grupo de alunos do Mestrado Integrado em Engenharia Biomédica da Universidade do Minho, ao qual foi proposto fazer um trabalho sobre uma estirpe da bactéria "Legionella", no âmbito da disciplina de Bioinformática.

 

  • Catalina Almeida a68369
  • Helena Raquel a68371
  • Marta Serapicos a68397

 

 

Análise da sequência e das features presentes no NCBI

 

Script Procurar e Guardar

    Inicialmente, desenvolveu-se um script que teve como objectivo aceder ao NCBI, retirar as informações relevantes (tendo em conta a zona genómica de interesse - 2670701  a  291130) e colocar essas informações num  ficheiro "genbank".

    O script criado em python designa-se por "procuraeencontra.py" e o ficheiro criado por este designa-se por "sequence.gb". Ambos se encontram disponíveis para consulta nos links abaixo.

 

Script "procuraeencontra.py"

www.dropbox.com/s/1ic084uw6a8inrh/procuraeencontra.py?dl=0

Ficheiro "sequence.gb"

www.dropbox.com/s/xwuimonqgda9qpo/sequence.gb?dl=0

 

 

Script Analisar e Validar

    De seguida realizou-se o script  que tem como objectivo analisar e validar as features obtidas através do ficheiro criado anteriormente. O programa começa por "contar" e agrupar as features de acordo com o seu tipo, de seguida guarda as features de cada tipo através da localização de cada tipo, podendo assim obter-se o resultado na consola.
Quanto à validação das features, optou-se por comparar a identificação genética e proteica de cada feature (de tipo CDS) com os dados recolhidos via NCBI.


    O código desenvolvido para a criação do script "ANALISEfeatures.py", bem como o ficheiro onde consta a tabela teórica retirada do NCBI (ProteinTable.txt), estão disponíveis para consulta nos links abaixo.

 

Tabela "ProteinTable.txt"

Tabela retirada do link www.ncbi.nlm.nih.gov/genome/proteins/416?genome_assembly_id=166758 e posteriormente editada conforme a zona do genoma requerida 2670701  a  291130

ProteinTable.txt (22838)

 Script "ANALISEfeatures.py"

www.dropbox.com/s/pj9s5keixmzdbxg/ANALISEfeatures.py?dl=0
 

Print da consola aquando a execução do script "ANALISEfeatures.py"

 

Script Features Complementares

    O desenvolvimento deste script teve como objetivo aceder à lista  de features já analisadas e, com base nos seus qualifiers, retirar informações relevantes para a análise proteica. O script constrói e faz o print na consola de uma lista composta por tuplos constituídos pelo locus tag e função do gene (caso esta exista) e de outra lista com tuplos formados pelo locus tag e respetiva tradução do gene. Quando se corre o script, pode-se aceder às informações visíveis na consola (foram copiadas para um ficheiro o ficheiro "COMPLEMENTARfeatures.txt").

 

Ficheiro obtido "COMPLEMENTARfeatures.txt"

COMPLEMENTARfeatures.txt (73,9 kB)

 

    Através das funções retiradas através dos qualifiers das features elaborou-se um mapeamento inicial e mais genérico dos genes de interesse. Os genes foram catalogados por cores, sendo que a cada cor corresponde um conjunto de funções específico. Note-se que não foram encontradas informações relativas a 119 dos 216 genes em estudo. O mapeamento dos genes e respetiva legenda podem ser visualizados nas imagens a seguir.

                                    

 

                                                             

    Anexo da legenda: anexo legenda.txt (5310)

 

    As traduções dos diversos genes poderão ser utilizadas futuramente, efetuando pesquisas em bases de dados, de forma a complementar a informação divulgada acima. O código utilizado para o desenvolvimento deste script encontra-se disponível abaixo.

Script "featuresCOMPLEMENTAR.py"

www.dropbox.com/s/ty25wu7pr79r8af/featuresCOMPLEMENTAR.py?dl=0