Análise da sequência e das features presentes no NCBI
Script Procurar e Guardar
Inicialmente, desenvolveu-se um script que teve como objectivo aceder ao NCBI, retirar as informações relevantes (tendo em conta a zona genómica de interesse - 2670701 a 291130) e colocar essas informações num ficheiro "genbank".
O script criado em python designa-se por "procuraeencontra.py" e o ficheiro criado por este designa-se por "sequence.gb". Ambos se encontram disponíveis para consulta nos links abaixo.
Script "procuraeencontra.py"
www.dropbox.com/s/1ic084uw6a8inrh/procuraeencontra.py?dl=0
Ficheiro "sequence.gb"
www.dropbox.com/s/xwuimonqgda9qpo/sequence.gb?dl=0
Script Analisar e Validar
De seguida realizou-se o script que tem como objectivo analisar e validar as features obtidas através do ficheiro criado anteriormente. O programa começa por "contar" e agrupar as features de acordo com o seu tipo, de seguida guarda as features de cada tipo através da localização de cada tipo, podendo assim obter-se o resultado na consola.
Quanto à validação das features, optou-se por comparar a identificação genética e proteica de cada feature (de tipo CDS) com os dados recolhidos via NCBI.
O código desenvolvido para a criação do script "ANALISEfeatures.py", bem como o ficheiro onde consta a tabela teórica retirada do NCBI (ProteinTable.txt), estão disponíveis para consulta nos links abaixo.
Tabela "ProteinTable.txt"
Tabela retirada do link www.ncbi.nlm.nih.gov/genome/proteins/416?genome_assembly_id=166758 e posteriormente editada conforme a zona do genoma requerida 2670701 a 291130
Script "ANALISEfeatures.py"
www.dropbox.com/s/pj9s5keixmzdbxg/ANALISEfeatures.py?dl=0
Print da consola aquando a execução do script "ANALISEfeatures.py"
Script Features Complementares
O desenvolvimento deste script teve como objetivo aceder à lista de features já analisadas e, com base nos seus qualifiers, retirar informações relevantes para a análise proteica. O script constrói e faz o print na consola de uma lista composta por tuplos constituídos pelo locus tag e função do gene (caso esta exista) e de outra lista com tuplos formados pelo locus tag e respetiva tradução do gene. Quando se corre o script, pode-se aceder às informações visíveis na consola (foram copiadas para um ficheiro o ficheiro "COMPLEMENTARfeatures.txt").
Ficheiro obtido "COMPLEMENTARfeatures.txt"
COMPLEMENTARfeatures.txt (73,9 kB)
Através das funções retiradas através dos qualifiers das features elaborou-se um mapeamento inicial e mais genérico dos genes de interesse. Os genes foram catalogados por cores, sendo que a cada cor corresponde um conjunto de funções específico. Note-se que não foram encontradas informações relativas a 119 dos 216 genes em estudo. O mapeamento dos genes e respetiva legenda podem ser visualizados nas imagens a seguir.
Anexo da legenda: anexo legenda.txt (5310)
As traduções dos diversos genes poderão ser utilizadas futuramente, efetuando pesquisas em bases de dados, de forma a complementar a informação divulgada acima. O código utilizado para o desenvolvimento deste script encontra-se disponível abaixo.
Script "featuresCOMPLEMENTAR.py"
www.dropbox.com/s/ty25wu7pr79r8af/featuresCOMPLEMENTAR.py?dl=0