Extracción de información de archivo multifasta de genomas

Extracción de información de archivo multifasta de genomas

En este ejercicio se obtendrá información de un archivo multifasta, compuestos por varias secuencias de nucleótidos, en el que cada secuencia es un genoma completo de diferentes cepas o muestras de Sulcia muelleri (un endosimbionte de insectos). Para esto usaremos el archivo sul_genomas.fasta que se encuentra en este la carpeta _archivos del repositorio de GitHub de este libro.

4.1 Se debe considerar que en un archivo multi-fasta cada secuencia posee un header que empieza con el caracter >. Determinar cuántos genomas en total se encuentran en el archivo sul_genomas.fasta


4.2 Se desea identificar los códigos de todas las secuencias del archivo sul_genomas.fasta, que se encuentran en los headers junto al caracter > (por ejemplo CP006060.1), y exportar estos códigos a un nuevo archivo llamado codigos_sul_genomas.txt en la carpeta _files. Se deben eliminar los caracteres > en el archivo de salida.


4.3 Se desea identificar el nombre completo de las cepas o muestras de todas las secuencias del archivo sul_genomas.fasta y exportar estos códigos a un nuevo archivo llamado nombres_sul_genomas.txt en la carpeta _files. Por ejemplo, el nombre completo de una de las secuncias sería: Candidatus Sulcia muelleri isolate SMAURBIH.


4.4 Se desea buscar la secuencia TTTATTCCTAAAATAAAAGAAGATGAA en el genoma de Candidatus Sulcia muelleri CARI del archivo sul_genomas.fasta.