3. Búsqueda de motivos en archivo fasta de una secuencia de nucleótidos¶
En este ejercicio se obtendrá información de un archivo fasta, que contiene la secuencia de nucleótidos de un gen de un microorganismo. Para esto usaremos el archivo secuencia1.fasta
que se encuentra en la carpeta _files
dentro del directorio raíz del repositorio de GitHub
3.1 En las secuencias de ADN se encuentran varios motivos (secuencias pequeñas muy conservadas) como los que dan inicio y término a los procesos de replicación, transcripción y traducción. La señal para el inicio de la transcripción es dada por la presencia de la TATA box (TATAAA o TATAAT) y la señal para el término de la transcripción es la presencia de varias Adeninas (5 o más), con lo que se obtiene un transcrito (ARN mensajero). Determinar el número de señales de inicio y de terminación del archivo secuencia1.fasta
y establecer si hay igual número de señales de inicio y terminación.
3.2 Otros motivos importantes son los de unión para factores de transcripción (FT). Se conoce que un FT se puede unir específicamente a los motivos ATXXTC, ACAXTT, o TTTCXXA en donde la X puede corresponder a cualquier nucleótido. Determine si la secuencia del archivo secuencia1.fasta
posee motivos de unión a FTs, y en caso de tenerlos cuántos de estos motivos posee.
Nota: Considera que en una misma línea puede haber más de una coincidencia.
3.3 Determinar la o las sub-secuencias del archivo secuencia1.fasta
que empiezan con el motivo TACA y terminan con AAAAAT.
Nota: Las sub-secuencias pueden estar en cualquier parte del texto, no necesariamente al inicio de la línea.
3.4 Determinar si la secuencia del archivo secuencia1.fasta
termina con el motivo TATACAATGA