Extracción de información de archivos fastq
Extracción de información de archivos fastq¶
En este ejercicio se obtendrá información de archivos fastq, que cotienen secuencias de nucleótidos y la calidad de su proceso de secuenciación. Para esto usaremos los archivos secuencias1.fastq
, secuencias2.fastq
y secuencias3.fastq
que se encuentra en este la carpeta _archivos del repositorio de GitHub de este libro.
6.1 La letra N
representa un nucleótido que no pudo ser leído correctamente, y se reporta como ninguno, o missing data
. Imprime el número de secuencias que tenga diez N
seguidas por cada uno de los archivos fastq
de la carpeta _archivos
.
Nota: Es posible realizar esto con un comando de una sola línea, intenta resolverlo de esta forma.
6.2 Ahora, determina el número de secuencias de cada archivo .fastq
por separado. Se conoce que los títulos de las corridas de las secuencias en cada archivo .fastq
empiezan con el string @SRR098026
.
6.3 Pero esta información está muy desordenada. No sabemos a qué corrida le pertenece esta secuencia (identificador) ni la calidad de la secuencia con diez N seguidas. Entonces, podríamos incluir las 4 líneas de cada corrida. ¿Cómo incluirías las 4 lineas de información de cada corrida que contenga la secuencia NNNNNNNNNN
del archivo secuencias1.fastq
?
6.4 Pero esta información nos podría servir mucho más si está en un archivo fastq
y no solo en la pantalla del jupyter notebook
o de la terminal
. Qué tal si exportamos la información de todas las secuencias que contienen diez N seguidas, de todos los archivos .fastq
, a un archivo llamado malas_lecturas.fastq
.
6.5 ¿Cuántas líneas de las secuencias de cada uno de los tres archivos fastq
contienen el motivo ACG
?
6.6 Ahora, coloca las anteriores secuencias que contienen ACG
en el archivo malas_lecturas.fastq
sin sobre escribir el archivo. Luego imprime las últimas 40 líneas del archivo malas_lecturas.fastq
.
6.7 Ahora vamos a buscar patrones en el archivo malas_lecturas.fastq
. Antes creamos un archivo llamadopatrones.txt
, donde imprimirás estos motivos ACTG, CCCCC, NNNCNNN, NNNGNNN, TTTT, TATA, AAA. Luego, usa este archivo para buscar estos patrones en el archivo malas_lecturas.fastq
.
6.8 Tomando el archivo acg.txt
, convierte los fragmentos ACG
en secuencias de ARN. Recuerda que se puede hacer eso cambiando las timinas por uracilos (Reemplazar T por U).