...desde 1998

Centro de genética molecular y diagnóstico de enfermedades raras

BIOINFORMATICA PARA NO INICIADOS: CAPITULO I

Jue, 08/10/2015 - 10:02 -- Genetaq

¿Cuáles son los archivos obtenidos en un proceso de secuenciación masiva?

Como adelantábamos en la entrada anterior, comenzamos este blog con los principales archivos obtenidos en el proceso de secuenciación masiva. Una carrera de NGS genera tres tipos de fichero fundamentales: FASTQ, SAM/BAM y VCF.

En esta entrada vamos a describir los aspectos clave de cada uno de ellos.

¿Qué es un fichero FASTQ?

Es un fichero en texto plano que contiene los datos crudos obtenidos por el secuenciador. Cada plataforma de secuenciación llega al archivo FASTQ de maneras diferentes: por ejemplo, en el caso de Illumina, el proceso de secuenciación es, reduciendo mucho la metodología de la misma, óptica (fluorescencia) mientras que en Ion Torrent es electroquímica (iones de hidrogeno).

En definitiva, este archivo que se puede generar por diferentes caminos según el secuenciador permite almacenar la secuencia biológica junto con lascalidadesasociadas a cada nucleótido de dicha secuencia.

Más en detalle, este fichero está compuesto por cuatro tipos de línea:

1.      El título, normalmente el identificador de la secuencia, encabezado siempre por el carácter ‘@’. Este campo no tiene límite de longitud.

2.      La secuencia biológica, en la que los espacios en blanco o tabuladores no están permitidos, compuesta por la combinación de los cuatro nucleótidos: Adenina (A), Guanina (G), Citosina (C) y Timina (T), con una excepción: cuando el secuenciador no es capaz de asignar un nucleótido, se introduce el carácter ‘N’.

3.      Indicador de fin de secuencia e inicio de calidades asociadas: carácter ‘+’. El contenido de este campo es opcional, la línea puede constar únicamente de dicho carácter.

4.      Calidades, codificadas por un conjunto de caracteres ASCII (la mayoría ASCII 33-126; http://es.wikipedia.org/wiki/ASCII). Este campo debe tener la misma longitud que la secuencia biológica.

Fuente de la imagen

El fichero FASTQ es el input estándar que reconocen las herramientas bioinformáticas encargadas del alineamiento.

¿Qué es un fichero SAM/BAM?

Un fichero SAM (Sequence Alignment/Map format) es un fichero de texto tabulado para la representación de alineamientos de secuencias contra un genoma o secuencia de referencia. Está compuesto por una sección de cabecera (opcional) y una sección de alineamiento.

Las líneas de la cabecera empiezan con el carácter ‘@’ mientras que las del alineamiento no. En la sección de alineamiento, hay 11 campos obligatorios de información esencial acerca del alineamiento y un número variable de campos opcionales de información más específica.

Fuente de la imagen

Un fichero BAM (Binary Alignment/Map format) es la versión comprimida del formato SAM que permite realizar un indexado para tener acceso directo a las posiciones genómicas.

Fuente de la imagen

Estos ficheros son los resultantes de realizar el alineamiento de los datos de secuencia crudos contenidos en el FASTQ mediante distintos alineadores tales como BWA o Bowtie2.

¿Qué es un fichero VCF?

Un VCF (Variant Call Format) es un fichero de texto genérico para almacenar las variaciones de la secuencia con respecto al genoma contra el que se alinea: SNPs, inserciones, deleciones y variantes estructurales, junto con ciertas anotaciones opcionales derivadas de diferentes bases de datos. Contiene líneas de meta-información, una cabecera obligatoria y líneas referentes a información sobre distintas posiciones en el genoma, siendo los campos más relevantes el de cromosoma, posición, alelo de referencia y alelo alternativo.

Este fichero se obtiene empleando distintas herramientas bioinformáticas de Variant Callertales como GATK (https://www.broadinstitute.org/gatk/),partiendo de los ficheros SAM/BAM.

Fuente de la imagen

Para saber ms sobre los tipos de archivo tratados en esta entrada, recomendamos entrar en los siguientes enlaces:

FASTQ

SAM/BAM

VCF