...desde 1998

Centro de genética molecular y diagnóstico de enfermedades raras

BIOINFORMÁTICA PARA NO INICIADOS: CAPÍTULO IX

Cumplimos 20 años de retos y avances increíbles, esto no habría sido posible sin la ayuda de todos los que creyeron en nosotros, a todos vosotros, ¡gracias!

Mié, 06/07/2016 - 12:55 -- Genetaq

Comparación de herramientas para la simulación de datos genómicos y secuenciación de próxima generación.

Una forma de realizar unaevaluación de herramientas para el análisis de datos provenientes de secuenciación masiva(Next-Generation Sequencing - NGS) es mediante el uso de datos simulados, abordaje cada vez más popular que permite analizar los métodos bajo condiciones controladas y conocidas.

En la revisión de Escalona y cols se presentan las herramientas disponibles para la simulación de datos genómicos de NGS, comentando algunas características principales, como el tipo de input, las diferentes plataformas de secuenciación para las que están diseñadas, la posibilidad de introducir un sesgo de cobertura, la simulación de variantes genómicas o el tipo de outputproporcionado. Presentan una serie de características comunes, como la necesidad de partir de una secuencia de referencia o de definir diferentes parámetros para caracterizar el experimento de secuenciación que se va a simular (longitud de lectura, distribución del error, tipo de variación que se desea generar, etc.). Como resultado, se obtienen lecturas en varios formatos estándar (FASTQ, FASTA o BAM).

En el proceso de simulación de datos genómicos:               

                - Se requiere un genoma de referencia.

                - Es necesario utilizar perfiles o definir parámetros, bien de forma manual (ArtificialFastqGenerator, CuReSim) o cargando perfiles preconfigurados (ART, FASTQsim, GemSim, SimSeq), dependiendo de la herramienta de simulación.

                - Adicionalmente, algunas herramientas (ART, Flowsim, Grinder) introducen el sesgo generado en el paso de amplificación por PCR necesario en varias plataformas de secuenciación (Illumina, 454, IonTorrent, SOLiD).

                - También es posible definir tanto el número como la longitud de las lecturas generadas, en función de la cobertura deseada o del equipo de secuenciación del que se quiere realizar la simulación.

                - En cuanto a los errores de base-calling, se pueden simular de diferentes maneras: errores en el valor de calidad (ArtificialFastqGenerator), cambios en posiciones concretas (SimSeq), errores en la distribución de las lecturas (Grinder), etc.

                - La gran parte de los simuladores generan los valores de calidad delbase-callingde forma empírica y aquellos con una aproximación más realista utilizan una distribución gaussiana (XS) o normal específica de base (Mason).

                - La profundidad de lectura es un parámetro dinámico en el proceso de secuenciación que algunos de los simuladores también van a tener en cuenta (ArtificialFastqGenerator, BEAR, EAGLE,NeSSM, pIRS).

                - Se pueden simular los diferentes tipos de variantes genómicas: SNPs, indels, inversiones, traslocaciones, CNVs y STRs. La estrategia general de todos los simuladores es introducir los cambios deseados en la secuencia de referencia antes de la generación de las lecturas.

                - Por último, el formato de salida será un archivo específico de la tecnología NGS que se está simulando (SFF, FASTA, FASTQ) o incluso archivos de alineamiento (MAF, SAM, BAM).

Por todo lo expuesto por los autores, se concluye que la simulación de datos genómicos puede resultar muy útil para planificar los experimentos de secuenciación, probar hipótesis y evaluar los resultados obtenidos en el procesamiento de datos genómicos, aunque aún existe poco consenso en relación a su uso, en parte por la escasa documentación y la falta de actualización de las herramientas disponibles para generarlos.