...desde 1998

Centro de genética molecular y diagnóstico de enfermedades raras

BIOINFORMATICA PARA NO INICIADOS

Cumplimos 20 años de retos y avances increíbles, esto no habría sido posible sin la ayuda de todos los que creyeron en nosotros, a todos vosotros, ¡gracias!

Lun, 07/09/2015 - 14:54 -- Genetaq

En el CGM GENETAQ somos conscientes de que en los últimos años se ha producido un gran avance de las tecnologías de secuenciación masiva (NGS) permitiendo así un estudio más completo del genoma humano. A partir de este mes, CGM Genetaq incluye en este blog, diferentes entradas enfocadas a temas diversos relacionados con la bioinformática. No se trata de un Curso al uso, sino de una aproximación práctica para no iniciados, que permita un acercamiento al futuro cercano hacia el que nos dirigimos.

La bioinformática consiste en el desarrollo de herramientas computacionales así como de nuevos algoritmos capaces de procesar datos de un gran calibre en cuanto a tamaño, transformándolos en información de interéslista para su interpretación y análisis por parte de los genetistas. El tamaño de los ficheros a analizar puede alcanzar la magnitud de ¡Gigabytes! Un ejemplo sería el resultado de una carrera de secuenciación empleando el secuenciador MiSeq y usando el kit TruSight One para el proceso de captura: se generan ficheros de varias gigas en su conjunto, e información de secuenciación relativa a más de 4500 genes.

Cabe destacar el interés clínico que conlleva esta disciplina, puesto que el análisis bioinformático de genes en paralelo, por ejemplo, es muy útil en el diagnóstico de enfermedades raras tales como el Síndrome de Noonan o la enfermedad de Charcot-Marie-Tooth, entre otras, donde el posible gen causal no es único y la utilización de la NGS se hace obligatoria por su mayor efectividad, no comparable a las aproximaciones tradicionales.

Este blog incluirá diversos aspectos trascendentales en bioinformática, partiendo desde los entresijos de todos los ficheros de partida necesarios para el análisis del genoma, tales como el FASTQ, BAM, VCF, entre otros. Más adelante se estudiará cómo generar un pipeline completo (proceso de análisis de los resultados de un secuenciador). También se presentarán bases de datos relacionadas con el genoma humano y diversos algoritmos de interés para complementar los pipelines de análisis. Por último, se presentarán algunos casos prácticos de interés para ejemplificar la importancia de un buen desempeño bioinformático.

En el primer capítulo describiremos los archivos básicos que se obtienen en el proceso de secuenciación: FASTQ (archivo de texto que consta en esencia de líneas de secuencias y líneas de calidad asociada a cada uno de los nucleótidos), SAM/BAM (archivos de alineamiento de las anteriores secuencias al genoma de referencia) y VCF (archivo con las variantes del genoma analizado con respecto al genoma de referencia).

Esperamos que las próximas entradas del blog sean de vuestro interés.