...desde 1998

Centro de genética molecular y diagnóstico de enfermedades raras

BIOINFORMÁTICA PARA NO INICIADOS: CAPÍTULO VIII

Cumplimos 20 años de retos y avances increíbles, esto no habría sido posible sin la ayuda de todos los que creyeron en nosotros, a todos vosotros, ¡gracias!

Mar, 31/05/2016 - 15:51 -- Genetaq

Las inserciones/deleciones (en adelante indels) son las variantes genómicas que ocupan el segundo lugar en importancia de estudio, y el primer lugar si hablamos de variantes estructurales, con una cifra de 1.6 millones de polimorfismos de tipo indel en la población humana. En un individuo están presentes alrededor de 0.13-0.4 millones de pequeños indels, y de ellos, de 192 a 280 son frameshifts, mutaciones con desplazamiento, es decir, inserciones o deleciones de un número de nucleótido que no es múltiplo de tres en una secuencia de ADN. La presencia de indels puede estar asociada a enfermedades cuando se interrumpe la secuencia aminoacídica en la región codificante o la función reguladora en la no codificante. La secuenciación masiva es un método común para identificar variaciones en el genoma humano. Sin embargo, la identificación de indels puede resultar más difícil que la identificación de variantes de un solo nucleótido (SNVs), especialmente por la presencia de polimorfismos de nucleótido único (SNPs), errores de secuenciación, reacción en cadena de la polimerasa (PCR), etc. Mientras que la mayoría de indels son de 1-10 bp de largo, se conoce la existencia de indels de hasta 10.000 pares de bases en el genoma humano. Por tanto, la detección de inserciones/deleciones es todo un reto debido a las cortas lecturas que ofrece secuenciación masiva, haciendo difícil identificar indels mayores a la longitud de las mismas.

En esta entrada describimos Pindel, una herramienta capaz de identificar indels así como otras variantes estructurales de datos provenientes de lecturas paired-end. El algoritmo de reconocimiento de patrones que utiliza Pindel determina puntos de ruptura a partir de pares de lecturas donde una es mapeada y la otra no. A esto se le une la reconstrucción de una lectura completa en el punto de lectura con el objetivo de predecir la presencia de indels. En estudios con datos simulados, Pindel identificó con éxito 80% de deleciones de longitud 1-16 bp con un ratio del 2% en falsos negativos. También detectó inserciones con un porcentaje en torno al 80%.

En el programa Pindel, el objetivo es calcular los puntos de ruptura de manera precisa así como los fragmentos insertados o eliminados en comparación con el genoma de referencia a partir de lecturas paired-end. En un primer paso de procesado de datos, se usa el algoritmo SSAHA2 para mapear todas las parejas de lecturas con el genoma de referencia. Los resultados del mapeo se examinan para extraer aquellas lecturas con sólo un extremo mapeado. Para cada una de estas lecturas, el extremo mapeado debe estar únicamente localizado en la región del genoma sin desajustes de mapeo mientras que el otro extremo no puede estar mapeado con ningún lugar en el genoma por debajo de un umbral de alineamiento (o score s=20 para 36bp aproximadamente). Para cada una de estas parejas, Pindel usa el mapeado de lecturas para determinar el punto de anclaje en el genoma y la dirección de aquella lectura no mapeada. Sabiendo esto, y definidos una serie de parámetros, como el máximo tamaño para la deleción (Max_D_Size), se localiza una subregión en el genoma de referencia donde pindel colocará la lectura clasificándola como deleción o pequeña inserción y mapeará con el fragmento terminal de la lectura no mapeada.

La siguiente figura muestra de manera esquemática el proceso llevado a cabo en Pindel.

Figura1. El proceso de reconocimiento de patrones, implementado en Pindel, para detectar deleciones (a) e inserciones (b) a nivel nucleotídico.

Pueden ampliar la información en el siguiente enlace:

http://gmt.genome.wustl.edu/packages/pindel/index.html