Con el propósito de hallar patrones genéticos, cada vez más expertos están recurriendo a una forma de aprendizaje automático llamada aprendizaje profundo o deep learning. Los defensores del enfoque dicen que los algoritmos de aprendizaje profundo incorporan menos suposiciones explícitas sobre cómo deberían ser las firmas genéticas de la selección natural que los métodos estadísticos convencionales.
Identificar dónde y cómo está evolucionando el genoma humano es una ímproba tarea. El genoma de cada persona contiene tres mil millones de bloques de construcción llamados nucleótidos, y los investigadores deben recopilar datos de miles de personas para descubrir patrones que indican cómo los genes han sido moldeados por las presiones evolutivas.
Deep Learning
Gran parte de la revolución de la Inteligencia Artificial la está protagonizando el Deep Learning (aprendizaje profundo), sobre todo en el campo de la traducción, el reconocimiento de voz, el reconocimiento de imágenes y los juegos. Y ahora también la comprensión de la genética.
Una herramienta de aprendizaje profundo llamada "DeepSweep", desarrollada por investigadores del Instituto Broad y MIT de Harvard en Cambridge, Massachusetts, ha marcado 20.000 nucleótidos individuales para estudios adicionales. Algunas o todas estas simples mutaciones pueden haber ayudado a los humanos a sobrevivir a enfermedades o condiciones de vida.
Si surge una mutación que hace que una persona sea más capaz de sobrevivir y producir descendencia que sus congéneres, el porcentaje de la población con esa variante genética crecerá con el tiempo. Un ejemplo es la mutación que brinda a muchos adultos la capacidad de tomar leche de vaca.
Al analizar los genomas humanos con métodos estadísticos, los investigadores descubrieron que la mutación se propagó rápidamente a través de las comunidades en Europa hace miles de años, probablemente porque los nutrientes en la leche de vaca ayudaron a las personas a producir niños saludables. Hoy en día, casi el 80% de las personas de ascendencia europea tienen esta variante.
Sin embargo, los genetistas han luchado para identificar y confirmar otros fragmentos específicos del genoma que se diseminaron a lo largo de las poblaciones porque brindaron una ventaja adaptativa. El aprendizaje profundo se destaca en este tipo de tareas: descubrir patrones sutiles ocultos en grandes cantidades de datos.
Los creadores de DeepSweep entrenaron su algoritmo en firmas de selección natural que insertaron en genomas simulados. A continuación, analizaron los datos del 1000 Genomes Project, una iniciativa internacional que secuenciaba el ADN de 2.504 personas en todo el mundo, utilizando un método estadístico para identificar regiones que podrían estar bajo presión evolutiva. Estos representan aproximadamente un tercio de los tres mil millones de bloques de construcción que comprenden el genoma humano. A continuación, DeepSweep evaluó cada región. Al final del análisis, había entregado una lista de 20.000 mutaciones únicas para explorar en el futuro.