AlphaFold predice estructuras proteicas con una precisión nunca vista, un hito que los biólogos llevaban décadas persiguiendo. Distintos expertos coinciden en que esta inteligencia artificial ayudará a crear nuevos medicamentos, comprender mejor las enfermedades y desarrollar proteínas sintéticas útiles para crear por ejemplo nuevas vacunas.
En diciembre de 2020, DeepMind y los organizadores de la tradicional competición Evaluación crítica de las técnicas para la predicción de la estructura de proteínas (CASP) han presentado una IA que debería tener el gran impacto que el cofundador de la compañía, Demis Hassabis, siempre ha estado buscando.
La última versión de AlphaFold de DeepMind, el sistema de aprendizaje profundo capaz de predecir con precisión la estructura de las proteínas en el ancho de un átomo, ha resuelto uno de los grandes desafíos de la biología. "Es la primera aplicación de la IA para resolver un grave problema ", afirma el jefe del equipo que organiza CASP, John Moult, de la Universidad de Maryland (EE. UU.).
Una proteína se compone de una cadena
de aminoácidos que se repliega con muchos giros, vueltas y complejos enredos.
Esta estructura determina su función. Y descubrir qué hace cada proteína es
clave para comprender los mecanismos básicos de la vida, cuándo funcionan y
cuándo no.
Los esfuerzos para desarrollar vacunas
contra la COVID-19 se han centrado en la proteína espiga del virus, por
ejemplo. La manera en la que el coronavirus se engancha en las células humanas
depende de la forma de esta proteína y de la de las que hay en el exterior de
esas células. La espiga es solo una proteína entre miles de millones de ellas
en todos los seres vivos; solo dentro del cuerpo humano hay decenas de miles de
diferentes tipos de proteínas.
En la CASP de este año, AlphaFold
predijo la estructura de docenas de proteínas con un margen de error de solo
1,6 ángstroms (es decir, 0,16 nanómetros o, más o menos, el tamaño de un
átomo). Se trata de una capacidad muy superior a todos los demás métodos
computacionales y, por primera vez, coincide con la exactitud de las técnicas
experimentales para trazar la estructura de proteínas en el laboratorio, tales
como la criomicroscopía electrónica, resonancia magnética nuclear y
cristalografía de rayos x. Estas técnicas son costosas y lentas: pueden costar
cientos de miles de euros y necesitan años de prueba y error para cada
proteína. AlphaFold es capaz de encontrar la forma de una proteína en solo unos
días.
Este descubrimiento podría ayudar a
los investigadores a crear nuevos medicamentos y comprender mejor las
enfermedades. A largo plazo, predecir la estructura de las proteínas también
ayudará a diseñar proteínas sintéticas, como las enzimas que descomponen
desechos o producen biocombustibles. Los investigadores también están explorando
maneras de introducir proteínas sintéticas para aumentar el rendimiento de los
cultivos y hacer que las plantas sean más nutritivas.
"Es un avance muy sustancial. Es
algo que simplemente no esperaba que sucediera tan rápido. Es impactante, en
cierto modo", opina el biólogo de sistemas de la Universidad de Columbia
(EE. UU.) Mohammed AlQuraishi, que ha desarrollado su propio software para
predecir la estructura de las proteínas.
"Tiene una gran importancia. Es
un logro asombroso, igual que el que consiguieron con el juego de Go",
asegura el director del Instituto de Diseño de Proteínas de la Universidad de
Washington (EE. UU.), David Bakery, líder del equipo responsable de Rosetta, el
grupo de herramientas de análisis de proteínas.
Números astronómicos
Identificar la estructura de una
proteína es muy difícil. Para la mayoría de las proteínas, los investigadores
tienen la secuencia de aminoácidos de la cadena, pero no la forma doblada al
plegarse. Y normalmente hay un número astronómico de posibles formas para cada
secuencia. Los investigadores llevan luchando con este problema al menos desde
la década de 1970, cuando Christian Anfinsen ganó el premio Nobel por demostrar
que las secuencias determinaban la estructura.
El lanzamiento de CASP en 1994 dio un
impulso a este campo. Cada dos años, los organizadores publican unas 100
secuencias de aminoácidos de proteínas cuyas formas identificaron en el
laboratorio, pero aún no se han publicado. Luego, decenas de equipos de todo el
mundo compiten para encontrar la forma correcta de plegarlas mediante software.
Los investigadores médicos ya utilizan muchas de las herramientas desarrolladas
para CASP. Pero el progreso seguía siendo lento, con dos décadas de avances
paulatinos que no conseguían producir un atajo para el minucioso trabajo de
laboratorio.
CASP encontró el impacto que buscaba
cuando DeepMind participó en 2018 con su primera versión de AlphaFold. Todavía
no podía igualar la precisión de un laboratorio, pero dejó atrás a otras
técnicas computacionales. Los investigadores tomaron nota: muchos de ellos
adaptaron sus propios sistemas para parecerse más a AlphaFold.
Este año, más de la mitad de los
participantes han utilizado alguna forma de aprendizaje profundo, resalta
Moult. Como resultado, la precisión general fue mayor. El nuevo sistema de
Baker, llamado Rosetta, usa algunas de las ideas de DeepMind de 2018. Pero,
aun así, solo quedó en un "segundo lugar muy lejos del primero",
admite.
En CASP, los resultados se puntúan
mediante la prueba de distancia global (GDT, por sus siglas en inglés), que
mide en una escala de 0 a 100 lo que se acerca una estructura predicha a la
forma real de una proteína identificada en los experimentos de laboratorio. La
última versión de AlphaFold obtuvo una buena puntuación para todas las
proteínas del desafío. Pero recibió una puntuación GDT superior a 90 para
alrededor de dos tercios de ellas. Su valor de GDT para las proteínas más
difíciles fue 25 puntos más alto que el del siguiente mejor equipo, afirma el
jefe del equipo AlphaFold en DeepMind, John Jumper. En 2018, la ventaja rondaba
los seis puntos.
Una puntuación superior a 90 significa
que cualquier diferencia entre la estructura predicha y la real podría deberse
a errores experimentales en el laboratorio en vez de a un fallo en el software.
También podría significar que la estructura predicha es una configuración
alternativa válida a la identificada en el laboratorio, dentro del rango de una
variación natural.
Según Jumper, había cuatro proteínas
en la competición en las que los jueces independientes no habían terminado de
trabajar en el laboratorio y las predicciones de AlphaFold señalaron las
estructuras correctas.
AlQuraishi pensó que los
investigadores tardarían 10 años en pasar de los resultados de AlphaFold de 2018
a los de este año. Esto está cerca del límite físico de la precisión que se
puede obtener, explica. "Estas estructuras son flexibles. No tiene sentido
hablar de soluciones por debajo de eso", añade.
Piezas de rompecabezas
AlphaFold se basa en el trabajo de
cientos de investigadores de todo el mundo. DeepMind también recurrió a una
amplia gama de expertos, formando un equipo de biólogos, físicos e
informáticos. Los detalles de cómo funciona están presentando esta semana en CASP
y en un artículo revisado por pares en una edición especial de la revista
Proteins que saldrá el próximo año.
De momento, sabemos que utiliza una
forma de red de atención, la técnica de aprendizaje profundo que permite que
una IA se entrene centrándose en las partes de un problema mayor. Jumper
compara este enfoque a un rompecabezas: primero se juntan las piezas por
separado antes de colocarlas en un todo.
DeepMind entrenó a AlphaFold con
alrededor de 170.000 proteínas extraídas del banco de datos de proteínas, del
depósito público de secuencias y estructuras. Comparó múltiples secuencias del
banco de datos y buscó los pares de aminoácidos que a menudo terminaban juntos
en las estructuras plegadas. Luego usó estos datos para adivinar la distancia
entre los pares de aminoácidos en las estructuras aún desconocidas. También es
capaz de calcular la precisión de estas conjeturas. El entrenamiento tardó solo
"unas semanas", con una potencia informática equivalente a entre 100
y 200 GPU.
La profesora y científica del
Instituto Europeo de Bioinformática de Cambridge (Reino Unido) Dame Janet
Thornton lleva 50 años trabajando en la estructura y función de las proteínas.
En una rueda de prensa de la semana pasada afirmó: "Estaba empezando a
pensar que era algo que no se resolvería mientras yo viviera".
Muchos fármacos se diseñan simulando
su estructura molecular en 3D y buscando formas de encajar estas moléculas en
las proteínas objetivo. Está claro que esto solo se puede conseguir si se
conoce la estructura de esas proteínas. Esto ocurre en solo una cuarta parte de
las aproximadamente 20.000 proteínas humanas, explica Thornton. Así quedan
15.000 objetivos de fármacos inexplorados. "AlphaFold abrirá una nueva
área de investigación", añade.
DeepMind afirma que planea estudiar la
leishmaniasis, la enfermedad del sueño y la malaria. Estas tres enfermedades
tropicales causadas por parásitos están vinculadas a muchas estructuras
proteicas desconocidas.
Un inconveniente de AlphaFold es que
tarda más que las técnicas rivales. El sistema de AlQuraishi, que utiliza un
algoritmo denominado red geométrica recurrente (RGN, por sus siglas en inglés),
puede encontrar estructuras de proteínas un millón de veces más rápido y
ofrecer sus resultados en segundos en vez de días. Sus predicciones son menos
precisas, pero la velocidad es más importante para algunas aplicaciones, según
el experto.
Los investigadores esperan descubrir
cómo funciona exactamente AlphaFold. Baker afirma: "Después de describir
al mundo cómo lo hacen, florecerán mil flores. La gente lo usará para todo tipo
de cosas diferentes, para algo que no podemos ni imaginar actualmente".
Incluso un resultado menos preciso
habría sido una buena noticia para las personas que trabajan con enzimas o
bacterias, concluye AlQuraishi: "Pero, ahora tenemos algo aún mejor, con
una relevancia inmediata para las aplicaciones farmacéuticas".
Fuente: technologyreview.es