Resolver lo que los biólogos llaman «el problema del plegamiento de proteínas» es una gran cuestión. Las proteínas son los caballos de batalla de las células y están presentes en todos los organismos vivos. Están formados por largas cadenas de aminoácidos y son vitales para la estructura de las células y la comunicación entre ellas, así como para regular toda la química del cuerpo.
Esta semana, la empresa de inteligencia artificial propiedad de Google, DeepMind, demostró un programa de aprendizaje profundo llamado AlphaFold2, que los expertos consideran un gran avance para resolver el gran desafío del plegamiento de proteínas.
Las proteínas son largas cadenas de aminoácidos unidos entre sí como cuentas en una cuerda. Pero para que una proteína haga su trabajo en la célula, debe «plegarse», un proceso de torsión y flexión que transforma la molécula en una estructura tridimensional compleja que puede interactuar con su objetivo en la célula. Si se interrumpe el plegado, la proteína no tendrá la forma correcta y no podrá realizar su trabajo dentro del cuerpo. Esto puede conducir a una enfermedad, como es el caso de una enfermedad común como el Alzheimer y otras raras como la fibrosis quística.
El aprendizaje profundo es una técnica computacional que utiliza la información, a menudo oculta en grandes conjuntos de datos para resolver preguntas de interés. Se ha utilizado ampliamente en campos como juegos, reconocimiento de voz, automóviles autónomos, ciencia y medicina.
Creo que las herramientas como AlphaFold2 ayudarán a los científicos a diseñar nuevos tipos de proteínas, que pueden, por ejemplo, ayudar a descomponer los plásticos y combatir futuras pandemias y enfermedades virales.
Soy químico computacional y autor del libro The State of Science. Mis alumnos y yo estudiamos la estructura y las propiedades de las proteínas fluorescentes utilizando programas informáticos de plegamiento de proteínas basados en la física clásica.
Después de décadas de estudio por miles de grupos de investigación, estos programas de predicción de plegamiento de proteínas son muy buenos para calcular los cambios estructurales que ocurren cuando hacemos pequeñas alteraciones en moléculas conocidas.
Pero no han logrado predecir adecuadamente cómo las proteínas se pliegan desde cero. Antes de que apareciera el aprendizaje profundo, el problema del plegamiento de proteínas parecía increíblemente difícil y parecía destinado a frustrar a los químicos computacionales durante muchas décadas.
Plegado de proteínas
La secuencia de aminoácidos, que está codificada en el ADN, define la forma 3D de la proteína. La forma determina su función. Si la estructura de la proteína cambia, no puede realizar su función. La predicción correcta de los pliegues de proteínas en función de la secuencia de aminoácidos podría revolucionar el diseño de fármacos y explicar las causas de enfermedades nuevas y antiguas.
Todas las proteínas con la misma secuencia de bloques de construcción de aminoácidos se pliegan en la misma forma tridimensional, lo que optimiza las interacciones entre los aminoácidos. Hacen esto en milisegundos, aunque tienen un número astronómico de configuraciones posibles disponibles para ellos, alrededor de 10 elevado a 300. Este número masivo es lo que hace que sea difícil predecir cómo se pliega una proteína incluso cuando los científicos conocen la secuencia completa de aminoácidos. Previamente, era imposible predecir la estructura de la proteína a partir de la secuencia de aminoácidos. Las estructuras de proteínas se determinaron experimentalmente, un esfuerzo costoso y que requiere mucho tiempo.
Una vez que los investigadores puedan predecir mejor cómo se pliegan las proteínas, podrán comprender mejor cómo funcionan las células y cómo las proteínas mal plegadas causan enfermedades. Mejores herramientas de predicción de proteínas también nos ayudarán a diseñar fármacos que puedan apuntar a una región topológica particular de una proteína donde tienen lugar las reacciones químicas.
AlphaFold nace de los juegos de póquer, Go y ajedrez de aprendizaje profundo
El éxito del programa de predicción de plegamiento de proteínas de DeepMind, llamado AlphaFold, no es inesperado. Otros programas de aprendizaje profundo escritos por DeepMind han demolido a los mejores jugadores de ajedrez, Go y póquer del mundo.
En 2016, Stockfish-8, un motor de ajedrez de código abierto, fue el campeón mundial de ajedrez informático. Evaluaba 70 millones de posiciones de ajedrez por segundo y tenía siglos de estrategias de ajedrez humanas acumuladas y décadas de experiencia en computación para aprovechar. Jugó de manera eficiente y brutal, derrotando sin piedad a todos sus rivales humanos sin una pizca de delicadeza. Ingrese al aprendizaje profundo.
El 7 de diciembre de 2017, el programa de ajedrez de aprendizaje profundo de Google, AlphaZero, derrotó a Stockfish-8. Los motores de ajedrez jugaron 100 juegos, con AlphaZero ganando 28 y empatando 72. No perdió un solo juego. AlphaZero hizo solo 80,000 cálculos por segundo, a diferencia de los 70 millones de cálculos de Stockfish-8, y solo tomó cuatro horas aprender ajedrez desde cero jugando contra sí mismo unos pocos millones de veces y optimizando sus redes neuronales como aprendió de su experiencia.
AlphaZero no aprendió nada de los humanos ni de las partidas de ajedrez jugadas por humanos. Se enseñó a sí mismo y, en el proceso, derivó estrategias nunca antes vistas. En un comentario en la revista Science, el ex campeón mundial de ajedrez Garry Kasparov escribió que al aprender del juego, AlphaZero desarrolló estrategias que «reflejan la verdad» del ajedrez en lugar de reflejar «las prioridades y prejuicios» de los programadores. «Es la encarnación del cliché ‘trabaja de forma más inteligente, no más duro'».
Cada dos años, los principales químicos computacionales del mundo prueban las capacidades de sus programas para predecir el plegamiento de proteínas y compiten en la competencia Evaluación Crítica de Predicción de Estructuras.
En la competencia, los equipos reciben la secuencia lineal de aminoácidos para aproximadamente 100 proteínas para las cuales se conoce la forma 3D pero aún no se ha publicado; luego tienen que calcular cómo se plegarían estas secuencias. En 2018, AlphaFold, el novato de aprendizaje profundo en la competencia, superó todos los programas tradicionales, pero apenas.
Dos años después, el lunes, se anunció que Alphafold2 había ganado la competencia de 2020 por un margen saludable. Derrotó a sus competidores y sus predicciones fueron comparables a los resultados experimentales existentes determinados mediante técnicas estándar de oro como la cristalografía de difracción de rayos X y la microscopía crioelectrónica. Pronto espero que AlphaFold2 y su progenie sean los métodos de elección para determinar las estructuras de proteínas antes de recurrir a técnicas experimentales que requieren un trabajo minucioso y laborioso en instrumentación costosa.
Una de las razones del éxito de AlphaFold2 es que podría utilizar la base de datos de proteínas, que tiene más de 170 mil estructuras 3D determinadas experimentalmente, para entrenarse para calcular las estructuras correctamente plegadas de las proteínas.
El impacto potencial de AlphaFold se puede apreciar si se compara el número de todas las estructuras proteicas publicadas, aproximadamente suman170 mil, con los 180 millones de secuencias de ADN y proteínas depositadas en la Base de datos de proteínas universal. AlphaFold nos ayudará a clasificar tesoros de secuencias de ADN en busca de nuevas proteínas con estructuras y funciones únicas.
¿AlphaFold me ha hecho, un modelador molecular, redundante?
Al igual que con los programas de ajedrez y Go, AlphaZero y AlphaGo, no sabemos exactamente qué está haciendo el algoritmo AlphaFold2 y por qué utiliza ciertas correlaciones, pero sí sabemos que funciona.
Además de ayudarnos a predecir las estructuras de proteínas importantes, comprender el «pensamiento» de AlphaFold también nos ayudará a obtener nuevos conocimientos sobre el mecanismo del plegamiento de proteínas.
Uno de los temores más comunes expresados sobre la Inteligencia Artificial es que conducirá a un desempleo a gran escala. AlphaFold aún tiene un largo camino por recorrer antes de que pueda predecir de manera consistente y exitosa el plegamiento de proteínas.
Sin embargo, una vez que haya madurado y el programa pueda simular el plegamiento de proteínas, los químicos computacionales participarán de manera integral en la mejora de los programas, tratando de comprender las correlaciones subyacentes utilizadas y aplicando el programa para resolver problemas importantes como el plegamiento incorrecto de proteínas asociado con muchas enfermedades. como el Alzheimer, el Parkinson, la fibrosis quística y la enfermedad de Huntington.
AlphaFold y su descendencia ciertamente cambiarán la forma en que trabajan los químicos computacionales, pero no los hará redundantes. Otras áreas no serán tan afortunadas. En el pasado, los robots podían reemplazar a los humanos que realizaban trabajos manuales; con la Inteligencia Artificial, nuestras habilidades cognitivas también se ven desafiadas.