La IA aplica su destreza a la creación de nuevas proteínas humanas
La primavera pasada, un laboratorio de inteligencia artificial llamado OpenAI descubrió tecnología que permite crear imágenes digitales con solo describir lo que queremos ver. La tecnología, designada DALL-E, desató toda una oleada de herramientas similares con nombres como Midjourney y Stable Diffusion. Esta nueva camada de la IA que prometía acelerar el trabajo de los artistas digitales capturó la imaginación del público y de los expertos (por no mencionar la temida posibilidad de generar nuevos niveles de desinformación en línea).
Ahora, en las redes sociales hay muchísimo contenido sorprendentemente conceptual, con imágenes generadas con DALL-E y otras herramientas que tienen un nivel de detalle impresionante, muchas veces fotorrealistas. “Foto de un osito en patineta por Times Square”. “Tierno perro galés en una casa hecha de sushi”. “Jeflon Zuckergates”.
Pero cuando algunos científicos analizan esta tecnología, ven más que solo una forma de crear fotografías falsas. Ven el camino a un nuevo tratamiento contra el cáncer, a una nueva vacuna contra la influenza o a una nueva píldora para ayudar a digerir el gluten.
Con muchas de las técnicas que constituyen la base de DALL-E y otros generadores de arte, estos científicos se han dedicado a generar cianotipos de nuevas proteínas (pequeños organismos biológicos capaces de cambiar la forma en que se comporta nuestro cuerpo).
Nuestro cuerpo produce de manera natural alrededor de 20,000 proteínas que se ocupan de múltiples funciones, desde digerir los alimentos hasta distribuir el oxígeno a través del torrente sanguíneo. Ahora, algunos investigadores intentan crear proteínas que no se encuentran en la naturaleza con la esperanza de mejorar nuestra capacidad de combatir enfermedades y realizar funciones que nuestro cuerpo no puede hacer por sí mismo.
David Baker, director del Instituto para el Desarrollo de Proteínas en la Universidad de Washington, se ha dedicado a construir proteínas artesanales desde hace más de 30 años. Para 2017, había demostrado junto con su equipo que era una meta posible. Lo que no tenían previsto era que el surgimiento de nuevas tecnologías de IA acelerara de repente esa labor y acortara el tiempo necesario para generar nuevos cianotipos de años a semanas.
“Lo que necesitamos es crear proteínas nuevas capaces de resolver problemas de la era moderna, como el cáncer y las pandemias virales… no podemos esperar a la evolución”, explicó Baker. “Ahora podemos diseñar estas proteínas mucho más rápido y con una tasa de éxito mucho más alta, además de crear moléculas mucho más sofisticadas que ayuden a resolver estos problemas”, añadió.
El año pasado, Baker y sus colegas investigadores publicaron un par de artículos en la revista Science en los que describían cómo podían ayudar distintas técnicas de AI a acelerar el diseño de proteínas. Pero estos artículos ya quedaron eclipsados por uno más reciente sobre las técnicas responsables de la operación de herramientas como DALL-E que muestra cómo se pueden generar nuevas proteínas desde cero de manera muy similar a como se generan las fotografías digitales.
“Uno de los aspectos más impresionantes de esta tecnología es que, al igual que DALL-E, hace lo que le dices que haga”, comentó Nate Bennett, uno de los investigadores que trabajan en el laboratorio de la Universidad de Washington. “A partir de una sola instrucción, puede generar un sinnúmero de diseños”.
Para generar imágenes, DALL-E aprovecha lo que los investigadores de AI designan red neural, un sistema matemático modelado en general a partir de la red de neuronas del cerebro. Es la misma tecnología que reconoce los comandos que le das a tu teléfono inteligente, les permite a los vehículos autónomos identificar (y evitar) a los peatones y traduce idiomas en servicios como Skype.
Una red neural aprende habilidades gracias a que analiza enormes cantidades de datos digitales. Por ejemplo, después de identificar patrones en miles de fotografías de perros galeses, puede aprender a reconocer a un perro de esa raza. Con DALL-E, los investigadores construyeron una red neural que analizaba millones de imágenes digitales en busca de patrones y las leyendas que describían lo que representaba cada imagen. De esta forma, aprendió a reconocer la relación entre las imágenes y las palabras.
Cuando describes una imagen para DALL-E, una red neural genera un conjunto de características clave que podría incluir la imagen. Una característica podría ser la curva de la oreja de un osito de peluche. Otra podría ser la línea que marca la orilla de una patineta. Luego, una segunda red neural (llamada modelo de difusión) genera los pixeles necesarios para concretar esas características.
El modelo de difusión sigue un entrenamiento con una serie de imágenes en las que se añade gradualmente ruido (imperfecciones) a una fotografía hasta que se convierte en un mar de pixeles aleatorios. El modelo analiza estas imágenes y así aprende a realizar el proceso en sentido inverso. Cuando se le dan pixeles aleatorios, elimina el ruido y transforma los pixeles en una imagen coherente.
En la Universidad de Washington, otros laboratorios académicos y empresas emergentes nuevas, varios investigadores utilizan técnicas similares para intentar crear proteínas nuevas.
Las proteínas se originan como secuencias de compuestos químicos, que después se tuercen y se doblan para formar figuras tridimensionales que definen su comportamiento. En años recientes, laboratorios de IA como DeepMind, propiedad de Alphabet, la controladora de Google, han demostrado que las redes neurales pueden adivinar con gran precisión la forma tridimensional de cualquier proteína del cuerpo solo a partir de los pequeños componentes que contiene, lo que representa un enorme avance científico.
Ahora, investigadores como Baker han dado un paso más, pues han utilizado estos sistemas para generar cianotipos de proteínas totalmente nuevas que no se encuentran en la naturaleza. La meta es crear proteínas que adopten formas muy específicas; una forma particular puede ser positiva para una tarea específica, como combatir el virus que causa la COVID-19.
Tal como DALL-E aprovecha la relación entre las leyendas y las fotografías, sistemas similares pueden aprovechar la relación entre una descripción de lo que puede hacer la proteína y la forma que adopta. Los investigadores dan una descripción general de la proteína que quieren y un modelo de difusión genera su forma tridimensional.
La diferencia es que el ojo humano de inmediato puede juzgar la fidelidad de una imagen producida por DALL-E. No puede hacer lo mismo con la estructura de una proteína. Después de que las tecnologías de IA producen estos cianotipos de proteínas, los científicos deben llevarlos a un laboratorio húmedo (aquellos en que es posible realizar experimentos con compuestos químicos reales) y asegurarse de que cumplen las funciones que esperan.
Por este motivo, algunos expertos afirman que las tecnologías de IA más recientes deberían aceptarse con reservas. “Crear una estructura nueva tan solo es un juego”, señaló Frances Arnold, premio nobel y profesora especializada en la ingeniería de proteínas en el Instituto de Tecnología de California. “Lo que en realidad importa es lo que la estructura puede hacer”.
Sin embargo, para muchos investigadores estas nuevas técnicas no solo han acelerado la creación de nuevas proteínas para probarlas en el laboratorio húmedo, sino que ofrecen una opción para explorar nuevas innovaciones que los investigadores antes no podían explorar por su cuenta.
© 2023 The New York Times Company