La contienda para hacer que la IA sea más compacta (y más inteligente)

El reto BabyLM pide a los investigadores que creen modelos lingüísticos en miniatura que sean casi tan buenos como los grandes, pero más accesibles y, tal vez, más compatibles con los humanos. (Matt Rota/The New York Times)
El reto BabyLM pide a los investigadores que creen modelos lingüísticos en miniatura que sean casi tan buenos como los grandes, pero más accesibles y, tal vez, más compatibles con los humanos. (Matt Rota/The New York Times)

Cuando se trata de chatbots de inteligencia artificial, cuanto más grande suele ser mejor.

Los grandes modelos lingüísticos como ChatGPT y Bard, que generan textos conversacionales y originales, mejoran a medida que los alimentan con más datos. Cada día, los blogueros se lanzan a internet para explicar cómo los últimos avances —una aplicación que resume artículos, pódcast generados por IA, un modelo afinado que puede responder a cualquier pregunta relacionada con el baloncesto profesional— lo “cambiarán todo”.

Sin embargo, crear una IA mayor y más capaz requiere una potencia de procesamiento que pocas empresas poseen, y cada vez preocupa más que un pequeño grupo, entre las que se encuentran Google, Meta, OpenAI y Microsoft, ejerza un control casi total sobre la tecnología.

Además, los modelos lingüísticos más grandes son más difíciles de entender. A menudo, son descritos como “cajas negras”, incluso por quienes los diseñan, y figuras destacadas en este campo han expresado su inquietud ante la posibilidad de que los objetivos de la IA no coincidan en última instancia con los nuestros. Si más grande es mejor, también es más opaca y más exclusiva.

En enero, un grupo de jóvenes académicos que trabajan en el procesamiento del lenguaje natural —la rama de la IA centrada en la comprensión lingüística— lanzó un reto para intentar invertir este paradigma.

El grupo pedía a los equipos que crearan modelos lingüísticos funcionales utilizando conjuntos de datos de menos de una diezmilésima parte del tamaño de los utilizados por los grandes modelos lingüísticos más avanzados. Un minimodelo de éxito sería casi tan capaz como los modelos de gama alta, pero mucho más pequeño, accesible y compatible con los humanos. El proyecto se llama BabyLM Challenge.

“Desafiamos a la gente a pensar en pequeño y a concentrarse más en crear sistemas eficientes que puedan utilizar más personas”, explicó Aaron Mueller, informático de la Universidad Johns Hopkins y organizador de BabyLM.

Alex Warstadt, informático de la ETH de Zúrich y otro de los organizadores del proyecto, añadió: “El reto sitúa en el centro de la conversación las cuestiones sobre el aprendizaje del lenguaje humano, en lugar de preguntarse ‘¿Qué tan grandes podemos hacer nuestros modelos?’”.

Los grandes modelos lingüísticos son redes neuronales diseñadas para predecir la siguiente palabra de una frase u oración determinada. Se entrenan para esta tarea utilizando un corpus de palabras recogidas de transcripciones, sitios web, novelas y periódicos. Un modelo típico hace conjeturas basadas en frases de ejemplo y luego se ajusta en función de lo cerca que esté de la respuesta correcta.

Al repetir este proceso una y otra vez, un modelo forma mapas de cómo se relacionan las palabras. En general, cuantas más palabras se utilicen para entrenar un modelo, mejor será; cada frase proporciona contexto al modelo, y más contexto se traduce en una impresión más detallada de lo que significa cada palabra. El GPT-3 de OpenAI, lanzado en 2020, se entrenó con 200.000 millones de palabras; Chinchilla de DeepMind, lanzado en 2022, se entrenó con un billón.

Para Ethan Wilcox, lingüista de la ETH de Zúrich, el hecho de que algo no humano pueda generar lenguaje representa una oportunidad apasionante: ¿podrían utilizarse los modelos lingüísticos de la IA para estudiar cómo aprenden el lenguaje los humanos?

Por ejemplo, el nativismo, una influyente teoría que se remonta a los primeros trabajos de Noam Chomsky, afirma que los humanos aprenden el lenguaje con rapidez y eficacia porque tienen una comprensión innata de cómo funciona el lenguaje.

Sin embargo, los modelos lingüísticos también aprenden con rapidez y, al parecer, sin una comprensión innata de cómo funciona el lenguaje, así que quizá el nativismo no se sostenga.

El problema es que los modelos lingüísticos aprenden de forma muy distinta a los humanos. Los humanos tenemos cuerpo, vida social y una gran riqueza de sensaciones. Podemos oler el mantillo, sentir las plumas, chocar con las puertas y probar los caramelos de menta. Desde muy pronto, estamos expuestos a palabras sencillas y a una sintaxis que a menudo no se representa por escrito.

Por eso, concluye Wilcox, una computadora que produce lenguaje tras haber sido entrenado con miles de millones de palabras escritas no puede decirnos mucho sobre nuestro propio proceso lingüístico.

No obstante, si un modelo lingüístico se expusiera solo a las palabras con las que se encuentra un ser humano joven, podría interactuar con el lenguaje de un modo que podría responder a ciertas preguntas que nos hacemos sobre nuestras propias capacidades. Así que, junto con media decena de colegas, Wilcox, Mueller y Warstadt concibieron el BabyLM Challenge, para intentar acercar ligeramente los modelos lingüísticos a la comprensión humana.

En enero, enviaron una convocatoria para que los equipos entrenaran modelos lingüísticos con el mismo número de palabras que un ser humano de 13 años: cerca de cien millones. Los modelos candidatos se someterían a pruebas para determinar su capacidad para generar y captar los matices del lenguaje y se proclamaría un ganador.

Eva Portelance, lingüista de la Universidad McGill, descubrió el desafío el día que se anunció. Sus investigaciones se sitúan a caballo entre la informática y la lingüística.

Las primeras incursiones en la IA, en la década de 1950, estuvieron impulsadas por el deseo de modelar las capacidades cognitivas humanas en las computadoras; la unidad básica de procesamiento de la información en la IA es la “neurona”, y los primeros modelos lingüísticos de las décadas de 1980 y 1990 se inspiraron directamente en el cerebro humano.

Sin embargo, a medida que los procesadores se hicieron más potentes y las empresas empezaron a trabajar para crear productos comercializables, los informáticos se dieron cuenta de que a menudo era más fácil entrenar modelos lingüísticos con enormes cantidades de datos que forzarlos a crear estructuras psicológicamente informadas.

Como resultado, dice Portelance, “nos dan un texto parecido al humano, pero no hay conexión entre nosotros y su funcionamiento”.

Para los científicos interesados en comprender cómo funciona la mente humana, estos grandes modelos ofrecen una visión limitada. Y como requieren una enorme capacidad de procesamiento, pocos investigadores pueden acceder a ellos.

“Solo un pequeño número de laboratorios industriales con enormes recursos pueden permitirse entrenar modelos con miles de millones de parámetros en billones de palabras”, aseguró Wilcox.

Empresas como Google y Meta han invertido en la investigación de modelos lingüísticos más eficientes, basados en las estructuras cognitivas humanas. Al fin y al cabo, un modelo capaz de generar lenguaje entrenado con menos datos podría ampliarse.

Sean cuales sean los beneficios que pueda brindar un BabyLM exitoso, para quienes están detrás del reto los objetivos son más académicos y abstractos. Incluso el premio subvierte lo práctico.

“Es solo orgullo”, concluyó Wilcox.

c.2023 The New York Times Company