Del lenguaje de los bebés a la inteligencia artificial para bebés
Cuando somos bebés nos exigimos mucho. De alguna manera, tenemos que pasar de ser masas sensoriales a comunicadores móviles, racionales y atentos en unos pocos años. Ahí estás, un bebé sin vocabulario, en una habitación abarrotada de juguetes y peluches. Tomas un Tronco Lincoln y tu cuidador te dice: “Esto es un ‘tronco’”. Con el tiempo, llegas a comprender que “tronco” no se refiere estrictamente a ese cilindro de plástico café en particular ni a los cilindros de plástico café en general, sino a los cilindros de plástico café que encarnan las características de partes de árboles talados y denudados, que también son, por supuesto, “troncos”.
Se ha investigado mucho y se ha debatido acaloradamente sobre cómo logran eso los bebés. Algunos científicos sostienen que la mayor parte de nuestra adquisición del lenguaje puede explicarse por el aprendizaje asociativo, ya que relacionamos los sonidos con las sensibilidades, del mismo modo que los perros asocian el sonido de una campana con la comida. Otros afirman que hay características incorporadas a la mente humana que han modelado las características de todo lenguaje y son cruciales para nuestro aprendizaje. Otros sostienen que los niños pequeños construyen su comprensión de las palabras nuevas sobre su comprensión de otras palabras.
Esta disertación avanzó un reciente domingo por la mañana, mientras Tammy Kwan y Brenden Lake llevaban moras de un tazón a la boca de su hija Luna, de un año. Luna iba vestida con unas mallas rosas y un tutú rosa, con un babero de silicón alrededor del cuello y un suave gorrito rosa en la cabeza. En la parte delantera llevaba una cámara ligera tipo GoPro.
“Babuga”, dijo, señalando con el dedo las bayas. Kwan le dio el resto y Lake miró el tazón vacío, entretenida. “Son como 10 dólares”, dijo. Una luz de la cámara parpadeó.
Lake, psicólogo de la Universidad de Nueva York cuya investigación se centra en la inteligencia humana y artificial, lleva once meses colocando una cámara a Luna y grabando cosas desde su punto de vista mientras juega. Su objetivo es utilizar los videos para entrenar un modelo de lenguaje que utilice la misma información sensorial a la que está expuesto un niño pequeño: un LunaBot, por así decirlo. Con ello espera crear mejores herramientas para comprender la inteligencia artificial y a nosotros mismos.
“Vemos esta investigación como la última manera de establecer un vínculo entre estas dos áreas de estudio”, afirmó Lake. “Por fin puedes ponerlas a dialogar”.
El uso de modelos de IA para comprender la mente humana se enfrenta a muchos obstáculos. Al fin y al cabo, ambas son muy diferentes. Los modelos lingüísticos y multimodales modernos —como el GPT-4 de OpenAI y el Gemini de Google— se montan sobre redes neuronales con poca estructura incorporada y han mejorado sobre todo como resultado del aumento de la potencia de cálculo y de mayores conjuntos de datos de entrenamiento. El modelo lingüístico más reciente de Google, Llama 3, se ha entrenado con más de diez billones de palabras; un niño promedio de 5 años está expuesto a más de 300.000 palabras.
Estos modelos pueden analizar los píxeles de las imágenes, pero son incapaces de saborear el queso o las bayas o de sentir hambre, el tipo de experiencias de aprendizaje que son importantes para los niños. Los investigadores pueden hacer todo lo posible por convertir en código el flujo sensorial completo de un niño, pero inevitablemente se perderán aspectos cruciales de su fenomenología. “Lo que vemos es solo el residuo de un alumno activo”, afirmó Michael Frank, psicólogo de la Universidad de Stanford que lleva años intentando captar la experiencia humana con una cámara. Su laboratorio está trabajando con más de 25 niños de todo el país, entre ellos Luna, para grabar sus experiencias en casa y en entornos sociales.
Los humanos no somos únicamente receptáculos de datos, como las redes neuronales, sino animales intencionales. Todo lo que vemos, cada objeto que tocamos, cada palabra que oímos se acopla a las creencias y deseos que tenemos en ese momento. “Hay una relación profunda entre lo que se intenta aprender y los datos que llegan”, aseguró Linda Smith, psicóloga de la Universidad de Indiana. “Estos modelos se limitan a predecir. Toman lo que se les introduce y dan el siguiente mejor paso”. Aunque se podría emular la intencionalidad humana estructurando los datos de entrenamiento —algo que el laboratorio de Smith ha intentado hacer recientemente—, los modelos de IA más competentes, y las empresas que los fabrican, llevan mucho tiempo orientados a procesar de manera eficiente más datos, no a dar más sentido a menos.
También hay una cuestión más conceptual, que se deriva del hecho de que las capacidades de los sistemas de IA pueden parecer bastante humanas, aunque surjan de maneras no humanas. Recientemente, han surgido dudosas afirmaciones de conciencia, inteligencia general y sensibilidad de laboratorios industriales de Google y Microsoft tras el lanzamiento de nuevos modelos. En marzo, Claude 3, el modelo más reciente de una empresa emergente de investigación de IA llamada Anthropic, suscitó el debate cuando, tras analizar una frase aleatoria sobre ingredientes de pizza oculta en una larga lista de documentos no relacionados, expresó la sospecha de que estaba siendo sometido a pruebas. Estos informes suelen oler a estratagema de mercadotecnia más que a proyecto científico objetivo, pero ponen de relieve nuestro afán por atribuir un significado científico a la IA.
En febrero, Lake y sus colaboradores crearon el primer modelo de IA entrenado en las experiencias de un niño, utilizando videos captados en el laboratorio de Frank hace más de una década. El modelo se publicó en la revista Science y, basándose en 60 horas de metraje, fue capaz de relacionar distintos momentos con palabras. Si se teclea “arena”, el modelo recordará el momento, hace once años, en que el niño en cuyas experiencias se basó el modelo visitó la playa con su madre. Si se teclea “auto”, el modelo muestra un video en primera persona del niño sentado en su asiento para auto.
Los videos de entrenamiento son antiguos y borrosos, y los datos son bastante escasos, pero la capacidad del modelo para formar algún tipo de mapa conceptual del mundo sugiere que es posible que el lenguaje se capte principalmente por asociación. “Uno de los revisores del artículo dijo: ‘Antes de leer esto, habría pensado que era imposible’”, dijo Wai Keen Vong, un investigador de la Universidad de Nueva York que colaboró en la dirección del trabajo.
Para Lake, y para otros investigadores como él, estas preguntas entrelazadas —¿Qué tan humana podemos hacer la IA? ¿Qué nos hace humanos?— constituyen la investigación más apasionante en el futuro. Ir tras la primera pregunta paso a paso, modelando las interacciones sociales, las intenciones y los prejuicios, recopilando exhaustivas secuencias de video de una cámara instalada en la cabeza de un niño de un año, es acercarse a la respuesta de la segunda.
“Si se logra que los modelos se entrenen únicamente con los datos que ha visto un solo niño, y que lo hagan bien en un conjunto enorme de tareas, sería un gran logro científico”, concluyó Lake.
c.2024 The New York Times Company