Suministro de datos en internet para entrenamiento de modelos lingüísticos de IA podría agotarse

ARCHIVO - El tráfico en la Interestatal 35 que pasa por un centro de datos de Microsoft el 5 de septiembre de 2023, en West Des Moines, Iowa. (AP Foto/Charlie Neibergall, Archivo)

Los sistemas de inteligencia artificial como ChatGPT podrían quedarse pronto sin el elemento que los vuelve cada vez más inteligentes: las miles de millones de palabras que la gente ha escrito y compartido en internet.

Un nuevo estudio publicado el jueves por el grupo de investigación Epoch AI prevé que las empresas tecnológicas agotarán el suministro de datos de entrenamiento disponibles públicamente para los modelos lingüísticos de IA en algún momento entre 2026 y 2032.

Tamay Besiroglu, uno de los autores del estudio, compara el fenómeno con una “fiebre del oro” que agota los recursos naturales finitos, y afirma que el campo de la IA podría tener dificultades para mantener su ritmo actual de progreso una vez agotadas las reservas de escritura generada por humanos.

A corto plazo, empresas tecnológicas como OpenAI, el desarrollador de ChatGPT, y Google, se esmeran en conseguir, y a veces a pagar, fuentes de datos de alta calidad para entrenar sus modelos de lenguaje de gran tamaño de IA. Para ello, por ejemplo, han suscrito acuerdos para aprovechar el flujo constante de frases procedentes de los foros de Reddit y de los medios de comunicación.

A largo plazo, no habrá suficientes nuevos blogs, artículos noticiosos y comentarios en las redes sociales para mantener la trayectoria actual de desarrollo de la IA, lo cual obligará a las empresas a recurrir a datos sensibles que ahora se consideran privados, como correos electrónicos o mensajes de texto, o a basarse en “datos sintéticos” generados por los propios chatbots, los cuales son menos fiables.

“Aquí hay un serio cuello de botella”, afirma Besiroglu. “Si empiezas a toparte con esas limitaciones sobre la cantidad de datos de que dispones, ya no puedes ampliar tus modelos de forma eficiente. Y ampliar los modelos ha sido probablemente la forma más importante de incrementar sus capacidades y mejorar la calidad de sus resultados”.

Los investigadores hicieron sus primeras previsiones hace dos años, poco antes del debut de ChatGPT, en un documento de trabajo en el que pronosticaban que en 2026 se agotarían los datos de texto de alta calidad. Muchas cosas han cambiado desde entonces, como las nuevas técnicas que permiten a los investigadores de IA aprovechar mejor los datos que ya tienen y, en ocasiones, “sobreentrenarse” varias veces con las mismas fuentes.

Pero hay límites y, tras nuevas investigaciones, Epoch prevé ahora que los datos de texto públicos se agotarán en algún momento entre los próximos dos a ocho años.

El último estudio del equipo ha sido revisado por expertos y se presentará en la Conferencia Internacional sobre Aprendizaje Automático que se llevará a cabo próximamente en Viena, Austria. Epoch es un instituto sin fines de lucro auspiciado por Rethink Priorities, con sede en San Francisco, y financiado por partidarios del altruismo efectivo, un movimiento filantrópico que ha invertido dinero en la mitigación de los riesgos más graves de la IA.

Besiroglu afirma que los investigadores de IA se dieron cuenta hace más de una década de que la expansión agresiva de dos ingredientes clave —la potencia de cálculo y los grandes bancos de datos de internet— podría mejorar significativamente el rendimiento de los sistemas de IA.

Según el estudio de Epoch, la cantidad de datos de texto que se introducen en los modelos de lenguaje de IA se ha multiplicado por 2,5 al año, mientras que la capacidad de cálculo se ha cuadruplicado al año. La empresa matriz de Facebook, Meta Platforms, afirmó recientemente que la versión más grande de su modelo Llama 3 —que aún no ha salido al mercado— se ha entrenado con hasta 15 billones de tokens, cada uno de los cuales puede representar un fragmento de una palabra.

Pero hasta qué punto merece la pena preocuparse por el cuello de botella de los datos es discutible.

“Creo que es importante tener en cuenta que no necesariamente tenemos que entrenar modelos cada vez más grandes”, afirma Nicolas Papernot, profesor adjunto de ingeniería informática de la Universidad de Toronto e investigador del Instituto Vectorial de Inteligencia Artificial, una organización sin fines de lucro.

Papernot, quien no participó en el estudio de Epoch, afirma que también se pueden crear sistemas de IA más hábiles entrenando modelos más especializados en tareas concretas. Sin embargo, le preocupa que los sistemas generativos de IA se entrenen con los mismos resultados que producen, lo cual provocaría una degradación del rendimiento conocida como “colapso del modelo”.

El entrenamiento con datos generados por IA es "como lo que ocurre cuando fotocopias una hoja de papel y luego fotocopias la fotocopia. Se pierde parte de la información”, afirma Papernot. No sólo eso, sino que la investigación de Papernot también ha descubierto que puede aumentar la integración de los errores, los prejuicios y la injusticia que ya están incorporados en el ecosistema de información.

Si las frases reales redactadas por humanos siguen siendo una fuente de datos fundamental para la IA, los administradores de los tesoros más codiciados —sitios web como Reddit y Wikipedia, así como editores de noticias y libros— se han visto obligados a reflexionar sobre su uso.

“Es un problema interesante que estemos teniendo conversaciones sobre recursos naturales acerca de datos creados por humanos. No debería reírme de ello, pero me parece asombroso”, comentó Selena Deckelmann, directora de productos y tecnología de la Fundación Wikimedia, que gestiona Wikipedia.

Aunque algunas entidades han tratado de que sus datos no se usen para entrenar IA —a menudo después de que ya han sido utilizados sin compensación—, Wikipedia ha puesto pocas restricciones sobre cómo las empresas de IA utilizan los artículos redactados por voluntarios. Aun así, Deckelmann afirma que espera que siga habiendo incentivos para que la gente no cese de contribuir, sobre todo cuando una avalancha de “contenidos basura”, baratos y generados automáticamente, empiece a contaminar internet.

Las empresas de inteligencia artificial deben “interesarse en que los contenidos generados por humanos sigan existiendo y siendo accesibles”, afirma.

Desde la perspectiva de los desarrolladores de IA, el estudio de Epoch afirma que es "improbable" que pagarles a millones de humanos para que generen el texto que necesitarán los modelos de IA sea una forma económica de impulsar un mejor rendimiento técnico.

Mientras OpenAI empieza a trabajar en el entrenamiento de la próxima generación de sus modelos de lenguaje de gran tamaño GPT, su director general, Sam Altman, explicó a los asistentes a un acto de Naciones Unidas celebrado el mes pasado que la empresa ya ha experimentado con “la generación de muchos datos sintéticos” para entrenamiento.

“Creo que lo que se necesitan son datos de alta calidad. Hay datos sintéticos de baja calidad. Hay datos humanos de baja calidad”, afirmó Altman. Pero también expresó sus reservas a la hora de confiar demasiado en los datos sintéticos frente a otros métodos técnicos para mejorar los modelos de IA.

“Sería muy extraño que la mejor forma de entrenar un modelo fuera generar, por ejemplo, 1.000 billones de tokens de datos sintéticos y retroalimentarlos”, afirma Altman. “De alguna manera, eso parece ineficiente”.

___

The Associated Press y OpenAI tienen un acuerdo de licencia y tecnología que permite a OpenAI acceder a parte de los archivos de texto de AP.