Suministro de datos en internet para entrenamiento de modelos lingüísticos de IA podría agotarse

MATT O'BRIEN

6 de junio de 2024, 8:44 p.m.·6 min de lectura

ARCHIVO - El tráfico en la Interestatal 35 que pasa por un centro de datos de Microsoft el 5 de septiembre de 2023, en West Des Moines, Iowa. (AP Foto/Charlie Neibergall, Archivo)

Los sistemas de inteligencia artificial como ChatGPT podrían quedarse pronto sin el elemento que los vuelve cada vez más inteligentes: las miles de millones de palabras que la gente ha escrito y compartido en internet.

Un nuevo estudio publicado el jueves por el grupo de investigación Epoch AI prevé que las empresas tecnológicas agotarán el suministro de datos de entrenamiento disponibles públicamente para los modelos lingüísticos de IA en algún momento entre 2026 y 2032.

Tamay Besiroglu, uno de los autores del estudio, compara el fenómeno con una “fiebre del oro” que agota los recursos naturales finitos, y afirma que el campo de la IA podría tener dificultades para mantener su ritmo actual de progreso una vez agotadas las reservas de escritura generada por humanos.

A corto plazo, empresas tecnológicas como OpenAI, el desarrollador de ChatGPT, y Google, se esmeran en conseguir, y a veces a pagar, fuentes de datos de alta calidad para entrenar sus modelos de lenguaje de gran tamaño de IA. Para ello, por ejemplo, han suscrito acuerdos para aprovechar el flujo constante de frases procedentes de los foros de Reddit y de los medios de comunicación.

A largo plazo, no habrá suficientes nuevos blogs, artículos noticiosos y comentarios en las redes sociales para mantener la trayectoria actual de desarrollo de la IA, lo cual obligará a las empresas a recurrir a datos sensibles que ahora se consideran privados, como correos electrónicos o mensajes de texto, o a basarse en “datos sintéticos” generados por los propios chatbots, los cuales son menos fiables.

“Aquí hay un serio cuello de botella”, afirma Besiroglu. “Si empiezas a toparte con esas limitaciones sobre la cantidad de datos de que dispones, ya no puedes ampliar tus modelos de forma eficiente. Y ampliar los modelos ha sido probablemente la forma más importante de incrementar sus capacidades y mejorar la calidad de sus resultados”.

Los investigadores hicieron sus primeras previsiones hace dos años, poco antes del debut de ChatGPT, en un documento de trabajo en el que pronosticaban que en 2026 se agotarían los datos de texto de alta calidad. Muchas cosas han cambiado desde entonces, como las nuevas técnicas que permiten a los investigadores de IA aprovechar mejor los datos que ya tienen y, en ocasiones, “sobreentrenarse” varias veces con las mismas fuentes.

Pero hay límites y, tras nuevas investigaciones, Epoch prevé ahora que los datos de texto públicos se agotarán en algún momento entre los próximos dos a ocho años.

El último estudio del equipo ha sido revisado por expertos y se presentará en la Conferencia Internacional sobre Aprendizaje Automático que se llevará a cabo próximamente en Viena, Austria. Epoch es un instituto sin fines de lucro auspiciado por Rethink Priorities, con sede en San Francisco, y financiado por partidarios del altruismo efectivo, un movimiento filantrópico que ha invertido dinero en la mitigación de los riesgos más graves de la IA.

Besiroglu afirma que los investigadores de IA se dieron cuenta hace más de una década de que la expansión agresiva de dos ingredientes clave —la potencia de cálculo y los grandes bancos de datos de internet— podría mejorar significativamente el rendimiento de los sistemas de IA.

Según el estudio de Epoch, la cantidad de datos de texto que se introducen en los modelos de lenguaje de IA se ha multiplicado por 2,5 al año, mientras que la capacidad de cálculo se ha cuadruplicado al año. La empresa matriz de Facebook, Meta Platforms, afirmó recientemente que la versión más grande de su modelo Llama 3 —que aún no ha salido al mercado— se ha entrenado con hasta 15 billones de tokens, cada uno de los cuales puede representar un fragmento de una palabra.

Pero hasta qué punto merece la pena preocuparse por el cuello de botella de los datos es discutible.

“Creo que es importante tener en cuenta que no necesariamente tenemos que entrenar modelos cada vez más grandes”, afirma Nicolas Papernot, profesor adjunto de ingeniería informática de la Universidad de Toronto e investigador del Instituto Vectorial de Inteligencia Artificial, una organización sin fines de lucro.

Papernot, quien no participó en el estudio de Epoch, afirma que también se pueden crear sistemas de IA más hábiles entrenando modelos más especializados en tareas concretas. Sin embargo, le preocupa que los sistemas generativos de IA se entrenen con los mismos resultados que producen, lo cual provocaría una degradación del rendimiento conocida como “colapso del modelo”.

El entrenamiento con datos generados por IA es "como lo que ocurre cuando fotocopias una hoja de papel y luego fotocopias la fotocopia. Se pierde parte de la información”, afirma Papernot. No sólo eso, sino que la investigación de Papernot también ha descubierto que puede aumentar la integración de los errores, los prejuicios y la injusticia que ya están incorporados en el ecosistema de información.

Si las frases reales redactadas por humanos siguen siendo una fuente de datos fundamental para la IA, los administradores de los tesoros más codiciados —sitios web como Reddit y Wikipedia, así como editores de noticias y libros— se han visto obligados a reflexionar sobre su uso.

“Es un problema interesante que estemos teniendo conversaciones sobre recursos naturales acerca de datos creados por humanos. No debería reírme de ello, pero me parece asombroso”, comentó Selena Deckelmann, directora de productos y tecnología de la Fundación Wikimedia, que gestiona Wikipedia.

Aunque algunas entidades han tratado de que sus datos no se usen para entrenar IA —a menudo después de que ya han sido utilizados sin compensación—, Wikipedia ha puesto pocas restricciones sobre cómo las empresas de IA utilizan los artículos redactados por voluntarios. Aun así, Deckelmann afirma que espera que siga habiendo incentivos para que la gente no cese de contribuir, sobre todo cuando una avalancha de “contenidos basura”, baratos y generados automáticamente, empiece a contaminar internet.

Las empresas de inteligencia artificial deben “interesarse en que los contenidos generados por humanos sigan existiendo y siendo accesibles”, afirma.

Desde la perspectiva de los desarrolladores de IA, el estudio de Epoch afirma que es "improbable" que pagarles a millones de humanos para que generen el texto que necesitarán los modelos de IA sea una forma económica de impulsar un mejor rendimiento técnico.

Mientras OpenAI empieza a trabajar en el entrenamiento de la próxima generación de sus modelos de lenguaje de gran tamaño GPT, su director general, Sam Altman, explicó a los asistentes a un acto de Naciones Unidas celebrado el mes pasado que la empresa ya ha experimentado con “la generación de muchos datos sintéticos” para entrenamiento.

“Creo que lo que se necesitan son datos de alta calidad. Hay datos sintéticos de baja calidad. Hay datos humanos de baja calidad”, afirmó Altman. Pero también expresó sus reservas a la hora de confiar demasiado en los datos sintéticos frente a otros métodos técnicos para mejorar los modelos de IA.

“Sería muy extraño que la mejor forma de entrenar un modelo fuera generar, por ejemplo, 1.000 billones de tokens de datos sintéticos y retroalimentarlos”, afirma Altman. “De alguna manera, eso parece ineficiente”.

___

The Associated Press y OpenAI tienen un acuerdo de licencia y tecnología que permite a OpenAI acceder a parte de los archivos de texto de AP.

hola.com
Melania Trump y el look con el que acaparó las miradas en la fiesta de Nochevieja de Mar-a-Lago
La esposa del presidente electo le dio la bienvenida al año 2025 con un espectacular vestido negro de Versace
People EN ESPAÑOL
“Ya me quiero divorciar”: Valeria Marín a pocos días de su boda con Julián Gil
La periodista deportiva causó sensación en redes al compartir el momento especial en una fiesta de fin de año. ¿Va en serio?
hola.com
Jennifer Lopez y el gesto de caballerosidad de su guardaespaldas que no ha pasado desapercibido
El alto y musculoso guardaespaldas de la cantante la ha acompañado en su viaje por Aspen, Colorado, donde también ha cuidado de sus seres queridos
ENSTARZ ¡Latino!
Ángela Aguilar arranca 2025 desatando la ira de las redes sociales
La artista de música regional mexicana trató de pasar la página con resultados complicados
LA NACION
Los dos síntomas que anticipan la demencia: tenelos en cuenta para tomar acciones tempranas
Algunos cambios que pueden parecer inicialmente inofensivos tienden a agravarse con el tiempo
ENSTARZ ¡Latino!
Los 20 vídeos más perturbadores de 'Diddy': Desde dar palmadas al trasero de Jay-Z hasta momentos de coqueteo con famosos
Videos de Sean 'Diddy' Combs que dejan mucho que decir
LA NACION
Al menos 15 muertos y 35 heridos: un automovilista atropelló a gente que festejaba Año Nuevo en una calle de Nueva Orleans y luego tiroteó
Ocurrió en las primeras horas de 2025, en un tramo de la famosa arteria Bourbon Street
LA NACION
La China Suárez se robó todas las miradas con su estilo de película para recibir el 2025
La artista compartió un festejo íntimo con amigos y familiares y enloqueció a sus seguidores de Instagram con las mejores postales de la noche
El Universal
Dan prisión preventiva a Jasmín “N” quien arrojo? aceite hirviendo a vendedora en Veracruz
CIUDAD DE MÉXICO, enero 1 (EL UNIVERSAL).- La mujer que arrojó un cazo con aceite hirviendo a una vendedora de antojitos en Xalapa, Veracruz, fue vinculada a proceso y se le impuso como medida cautelar la prisión preventiva oficiosa por un año. Video: Agencia EL UNIVERSAL
LA NACION
En fotos: de las tiernas postales de Gisele Bündchen embarazada en Costa Rica al look playero de Naomi Watts
A los 44 años, la modelo brasileña lució su gran panza durante la escapada familiar de verano; mientras tanto, Naomi Watts disfrutó del paisaje de Barbados, Leonardo DiCaprio se dio un chapuzón con su novia en Saint Barth y Charlize Theron pasó unos días en la playa con su mamá y su pequeña hija
hola.com
Meghan Markle arranca el año con una emocionante noticia
El príncipe Harry filmó el video con el que Meghan volvió a las redes sociales
LA NACION
Murió el cantante y compositor argentino Leo Dan
Su fallecimiento fue confirmado en sus redes sociales, donde invitaron a “celebrar su amor, su música y su vida”
EFE Latam
Castro: Base de EE.UU. en Honduras "perdería razón de existir" con deportación masiva
Tegucigalpa, 1 ene (EFE).- La presidenta de Honduras, Xiomara Castro, advirtió este miércoles que si el Gobierno del presidente electo de EE.UU., Donald Trump, hace una deportación masiva de hondureños la base militar estadounidense en territorio hondureño no tendría razón de existir.
LA NACION
Irrumpió en una fiesta con un parlante, le pidieron que bajara la música y atropelló a tres personas con un todoterreno
El incidente, del que tres personas resultaron heridas, ocurrió en la mañana del 1° de enero sobre la playa; el agresor se dio a la fuga, pero fue detenido por la Policía
LA NACION
La insólita jugada preparada en el fútbol japonés amateur que se hizo viral
En el All Japan High School suelen darse acciones como esta, que son celebradas por los asistentes
El Nuevo Herald
Horóscopo para jueves 2 de enero de Las Estrellas de Walter Mercado
Nota a los lectores: Betty B. Mercado, sobrina y colaboradora del fallecido astrólogo Walter Mercado, continúa su legado escribiendo el horóscopo del domingo.
Newsweek
China inaugura el túnel de carretera más largo del mundo en Xinjiang
China ha finalizado la construcción del túnel de carretera más largo del mundo, ubicado en...
El Universal
Romina Marcos recibe el 2025 entre besos de su novia
CIUDAD DE MÉXICO, enero 1 (EL UNIVERSAL).- Romina Marcos, la hija de Niurka Marcos está muy feliz por cómo terminó el 2024 y cómo comienza su 2025, feliz y enamorada de su novia, la doctora Laura Salazar, cuyo romance fue confirmado recientemente por ambas a través de fotos y videos compartidos en sus respectivas redes sociales. Romina expresó en un podcast que por el momento sí se considera lesbiana, siempre dijo que estaba abierta a ...
El Universal
El disco con el que Leo Dan venció la barrera del tiempo
CIUDAD DE MÉXICO, enero 1 (EL UNIVERSAL).- El 2025 arrancó con una triste noticia para el mundo de la música. A los 82 años, falleció el icónico cantante argentino Leo Dan, dejando un legado imborrable. La noticia fue dada a conocer a través de las redes sociales, donde, además de lamentar su partida, se reveló que pasó sus últimos momentos en paz y junto a su familia. "Esta mañana nuestro amado Leo Dan dejó su cuerpo en paz y ...
El Universal
La peculiar historia detrás de la canción más exitosa de Leo Dan
CIUDAD DE MÉXICO, enero 1 (EL UNIVERSAL).- Uno de los éxitos más grandes en la carrera de Leo Dan es, y seguirá siendo, el tema "Cómo te extraño mi amor"; lanzada en 1964 como parte de su álbum homónimo. La letra narra la triste historia de amor entre una pareja que, por azares del destino, tuvieron que separarse. Pero a pesar de las circunstancias, él no pierde la esperanza de que algún día se reunirán de nuevo, cantándole: "A ...

Historias más recientes