Alucinaciones de la inteligencia artificial: con qué frecuencia los chatbots mienten, la pregunta que desvela a los expertos

The New York Times

13 de noviembre de 2023, 4:14 p.m.·7 min de lectura

Tasa de alucinación es como llaman los especialistas al acto en que los chatbots se desvían de la verdad

NUEVA YORK.- Cuando OpenAI, la empresa emergente de San Francisco, presentó a fines del año pasado su chatbot en línea ChatGPT, millones de usuarios quedaron cautivados por la forma bastante humana en la que respondía preguntas, escribía poesía y conversaba sobre casi cualquier tema. Pero lo que la mayoría de la gente tardó en darse cuenta es que este nuevo tipo de chatbot a menudo inventa cosas.

Cuando Google presentó un chatbot similar varias semanas después, generó datos sin sentido sobre el telescopio espacial James Webb. Al día siguiente, el nuevo chatbot Bing de Microsoft ofreció todo tipo de información falsa sobre Gap, la vida nocturna mexicana y la cantante Billie Eilish. Luego, en marzo, ChatGPT citó más de media decena de casos judiciales falsos al redactar un documento legal de 10 páginas que un abogado presentó ante un juez federal en Manhattan.

Ahora, una nueva empresa emergente llamada Vectara, fundada por exempleados de Google, está tratando de descubrir con qué frecuencia los chatbots se desvían de la verdad. La investigación de la compañía calcula que incluso en situaciones diseñadas para evitar que esto suceda, los chatbots inventan información al menos el 3 por ciento de las veces y hasta un 27 por ciento.

Los expertos definen este comportamiento de los chatbots como una “alucinación”. Es posible que no sea un problema para las personas que juguetean con chatbots en sus computadoras personales, pero es un asunto grave para cualquiera que use esta tecnología con documentos judiciales, información médica o datos comerciales confidenciales.

La medición

Como estos chatbots pueden responder a casi cualquier solicitud de un número ilimitado de formas, no hay manera de determinar con total certeza la frecuencia con la que alucinan. “Habría que revisar toda la información del mundo”, dijo Simon Hughes, el investigador de Vectara que dirigió el proyecto.

Hughes y su equipo les pidieron a estos sistemas que realizaran una tarea única y sencilla que se pudiera verificar fácilmente: resumir artículos de noticias. Incluso en estos casos, los chatbots inventaron información de forma persistente.

“Le proporcionamos al sistema entre 10 y 20 datos y le pedimos un resumen de esos datos”, dijo Amr Awadallah, director ejecutivo de Vectara y exejecutivo de Google. “Que el sistema todavía pueda introducir errores es un problema fundamental”.

Los investigadores aseguran que cuando estos chatbots realizan otras tareas —más allá de hacer solo un resumen— las tasas de alucinación pueden ser más altas.

Su investigación también mostró que las tasas de alucinación varían mucho entre las principales empresas de IA. Las tecnologías de OpenAI tuvieron la tasa más baja, alrededor del 3 por ciento. Los sistemas de Meta, propietaria de Facebook e Instagram, rondaron el 5 por ciento. El sistema Claude 2 ofrecido por Anthropic, un competidor de OpenAI también con sede en San Francisco, superó el 8 por ciento. Un sistema de Google, Palm chat, tuvo la tasa más alta con un 27 por ciento.

Una portavoz de Anthropic, Sally Aldous, declaró: “Hacer que nuestros sistemas sean útiles, honestos e inofensivos, lo que incluye evitar alucinaciones, es uno de nuestros principales objetivos como empresa”.

Google se negó a hacer comentarios y OpenAI y Meta no respondieron de inmediato a las solicitudes de comentarios.

Punta del Este: por los precios, el verano será corto, fuerte y exclusivo

Finalidad

Con esta investigación, Hughes y Awadallah quieren mostrarle a la gente que debe tener cuidado con la información que proviene de los chatbots e incluso del servicio que Vectara vende a las empresas. Actualmente, muchas compañías ofrecen este tipo de tecnología para uso empresarial.

Vectara es una empresa emergente con sede en Palo Alto, California, compuesta por 30 personas y respaldada por 28,5 millones de dólares en financiación inicial. Uno de sus fundadores, Amin Ahmad, exinvestigador de inteligencia artificial de Google, ha estado trabajando con este tipo de tecnología desde 2017, cuando se incubó dentro de Google y un puñado de otras empresas.

Así como el chatbot de búsqueda Bing de Microsoft puede recuperar información del internet abierto, el servicio de Vectara puede rescatar información de la colección privada de correos electrónicos, documentos y otros archivos de una empresa.

Los investigadores también esperan que sus métodos —los cuales comparten públicamente y seguirán actualizando— ayuden a incentivar los esfuerzos en toda la industria para reducir las alucinaciones. OpenAI, Google y otros están trabajando para minimizar el problema mediante una variedad de técnicas, aunque no está claro si podrán eliminarlo.

“Una buena analogía es un vehículo autónomo”, dijo Philippe Laban, investigador de Salesforce que lleva mucho tiempo analizando este tipo de tecnología. “No puedes evitar que un vehículo autónomo choque. Pero puedes intentar que sea más seguro que un conductor humano”.

Los chatbots como ChatGPT funcionan con una tecnología llamada modelo de lenguaje de gran tamaño (LLM, por su sigla en inglés) que adquiere sus habilidades a través del análisis de cantidades enormes de texto digital, entre ellos, libros, entradas de Wikipedia y registros de chat en línea. Al identificar patrones en todos esos datos, un LLM aprende a hacer una cosa en particular: adivinar la siguiente palabra en una secuencia de palabras.

Como internet está repleto de información falsa, estos sistemas repiten las mismas falsedades. También se basan en probabilidades: ¿cuál es la probabilidad matemática de que la siguiente palabra sea “dramaturgo”? De vez en cuando lo que adivinan es incorrecto.

La nueva investigación de Vectara muestra cómo puede suceder esto. Al resumir artículos de noticias, los chatbots no repiten falsedades de otras partes de internet. Simplemente, se equivocan en el resumen.

Resumen

Por ejemplo, los investigadores le pidieron al modelo lingüístico de Google, Palm chat, que resumiera este breve fragmento de un artículo de noticias:

Las plantas fueron encontradas el sábado por la mañana durante el registro de un almacén cerca de Ashbourne. La policía aseguró que estaban en “un invernadero sofisticado”. Un hombre de casi 50 años fue detenido en el lugar.

La tecnología elaboró este resumen, en el que inventó por completo un valor para las plantas que cultivaba el hombre y suponiendo —quizá de manera incorrecta— que eran plantas de cannabis:

La policía detuvo a un hombre de casi 50 años después de que se encontraran en un almacén cerca de Ashbourne plantas de cannabis con un valor estimado de 100.000 libras.

Este fenómeno también muestra por qué una herramienta como el chatbot Bing de Microsoft puede equivocarse al recolectar información de internet. Si le haces una pregunta al chatbot, puede pedirle al motor de búsqueda Bing de Microsoft que realice una investigación en internet. Pero no tiene forma de dar con la respuesta correcta. Recolecta los resultados de esa búsqueda y te los resume.

A veces, ese resumen es muy equivocado. Algunos bots citan direcciones de internet que son completamente inventadas.

Empresas como OpenAI, Google y Microsoft han desarrollado formas de mejorar la precisión de sus tecnologías. Por ejemplo, OpenAI intenta perfeccionar su tecnología con observaciones de evaluadores humanos, quienes califican las respuestas del chatbot, al separar las respuestas útiles y veraces de las que no lo son. Después incorporan una técnica llamada aprendizaje por refuerzo, en la que el sistema pasa semanas analizando las calificaciones para comprender mejor qué es verdadero y qué es ficción.

Sin embargo, los investigadores advierten que las alucinaciones de los chatbots no son un problema sencillo de resolver. Debido a que los chatbots aprenden de patrones en los datos y operan con base en probabilidades, se comportan de maneras no deseadas al menos en algunas ocasiones.

Para determinar con qué frecuencia los chatbots alucinaban al resumir artículos de noticias, los investigadores de Vectara utilizaron otro modelo de lenguaje de gran tamaño para verificar la precisión de cada resumen. Solo así se podía comprobar con eficacia un número tan grande de resúmenes.

Pero James Zou, profesor de Informática de la Universidad de Stanford, dijo que este método conlleva una advertencia. El modelo de lenguaje que realiza la verificación también puede cometer errores.

“El detector de alucinaciones podría ser engañado o alucinar él mismo”, dijo.

Por Cade Metz

US Weekly ES
Sofía Vergara luce lencería transparente para una noche sexy
Sofía Vergara está convirtiendo su ropa interior en exterior. Vergara, de 52 años, acudió a Instagram el jueves 19 de diciembre para mostrar su sexy lencería antes de una noche en la ciudad de Nueva York. Su top transparente presentaba un diseño de encaje rojo vino con un corsé estructurado. Las copas definidas de su
LA NACION
Christina Aguilera festejó su cumpleaños con una sensual foto en topless: "traje de cumpleaños número 44"
La cantante y empresaria celebró junto a sus seguidores con una postal muy sexy y sugerente en blanco y negro que generó sorpresa
People EN ESPAÑOL
El nuevo look de Arnold Schwarzenegger preocupa a sus fanáticos
El actor de 77 años está en Nueva York rodando una nueva película y su nuevo look es muy diferente al que nos tiene acostumbrados.
El Universal
Se adelantó la lectura del testamento de Silvia Pinal
CIUDAD DE MÉXICO, diciembre 18 (EL UNIVERSAL).- Pese a que la lectura del testamento de doña Silvia Pinal estaba programada para dentro de un mes, la fecha de adelantó y, durante la noche de este martes, las y los integrantes de la dinastía conocieron qué pertenencias les fueron heredadas por la primera actriz, quien dejó su patrimonio dividido entre sus hijos, nietas y bisnietas. "Ventaneando" captó el arribo de Sylvia Pasquel y Efigenia ...
El Universal
El alimento que Harvard recomienda comer 4 veces por semana
CIUDAD DE MÉXICO, diciembre 20 (EL UNIVERSAL).- La Universidad de Harvard, reconocida por sus investigaciones en salud y nutrición, ha destacado un alimento común pero extraordinariamente beneficioso: las arvejas, en México conocidas como chícharos, y en otros sitios como guisantes. Según los expertos, consumirlas al menos cuatro veces por semana puede marcar una gran diferencia en nuestra salud. Los chicharos son mucho más que un ...
ENSTARZ ¡Latino!
Diddy sorprendió con su aspecto al reaparecer en la corte para afrontar demanda por tráfico de personas
El rapero y empresario musical estadounidense
BBC News Mundo
Luana, la adolescente argentina que a los 6 años se convirtió en una de las personas más jóvenes del mundo en cambiar legalmente de género
En 2013, siendo una niña, la argentina Luana se convirtió en una de las personas más jóvenes del mundo en cambiar legalmente su género. Pero el camino por el reconocimiento de su identidad no fue sencillo.
El Nuevo Herald
Horóscopo para viernes 20 de diciembre de Las Estrellas de Walter Mercado
Nota a los lectores: Betty B. Mercado, sobrina y colaboradora del fallecido astrólogo Walter Mercado, continúa su legado escribiendo el horóscopo del domingo.
hola.com
Stephanie Salas y Humberto Zurita en su romántica escapada por el campo
Los actores dieron vistazos de este momento íntimo que forma parte de sus experiencias como enamorados
El Universal
Sheinbaum reacciona a nombres de calles de la colonia 4T
CIUDAD DE MÉXICO, diciembre 20 (EL UNIVERSAL).- Ante el cambio en el nombre a calles como "Me canso ganso" y "Acúsalos con tu mamá" en la nueva colonia Cuarta Transformación, ubicada en Tultitlan, Estado de México, la presidenta Claudia Sheinbaum señaló que fue decisión del gobierno municipal, pero manifestó que en su opinión es mejor poner nombres que recuperen la memoria historia de México. "Pues es decisión de ellos, la verdad yo ...
LA NACION
Lionel Messi mostró el lugar sagrado que tiene en su casa y sorprendió a sus fanáticos
El capitán de la selección argentina compartió una foto a través de su cuenta de Instagram y causó furor entre sus millones de seguidores
People EN ESPAÑOL
Muere la estrella de TikTok Beandri Booysen, a los 19 años: "radiaba esperanza y alegría"
"Ella inspiró a miles de personas con su espíritu único", escribió su madre en las redes sociales al despedirla.
The Independent
Desafío de sexo con 101 hombres de una modelo de OnlyFans divide opiniones en redes sociales
Aunque comenzó el desafío con optimismo, la modelo de contenido para adultos ofreció una entrevista que despertó preocupación por su estado emocional
hola.com
Doña Letizia lleva burdeos, el color de la temporada, a uno de los últimos actos del año
La reina española doña Letizia es fiel a su estilo con un traje de saco y pantalón en el color más usado en esta temporada, el burdeos
El Universal
La NFL no regresaría nunca a ser transmitida por FOX Sports
CIUDAD DE MÉXICO, diciembre 19 (EL UNIVERSAL).- Una de las noticias más impactantes de las últimas semanas fue el anuncio de la National Football League (NFL) donde informaron que FOX Sports ya no tendrá los derechos de transmisión de sus partidos por incumplimiento de contrato con motivos económicos. La cadena deportiva no ha podido cumplir con los pagos de los derechos de transmisión, por lo que la NFL sacó un comunicado anunciando la ...
LA NACION
“Ajuste de cuentas”: tras la caída de Al-Assad, las nuevas autoridades de Siria no logran frenar la ola de asesinatos y venganzas
En todo el país, los líderes rebeldes tienen problemas para contener a quienes quieren hacer justicia por mano propia y aprovechan el caos del momento para sus ajustes de cuentas personales
hola.com
Las imágenes del espectacular 62 cumpleaños de Demi Moore
La actriz tiene mucho que celebrar, además de esta especial fecha
NBC
Mujer cancela su boda porque su novio compró una casa de sorpresa
La historia de una mujer está acaparando la atención, tras darse a conocer que canceló su boda luego de que su novio le comprara una casa de sorpresa un mes antes de su matrimonio, esto debido a que no la consultó en esta decisión importante.
People EN ESPAÑOL
¡Candela Márquez deja sin palabras a Alejandro Sanz con su sorpresa de cumpleaños!
El cantante se quedó con la boca abierta con lo que preparó la actriz española para sus 56 primaveras
hola.com
7 horas cruciales en quirófano: el hijo mayor de John Lennon vuelve a ser operado de cáncer
Julian Lennon, de 61 años, revela cómo un chequeo médico ha podido salvarle la vida

La medición

Finalidad

Resumen

Historias más recientes