DeepFakes y desinformación: el reto de detectar audios ‘falsos’ en un proceso electoral

undefined
undefined

¿Qué tienen en común el cantante Bad Bunny, la activista Gretta Thunberg y el presidente de Rusia Vladimir Putin? Todas escucharon su propia voz en una grabación que nunca hicieron, resultado de una clonación con Inteligencia Artificial (IA). 

Eso fue lo que argumentó Martí Batres, jefe de Gobierno de la Ciudad de México,  luego de que se le atribuyó un audio en el que supuestamente se dieron instrucciones para manipular el proceso interno de Morena, para definir la candidatura del partido guinda en la capital del país. “Está producido con inteligencia artificial. No es real”, dijo Batres. 

En ese caso no se pudo determinar con certeza si el audio fue efectivamente creado con IA. Herramientas como AI Voice Detector no dieron un resultado concluyente, pues al analizar diferentes fragmentos del mismo audio el porcentaje de probabilidad de que fuera hecho con IA variaba desde un 26% hasta casi un 70%.

Captura AI Voice Detector
Captura AI Voice Detector

También lee: No son concluyentes pruebas para detectar IA en audio que atribuyen a Batres

Para probar la herramienta grabamos un breve audio con nuestra voz natural. Nosotras estábamos seguras de su autenticidad, pero para la herramienta había un 55% de probabilidad de que fuera hecho con IA. 

Pese a la evolución de las tecnologías de detección “siempre va a haber un componente de tasa de error”, advierte  Manel Terraza, quien es CEO y fundador de loccus, una startup dedicada a la detección de voces sintéticas. 

Algunos especialistas en audio señalaban que aspectos como la pronunciación, la entonación y las pausas para respirar eran muestra de que el audio que se atribuyó a Batres no fue hecho con IA; pero para otras personas esos mismos elementos eran prueba de que el audio fue creado con tecnología y no pronunciado por el jefe de gobierno. 

De hecho, las autoridades de la Ciudad de México dedicaron varios minutos de una conferencia de prensa para demostrar lo sencillo que es recrear un audio con tecnología por menos de “200 pesos al mes”. Este mismo ejercicio fue replicado por usuarios de X, antes Twitter, que una y otra vez crearon audios donde una voz similar a la de Batres confiesa cosas, en algunos ejemplo con acento extranjero

Pese a ello, su difusión en redes sociales volcó la conversación en torno a la posible división dentro del mismo partido, todo ello días antes de que concluyera este proceso preelectoral. 

El audio de Batres también hizo evidente que el mal uso de la inteligencia artificial en procesos electorales puede dar lugar a la desinformación y la manipulación del discurso público. Algo que en otros países como Venezuela, Colombia y Estados Unidos  ya han experimentado en sus más recientes elecciones. 

En este sentido, verificadores como Cazadores de FakeNews en Venezuela o Colombia Check ya han descrito que determinar si un audio es real o falso no es tan sencillo y requiere de la combinación de elementos tecnológicos, pero sobre todo de la observación del contexto en el que se comparte. 

Es decir, además de emplear análisis con herramientas de detección, buscar detalles en el sonido y pedir el apoyo de especialistas en la materia; además, es necesario identificar qué narrativa reproduce, quién comenzó la difusión del material y a quién beneficia que se haga viral. 

¿Qué es la inteligencia artificial? 

La inteligencia artificial o IA puede definirse como un área de la informática “que lo que busca es crear sistemas que puedan realizar actividades que generalmente solo eran atribuidas a los humanos, pero que ahora se pueden hacer a través de estos sistemas”, según nos dijo Paul Aguilar coordinador de seguridad digital en socialTIC, una organización sin fines de lucro que se dedicada a la investigación y formación de la tecnología digital para fines sociales.

Existen diferentes tipos de IA, pero la que se utiliza para crear contenido como fotos, imágenes, texto o audio es la inteligencia artificial generativa. Esta tecnología permite crear este tipo de contenido con modelos que le permiten aprender o copiar un conjunto de datos de un contenido creado por personas. Es decir, la IA copia o imita algo que un ser humano ya había hecho. Hablar, por ejemplo. 

Los audios deepfakes son precisamente audios muy similares o idénticos a la voz de una persona y que se pueden generar porque se entrenó un sistema de inteligencia artificial para clonar o aprender la voz de una persona.

Entonces, en palabras de Paul Aguilar, cuando hablamos de inteligencia artificial y de audios deepfakes nos referimos a “sistemas que aprenden a imitar la voz de una persona para poder generar audios a partir de de esta imitación”.

¿Cómo se hace un audio falso?

Lo primero que tenemos que saber es que se puede usar IA para crear audios desde cero, o para modificar audios reales, según explicó a El Sabueso Manel Terraza.

Él explica que para clonar una voz, sin consentimiento, basta con tomar muestras de audios de la persona y pasarlos por un software capaz de imitar la voz y decir lo que se le pida.  

“Este es el problema principal de riesgo en el mundo de la desinformación porque cualquiera puede ir y tomar el audio de un video de un político y hacer un clon de una voz”, advierte Terraza, quien agrega que existen modelos de IA con los que se puede hacer pasar la voz de una persona como si fuera de otra en tiempo real. Es decir, puede clonarse una voz mientras se sostiene una conversación. 

Tal y como le sucedió en 2019 al director de una empresa de energía en Reino Unido. El ejecutivo recibió una llamada de quien pensó era un directivo de la misma compañía que le pidió transferir 243 mil dólares, se hizo la transferencia según lo indicado pero resultó ser un plan para estafar a la empresa mediante el uso de IA.  

De hecho, Terraza señala que hoy en día hay muchas herramientas para clonar voz sin necesidad de tener ningún tipo de habilidad técnica. “Tan fácil como entramos en Facebook. Y esa facilidad es el punto principal por el cual existe un riesgo tan grande de que se use de forma fraudulenta”, señala.

O tan sencillo como navegar por TikTok, donde creadores de contenido muestran una y otra vez cómo crear audios con Inteligencia artificial y hasta un paso a paso de cómo el creador de FlowGPT clona las voces de los artistas como Bad Bunny para crear álbumes completos con Inteligencia Artificial. 

Nosotros, por ejemplo, encontramos una app que invita a los usuarios a crear audios para imitar a sus personajes favoritos por tarifas desde 120 pesos (7 dólares) al mes. En algunos de esos modelos se puede solicitar que la voz reproduzca una emoción como felicidad o enojo, e incluso se cuenta con todo un catálogo que va desde caricaturas hasta youtubers.

Eleven Labs por su parte tiene una herramienta para generar audios de cualquier texto que se le indique, usando un enorme catálogo de voces que incluye una “dulce joven británica”, un “hombre autoritario de mediana edad” y una “mujer entusiasta con acento hindú”. Esta tecnología también puede clonar voces y traducirlas.

¿Cómo identificar deepfakes?

Paul Aguilar señala que el nivel de precisión, o de qué tan idénticos o similares son estos audios, va a depender del tipo de tecnología con el que se creó. Por lo que, en algunos casos, todavía se pueden detectar ciertas anomalías dentro de la voz. 

Por ejemplo, algunos tonos no corresponden a cómo la persona pronunciaría ciertas palabras, o la congruencia o el nivel de dicción que tiene el audio creado no suena exactamente igual a cómo lo haría la persona real. 

“Entonces se puede de alguna manera identificar o llegar a sospecharse que estos audios pudieran ser falsos, pero pues las herramientas están avanzando lo suficientemente rápido como para generar audios más reales o más cercanos a  la voz de de una persona”, y por lo tanto más difícil de identificar. 

Manel Terraza coincide, pues dice que los modelos más avanzados de síntesis de voz te permiten replicar respiraciones y pausas como las que tiene la persona que queremos imitar. Así que a medida que se van sofisticando las voces sintéticas esas diferencias son menos obvias.

“Al día de hoy prácticamente es imposible diferenciar  para una persona una voz sintética buena de una real, y por lo tanto el problema de la detección es cada vez más complejo y requiere también de tecnología”, señala Terraza. 

El especialista también explica que las tecnologías de detección lo que hacen es dar una probabilidad de que ese audio sea natural o creado con IA, pero su efectividad también depende de aspectos como el volumen, la duración, y qué tanto ruido ambiental hay. Por lo que siempre habrá posibilidad de que el resultado no sea correcto. 

Terraza señala con el perfeccionamiento de este tipo de tecnología de generación de contenido, la única forma de tener una aproximación de si algo es real o es clonado es utilizando herramientas de detección basadas en inteligencia artificial es decir, “luchar con las mismas armas”.  

¿Qué herramientas existen para identificar audios?

Existen proyectos como  AntiFake, que buscan prevenir la generación de deepfakes usando IA para modificar los audios – sin afectar como lo escuchamos los humanos– y que estos no puedan ser imitados por otras IA. 

También nos encontramos con una herramienta gratuita de ElevenLabs que precisamente busca tratar de ayudar a los usuarios a identificar los audios creados con IA, especialmente los que fueron generados con su misma tecnología. 

Como ya mencionamos, otra de las herramientas que hemos encontrado es AI Voice Detector, pero es de paga. Al igual que el nuevo desarrollo de Loccus.ia.

Probamos estas últimas tres con un audio generado a partir de un texto con la herramienta de ElevenLabs, una grabación de mi propia voz, y el audio  que se le atribuyó a Batres, aunque él lo negó. 

Tanto ElevenLabs como Loccus acertaron a determinar que la grabación hecha con mi propia voz era una voz humana. Pero AI Voice Detector se equivocó, y señaló que había 55% de probabilidad de que fuera hecha con IA. 

como-verificar-audios-falsos-2
como-verificar-audios-falsos-2

En el caso del audio que creamos con IA, las tres herramientas detectaron que se trataba de un audio fabricado. 

como-verificar-audios-falsos-3
como-verificar-audios-falsos-3

En el caso del audio viral que se atribuyó a Batres –del que no tenemos certeza de su origen– ElevenLabs determinó un 98% de probabilidades de que fuera hecho con IA; AI Voice Detector señaló un porcentaje de entre 26 y 70% creado con IA; mientras que Loccus determinó un porcentaje de entre 5% y 25% creado con voz natural. Es decir, más del75% de probabilidad de que fuera hecho con IA. 

Entonces las tres herramientas acertaron al detectar la voy creada con IA, solo dos acertaron a identificar un audio con voz natural, y dos de tres coinciden en que el audio viral de Batres fue hecho con IA. 

¿Consejos para no caer en desinformación con audios falsos?

Paul Aguilar recomienda identificar el contexto del audio para saber si corresponde a algo que la persona podría o no haber dicho. También recomienda identificar la calidad del sonido o la consistencia vocal.

La tercer recomendación de Aguilar es verificar la fuente de información para saber si quien está publicando o filtrando este audio es confiable, o alguien de quien se podría sospechar que tal vez está generando esta información o falsificándola.

Aguilar dice que hay otras técnicas más especializadas, pero poco accesibles. Pues se requieren de herramientas especializadas para ingeniería de audio en donde se hace un análisis espectral del sonido, por ejemplo. 

Ante este panorama, para Terraza hay que poner en duda todo lo que no te estén diciendo cara a cara, sobre todo el contenido especialmente incendiario. Los reenvíos masivos de cosas también te pueden indicar que un audio fue creado para desestabilizar o causar polémica. 

¿Existe una legislación para los deepfakes? 

César Avilés, investigador del Instituto Belisario Domínguez, nos explicó que “explícitamente no existe una disposición en la legislación electoral que atiende específicamente esta problemática” de la desinformación generada con IA. 

Sin embargo, el especialista señala que sí existe una regulación que sanciona las calumnias, el daño a la honorabilidad de las personas, el uso de la violencia política de género, entre otras conductas que podrían entrar en el mal aprovechamiento de esta herramienta tecnológica. 

Luego del audio que Martí Matres argumentó fue creado con Inteligencia Artificial, el diputado morenista Miguel Torruco propuso una reforma al código penal para sancionar a quien use IA para generar daño o perjuicio a la imagen o reputación pública de las personas.

Avilés señala que es positivo que a partir de ello se capte la atención de las y los tomadores de decisiones para poner manos en la materia, pero es necesario no perder de vista que  se trata de un fenómeno mucho más complejo que necesita una legislación transversal. 

“Apenas ahorita a nivel federal el Congreso está poniendo atención en el fenómeno como tal sobre qué implica la inteligencia artificial, una tecnología sumamente disruptiva que apenas estamos conociendo sus aprovechamientos, pero también cuáles son las distorsiones y las problemáticas que podrían afectar los derechos de las personas”, advierte Avilés.