El video 'falso' de Obama que alerta sobre la grave amenaza de las ‘fake news’

Pronto, si se quiere y se cuenta con las herramientas apropiadas, una persona podría, literalmente, hacer decir cualquier cosa a quien sea, al menos en el ámbito del contenido audiovisual digital en Internet.

El fenómeno de las ‘fake news’, información distorsionada o mentirosa que circula las redes y que se hace pasar por legítima para afectar la percepción del usuario sobre el tema, es un asunto ominoso y de fuertes repercusiones, como se vio durante el proceso electoral de 2016, en la conformación de la opinión pública.

En paralelo, un singular experimento realizado por investigadores de la Universidad de Washington muestra las proezas que ya pueden lograrse en el campo de la síntesis y la sincronización de video y audio digitales.

Investigadores crearon videos con “discursos sintéticos” al sincronizar imágenes y audios del ex presidente Obama. El audio y las imágenes son auténticas, pero son de fuentes diferentes. (YouTube / University of Washington)
Investigadores crearon videos con “discursos sintéticos” al sincronizar imágenes y audios del ex presidente Obama. El audio y las imágenes son auténticas, pero son de fuentes diferentes. (YouTube / University of Washington)

Los investigadores citados lograron desarrollar nuevos algoritmos que permiten la integración de audio e imágenes (en específico en la técnica llamada lip-sync, la sincronización de la voz con los movimientos de la boca de la persona en cuestión) que permiten producir videos de gran realismo en los que el habla de la persona luce natural. Eso les permite crear “discursos sintéticos”: lograr que alguien parezca estar diciendo en un video un mensaje predeterminado sin que, en realidad, esa persona haya dicho eso en el contexto presentado.

Para ejemplificarlo utilizaron videos del expresidente Barack Obama y lograron que el discurso que dio en un cierto video fuese “dicho”, de modo muy realista, por su imagen proveniente de otro video totalmente distinto.

La técnica consiste en transformar digitalmente el audio de lo que una persona habla en gráficos de los movimientos de la boca correspondientes a las palabras pronunciadas, los que luego son editados e integrados en imágenes de la cabeza y el rostro de esa persona provenientes de un video diferente. El resultado es un “discurso sintético”: la apariencia de que, en el caso de Obama, el expresidente está dando un cierto mensaje, cuando en realidad la voz y la imagen en el video han sido alterados, con un grado de realismo espectacular.

El audio y el video tienen fuentes distintas pero lucen naturales, como si se tratara de un discurso real.

Los investigadores utilizaron elementos diferentes pero auténticos (la voz y las imágenes) de la misma persona, y por ello el grado de realismo es mayor. Pero, en estricto sentido, podrían haber usado la voz y la imagen de personas distintas, aunque la combinación quizá habría resultado poco convincente y sería evidente que se trata de un montaje.

En cambio, el “discurso sintético” que mezcla mensajes de audio y video distintos, pero todos de Obama, luce muy real, lo que sugiere que, al menos en teoría, sería posible lograr que una persona “diga” en un video cualquier cosa una vez esas tecnologías logren mayores avances. Eso, se indica, abre un muy atractivo panorama para la industria del cine, por ejemplo, pero el experimento de los investigadores de la Universidad de Washington también alerta de las graves manipulaciones que potencialmente podrían realizarse si alguien usara esas mismas técnicas de modo malintencionado.

Aunque el ojo entrenado puede, tras una revisión detallada, diferenciar un “discurso sintético” como los experimentos con mensajes de Obama de los videos reales, si los usuarios en general se toparan con un video de esa naturaleza en las redes sociales la cantidad de personas que lo considerarían genuino y lo compartirían (volviéndolo viral) sería presumiblemente numerosa. Y, por ende, muchos le darían credibilidad a lo dicho en ese video.

Si el contenido del “discurso sintético” fuera, entonces, mentiroso u ofensivo, muchos podrían concluir que en efecto eso fue dicho por la persona retratada en el video, y sacarían conclusiones al respecto. Eso podría tener graves impactos en la imagen pública de una persona, por ejemplo un candidato en campaña o un político en funciones, o de una institución relacionada a ella, pues aunque se revelara después que el video en cuestión no era real sino un “discurso sintético” de contenido espurio, la huella del impacto del video sería duradera en la opinión pública.

Los investigadores de la Universidad de Washington cuentan con la tecnología para, en su caso, diferenciar un “discurso sintético” de uno real, pero el usuario común no tiene esas herramientas a su alcance. Y si tales algoritmos y otras tecnologías audiovisuales lograran, por ejemplo, “hacer” que una persona diga cualquier mensaje, incluso uno totalmente inventado, el resultado podría ser perturbador.

En meses recientes, sobre todo en el contexto del pasado proceso electoral en Estados Unidos, se han publicado estudios que señalan, por ejemplo, que una considerable proporción de usuarios no sabe (o le cuesta trabajo) diferenciar entre noticias u opiniones periodísticas auténticas y artículos propagandísticos creados para exaltar o denigrar a cierta persona o idea, y también que contenidos abiertamente falsos o fabricados logran ser creídos y redistribuidos por muchos si se presentan ataviados con retórica y elementos visuales que los hagan lucir reales.

El impacto, así, que un “discurso sintético” podría tener en amplios grupos sociales podría ser considerable, sobre todo si esas tecnologías se perfeccionan al grado, por ejemplo, de lograr “sintetizar” un mensaje que nunca fue dicho y hacerlo pasar como verdadero al mostrar a un determinado personaje “diciéndolo” en un video.

Un video espurio de esa naturaleza podrá calumniar severamente a una persona o, como informó la radio pública NPR en un reportaje sobre el impacto de las “fake news”, propiciar reacciones peligrosas: tal fue el caso de un sujeto que, a finales de 2016, irrumpió y disparó un rifle de alto poder en una pizzería en Washington DC, un local en donde, según mensajes espurios difundidos en internet, operaba una red de prostitución infantil relacionada con Hillary Clinton. Esa alegación era totalmente falsa y dolosa, pero el individuo en cuestión la creyó y estuvo a poco de desatar una tragedia.

Por ello, el potencial efecto en el futuro de videos de ‘discursos sintéticos’ tiene aristas inquietantes, y será un campo de creciente interés, discusión y necesidad de concientización en el ámbito internético y mediático en el futuro.

Sigue a Jesús Del Toro en Twitter: @JesusDelToro