La Inteligencia Artificial es la única que puede descifrar millones de textos antiguos

Necesitamos desarrollar IA capaces de descifrar textos antiguos para transcribir el contenido de millones  de obras | imagen del Papiro Edwin Smith (Wikipedia)
Necesitamos desarrollar IA capaces de descifrar textos antiguos para transcribir el contenido de millones de obras | imagen del Papiro Edwin Smith (Wikipedia)

En el mundo existen millones y millones de textos antiguos repartidos por miles de bibliotecas, archivos públicos, monasterios o colecciones privadas. Como botón de muestra podríamos citar la Biblioteca de la Abadía de St. Gall en Suiza que alberga aproximadamente 160.000 volúmenes de textos literarios e históricos datados en el siglo VIII, todos ellos escritos a mano, en pergamino y redactados en idiomas y lenguas que pocas personas pueden entender hoy en día. Los fondos de nuestra propia Biblioteca Nacional (no exhaustivamente cuantificados) se aproximan a los 28 millones de ejemplares, incluyendo una colección de manuscritos incunables (siglos IX al XV) cercana a los 30.000 volúmenes.

La tarea de transcribir la incalculable inmensidad de textos antiguos dispersos por el planeta requeriría tal cantidad de tiempo y esfuerzo que, francamente, resulta inabarcable. Probablemente, la mayoría de ese tesoro bibliográfico mundial terminará desapareciendo, se perderá en algún sótano lleno de cajas o, con suerte, permanecerá a buen recaudo sin que nadie sepa nunca qué es lo que dicen sus páginas… o quizá aparezca alguna ayuda inesperada que evite ese triste destino.

Por supuesto, la digitalización está ayudando a salvaguardar una buena parte de ese legado manuscrito. Muchas bibliotecas y archivos han puesto a disposición del público imágenes escaneadas de su catálogo pero, aun así, una fotografía de una página escrita por alguien en el siglo XII, con una letra endiablada y en un idioma irreconocible, no resulta de mucha ayuda para entender qué nos cuenta exactamente ese texto. Además de digitalizarla sería conveniente subir un escalón más y descifrar qué dice esa página. En este caso y dentro de nuestro interminable proceso de entender el pasado necesitaremos la ayuda de una tecnología del futuro: las Inteligencias Artificiales.

Desarrollar una IA que sea capaz de leer textos escritos a mano (con sus miles de florituras, adornos y particularidades propias de cada autor, redactados además en lenguas perdidas e idiomas antiguos no resulta una tarea sencilla. Si añadimos también que esos textos a menudo contienen borrones, tachados, errores, faltas de ortografía o modismos locales según la procedencia del escritor, la labor se antoja aún más complicada.

¿Seremos capaces de desarrollar una IA que pueda transcribir, de manera rápida y precisa, cartas como esta?
¿Seremos capaces de desarrollar una IA que pueda transcribir cartas como esta?

Esta semana el journal Transactions on Pattern Analysis and Machine Intelligence ha publicado un interesante estudio, realizado por investigadores de la Universidad de Notre Dame (Indiana, EEUU) en el que presentan una red neuronal artificial capaz de leer escritura antigua compleja, donde los científicos se han basado en la percepción humana para mejorar las capacidades de transcripción de la IA.

“Trabajamos con documentos históricos escritos en estilos que han pasado de moda hace mucho tiempo, que se remontan siglos atrás y que usan idiomas y lenguas romance que apenas reconocemos hoy”, explica Walter Scheirer, profesor en Notre Dame y uno de los autores principales del artículo. “Puedes obtener fotografías de estos materiales, pero entender el texto es necesario transcribirlo y nuestra propuesta es automatizar ese proceso imitando la percepción de la página a través de los ojos del lectores expertos que proporcionan una lectura rápida y ágil de ese texto”

Para imitar esa percepción del texto realizada por un lector experto los autores del estudio unieron los métodos ya tradicionales de aprendizaje automático en IA, con un campo conocido como psicofísica visual, midiendo las conexiones entre los estímulos físicos y los procesos mentales, como la cantidad de tiempo que le toma a un lector experto reconocer un carácter específico, la calidad de la escritura a mano o identificar el uso de ciertas abreviaturas.

En el trabajo utilizaron personas expertas en la materia que ingresaron sus propias transcripciones en un software especialmente diseñado. Más tarde, el equipo midió los tiempos de reacción durante esa transcripción para comprender qué palabras, caracteres y párrafos resultaron más fáciles o difíciles. Incluir este tipo de datos en la red neuronal consiguió una IA más consistente con el comportamiento humano, redujo los errores y proporcionó una lectura más precisa y realista del texto.

Como bien apunta el propio Scheirer, es una estrategia que no se usa normalmente en el aprendizaje automático. Los investigadores detectaron las dificultades y complicaciones que los lectores humanos experimentaron en su transcripción y más tarde incorporaron estos datos a la red neuronal. Informando de estos obstáculos comunes en la percepción de determinados caracteres la IA puede tenerlos y realizar correcciones basadas en esas medidas.

Si algún día queremos no solo conservar y guardar esos millones de volúmenes de conocimiento almacenado a través del tiempo, sino además entender lo que dicen esos textos debemos diseñar IA capaces de descifrar los requiebros del lenguaje, de entender la caligrafía propia de cada autor y traducir con precisión de lenguas e idiomas antiguos. Siendo sinceros, esta gigantesca tarea solo estará al alcance de las Inteligencias Artificiales de los próximos años.

Más noticias y avances en el campo de la Inteligencia Artificial en Yahoo:

Referencias científicas y más información:

University of Notre Dame “Researchers use AI to unlock the secrets of ancient texts” TechExplore

Samuel Grieggs et al, “Measuring Human Perception to Improve Handwritten Document Transcription”, IEEE Transactions on Pattern Analysis and Machine Intelligence (2021). DOI: 10.1109/TPAMI.2021.3092688