Cómo acabar de una vez por todas con las listas de los mejores libros

Un pasillo en la biblioteca nacional de Catar. <a href="https://unsplash.com/es/fotos/EB1d_n4CP_g" rel="nofollow noopener" target="_blank" data-ylk="slk:Tom kitto/Unsplash;elm:context_link;itc:0;sec:content-canvas" class="link ">Tom kitto/Unsplash</a>
Un pasillo en la biblioteca nacional de Catar. Tom kitto/Unsplash

Cada poco nos encontramos con la lista de “cien mejores libros de…”. Somos presa de una inclinación por las clasificaciones, para ordenar y limitar el universo que tiende a infinito, como apuntaba Umberto Eco en “El vértigo de las listas”.

El canon literario es una idea controvertida, llena de sesgos y reflejo de las posiciones de poder de quienes dictaminan sobre el gusto y lo que es arte perdurable, en mayúsculas.

Establecer las obras de lectura obligatoria y lo mejor de cada época es coto de los prescriptores del sistema educativo, camarillas académicas y grupos de comunicación. Sumados a las conmemoraciones de centenarios, antologías y revivals, está ahora el impacto en la mediación de los buscadores, influencers y los sistemas de recomendación.

Entonces ¿a quién podríamos hoy pedir una lista de obras literarias? El canon propuesto por un solo autor se considera demasiado personal; los realizados por colectivos u organizaciones, demasiado artificiales; los producidos por votación, insustanciales, y los obtenidos desde ChatGPT, Google o Instagram incómodos.

Aunque parezca que tenemos toda la información de ediciones, tiradas, ventas, traducciones y citas, hay poca claridad en los datos procedentes de catálogos de bibliotecas, editoriales o ventas. En su estudio sobre la arquitectura del género bestseller, José Antonio Cordón señala lo artesanas que son la listas de los libros más vendidos. Quizá sean hasta un subgénero de la ficción.

Tampoco existe ese repertorio ideal de todos los libros de todos los tiempos y en todos los países e idiomas que nos detalle cuántas ediciones se han hecho de un libro, con cuánta tirada, cuánto se ha vendido o en cuántas bibliotecas está. Obtener estos datos sería una aventura desmesurada, porque la infraestructura bibliográfica global está desarticulada o desbordada, pese a décadas de esfuerzo bibliotecario.

En nuestra última investigación “Un canon literario universal basado en datos enciclopédicos multilingües”, de próxima publicación en la Revista Española de Documentación Científica del CSIC, discutimos un método de medición indirecto a partir de dos únicas fuentes: todas las ediciones en cualquier idioma de Wikipedia y la base de datos vinculada con los artículos enciclopédicos, Wikidata.

Enciclopedia frente a catálogo

Existe una enciclopedia libre para cada idioma con una comunidad voluntaria suficientemente activa como para afrontar el esfuerzo de escribir y revisar sus artículos. En Wikipedia se habla de todo, pero también sobre libros, como puede verse este año en la campaña #CadaLibroSuPúblico.

No es un mero catálogo de biblioteca ni de librería, sino que solo aquellos libros que alcanzan notoriedad suelen merecer la elaboración de muchos y extensos artículos. De Los viajes de Gulliver encontraremos artículos en más de 60 idiomas, con detalles densamente conectados y referencias a estudios críticos. Estos artículos sobre libros, en muchos idiomas distintos, podemos considerarlos un reflejo de la atención sostenida sobre una obra cultural.

La actividad autónoma y no planificada de estas comunidades de editores nos permite reproducir de forma indirecta los resultados que podríamos obtener si procesáramos los datos de todas las ediciones de libros, su tirada, sus ventas, el interés despertado, su lectura, sus traducciones, su reedición, sus ediciones críticas o los estudios críticos realizados sobre ellas.

Apoyados en la idea del punto de vista neutral, trabajo descentralizado y multilingüe, el ecosistema Wikimedia podría ser un candidato para obtener resultados no mediados directamente por ningún autor, academia, institución nacional o grupo de interés. Los estudios sobre calidad, diversidad y cobertura en Wikipedia son desde hace años contundentes: es al menos tan solvente como el resto de empresas enciclopédicas imperfectas emprendidas. Ya que no hay suficientes “datos oficiales” de edición-distribución procedentes del mercado editorial global, medir la actividad reseñadora y de recopilación manifestada en los artículos de la enciclopedia colaborativa nos puede conducir a un sitio similar.

Los datos para un ranking de autores literarios son fáciles, porque en la identidad del autor se concentra la relevancia de todas sus obras, pero al buscar obras concretas se presenta un reto diferente. Por ejemplo, ¿qué obras de Shakespeare, autor ubicuo, quedarían fuera para dejar sitio a una novela de Jane Austen, también muy presente?

Para acabar con las listas, todas las Wikipedias

Una vez seleccionado un conjunto imperfecto de más de 100 000 obras literarias de todas las Wikipedias, el primer resultado que revela el análisis es que son 163 las obras que se destacan significativamente de las demás. Es una cantidad muy cercana a la que selecciona, por ejemplo, el ensayo de Christiane Zschirnt Libros, todo lo que hay que leer.

Diagrama del trabajo en el que se muestran todas las obras literarias agrupadas en tres clústeres: en el clúster 1 se ve la producción literaria, en el clúster 2 las obras relevantes (1008 libros) y en el clúster 3 el canon universal (163 obras). Author provided
Diagrama del trabajo en el que se muestran todas las obras literarias agrupadas en tres clústeres: en el clúster 1 se ve la producción literaria, en el clúster 2 las obras relevantes (1008 libros) y en el clúster 3 el canon universal (163 obras). Author provided

Así que ya sabemos el volumen a reservar en la misión espacial encargada de salvar el legado literario universal, apenas 163 libros. Al tener que seleccionar, usando los artículos en Wikipedia-Wikidata como patrón de medida, en español solo se salvarían El Quijote y Cien años de soledad. ¿Cómo se reflejan todas las culturas, épocas e idiomas? Es un problema irresoluble, siempre tentativo.

El procesamiento realizado sobre los datos enciclopédicos de los libros nos permite obtener además el orden que impera en la lista final. Se contabilizan el número de Wikipedias en las que hay artículo sobre un libro, el número de palabras usadas y el número de descripciones realizadas en Wikidata para obtener una selección y un ranking funcional.

Ahora que hemos asignado una puntuación a cada obra literaria presente en Wikipedia, podemos obtener un listado del estilo de “los mil libros más importantes del siglo XX”.

Una revisión de los títulos obtenidos plantea de inmediato dudas sobre cómo manejar cada parte –en el caso de obras compuestas como La Biblia, por ejemplo, y sus diferentes partes–, y hasta dónde llevar el concepto de literatura –como ocurre con La riqueza de las naciones, de Adam Smith–. También surgen anomalías, como la aparición de Mein Kampf de Adolf Hitler en la selección, y un tumulto de preguntas sobre los best-seller literarios, la presencia de autoras, los idiomas no occidentales y las lenguas muertas.

Cada autor que elabora una selección de obras tiene sus caprichos y limitaciones, y nuestro estudio sobre Wikipedia indica que miles de autores no coordinados también terminan resultando caprichosos. Podemos pensar que estamos observando algo más parecido a cierta clase de atención –erudita, enciclopédica, curiosa– que calidad literaria.

Los datos –los nuestros y los originales de Wikipedia-Wikidata– están disponibles para quien busque perfilar mejor otro canon universal hecho a máquina y transparente en su metodología.

Los veinte primeros libros del canon según las Wikipedias

  1. Génesis, relato bíblico

  2. Ilíada, de Homero

  3. Hamlet, de William Shakespeare

  4. Romeo y Julieta, de William Shakespeare

  5. Don Quijote de la Mancha, de Miguel de Cervantes

  6. Shahnameh, epopeya persa

  7. Ulises, de James Joyce

  8. Harry Potter y la piedra filosofal, de J.K. Rowling

  9. Alicia en el país de las maravillas, de Lewis Carroll

  10. Lolita, de Vladimir Nabokov

  11. Macbeth, de William Shakespare

  12. Orgullo y prejuicio, de Jane Austen

  13. Antiguo Testamento, relato bíblico

  14. El hobbit, de J. R. R. Tolkien

  15. Las mil y una noches, serie de cuentos orientales

  16. Drácula, de Bram Stoker

  17. Éxodo, relato bíblico

  18. Guerra y paz, de León Tolstói

  19. 1984, de George Orwell

  20. Crimen y castigo, de Fiódor Dostoyevski


La investigación principal que se presenta en este texto tiene prevista su publicación en la Revista Española de Documentación Científica del CSIC durante este año 2023.

Juan Antonio Pastor Sánchez no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.