Estilometría: un ámbito por descubrir

¿Co-autores de Shakespeare?
Imagen tomada de Wikipedia

Hace unas semanas la prensa, tanto escrita (El Mundo, El cultural, The Guardian, BBC, Efe) como  hablada (RNE Radio 5), se hizo eco de que en la editorial de Universidad de Oxford, en realidad un equipo de investigadores cuyos resultados serán publicados (en 2017) por dicha editorial, han establecido que la trilogía Enrique VI no fue escrita en su totalidad por William Shakespeare (1564-1616), sino que es una obra escrita en colaboración con Christopher Marlowe (1564-1593). La mayoría de las noticias se centraban en los personajes y la historia entorno a ellos y la gran disputa que ha habido desde el siglo XVIII de que era posible que William Shakespeare no hubiera escrito todo lo que se le atribuye. La gran mayoría de esas noticias mencionaban que se había llegado a esa conclusión gracias a la mezcla de dos técnicas de investigación: «old-fashioned scholarship and 21st-century computerised tools to analyse texts». Pero ninguna de las noticias le interesó explicar en qué consistían esas herramientas computacionales; todo lo más, en Radio 5 se dice que se han ayudado de un programa informático que ha localizado «multitud de palabras o expresiones marca de la casa de Marlowe». Eso no es decir mucho, pues ha habido varios investigadores, en el campo de la filología española sin ir más lejos, que ha usado algunos programas informáticos para localizar formas y expresiones para determinar la autoría del llamado Quijote de Avellaneda. En esos trabajos con apoyo informático lo único que se hizo fue buscar una serie de palabras «marca de la casa» del sospechoso en el corpus diacrónico del español, CORDE, que es lo mismo que se hizo, pero sin apoyo informático, en el caso de La tía fingida, es decir, aplicaron la «old-fashioned scholarship», o lo que es lo mismo, algunos de los métodos filológicos normales y largamente probados.

Una de las técnicas modernas, del siglo XXI, más eficientes para tratar de desentrañar la autoría de un texto es la estilometría, es decir, el análisis estadístico del estilo literario (Holmes 1998, 111), pero no ha podido tener gran desarrollo hasta que los ordenadores han tomado un lugar preponderante en todo tipo de estudios, incluso en los «de letras», y no como potentes máquinas de escribir, que es como mucho conciben los ordenadores.

La primera aproximación al problema fue la de T. Mendenhall en 1901 y de la que dio cuenta en «A Mechanical solution of a literary problem». La solución mecánica consistió en contar las letras de cada una de las palabras de las obras de Shakespeare y comparar la longitud de las palabras de las obras atribuidas a Shakespeare con los sospechosos habituales: Edward de Vere (1550-1604), Francis Bacon (1561-1626) y Marlowe.

El procedimiento era muy sencillo: una persona leía una palabra, contaba el número de letras y lo anunciaba en voz alta; otra apretaba el botón adecuado (uno para cada número) en una máquina registradora construida al efecto. Procedieron así a lo largo de dos millones de palabras (400 000 eran de Shakespeare). La conclusión a la que llegaron era que la longitud de palabra más usual en Shakespeare era de cuatro letras, «a thing never met with before» (Mendenhall, 1901: 102).

Este laborioso procedimiento debió de influir para que nadie se ocupara de los problemas de estimoletría, aunque hubo algunos intentos como el de Claude S. Brineger en 1963, que trató de establecer si Mark Twain había escrito o no las diez cartas Snodgrass que se publicaron en el New Orleans Daily Crescent en 1861 bajo la firma de Quintus Curtius Snodgrass.

Pero el gran avance para los estudios de estilometría surgieron a raíz del llamado caso de los Federalist Papers en 1964 a cargo de F. Mostaller y D. L. Wallace. Estos especialistas en estadística pudieron establecer la autoría de los doce Federalist Papers cuya autoría estaba en discusión. Para ello se basaron en la frecuencia de uso de palabras gramaticales, function words, es decir de artículos, conjunciones, preposiciones, pronombres y ciertos adverbios, adjetivos y verbos auxiliares, como discriminadores de estilo, pues dejan una huella indeleble e inconsciente del estilo de cada uno de nosotros y que es inimitable.

Más reciente ha sido el llamado caso Galbraith. Robert Galbraith, un policía militar jubilado y con experiencia en la industria de seguridad, publicó en abril de 2013 la novela policiaca titulada The Cuckoo’s Calling (La llamada del Cuco). Esta novela «was lavishly praised by critics» (Sunday Times, 14.7.13). Pero, según contaba Sunday Times, a uno de sus periodistas le pareció una novela demasiado buena como para ser una obra primeriza y que un autor con la formación que decía tener describiese con sumo detalle la ropa femenina, por lo que decidió solicitar los servicios de Patrick Juola, un profesor de Duquesne University que en el año 2006 presentó un prototipo computerizado de atribución de autoría llamado Java Graphical Authorship Attribution Program (JGAAP), para que averiguara quién podía ser el autor real. La verdad es que tenían un soplo: que Robert Galbraith era un seudónimo de J. K. Rowlins, por lo que pudo partir de una hipótesis que se trató de confirmar.

El procedimiento de Juola fue seleccionar la única novela para adultos escrita por J. K. Rowling, The Casual Vacancy, y otras tres novelas policiacas escritas por mujeres: The St. Zita Society de Ruth Rendell, The Private Patient de P. D. JamesThe Wire in the Blood de Val McDermid, para ver cuál era más similar a Galbraith y realizó cuatro análisis centrados en cuatro variables lingüísticas:

  1. distribución de la longitud de las palabras
  2. uso de las 100 palabras más comunes
  3. distribución de 4-gram (grupos de cuatro letras juntas, pueden ser palabras, parte de una palabra o de dos palabras adyacentes)
  4. distribución de bigramas (qué dos palabras aparecen juntas)

La conclusión a la que llegó es que de los cuatro autores, dos quedaban descartados y que «The only person consistently suggested by every analysis was Rowling, who showed up as the winner or the runner-up in each instance» (Juola). Ante estos datos, el periodista del Sunday Times preguntó a J. K. Rowling y esta confesó que era ella la autora.

En un libro pensado para enseñar el uso de R, un lenguaje de programación estadística, a los estudiantes (y estudiosos) de la literatura, Text Analysis with R for Students of Literature de  M. L. Jockers (2014), me llamó poderosamente la atención el capítulo 11, titulado «Clustering». En él se propone como ejercicio determinar si un texto marcado como anónimo se agruparía de manera natural con algún autor de un grupo de textos firmados por una serie de novelistas irlandeses (o de origen irlandés) de los siglos XVIII-XX. A la vista de que funcionaba con los textos ingleses, pero consciente de los problemas que presentan los programas informáticos creados para trabajar con textos en lengua inglesa (y el de las letras con diacríticos –á, é, í, ó, ú, ü, ñ– es uno de los básicos), quise ver si funcionaba con textos escritos en español. Para ello preparé un pequeño corpus de dieciocho novelas escritas en español durante el siglo XIX o principios del XX (Eduardo Acevedo Díaz [3 textos], Benito Pérez Galdós [8 textos], Juan Valera [3 textos] y José María de Pereda [4 textos]), pero uno de los ficheros se etiquetó como anónimo. Este corpus está constituido por 1 361 448 palabras token y 244 690 palabras tipo y tan solo seleccionando 24 palabras tipo –a, al, como, con, de, del, el, en, la, las, le, lo, los, más, me, no, para, por, que, se, su, un, una e y–, aquellas cuya frecuencia relativa de aparición fuera >= .5, el análisis de agrupación por medio de la medida de la distancia euclidiana los reunió sin error alguno, como puede verse en el dendrograma correspondiente (fig. 1) y situó el texto marcado como anónimo entre las obras de Pérez Galdós, como efectivamente era, pues se trataba del Episodio Nacional Trafalgar.

 

Dendrograma de unas novelas española del XIX-XX

Dendrograma de unas novelas española del XIX-XX

Este pequeño experimento me convenció de que los análisis estilométricos computacionales son una herramienta útil para los estudios de filología, y que los «de letras» debemos hacer el pequeño esfuerzo de aprender a programar. No es necesario dominar las matemáticas que subyacen en estos análisis; hay montañas de frikis (desde nuestro punto de vista de filólogos, ellos dirán que los frikis somos nosotros) que crean paquetes y rutinas en varios lenguajes de programación (los mejores para nuestro trabajo los he encontrado escritos en R y Python) que realizan esos oscuros y complicados cálculos para que nosotros solo nos preocupemos de preparar los materiales, lo más tedioso, pues carecemos de buenas fuentes de textos electrónicos que podamos usar libremente, y que con un poco de habilidad (y enorme paciencia al principio) podamos escribir programitas en los que utilicemos los paquetes creados por los expertos en informática para analizar ciertos problemas de autoría y analizar e interpretar los resultados.

Uno de los problemas de autoría más intrigantes de la literatura española, y que posiblemente nunca tenga solución, es quién fue el autor del Lazarillo de Tormes. Recientemente, la catedrática de la Universidad de Barcelona, Rosa Navarro ha publicado una nueva edición del Lazarillo (Alianza Editorial, 2016) y en su portada consta como autor Alfonso de Valdés (1490-1532). Sin embargo, analizados informáticamente los textos de Alfonso de Valdés y los de otros sospechosos, o algunos posibles autores, como Juan de Valdés (1509-1541), Juan Arce de Otálora (1515/20-1562), Fray Luis de León (1525/28-1591), Diego Hurtado de Mendoza (1503/04-1575) y Francisco Cervantes de Salazar (1513/18-1575), con el mismo programita que utilizamos para averiguar si el fichero marcado como anónimo se asentaba entre las obras de su verdadero autor, hemos podido comprobar que ni de lejos pudo ser Alfonso de Valdés el autor del Lazarillo.

Dendrograma de posibles candidatos a la autoría de Lazarillo

Dendrograma de posibles candidatos a la autoría de Lazarillo

La estilometría, es decir, el estudio o análisis estadístico del estilo de un autor para tratar de establecer la posible autoría de un texto, se ha mostrado válida cuando se han hecho experimentos en los que todos los textos están perfectamente identificados (Fradejas Rueda, «El análisis estilométrico aplicado a la literatura española: las novelas policiacas e históricas»), por lo tanto se pueden usar con confianza en los textos más antiguos. Sin embargo, hay que tener en cuenta que si fallan, es decir, no lograr dar con el autor real, lo más probable es que se deba a que no se le han ofrecido a la máquina los términos de comparación válidos, es decir, textos del auténtico autor. Por otra parte, esos fallos también pueden ser aciertos en el sentido de que pueden servir para desestimar candidatos, como acabamos de hacer con Alfonso de Valdés.

 


José Manuel Fradejas Rueda (@JMFradeRue) es catedrático de Filología Románica en la Universidad de Valladolid donde enseña Lingüística románica y Tecnologías de la información aplicadas a la investigación en lengua española y en la actualidad es el IP del proyecto 7PartidasDigital financiado por el MINECO (FFI2016-75014-P).