Crónica del curso de verano DH@Madrid Summer School 2018

Bajo el título Aplicaciones y posibilidades del procesamiento del Lenguaje Natural para la Investigación en Humanidades por quinto año consecutivo, DH@Madrid Summer School 2018 ha tenido lugar en la UNED en su emblemático salón de actos Andrés Bello.

Durante los tres días de curso, se ha propuesta una introducción al Procesamiento del Lenguaje Natural centrado en su aplicación a los problemas propios de la investigación en Humanidades Digitales. De esta manera, el curso se ha dirigido a todos aquellos interesados en métodos digitales de investigación aplicados a las humanidades.

Nuevamente en esta oportunidad, los contenidos del curso, han podido seguirse de forma presencial y online, y ya se puede acceder en diferido.

Esta nueva edición del curso de verano ha contado entre otras, con la colaboración de las infraestructuras europeas de investigación CLARIN y DARIAH, así como de distintas redes de humanidades digitales, y ha sido organizado por el LINHD en el marco del proyecto POSTDATA.

DH@Madrid 2018

El lunes comenzó con la bienvenida y la presentación del curso por parte de los directores, Clara I. Martinéz Cantón y Salvador Ros Muñoz.

A continuación, Elena Álvarez Mellado, nos deleitó con su ponencia de “La lengua al microscopio: introducción básica al NLP desde Humanidades”, explicando las posibilidades que permiten las herramientas de la Lingüística computacional, mediante el análisis informático de grandes cantidades de textos. Su ponencia ha comenzado con una comparación entre el tabú que existía en época medieval en relación a la disección de cuerpos humanos para comprender su funcionamiento, y el peso de la tradición médica de Galeno, cuyas teorías estaban basadas principalmente en la observación, pero no se contrastaban. Explicó, además, las tareas básicas de un ordenador a la hora de procesar un texto.

 

La tarde del lunes se cerró con la presentación de Jennifer Edmond, Directora de proyectos estratégicos del Trinity Long Room Hub Arts & Humanities Research Institute, contándonos sobre la infraestructura DARIAH y de las ventajas de crear y compartir una infraestructura común que nos facilite el acceso a redes de trabajo y al conocimiento compartido entre diversos actores. De esta manera, tener una estructura también permite acercarse y ajustarse mejor a estándares como Open Science, incrementa las posibilidades de obtener financiación y promueve la sostenibilidad a lo largo del tiempo de los resultados. Permite además, estar al día de qué se está haciendo en el entorno de tu investigación.

El día martes, comenzó con la charla de Pablo Ruiz Fabo que ha introducido la noción expresión regular (regular expression- regex) y ha mostrado con diversos ejemplos y ejercicios cómo explorar un corpus de textos mediante el uso de regex, aprendiendo a modificar cadenas de texto eficazmente. La exposición teórica estuvo acompañada de ejercicios en donde se aprendieron, entre otras, las diferencias entre los elementos literales y los especiales. Durante su ponencia Pablo ha proporcionado una serie de enlaces donde poder usar las
expresiones regulares en Internet y también unos editores para poder descargarse en los ordenadores.

Mikel Iruskieta, investigador del Grupo IXA de la Universidad el País Vasco, exponía la potencialidad de Python y el lenguaje de programación para extraer o generar corpora textuales y explotarlos, guardando los resultados obtenidos. También, explicaba las tareas de PLN que pueden realizarse con Python, como la extracción de información de textos de distinto tipo, buscar términos en la web y comparar frecuencias, el desarrollo de programas basados en análisis lingüísticos y búsquedas basadas en diccionarios, guardando toda la información obtenida en XML. Asimismo, explicaba para qué podían ser útiles las infraestructuras del procesamiento del lenguaje, como CLARIN-K.

Por su parte, Mª Luisa Díez Platas, Investigadora del proyecto POSTDATA, se centró en la presentación de una herramienta que ha sido desarrollada en el Proyecto POSTDATA para el reconocimiento de entidades nombradas: Hispanic Medieval Tagger (HisMeTag). Constituye una de las tareas más importantes en la extracción de información y consiste en el reconocimiento y la clasificación de nombres de personas, lugares, organizaciones, expresiones numéricas, expresiones temporales, etc.  Su principal novedad es el reconocimiento de entidades nombradas en textos medievales. Pero, además, gracias a HisMeTag ha sido posible la creación de una taxonomía de entidades que puede servir de gran utilidad para los humanistas en su tarea de análisis de los textos.

La tarde del martes finalizó con la ponencia de Elena González-Blanco, investigadora principal del Proyecto POSTDATA y General Manager of Europe en CoverWallet. Elena comenzó con un repaso de lo que son las Humanidades Digitales y la situación actual, con el machine learning y la inteligencia artificial. Comentó que la inteligencia artificial es una etiqueta que engloba muchas cosas: reconocimiento facial o de escritura; máquinas que pueden llevar a cabo razonamientos complejos, como jugar al ajedrez; algoritmos complejos que se resuelven solos; los chatbots y los asistentes virtuales o los medios de transporte que se conducen solos. Son tecnologías diversas que se aplican a diferentes ámbitos, pero que todas tienen un punto en común: la transformación digital. No es la disciplina la que marca la diferencia, sino la tecnología y el tipo de materia sobre la que se aplica.

El último día de curso, comenzó con la charla de Antonio Robles de la UNED y José Manuel Fradejas de la Universidad de Valladolid. Se puso de manifiesto la necesidad de la interdisciplinariedad, uniendo el aspecto informático con el humanístico. En este sentido, el lenguaje R no solo sirve para el análisis de textos sino también para realizar análisis estadísticos y visualizaciones avanzadas. El profesor Fradejas explicó qué es la estilometría y señaló cuales son los libros reveladores en el campo de la estilometría para él. La charla de José Manuel también tuvo una gran parte de práctica para demostrar otras potencialidades del PLN.

A continuación, Gimena del Río, investigadora de CONICET- Argentina, explicó en qué consistía el proyecto Pelagios, y lo que es un gazetteer (una base de datos histórico-geográfica que permite trabajar en sistemas de información geográfica con coordenadas geotópicas). La estructura Pelagios está centrada en datos geográficos como entidades nombradas y trabaja distintas tecnologías: Linked Open Data, Geographical Information Systems, Natural Language Processing, GeoJson, XML-TEI, etc. Además su uso es muy intuitivo, como se pudo comprobar
durante la práctica.

La intervención de Helena Bermúdez Sabel, investigadora del Proyecto POSTDATA, fue de carácter eminentemente práctico. Comenzó, sin embargo, con una breve introducción sobre en qué consiste XML y sus ventajas respecto a otros formatos, al unir un lenguaje humano y uno informático. Así, la finalidad principal del lenguaje XML es la de modelar la estructura inherente y las propiedades semánticas de diversos documentos culturales por medio de hierarquías y estructuras ordenadas. Entre las aplicaciones prácticas de XML para las Humanidades Digitales cabe destacar la identificación de estrofas y versos y una serie de recursos estilísticos.

Para finalizar y a modo de colofón del curso, Enrique Vidal, catedrático de la Universidad Politécnica de Valencia, explica cómo llevar a la práctica en un proyecto de investigación, el Procesamiento del Lenguaje Natural. Hace algunas décadas numerosos investigadores vaticinaron el fin del papel como modelo de transmisión del texto escrito. Sin embargo, este vaticinio no se cumplió y hoy en día existe una buena cantidad de textos escritos a mano que no han sido procesados aún mediante herramienta informática alguna. Las tecnologías que se están desarrollando actualmente para procesar textos manuscritos son cada día más numerosas. Explicó que se han desarrollado tecnologías de interacción persona-máquina que permiten conseguir transcripciones perfectas con un esfuerzo mucho menor del que supondría una transcripción manual por parte de un ser humano. Estos son los llamados métodos interactivo-predictivos de transcripción asistida. Además, se han desarrollado tecnologías de predicción probabilística de texto en imágenes, que se pueden aplicar directamente a las imágenes sin tenerlas explícitamente transcritas.

¡¡¡Muchas gracias a todos por la participación…los esperamos el año que viene!!

 

LINHD asiste al DARIAH Annual Event 2018 en París

Los pasados días 22,23 y 24 de mayo ha tenido lugar en París (Francia) el Evento Anual de DARIAH (Digital Research Infrastructure for the Arts and Humanities), una  infraestructura en Humanidades Digitales que reúne investigadores de toda Europa, con el objetivo de apoyar la investigación y la enseñanza de métodos digitales. DARIAH cuenta actualmente con el apoyo de 17 países miembros y otros países cooperadores.

La Universidad Nacional de Educación a Distancia, a través del LINHD, forma parte del proyecto europeo DESIR (Proyecto Nº 731081), que se propone fortalecer la sostenibilidad de DARIAH y establecerlo firmemente como un líder a largo plazo y un socio dentro de las comunidades de artes y humanidades. La difusión de la tarea de DARIAH, así como la consolidación de su crecimiento, es la tarea de DESIR.

En este encuentro anual, centrado en el tema CIENCIA ABIERTA,  hemos asistido a sesiones plenarias, encuentros de grupos de trabajo y talleres. Se han abordado los problemas de la ciencia abierta en la infraestructura de investigación DARIAH, y cómo las humanidades pueden promover nuevas metodologías para la colaboración abierta.

 

DH@Madrid Summer School 2018- ¡Matrícula abierta!

La escuela de verano DH@Madrid Summer School 2018 es un evento anual que se organiza cada año desde 2014. En esta oportunidad, presentaremos el curso “Aplicaciones y posibilidades del procesamiento del lenguaje natural para la investigación en humanidades” que se  llevará a cabo entre los días 9 y 11 de julio de 2018 en la UNED. 

Este año, el curso DH@Madrid Summer School se propone ser una introducción al Procesamiento del Lenguaje Natural centrado en su aplicación a los problemas propios de la investigación en Humanidades Digitales. Su meta es introducir a los estudiantes con una formación en humanidades o ciencias sociales el contenido técnico buscando un enfoque claro y diverso, haciéndoles ver las distintas posibilidades a la hora de encarar su trabajo o investigación.

 

 

Contará ademas, con la colaboración de importantes expertos internacionales en Humanidades Digitales, tecnología semántica y procesamiento del lenguaje y estará dirigido a especialistas en Humanidades Digitales, lingüistas, investigadores, profesores, académicos, y estudiantes tanto de máster como de doctorado, preferentemente en disciplinas humanísticas, pero también en disciplinas como informática o ciencias de la información.

 

La escuela está cofinanciada por el proyecto ERC POSTDATA y la Fundación UNED.

                  ¡Entra en la página del curso: http://linhd.es/p/dh-verano-2018/ y no dudes en preguntarnos!

Jornada de Humanidades Digitales en Cuba

El pasado 25 de abril celebramos una jornada especial de humanidades digitales, en conmemoración del día mundial del libro. El evento, realizado en la Facultad de Comunicación de la Universidad de La Habana, fue organizado de forma colaborativa por el Laboratorio de Innovación de Humanidades Digitales (LINHD) de la UNED en España, el proyecto POSTDATA y el Grupo de Investigación HDCI (FCom) en Cuba. Además, contó con la participación del Laboratorio de Humanidades Digitales CAICYT – CONICET de Argentina.

Las actividades se publicaron en el blog del grupo de investigación académica cubano y pudo seguirse en Facebook en el grupo HDCI Cuba,  y en Twitter con los hashtags #vivelashumanidadesdigitales #jornadahumanidadesdigitales_HDCI_POSTDATA y #jornadahumanidadesdigitales_FCom

 

Vídeo de presentación https://youtu.be/to8WpVEQmFk

Nuestro equipo https://canal.uned.es/series/5ad85794b1111f98478b4569

Presentación del proyecto DESIR en la Jornada Red de Humanidades Digitales de la UAB

Entre los días 18 y 19 de abril de 2018, se realizaron las primeras Jornadas de la Red de Humanidades Digitales de la Universidad Autónoma de Barcelona (@XHumDigitUAB). El evento tuvo como objetivo visibilizar las humanidades digitales y mostrar los proyectos que desarrollan los grupos y centros de investigación en ese ámbito.

Allí estuvo Sulema Rodríguez-Roche, nuestra becaria de investigación, para presentar el proyecto DESIR, durante la mañana del 19 de abril, durante la mesa redonda Redes y Asociaciones de Humanidades Digitales, con la participación de la RedHD de México, la CSIC de Madrid y la propia organizadora Xarxa d’Humanitats Digitals de la UAB.

En la jornada del día 20 se realizó un Taller de Proyectos de Humanidades Digitales con la conducción David Domínguez Herbón (@herdado_hd) de la RedHD de México.

Todo el evento pudo seguirse en Twitter con el hashtag #humanitatsdigitalsUAB

POSTDATA imparte taller sobre datos abiertos enlazados en Würzburg

Durante este mes de abril algunos de los miembros de POSTDATA se desplazaron a Würzburg para impartir un taller sobre datos abiertos enlazados y sobre procesamiento del lenguaje natural.

Este evento fue organizado por el grupo de investigación CLiGS (Computational Literary Genre Stylistics) que está vinculado a la Universität Würzburg.

Del 23 al 25 de abril, los participantes de este taller tuvieron la oportunidad de explorar diferentes recursos de datos abiertos enlazados utilizando el lenguaje de consulta SPARQL. Además, hubo una sesión dedicada al enriquecimiento de corpus literarios con RDFa como mecanismo para traducir la compleja semántica de TEI a la Web. El tercer día estuvo centrado en el aprendizaje de diferentes técnicas de procesamiento del lenguaje natural. Con una marcada vertiente práctica, los miembros de GLiGS tuvieron tiempo para poder aplicar todas las herramientas presentadas.

El taller se clausuró con una charla titulada Linked Open Data: Unchain your corpora en la que se aprovechó para presentar algunos de los resultados obtenidos durante los días precedentes.

Agradecemos una vez más al grupo CLiGS por la excelente acogida que hicieron de nuestros miembros en Würzburg!

 

Presentación de trabajos de Helena Bermúdez Sabel y Sulema Rodríguez Roche

La investigadora e integrante de POSTDATA, Helena Bermúdez Sabel, junto a la profesora de la Universidad de la Habana, Sulema Rodríguez Roche, presentarán el próximo miércoles 11 de abril, sus trabajos de tesis doctoral en la Facultad de Ciencias Económicas y Empresariales de la UNED.

Moderado por la Profesora Clara Martínez Cantón, Helena Bermúdez presentarán su tesis sobre lingüística histórica y acdótica: edición digital del corpus trovadoresco gallego- portugués y, por su parte, Sulema Rodríguez, expondrá su trabajo sobre patrimonio digital cubano: propuesta de catálogo de datos enlazados para la Revista Infantil Pulgarcito, que ha realizado junto a Luis Miguel Rondón.

 

El evento tendrá lugar el 11 de abril en el salón ECO2 de la Facultad de Ciencias Económicas y Empresariales de 11 a 12hs.

 

 

 

Charla de José Manuel Fradejas Rueda: Estilometría, o lo que los números pueden contarnos de los textos

 

El martes 12 de diciembre, José Manuel Fradejas Rueda(Universidad de Valladolid) dará una charla titulada

“Estilometría, o lo que los números pueden contarnos de los textos”

El evento tendrá lugar el 12 de diciembre a las 10:15 en la Sala de juntas de la Facultad de Psicología de la UNED (Juan del Rosal, 10, Madrid).

José Manuel Fradejas es catedrático de Filología Románica en la Universidad de Valladolid. Sus líneas de investigación actuales comprenden la crítica textual, la lingüística histórica, la bibliografía, la Edición crítica de las Siete Partidas, la estilometría y el procesamiento de lenguaje natural. Ha editado textos castellanos, catalanes y portugueses de la Edad Media.

[Mapa] para el lugar del evento.


Resumen de la charla

La estilometría es el análisis estadístico del estilo literario. Lo que hacemos es reducir los textos a números y ver qué nos pueden contar que no nos cuentan tan solo las palabras. Es algo que los “científicos” han estado haciendo desde finales del siglo XIX. Desde entonces hasta ahora una sido un territorio explorado únicamente por los expertos en estadística. En esta comunicación mostraré que uno “de letras” puede hacerlo gracias a un lenguaje de programación llamado R y un montoncito de librerías que otros han programado y no solo puede hacerlo con textos del siglo XX y XXI, sino que puede utilizar los números para averiguar cosas sobre textos tan antiguos como las obras de Alfonso X, Ayala o la Celestina.

Picasso frontispiece Apollinaire Alcools

Charla de Anne-Sophie Bories: Sex, Wine and Statelessness. Apollinaire’s verse without borders in “Vendémiaire”

 

El viernes 24, Anne-Sophie Bories (Universidad de Basel) dará una charla titulada

Sex, Wine and Statelessness. Apollinaire’s verse without borders in “Vendémiaire”

El evento tendrá lugar el 24 de noviembre a las 10:00 en el Salón de Grados de la Facultad de Educación de la UNED (Juan del Rosal, 14, Madrid) y ha sido organizado por el proyecto POSTDATA.

Anne-Sophie Bories es investigadora en la Universidad de Basel. Recientemente ha organizado el congreso internacional Plotting Poetry / Machiner la poésie. Este congreso busca discutir enfoques computacionales al análisis de poesía, así como una evaluación crítica de la contribución de las herramientas informáticas al estudio de la poesía. Se trata de intereses cercanos a los objetivos de nuestro proyecto, POSTDATA, y de hecho pudimos asistir a Plotting Poetry este año.

Un resumen de la charla y más información sobre el trabajo de Anne-Sophie Bories se encuentran a continuación.

[Mapa] para el lugar del evento.


RESUMEN

Apollinaire gladly disrupts borders or many kinds. He disregards the boundaries of morality and good taste with his playful pornography and outrageous wit. He oversteps the limits of verse with his Calligrammes. He suppresses the nicely delineating punctuation from his poems. He bridges the prose-poetry gap by cutting up his own prose to create Retour de la maison des morts. He brings together free and strict verse in the same space, circulating between the two with no formal break.

“Vendémiaire” (Alcools, 1913), titled after the French Revolutionary Calendar’s windy month of grape-harvest, is an exemplary specimen of this liberty. It glorifies France and Paris, goes on to call for internationalism, wine and sex, all the way to a “universelle ivrognerie”. The versification follows a similar pattern, intially slipping from strict alexandrines to free verse, then back and forth until the two become closely blended. “Vendémiaire” offer a typical illustration of how Apollinaire rejects geographic limitations, with a somewhat naïve fantasy seeing all rivers of the world collide into one welcoming Paris.

“j’ai soif villes de France et d’Europe et du monde
venez toutes couler dans ma gorge profonde”

These two lines are soon followed by the notion of “vin pur”, making drunkenness a sacred state, and thirst a form of chastity. The sexual undertone of this “chanson de Paris” adds further texture to the mix, conjuring overlapping images of the city as a large-chested, enticing working-girl eager for oral sex and reckless partying. Such an overpowering, cosmopolitan, hypersexualized feminine figure is an undeniable allusion to his mother, the aristocratic, Polish-Russian, Vatican demimondaine dragging her stateless children across Europe and to Paris.

I shall combine close and distant readings, focussing my analyses on Apollinaire’s versification choices and their importance in the construction of meaning. The skilful oscillation of “Vendémiaire”’s versification, between the very strict and the very lax, just as the tone and contents of the poem blend piety and outrageousness, draws, in fine, an intimate image of the poet in his rootlessness, in his ambivalence towards any culturally or geographically fixed ethos, convention or limitation; for Apollinaire hovers, inevitably, on the border.


PONENTE

Anne-Sophie Bories es doctora por la Universidad Paris 3, y ha realizado estancias de investigación en UC Berkeley y la Universidad de Leeds. Para su tesis doctoral elaboró una amplia base de datos sobre la versificación de Raymond Queneau, aplicándola para procesos hermenéuticos. Su primer libro, Des Chiffres et de mètres [Cifras y metros] está en proceso de publicación, y se trata de un estudio de la versificación de Queneau. También ha publicado artículos de investigación sobre este tema. Anne-Sophie Bories se interesa sobre todo por aspectos formales de la poesía y ha recibido una subvención de la Swiss National Science Foundation para un proyecto sobre el verso libre, que está desarrollando en el Departamento de francés de la Universidad de Basel. A través de la combinación de minería de textos (text-mining) y lecturas tradicionales, su investigación busca patrones en un amplio corpus de verso libre, en colaboración con los laboratorios ATILF (Nancy), CRISCO (Caen) y DHLab (Basel).

Crónica del curso de verano DH@Madrid Summer School 2017

Bajo el título Tecnologías semánticas y herramientas lingüísticas para humanidades digitales/Semantic web technologies and language resoruces for digital humanities, por tercer año consecutivo la DH@Madrid Summer School 2017 de la UNED ha sido un hervidero de ideas y conocimientos sobre distintos métodos digitales de investigación aplicados a las Humanidades. Investigadores en Filología y Humanidades Digitales han podido aprender una gran variedad de herramientas tecnológicas con las que poder posicionar sus proyectos de investigación en el centro del actual contexto académico digital.

Los contenidos de este curso que, de nuevo, han podido seguirse de forma presencial y online, y a los que se podrá acceder en diferido, se han centrado en las tecnologías del lenguaje y, fundamentalmente, en las tecnologías semánticas. El curso de verano de Humanidades Digitales 2017 que está avalado por la infraestructura europea de investigación CLARIN, ha sido cofinanciado por uno de los proyectos que desarrolla el LINHD: POSDATA, que precisamente está basado en la aplicación de procedimientos semánticos para crear un modelo único que haga interoperables los datos pertenecientes a las distintas tradiciones poéticas.

Durante los tres días que ha durado el curso, eminentemente práctico, se ha demostrado la aplicación a proyectos de Humanidades de tecnologías como el lenguaje de programación R, especialmente para estudios de estilometría o métodos como las expresiones regulares.

La tarde del lunes se cerró trabajando sobre metadatos y testando el entorno virtual de investigación EVILINHD para la inclusión de esquemas de metadatos y vocabularios controlados. Aparte de las sesiones prácticas, también ha habido espacio para repasar los fundamentos de las Humanidades Digitales y seguir la trayectoria personal de mano de Susan Schreibman en la conferencia plenaria que abrió la mañana del miércoles.

Para todos aquellos que no conocían, o sabían poco acerca de la infraestructura CLARIN, se pudo visualizar su trabajo en la presentación de los proyectos de los centros Clarin-K españoles.

Los métodos y conceptos asociados a Linked Open Data estuvieron presentes a lo largo de todo el curso de verano, pero fue el último día cuando las sesiones se centraron en casos concretos de utilización los datos abiertos y enlazados en las Humanidades.