Thyssen

LINHD imparte en el Museo Thyssen el curso: “Introducción a la Web semántica, datos abiertos enlazados”

 

LINHD imparte un curso al personal del Museo Thyssen, esta acción formativa se desarrollará en seis sesiones durante el mes de octubre. Hoy se ha realizado la apertura del curso a la que han asistido Elena González-Blanco, directora general de CoverWallet en Europa y Salvador Ros, IP del Proyecto DESIR.

El curso estará dirigido por las profesoras:
Dra. Mª Luisa Díez Platas
LINHD-UNED
Helena Bermúdez Sabel
LINHD-UNED

El objetivo del curso es ofrecer una visión general de conceptos y recursos necesarios para la comprensión de modelos de datos, que permiten estructurar y manejar la información en proyectos de humanidades digitales, hacerla accesible para que pueda ser compartida y enlazada.
Con este objeto, es necesario hacer una revisión de conceptos básicos sobre los datos y los metadatos, sus formas de almacenamiento y mantenimiento mediante el uso de bases de datos relacionales tradicionales, y otros tipos de bases de datos orientadas a documentos y datos abiertos enlazados. Esta revisión implica un acercamiento al diseño e interpretación de los modelos conceptuales de datos y a las formas de almacenamiento, estructuración, la extracción y manipulación, orientadas al trabajo y visualización.
Por otro lado, y dado el impacto de la web semántica y los datos abiertos enlazados, se hace necesario acometer el estudio del estado de la web de los datos, conocer los conceptos y aplicaciones de la web semántica, orientado al almacenamiento, manipulación, compartición, visualización de los datos y conocer los estándares de datos que se usan en la actualidad para facilitar la interoperabilidad de los datos.
Con esto se pretende dotar a los asistentes al curso de la capacidad de diseñar un modelo de conocimiento asociado al campo de interés con el objeto de construir un modelo propio, a partir de los conceptos necesarios para representar los datos y publicarlos de forma que puedan ser enlazados y consultados.

 

Thyssen

 

Metodogía
• El curso se imparte de forma presencial con apoyo de plataforma educativa
• Se aportará la documentación teórica necesaria para la asimilación de conceptos.
• Se realizarán ejemplos prácticos sencillos que permitan probar los conceptos asimilados y acometer el diseño del modelo de datos para el campo de conocimiento concreto, museos y obras de arte, dotándolos de las características necesarias para que pueden ser manipulados como datos abiertos enlazados.

Temario

Tema 1. Datos y metadatos

1. De la información a los datos estructurados
2. Modelos de datos
3. Bases de datos para humanidades.
a. Bases de datos relacionales. Conceptos básicos
b. Bases de datos documentales. Modelos de agregación
4. Los metadatos.
Tema 2. Web de los datos y web semántica
1. Estado actual
2. Los datos abiertos enlazados. Puntos de debate
3. Reutilización e interoperabilidad
Tema 3. Modelo semántico y ontologías. RDFS
1. Definición y conceptos
2. Ventajas e inconvenientes del uso de ontologías
3. Clasificación de ontologías
4. Introducción al modelado de ontologías
5. Lenguajes de modelado de ontologías : OWL
Tema 4. RDF como marco de descripción de recursos

1. El modelo de datos RDF. Estructuración de los datos
2. Identificadores únicos (URIs)
3. Estructura de un documento RDF
4. Bases de datos para RDF. Consultas
Tema 5. Vocabularios y estándares de metadatos
1. Características y reutilización
2. Taxonomías, tesauros y vocabularios controlados
3. Vocabularios y esquemas para modelar la información de proyectos de patrimonio cultural
a. Modelo de referencia conceptual CIDOC .
b. Vocabularios y ontologías de Getty. Tesauro de arte y arquitectura.

c. El sistema de clasificación para arte e iconografía Iconclass.
d. Modelo de datos de Europeana
e. Revisión de vocabularios para museos registrados en BARTOC .
1. Modelo de datos del Museo del Prado y del British Museum

Tema 6. Publicación de datos

1. Reglas para la publicación y registro
2. Conjuntos de datos (datasets) y enlazado

 

METODOLOGÍA
El curso se impartirá de forma presencial los martes y jue ves de 10-13 horas.
Cada una de las clases constará de una parte teórica mediante una presentación sobre los conceptos del tema correspondiente y una práctica en la que se propondrá la realización de ejercicios haciendo uso de las herramientas oportunas, con el objeto de probar los conceptos asimilados y acometer el diseño del modelo de datos para el campo de conocimiento concreto, museos y obras de arte, dotándolos de las características necesarias para que pueden ser manipulados como datos abiertos enlazados.

Seguimos con nuestra apuesta por las Humanidades Digitales, a través de la formación y la puesta en práctica, con proyectos reales y consolidados. Si quieres formarte en Humanidades Digitales y, en Diseño y desarrollo de aplicaciones y entornos Web. No dudes en visitar nuestras páginas de formación.

Crónica del curso de verano DH@Madrid Summer School 2018

Bajo el título Aplicaciones y posibilidades del procesamiento del Lenguaje Natural para la Investigación en Humanidades por quinto año consecutivo, DH@Madrid Summer School 2018 ha tenido lugar en la UNED en su emblemático salón de actos Andrés Bello.

Durante los tres días de curso, se ha propuesta una introducción al Procesamiento del Lenguaje Natural centrado en su aplicación a los problemas propios de la investigación en Humanidades Digitales. De esta manera, el curso se ha dirigido a todos aquellos interesados en métodos digitales de investigación aplicados a las humanidades.

Nuevamente en esta oportunidad, los contenidos del curso, han podido seguirse de forma presencial y online, y ya se puede acceder en diferido.

Esta nueva edición del curso de verano ha contado entre otras, con la colaboración de las infraestructuras europeas de investigación CLARIN y DARIAH, así como de distintas redes de humanidades digitales, y ha sido organizado por el LINHD en el marco del proyecto POSTDATA.

DH@Madrid 2018

El lunes comenzó con la bienvenida y la presentación del curso por parte de los directores, Clara I. Martinéz Cantón y Salvador Ros Muñoz.

A continuación, Elena Álvarez Mellado, nos deleitó con su ponencia de “La lengua al microscopio: introducción básica al NLP desde Humanidades”, explicando las posibilidades que permiten las herramientas de la Lingüística computacional, mediante el análisis informático de grandes cantidades de textos. Su ponencia ha comenzado con una comparación entre el tabú que existía en época medieval en relación a la disección de cuerpos humanos para comprender su funcionamiento, y el peso de la tradición médica de Galeno, cuyas teorías estaban basadas principalmente en la observación, pero no se contrastaban. Explicó, además, las tareas básicas de un ordenador a la hora de procesar un texto.

 

La tarde del lunes se cerró con la presentación de Jennifer Edmond, Directora de proyectos estratégicos del Trinity Long Room Hub Arts & Humanities Research Institute, contándonos sobre la infraestructura DARIAH y de las ventajas de crear y compartir una infraestructura común que nos facilite el acceso a redes de trabajo y al conocimiento compartido entre diversos actores. De esta manera, tener una estructura también permite acercarse y ajustarse mejor a estándares como Open Science, incrementa las posibilidades de obtener financiación y promueve la sostenibilidad a lo largo del tiempo de los resultados. Permite además, estar al día de qué se está haciendo en el entorno de tu investigación.

El día martes, comenzó con la charla de Pablo Ruiz Fabo que ha introducido la noción expresión regular (regular expression- regex) y ha mostrado con diversos ejemplos y ejercicios cómo explorar un corpus de textos mediante el uso de regex, aprendiendo a modificar cadenas de texto eficazmente. La exposición teórica estuvo acompañada de ejercicios en donde se aprendieron, entre otras, las diferencias entre los elementos literales y los especiales. Durante su ponencia Pablo ha proporcionado una serie de enlaces donde poder usar las
expresiones regulares en Internet y también unos editores para poder descargarse en los ordenadores.

Mikel Iruskieta, investigador del Grupo IXA de la Universidad el País Vasco, exponía la potencialidad de Python y el lenguaje de programación para extraer o generar corpora textuales y explotarlos, guardando los resultados obtenidos. También, explicaba las tareas de PLN que pueden realizarse con Python, como la extracción de información de textos de distinto tipo, buscar términos en la web y comparar frecuencias, el desarrollo de programas basados en análisis lingüísticos y búsquedas basadas en diccionarios, guardando toda la información obtenida en XML. Asimismo, explicaba para qué podían ser útiles las infraestructuras del procesamiento del lenguaje, como CLARIN-K.

Por su parte, Mª Luisa Díez Platas, Investigadora del proyecto POSTDATA, se centró en la presentación de una herramienta que ha sido desarrollada en el Proyecto POSTDATA para el reconocimiento de entidades nombradas: Hispanic Medieval Tagger (HisMeTag). Constituye una de las tareas más importantes en la extracción de información y consiste en el reconocimiento y la clasificación de nombres de personas, lugares, organizaciones, expresiones numéricas, expresiones temporales, etc.  Su principal novedad es el reconocimiento de entidades nombradas en textos medievales. Pero, además, gracias a HisMeTag ha sido posible la creación de una taxonomía de entidades que puede servir de gran utilidad para los humanistas en su tarea de análisis de los textos.

La tarde del martes finalizó con la ponencia de Elena González-Blanco, investigadora principal del Proyecto POSTDATA y General Manager of Europe en CoverWallet. Elena comenzó con un repaso de lo que son las Humanidades Digitales y la situación actual, con el machine learning y la inteligencia artificial. Comentó que la inteligencia artificial es una etiqueta que engloba muchas cosas: reconocimiento facial o de escritura; máquinas que pueden llevar a cabo razonamientos complejos, como jugar al ajedrez; algoritmos complejos que se resuelven solos; los chatbots y los asistentes virtuales o los medios de transporte que se conducen solos. Son tecnologías diversas que se aplican a diferentes ámbitos, pero que todas tienen un punto en común: la transformación digital. No es la disciplina la que marca la diferencia, sino la tecnología y el tipo de materia sobre la que se aplica.

El último día de curso, comenzó con la charla de Antonio Robles de la UNED y José Manuel Fradejas de la Universidad de Valladolid. Se puso de manifiesto la necesidad de la interdisciplinariedad, uniendo el aspecto informático con el humanístico. En este sentido, el lenguaje R no solo sirve para el análisis de textos sino también para realizar análisis estadísticos y visualizaciones avanzadas. El profesor Fradejas explicó qué es la estilometría y señaló cuales son los libros reveladores en el campo de la estilometría para él. La charla de José Manuel también tuvo una gran parte de práctica para demostrar otras potencialidades del PLN.

A continuación, Gimena del Río, investigadora de CONICET- Argentina, explicó en qué consistía el proyecto Pelagios, y lo que es un gazetteer (una base de datos histórico-geográfica que permite trabajar en sistemas de información geográfica con coordenadas geotópicas). La estructura Pelagios está centrada en datos geográficos como entidades nombradas y trabaja distintas tecnologías: Linked Open Data, Geographical Information Systems, Natural Language Processing, GeoJson, XML-TEI, etc. Además su uso es muy intuitivo, como se pudo comprobar
durante la práctica.

La intervención de Helena Bermúdez Sabel, investigadora del Proyecto POSTDATA, fue de carácter eminentemente práctico. Comenzó, sin embargo, con una breve introducción sobre en qué consiste XML y sus ventajas respecto a otros formatos, al unir un lenguaje humano y uno informático. Así, la finalidad principal del lenguaje XML es la de modelar la estructura inherente y las propiedades semánticas de diversos documentos culturales por medio de hierarquías y estructuras ordenadas. Entre las aplicaciones prácticas de XML para las Humanidades Digitales cabe destacar la identificación de estrofas y versos y una serie de recursos estilísticos.

Para finalizar y a modo de colofón del curso, Enrique Vidal, catedrático de la Universidad Politécnica de Valencia, explica cómo llevar a la práctica en un proyecto de investigación, el Procesamiento del Lenguaje Natural. Hace algunas décadas numerosos investigadores vaticinaron el fin del papel como modelo de transmisión del texto escrito. Sin embargo, este vaticinio no se cumplió y hoy en día existe una buena cantidad de textos escritos a mano que no han sido procesados aún mediante herramienta informática alguna. Las tecnologías que se están desarrollando actualmente para procesar textos manuscritos son cada día más numerosas. Explicó que se han desarrollado tecnologías de interacción persona-máquina que permiten conseguir transcripciones perfectas con un esfuerzo mucho menor del que supondría una transcripción manual por parte de un ser humano. Estos son los llamados métodos interactivo-predictivos de transcripción asistida. Además, se han desarrollado tecnologías de predicción probabilística de texto en imágenes, que se pueden aplicar directamente a las imágenes sin tenerlas explícitamente transcritas.

¡¡¡Muchas gracias a todos por la participación…los esperamos el año que viene!!

 

LINHD asiste al DARIAH Annual Event 2018 en París

Los pasados días 22,23 y 24 de mayo ha tenido lugar en París (Francia) el Evento Anual de DARIAH (Digital Research Infrastructure for the Arts and Humanities), una  infraestructura en Humanidades Digitales que reúne investigadores de toda Europa, con el objetivo de apoyar la investigación y la enseñanza de métodos digitales. DARIAH cuenta actualmente con el apoyo de 17 países miembros y otros países cooperadores.

La Universidad Nacional de Educación a Distancia, a través del LINHD, forma parte del proyecto europeo DESIR (Proyecto Nº 731081), que se propone fortalecer la sostenibilidad de DARIAH y establecerlo firmemente como un líder a largo plazo y un socio dentro de las comunidades de artes y humanidades. La difusión de la tarea de DARIAH, así como la consolidación de su crecimiento, es la tarea de DESIR.

En este encuentro anual, centrado en el tema CIENCIA ABIERTA,  hemos asistido a sesiones plenarias, encuentros de grupos de trabajo y talleres. Se han abordado los problemas de la ciencia abierta en la infraestructura de investigación DARIAH, y cómo las humanidades pueden promover nuevas metodologías para la colaboración abierta.

 

, , ,

Jornada de Humanidades Digitales en Cuba

El pasado 25 de abril celebramos una jornada especial de humanidades…
Picasso frontispiece Apollinaire Alcools