Descripción del seminario
La introducción al Big Data ha promovido el uso de nuevas fuentes de información en la producción de estadística oficial. Eso hace que sea necesario el uso de técnicas de text mining para analizar, extraer y recuperar información de estas fuentes. El seminario presenta la teoría básica de estas técnicas y las principales aplicaciones que se están llevando a cabo por el grupo de investigación Ixa de la EHU-UPV
Objetivos
El seminario desea abordar dos objetivos:
1. Proporcionar una visión general a los métodos fundamentales del procesamiento del lenguaje natural y text mining desde una perspectiva práctica. Introducir los conceptos básicos de preprocesado de textos así como las tareas básicas para crear aplicaciones que permitan extraer información de datos no estructurados como el texto.
2. Mostrar las aplicaciones de estas técnicas en casos concretos dentro de distintos ámbitos y su posible implementación en la Estadística Oficial.
Las aplicaciones de los métodos se realizarán con Python.
Aunque no es obligatorio, las personas asistentes que lo deseen podrán traer sus propios portátiles o dispositivos para seguir las prácticas.
Público objetivo
- Profesionales de la estadística
- Profesionales de la informática
- Analistas de textos
- Personal investigador en los ámbitos público y privado
jueves 24 de noviembre de 2022 de 9:00 a 14:00h.
1. Introducción al text mining y procesamiento del lenguaje natural (NLP)
La introducción se motivará como un compendio de técnicas de procesamiento y extracción de la información a partir de textos no estructurados.
2. Fases de preprocesado de textos
Se introducirán varios tipos de pipelines que cumplan los requerimientos de cada tipo de aplicación. Se verán técnicas de adquisición de datos, limpieza de textos, preprocesamiento, y extracción de atributos. Se ilustrará el uso de las librerías como SpaCy para el preprocesado de textos.
3. Text mining para clasificación de textos
Formalización de la clasificación de textos como tarea base para varias aplicaciones NLP como análisis de sentimientos. Se definirán métodos y métricas de evaluación de modelos supervisados. Se ilustrará el uso de la librería FLAIR para la clasificación de textos.
viernes 25 de noviembre de 2022 de 9:00 a 14:00h.
4. Introducción a la extracción de la información
Introducción de técnicas y tareas para la extracción de la información a partir de textos no estructurados. Se presentarán técnicas para identificar las partes relevantes del texto y producir representaciones estructuradas que permitan organizar la información de forma eficaz y a la vez doten de mayor capacidad de inferencia a laos algoritmos actuales.
5. Text mining para etiquetado de secuencias
Formalización de etiquetado de secuencias como tarea base para varias aplicaciones de NLP como la extracción de entidades. Se describirán diferentes formas de representar el texto mediante embedding estáticos y contextuales.
Se definirán métodos y métricas de evaluación de modelos supervisados. Se ilustrará el uso de la librería FLAIR para la clasificación de textos.
6. Análisis de textos para las ciencias sociales
Introduciremos formas para inducir datos estructurados de forma no supervisada mediante modelos probabilísticos. Se presentarán formas de visualización de datos útiles para poner en marcha lo aprendido hasta ahora.
Referencias bibliográficas:
- Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. (2020). Practical Natural Language Processing. O'Reilly Media, Inc.
- Jacob Eisentein. (2009). Introduction to Natural Language Processing. MIT Press Ltd.
- Dirk Hovy. (2021). Text Analysis in Python for Social Scientists. Cambridge University Press.
Oier Lopez de Lacalle
Doctor en Ingeniería Informática por la Universidad del País Vasco (UPV/EHU) y profesor adjunto del Departamento de Lenguajes y Sistemas Informáticos de la Universidad del País Vasco. Hizo el postdoctorado en la Universidad de Edimburgo. Sus principales intereses de investigación son la extracción de información usando modelos de deep learning, la exploración de métodos de aumento de datos para abordar problema de escasez de datos, y desarrollo de representaciones multimodales en escenarios visio-textuales.
Modalidades: presencial y online
Plazo de inscripción: del 14 de octubre al 14 de noviembre
Tarifa ordinaria: 133,60€
Tarifa reducida (*): 43,67€
(*) para estudiantes universitarios y personas licenciadas y/o graduadas en paro que así lo acrediten.
Pinche en el siguiente botón para inscribirse: Inscripción