XXXV SEMINARIO INTERNACIONAL DE ESTADÍSTICA: Calidad de las estadísticas basadas en múltiples fuentes
Fecha: 13-14 de marzo de 2024
Modalidades: presencial y online
Lugar: Gobierno Vasco, Lakua, Sala Euskaldun Berria
c/ Donostia-San Sebastián, 1; 01010 Vitoria-Gasteiz
Hora: 9 a 14h.
Idioma: Inglés (disponible traducción simultánea al castellano)
Duración: 10 h.
Este seminario se imparte de forma presencial, pero ofrecemos la oportunidad de participar online en directo. Por favor, marque su preferencia en el formulario de inscripción.
- Descripción
- Programa
- Profesorado
- Inscripción
Descripción del seminario
Muchas oficinas de estadística, especialmente en Europa, están transitando de las estadísticas tradicionales basadas en una única fuente a estadísticas que utilizan múltiples fuentes de datos. Al combinar diversas fuentes, se pueden generar estadísticas más detalladas y oportunas y responder de manera más rápida a los eventos y cambios que se producen en la sociedad. La fusión de datos procedentes de encuestas con datos administrativos y Big Data, puede ahorrar costes de recogida y procesamiento, al tiempo que aliviar la carga sobre las unidades encuestadas. Sin embargo, las estadísticas basadas en múltiples fuentes presentan nuevos retos en cuanto a su producción eficiente y a la medida de calidad de los resultados. En este seminario, presentaremos y discutiremos algunas técnicas que se han desarrollado en los últimos años para abordar las estadísticas basadas en múltiples fuentes y, en particular, enfoques que se pueden utilizar para evaluar la calidad de las estimaciones resultantes.
Objetivos
El seminario desea abordar tres objetivos:
1. Proporcionar una visión general de los problemas y situaciones que surgen al intentar producir estadísticas basadas en múltiples fuentes.
2. Discutir los métodos que se pueden utilizar para producir este tipo de estadísticas.
3. Explicar nuevos enfoques para evaluar la precisión de las estimaciones obtenidas mediante estos métodos.
Las aplicaciones de los métodos y enfoques discutidos se llevarán a cabo utilizando el programa R y R Studio. Para algunas aplicaciones, será necesario instalar ciertos paquetes de R, como poLCA, plyr y dplyr.
Opcionalmente, las personas asistentes que lo deseen podrán traer sus propios portátiles o dispositivos para seguir las prácticas.
Público objetivo
- Profesionales de la estadística
- Profesionales de las tecnologías de la información y comunicación
- Profesionales de la ciencia de datos
- Estudiantes y personal investigador en los ámbitos público y privado
Miércoles 13 de marzo de 2024 de 9:00 a 14:00h.
1. Introducción a (la medición de la calidad de) estadísticas basadas en múltiples fuentes
Estadísticas basadas en múltiples fuentes vs. estadísticas de una sola fuente. Configuraciones de datos en estadísticas de múltiples fuentes. Tipos de errores que pueden ocurrir en estas estadísticas.
2. El Bootstrap
Descripción de la técnica bootstrap para medir la precisión de las estadísticas, especialmente la varianza.
3. Corrección de errores de no respuesta (parcial)
No-respuesta parcial. Estimación de la varianza debida al muestreo y a la imputación. Introducción a la Imputación Múltiple (MI) como un enfoque alternativo.
Jueves 14 de marzo de 2024 de 9:00 a 14:00h.
4. Uso del Análisis de Clases Latentes para corregir errores de medición
Corrección de valores en variables categóricas presentes en múltiples fuentes de datos. Introducción a la técnica de Análisis de Clases Latentes (LCA) y su combinación con MI para estimar la varianza de los datos corregidos, conocida como MILC.
5. Corrección de errores de selección
Utilización de pseudo-pesos para corregir errores de selección en muestras no probabilísticas. Uso del bootstrap para estimar la varianza en las estimaciones resultantes.
6. Corrección de errores de infra-cobertura
Técnica de captura/recaptura para estimar el tamaño de (sub)poblaciones no conocidos. Cálculo de la varianza de las estimaciones del tamaño de la población. Ejemplo: Estimación del número de personas sin hogar en los Países Bajos.
Referencias bibliográficas:
- Agafitei, M., F. Gras, W. Kloek, F. Reis y S. Váju (2015), Medición de la Calidad de los Outputs para Estadísticas basadas en múltiples fuentes en la Estadística Oficial: Algunas directrices. Statistical Journal of the IAOS 31, pp. 203–211. (Introducción/Bootstrap)
- Bishop, Y.M.M., S.E. Fienberg y P.W. Holland (1975), Análisis Multivariante Discreto. MIT press. (Infra-cobertura)
- Boeschoten, L., D. Oberski y T. de Waal (2017), Estimación de Errores de Clasificación bajo Restricciones de Edición en Datos Compuestos de Encuestas-Registro mediante Modelado de Clases Latentes de Imputación Múltiple (MILC). Journal of Official Statistics 33, pp. 921–962. (Análisis de Clases Latentes)
- De Waal, T., A. van Delden y S. Scholtus (2020), Estadísticas de Múltiples Fuentes: Situaciones y Métodos Básicos. International Statistical Review 88, pp. 203–228. (Introducción)
- Efron, B. y R.J. Tibshirani. (1993). Introducción al Bootstrap. Londres: Chapman & Hall/CRC. (Bootstrap)
-
- Liu, A.-C., S. Scholtus y T. de Waal (2023), Corrección de Sesgo de Selección en Big Data mediante pseudo-elevación. Journal of Survey Statistics and Methodology 11, pp. 1181–1203. (Error de selección)
- Van Delden, A., Scholtus, S. y Burger, J. (2016). Precisión de Estadísticas de Origen Mixto afectada por Errores de Clasificación. Journal of Official Statistics 32: 619–642. (Bootstrap para errores de clasificación)
Arnout van Delden
Arnout van Delden estudió protección de cultivos en la Universidad de Wageningen. En 2001 obtuvo su doctorado utilizando varios estudios de simulación y análisis estadísticos. Desde 2001 trabaja en Statistics Netherlands, donde actualmente es metodólogo senior. Ha investigado sobre el uso de datos administrativos y, desde 2016, trabaja en métodos de integración de datos. Sus áreas de investigación incluyen el enlace de fuentes con diferentes tipos de unidades, enlace de encuestas,cuantificación de errores de medida, uso de técnicas de machine learning y text mining en estadísticas oficiales, y medición de la calidad en la recogida, procesamiento y estimación de datos administrativos y estadísticas basadas en múltiples fuentes. Contribuyó a varios proyectos europeos y es coeditor de un libro reciente (2023) sobre estadísticas comerciales.
Ton de Waal
Ton de Waal estudió matemáticas en la Universidad de Leiden y en la Universidad Tecnológica de Eindhoven. En 1993, comenzó a trabajar en Statistics Netherlands, donde actualmente es metodólogo senior. Obtuvo su doctorado en 2003. Desde 2014, Ton es también profesor en Integración de Datos en la Universidad de Tilburg. Es coautor de dos libros sobre técnicas de control de secreto estadístico y un libro sobre edición e imputación de datos estadísticos. Sus campos actuales de interés incluyen la imputación de datos faltantes, corrección de errores de medida, corrección de errores de selección, corrección de errores de fusión, combinación de estimaciones para muestras probabilísticas y no probabilísticas, enlace de encuestas y medición de la calidad en estadísticas elaboradas a partir de múltiples fuentes.
Modalidades: presencial y online
Plazo de inscripción: del 5 de febrero al 4 de marzo
Tarifa ordinaria: 133,60€
Tarifa reducida (*): 43,67€
(*) para estudiantes universitarios y personas licenciadas y/o graduadas en paro que así lo acrediten.
Pinche en el siguiente botón para inscribirse: Inscripción