Edición de datos
» Organización del procesamiento
La ejecución del procesamiento de datos Enigh 2024 conllevó previamente un proceso de organización que se inició desde el año 2021, con el levantamiento de requerimientos para el desarrollo de los sistemas informáticos asociados a codificación, revisión y validación de la información. También se elaboraron planes para la gestión de recursos humanos y materiales, la capacitación, estructura organizativa y cargas de trabajo, diagramas de flujo para la etapas de revisión y validación, consistencia agregada e imputación.
El plan para la fase de revisión y validación, contempló dos fases, una llamada validación 1, encargada de realizar la revisión de los formularios 1, 4.1 y 4.2, el cual buscaría detectar errores en la codificación de datos y en la consistencia de la información. La segunda fase, Validación 2, es una revisión de los formularios 2.1, 2.2 y 3, así como su detección de errores en la codificación y la consistencia de dicha información incluyendo la transformación y revisión de facturas.
» Proceso de validación y codificación
La Validación I se centró en el formulario 1, principal instrumento de la encuesta, revisando información de ingresos, características de la vivienda, condiciones del hogar, variables sociodemográficas, transferencias, deudas y situación laboral. Además, tuvo a cargo la codificación de variables clave (educación, sector institucional, rama de actividad y ocupación) y la revisión de los formularios 4.1 y 4.2 sobre gastos de salud, educación, transporte, vivienda, enseres domésticos, recreación, prendas de vestir, entre otros bienes y servicios de adquisición menos frecuente.
La Validación II revisó y codificó los artículos registrados en facturas y la información de los formularios 2.1, 2.2 y 3, verificando consistencia, correcta asignación de códigos Enigh y coherencia de pesos y tamaños. Para ambas etapas, los equipos de trabajo utilizaron un sistema informático de validación con reglas y alertas automáticas, útil para detectar errores de flujo y valores fuera de rango, pero con limitaciones (lentitud en cuanto a tiempos de carga, posibilidad de aceptar flujos erróneos) que obligaron a complementar con revisión manual.
Como parte del control de consistencia, ambos equipos debían revisar el balance financiero del hogar (ingresos vs. gastos corrientes), operando con un rango aceptable de ±30 %. Los casos fuera de ese rango requerían análisis y justificación, revisando anotaciones de campo, posibles omisiones o valores extremos. Aunque el balance fue una herramienta clave, su programación tuvo limitaciones estructurales, por lo que se reforzó con revisiones adicionales y consultas técnicas.
» Procesamiento de facturas
El equipo de Validación II también fue responsable del procesamiento de facturas de compra anexadas a los formularios de registro de gastos diarios, garantizando la correcta clasificación de bienes y servicios y la detección de valores atípicos en los gastos. El flujo de trabajo incluyó: captura de imágenes en campo (realizada por personal entrevistador), lectura mediante OCR en R, normalización y carga en plantillas de Excel con campos mínimos (código de barras, precio, descripción, cantidad y forma de pago), para luego ser integradas al sistema de gestión.
Una vez validadas las transcripciones, se aplicó una codificación automática basada en tablas de correlación entre códigos de barras y códigos Enigh; los casos sin equivalencia se codificaron manualmente. Posteriormente, las facturas quedaron disponibles en la interfaz de Validación II y, al ejecutarse el volcado, se integraron automáticamente a la base de gastos.
En términos de resultados, alrededor de 18% del gasto semanal de formularios 2.2 y 3 fue respaldado por facturas, con una participación relativamente baja de hogares que presentaron comprobantes (˜15% del total). El análisis por grupos de la clasificación internacional de gasto CCIF mostró una fuerte concentración del gasto en Alimentos y bebidas no alcohólicas (˜72%), seguido por Muebles, artículos y conservación del hogar y Bienes y servicios diversos, con una estructura similar a la observada en la Enigh 2018, lo que sugiere estabilidad en el patrón de consumo captado mediante facturas.
» Registro y comportamiento de inconsistencias
Durante el procesamiento se registraron 50 098 inconsistencias, de las cuales el 65,3% se clasificó como justificadas, el 30,7% como corregidas y el 4,0% como “No aplica”. La mayoría de las inconsistencias se resolvió sin modificar el dato, ya que muchas respuestas estaban correctamente registradas, pero el sistema las marcaba por reglas de rango o criterios programados.
Las secciones con mayor incidencia fueron: la sección G (Personas Ocupadas) y la sección R (Endeudamiento) del formulario 1, así como la sección A (Servicios Generales de la vivienda principal) del formulario 4.1. Esto permitió identificar áreas críticas para futuras mejoras en capacitación, diseño de los instrumentos de recolección y reglas de validación.
» Recursos técnicos y documentación estandarizada
Para reforzar la calidad de la revisión, el equipo técnico programó en R cerca de 90 reglas adicionales de inconsistencia, específicas para Validación I y II. Estas reglas permitieron detectar errores no contemplados en los sistemas de TI y generar reportes para la retroalimentación sistemática (por ejemplo: control de residentes no habituales, verificación de jefatura de hogar, afiliación a seguros privados sin gasto asociado, cruces entre formularios, etc.).
En Validación II se implementó además un archivo de control de valores extremos, que detectaba precios o cantidades inusuales por artículo, y un documento de preguntas frecuentes, actualizado de forma continua, que sistematizó consultas recurrentes y sus respuestas oficiales, estandarizando criterios entre validadores. A partir de octubre de 2024 se realizaron reuniones semanales de lectura guiada del documento de preguntas frecuentes, con el fin de unificar criterios y mejorar la consistencia del trabajo de validación.
» Limpieza y transformación de la base de datos de gastos
Una vez concluida la validación primaria, se efectuó una depuración adicional de la base de gastos para corregir problemas detectados en análisis posteriores (tablas cruzadas y pruebas de consistencia). Entre los ajustes más relevantes se encuentran:
- recodificación de códigos inválidos Enigh, asegurando concordancia con el diccionario oficial;
- ajustes de pesos y tamaños en alimentos, recalculando precio unitario y corrigiendo tamaños fuera de rango; alimentos recibidos de instituciones se recodificaron como tamaños pequeños;
- revisión y recálculo de la variable de equivalencia en peso (gramos/mililitros), con ajustes específicos para comedores escolares;
- tratamiento de códigos 6666 (gastos no especificados): reasignación a códigos válidos cuando la observación lo permitía y eliminación de los casos no clasificables;
- depuración de bienes no alimentarios eliminando peso y tamaño, y eliminación de códigos duplicados en F4.1;
- desagregación de seguros y juegos de azar en gasto de consumo y transferencias, conforme al SCN 2008, para mejorar su uso dentro de las estadísticas macroeconómicas;
- reclasificación de algunos gastos por servicios bancarios y corrección de inconsistencias entre medio de pago y lugar de adquisición;
- revisión de gastos de mantenimiento y reparación de la vivienda, ajustando la variable de tipo de reparación mediante reglas de monto, percentiles y códigos específicos, para diferenciar entre gastos de
consumo, consumo intermedio y formación de capital;
- imputación de gastos en planes médicos para hogares con seguro privado pero sin gasto registrado, usando donantes y medianas por quintil y estrato, y homologando el gasto bajo un código único; y
- proceso de neteo para bienes duraderos (vehículos y electrodomésticos), contrastando adquisición y venta para estimar gasto neto y evitar sobreestimación de gasto final en consumo a nivel agregado nacional.
Todos estos cambios fueron documentados y aplicados mediante scripts en R, manteniendo versiones progresivas de la base de datos, lo que permitió trazar las modificaciones y respaldar la calidad final de la información de gastos.
» Imputación de valores ausentes y omisiones
Ante la falta de respuesta evidente en los formularios de gasto en artículos y servicios de referencia diaria, principalmente alimentos, que debían registrarse en los formularios 2.2 y 3 durante una semana completa, se hizo necesario implementar la imputación por ausencia u omisión de información de estos tipos de gasto.
También se registró información con resultado "Ignorado" en ingresos y algunos pocos casos en el valor del gasto de otros tipos de artículos o servicios registrados en el formulario 4.2 relacionado a recordatorio de otros periodos (mensual, trimestral, semestral o anual).
Para completar la información y reducir el sesgo que esto puede ocasionar, se implementaron dos estrategias distintas de imputación de acuerdo a si la ausencia fue porque el dato era "desconocido" por la persona informante, como en el caso de los ingresos o gastos de periodos distintos al diario o semanal, o si se trató de información no declarada u "omitida" como sucede con los gastos de reporte diario que debían completarse en formularios de auto-llenado.
Para el primer caso se utilizó principalmente el método hot deck, utilizando donantes con características similares. Al ser pocos casos se definieron las variables de caracterización con criterio de experto según cada tipo de variable a imputar. También se utilizó para una variable particular un método simple de asignación de valor de vecino más próximo según covariables relacionadas.
Para la imputación por subregistro u omisión de gastos diarios, se utilizaron métodos como asignación por vecino más cercano, imputación por hot deck e imputación por vecino más cercano con regresión. El tipo y cantidad de registros a imputar se determinó con información sobre hábitos de compra de alimentos y otros de cuidado personal y mantenimiento del hogar (diario) que se solicitaron como información general a la persona informante en el formulario 2.1. Para estos casos, las covariables que determinaron la "vecindad" para seleccionar los donantes, estaban relacionadas a niveles de ingreso, tamaño del hogar y ubicación geográfica.