5 cosas que deberías validar siempre al final de un ETL

5 cosas que deberías validar siempre al final de un ETL

5 cosas que deberías validar siempre al final de un ETL

En el ámbito del Business Intelligence, la confianza es un activo frágil. Un informe visualmente impecable en Power BI pierde todo su valor si los datos subyacentes son incorrectos. Por ello, el éxito de un proyecto de datos no radica solo en la visualización, sino en la certeza de que el proceso de extracción, transformación y carga (ETL) ha funcionado con precisión milimétrica. Tener un KPI con datos imprecisos es peor que no tenerlo. Para evitar decisiones basadas en información errónea, es fundamental automatizar cinco validaciones clave al finalizar cada carga.

1. Completitud y Volumetría: ¿Ha llegado todo?

Es la validación más básica pero la más importante. Debes verificar que no se ha perdido información por el camino (“data loss”).

  • Qué validar: Compara el número de filas (Row Count) del origen con el destino.
  • Por qué importa: Si tu sistema origen dice que hubo 1.000 ventas ayer y tu Data Warehouse solo muestra 950, tus informes financieros estarán descuadrados. Asegúrate de que la suma de importes o el conteo de registros cuadre perfectamente antes de dar la carga por buena.

2. Integridad Referencial: Evita los “Blanks” en Power BI

Este es un dolor de cabeza habitual en Power BI. Ocurre cuando tienes ventas asociadas a un producto o cliente que no existe en tus tablas maestras.

  • Qué validar: Que todas las claves foráneas (ej. ID_Producto en la tabla de Ventas) existan en su tabla de dimensión correspondiente (tabla de Productos).
  • Por qué importa: Si esta validación falla, Power BI generará automáticamente una fila en blanco o “(Blank)” en tus filtros y gráficos. Esto confunde a los usuarios y genera desconfianza inmediata en el reporte.
sintitulo

3. Unicidad: Cuidado con los duplicados

En los modelos de datos estrella, las tablas de dimensiones (Clientes, Productos, Tiendas) deben tener una clave única.

  • Qué validar: Asegúrate de que no existen IDs duplicados en tus tablas maestras.
  • Por qué importa: Los duplicados rompen las relaciones “Uno a Varios” (1:Many). Si Power BI detecta un ID duplicado en el lado “Uno” de la relación, la actualización del informe fallará por completo, dejando a tus usuarios sin datos actualizados hasta que lo corrijas.

 

4. Calidad y Formato: Datos limpios, decisiones claras

A veces los datos llegan, pero llegan “sucios”. Un campo de fecha con texto, o un campo numérico con valores nulos donde deberían ser ceros.

  • Qué validar: Revisa que no haya valores NULL en campos críticos (como importes o claves primarias) y que los formatos sean consistentes (ej. que “España”, “ESP” y “Spain” estén normalizados a un solo valor).
  • Por qué importa: Los nulos pueden comportarse de forma impredecible en los cálculos DAX (promedios, sumas), distorsionando tus KPIs sin que te des cuenta.

 

5. Frescura del Dato: ¿Es información de hoy o de ayer?

En la era de la inmediatez, un dato correcto pero antiguo puede ser irrelevante.

  • Qué validar: Comprueba la fecha de la última carga (LastModifiedDate). Verifica que la fecha máxima de tus datos corresponde con lo esperado (ej. “ayer” o “hace 1 hora”).
  • Por qué importa: A veces los procesos ETL se “cuelgan” o no traen datos nuevos, pero no generan error. Si no validas la frescura, los directivos podrían estar tomando decisiones hoy basándose en la realidad de la semana pasada.

La automatización de estas validaciones no es un lujo, sino una necesidad operativa. Integrar estas validaciones como pasos bloqueantes en el flujo de trabajo garantiza que solo la información veraz llegue a los cuadros de mando, transformando el rol del equipo de datos de “apagafuegos” a guardianes de la calidad.