Proyecto de limpieza y transformación de datos

Resumen

Limpieza de los datos extraídos de una o varias fuentes para analizarlos o moverlos hacia otro destino. La limpieza puede consistir en filtrar, cambiar el formato y validar. Las fuentes y destino pueden ser archivos o bases de datos u otros sistemas operacionales.

Posibles escenarios

  • Una empresa que ha sustituido un sistema de gestión antiguo por uno nuevo, que no es compatible con el anterior.
  • Una empresa que quiere incorporar a la base de datos de su sistema de gestión la información almacenada en varios archivos Excel provenientes de distintos clientes y con distinto formato.
  • Una empresa necesita enviar información a sus clientes o proveedores. También puede necesitar recibir, procesar e integrar la información que le envían sus clientes y/o proveedores.
 

Tareas:

  1. Extracción: Recuperar los datos de las distintas fuentes de información. Por ejemplo, desde una base de datos de un ERP. Al finalizar dispondremos de los datos en bruto.
  2. Limpieza: Comprobar la calidad de los datos, eliminar los duplicados, corregir los valores erróneos y completar los valores en blanco.
  3. Validación: Validar la consistencia de los datos acorde a las definiciones y formatos del destino.
  4. Carga de datos: Añadir los nuevos datos al destino.

Metodología

  1. Entrevista con los clientes finales del proyecto para la recogida de las necesidades de información que determinarán las fuentes de los datos y el destino donde se almacenarán los datos una vez transformados.
  2. Estudio de los distintos orígenes de datos para determinar las transformaciones necesarias.
  3. Diseño del destino.
  4. Determinar la tecnología a utilizar, teniendo en cuenta los recursos de los clientes.
  5. Determinar la periodicidad de la carga.
  6. Se realiza todo el proceso de extracción, transformación y carga de datos.
  7. Se programa la actualización con la periodicidad requerida.