Proyecto de integración de datos

Resumen

Combinación de datos heterogéneos de varias fuentes diferentes para ser usados en una aplicación que los requiere con diferentes formato y estructura.

Los datos se extraen, se mezclan y se presentan de forma unificada. Por ejemplo, el conjunto completo de datos de un usuario puede incluir datos extraídos y combinados de marketing, ventas y operaciones, que se combinan para formar un informe completo.

Posibles escenarios

  • Una empresa tiene un sistema ERP para la gestión y control de los procesos y procedimientos de la empresa y un sistema CRM con la gestión de las ventas y los clientes da la empresa. Alguna información estaría duplicada en las dos bases de datos y pueden no ser correctos o no tener una visión única para todos los usuarios.
  • Una empresa puede almacenar los datos en diferentes bases de datos, aunque tengan la misma estructura, por ejemplo, los datos están consolidados por año o división.

Tareas:

  1. Extracción: Recuperar los datos de las distintas fuentes de información. Por ejemplo, desde una base de datos de un ERP. Al finalizar dispondremos de los datos en bruto.
  2. Limpieza: Comprobar la calidad de los datos, eliminar los duplicados, corregir los valores erróneos y completar los valores en blanco.
  3. Validación: Validar la consistencia de los datos acorde a las definiciones y formatos del destino.
  4. Integración de datos: Eliminar todas las inconsistencias de los datos. Uno de los principales problemas que surgen cuando se analizan sistemas heterogéneos, es la de identificar como una misma entidad, elementos que aparecen con nombres y descripciones diferentes, pero que se refieren a lo mismo. Se trata de un tipo de preparación de datos esencial para que las analíticas y otras aplicaciones sean capaces de utilizar los datos con éxito.
  5. Carga de datos: Añadir los nuevos datos al destino.

Metodología

  1. Entrevista con los clientes finales del proyecto para la recogida de las necesidades de información que determinarán las fuentes de los datos y el destino donde se almacenarán los datos una vez transformados.
  2. Estudio de los distintos orígenes de datos para determinar las transformaciones necesarias.
  3. Diseño del destino.
  4. Determinar la tecnología a utilizar, teniendo en cuenta los recursos de los clientes.
  5. Determinar la periodicidad de la carga.
  6. Se realiza todo el proceso de extracción, transformación y carga de datos.