Proyecto de creación de un almacén de datos

Resumen

Consiste en la creación de una base de datos con la información que es relevante para la toma de decisiones y que tiene una estructura que facilita su análisis. Las fuentes de los datos pueden ser los sistemas internos de la empresa y también sistemas externos, por ejemplo, proveedores, clientes o incluso datos públicos de la competencia.

Posibles escenarios

  • Una empresa tiene un sistema ERP para la gestión y control de los procesos y procedimientos de la empresa y un sistema CRM con la gestión de las ventas y los clientes de la empresa y necesita tener los datos consolidados para poder dar soporte a la toma de decisiones de la empresa. Se trata de conseguir tener todos los datos juntos para después poder dividirlos para hacer un análisis de determinados sectores o estrategias.

Tareas:

  1. Extracción: Recuperar los datos de las distintas fuentes de información. Por ejemplo, desde una base de datos de un ERP. Al finalizar dispondremos de los datos en bruto.
  2. Limpieza: Comprobar la calidad de los datos, eliminar los duplicados, corregir los valores erróneos y completar los valores en blanco.
  3. Validación: Validar la consistencia de los datos acorde a las definiciones y formatos del destino.
  4. Integración de datos: Eliminar todas las inconsistencias de los datos. Uno de los principales problemas que surgen cuando se analizan sistemas heterogéneos, es la de identificar como una misma entidad, elementos que aparecen con nombres y descripciones diferentes, pero que se refieren a lo mismo. Se trata de un tipo de preparación de datos esencial para que las analíticas y otras aplicaciones sean capaces de utilizar los datos con éxito.
  5. Diseño del destino: Diseñar el modelo que mejor se ajuste: estrella o copo de nieve así como las tablas de hechos, que contendrán los datos, y las tablas de dimensiones, que contendrán las descripciones de los datos que queremos analizar.
  6. Carga de datos: Añadir los nuevos datos al destino.

Metodología

  1. Entrevista con los clientes finales del proyecto para la recogida de las necesidades de información que determinarán las fuentes de los datos y el destino donde se almacenarán los datos una vez transformados.
  2. Estudio de los distintos orígenes de datos para determinar las transformaciones necesarias.
  3. Diseño del destino.
  4. Diseño de las transformaciones a realizar para importar desde las fuentes de datos al destino de una forma integrada y válida.
  5. Determinar la tecnología a utilizar, teniendo en cuenta los recursos de los clientes.
  6. Determinar la periodicidad de la carga.
  7. Se realiza todo el proceso de extracción, transformación y carga de datos.
  8. Se programa la actualización con la periodicidad requerida.