tipos de carga de datos en un data warehouse
Nico Quiroga

Nico Quiroga

Data Engineer | Business Intelligence Consultant (BI)

Otros Artículos:

Tipos de carga de datos en un Data Warehouse: ejemplos y cuándo utilizarlos

Compartir en linkedin
LinkedIn
Compartir en facebook
Facebook
Compartir en twitter
Twitter
Compartir en whatsapp
WhatsApp

Breve Introducción

Antes de comenzar a hablar de los tipos de carga de datos en un Data Warehouse, deberíamos definir qué es un Data Warehouse (almacén de datos) y a qué nos referimos exactamente con carga de datos o Data Loading.

Podríamos decir que un Data Warehouse es un sistema centralizado que almacena grandes volúmenes de datos históricos provenientes de diferentes fuentes, con el objetivo de que puedan ser analizados fácilmente para la toma de decisiones.

Para que este Data Warehouse sea útil, debe ser alimentado de datos. A este proceso lo conocemos como carga de datos.

En un proyecto de BI tradicional, la arquitectura suele estar definida por 3 capas de Base de datos:

  • Capa Stage (también llamada capa Bronce)
  • Capa ODS (también llamada capa Plata)
  • Capa Data Warehouse (también llamada capa Oro)
datawarehouse

Para un mayor entendimiento de cómo funcionan las diferentes capas en un proyecto de datos, mi colega Francisco Herrara, lo explica a la perfección en su artículo titulado El Señor de los Datillos: La profecía de la Arquitectura Medallion (Si, no estás leyendo mal, ese es el nombre del articulo)

Tipos de carga de datos

La carga de datos es una parte crucial del proceso de ETL (Extract-Transform-Load) o ELT:

  • Extraer los datos desde las fuentes originales (ERP, CRM, archivos, APIs, etc.).
  • Transformar esos datos aplicando reglas de negocio, conversiones, validaciones, limpieza, enriquecimiento, etc.
  • Cargar los datos transformados en el destino final, que suele ser un Data Warehouse.

En la variante ELT, los datos se cargan primero y se transforman directamente dentro del Data Warehouse, aprovechando su potencia de procesamiento.

Aunque existen múltiples tipos de carga de datos:

  • Carga Completa (Full Load)
  • Carga Incremental
  • Carga Delta
  • Carga por Lote (Batch Load)
  • Carga en Tiempo Real (Streaming Load)
  • Carga Manual
  • Carga Condicional
  • Carga CDC (Change Data Capture)
  • Carga Programada (Scheduled Load)
  • Carga Push vs Pull
  • Carga Parcial / Selectiva
  • Carga Inicial (Initial Load)

 

En este artículo haremos foco en los cuatro tipos de carga que más me ha tocado implementar en proyectos de integración de datos en entornos empresariales:

  1. Carga Completa (Full Load)

La carga completa consiste en eliminar todos los datos existentes en la tabla de destino y volver a cargarlos completamente desde la fuente.
Es el enfoque más sencillo de implementar, pero también el más costoso en términos de tiempo de ejecución y uso de recursos.
Suele utilizarse en fases iniciales de un proyecto, cuando los volúmenes de datos aún no son elevados o cuando no es viable detectar los cambios realizados en los datos de origen.

  1. Carga Incremental

En la carga incremental, solo se cargan los datos nuevos o modificados desde la última ejecución.
Esto permite optimizar el rendimiento del proceso, reduciendo considerablemente el volumen de datos procesado.
Para implementarla, se suele usar una marca de tiempo (timestamp) o un identificador incremental que indique los nuevos registros o los actualizados.

  1. Carga Delta

Muy similar a la carga incremental, pero con una diferencia clave: además de identificar los registros nuevos o modificados, también se detectan los registros eliminados en el origen.
Requiere una lógica más compleja, ya que el sistema debe llevar un control del estado anterior de los datos.
Es especialmente útil cuando necesitamos mantener una copia exacta del origen en el destino.

  1. Carga en Tiempo Real (Streaming Load)

Este tipo de carga implica la ingestión continua de datos a medida que se generan en las fuentes.
Suele aplicarse en casos donde la inmediatez es clave, como en sistemas de monitorización, IoT o análisis de eventos.
Para ello, se utilizan herramientas de streaming como Apache Kafka, Azure Event Hubs o Amazon Kinesis, entre otros.

Conclusión

Como hemos visto, existen distintos enfoques para realizar cargas de datos, y cada uno tiene sus ventajas según el escenario.

Pero más allá del tipo de carga elegido, lo más importante en cualquier proceso de carga de datos es lograr que el dato correcto llegue al destino lo más rápido posible y utilizando la menor cantidad de recursos.

Por eso, no hay una solución única que sirva para todos los casos: cada escenario debe ser evaluado cuidadosamente, teniendo en cuenta el volumen de datos, la frecuencia de actualización, la criticidad del negocio y las capacidades de la infraestructura.

Entender bien estos conceptos y aplicarlos con criterio puede marcar una gran diferencia en el rendimiento, la escalabilidad y el valor real de cualquier solución de datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

MicroStrategy ofrece varias herramientas de administración en MicroStrategy para facilitar la gestión, automatización y validación de los proyectos. Entre ellas, Command Manager, Integrity Manager y Object Manager son herramientas clave. A continuación, se explica para qué sirve cada una, cómo funcionan y cuáles son sus diferencias.

Business Data Master Logo

No te pierdas el

WEBINAR
Gratuito

Explicaremos en detalle los contenidos y objetivos del Business Data Master

29/11/2021

18:30 (GTM+1)

Online

BUSINESS DATA MASTER

* Tu información será utilizada exclusivamente para contactarte en relación al Business Data Master. No hacemos spam ni compartimos datos con terceros.

Best Data Solutions - Logo
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando utilizas nuestra web para personalizar el idioma o ayudar a nuestro equipo a comprender qué secciones de la web son más visitadas.