Banner arquitectura medallion
Francisco Herrera

Francisco Herrera

Business Intelligence Consultant | Data Specialist

Otros Artículos:

El Señor de los Datillos: La profecía de la Arquitectura Medallion

Compartir en linkedin
LinkedIn
Compartir en facebook
Facebook
Compartir en twitter
Twitter
Compartir en whatsapp
WhatsApp

En estos tiempos de remakes y reimaginaciones de los clásicos (a veces con mejor y otras con peor resultado), en Best hemos querido unir la épica de El Señor de los Anillos a nuestras actividades dentro del mundo del dato. Nuestro equipo se ha escudriñado los sesos para reimaginar el universo de Tolkien y sacar material para producir nuestra propia trilogía orientada a los datos. Si bien es cierto que seguramente Tolkien no pretendía con su obra inspirar unas tecnologías que, por poner el ejemplo de Databricks, aparecieron tras un pequeño lapso de 40 años tras su muerte, nos hemos tomado la licencia poética y literaria de revisar nuestra versión, que hemos titulado “El Señor de los Datillos – La Profecía de la arquitectura Medallion”, en honor a uno de los enfoques más sólidos y modernos en la gestión de datos.

arquitectura medallion

Desde luego no podemos compararnos en épica a la obra de Tolkien pero tampoco vamos a decir que se trate de una copia barata adaptada que trate sobre la arquitectura Medallion de Databricks y cómo se establece la división en tres capas de los datos disponibles en dicho entorno, de manera que estos puedan procesarse de manera escalable y eficiente en la plataforma. O tal vez sí.

Además, por lo que sabemos del tema, dicha arquitectura tiene algunos beneficios clave, como son:

  1. La buena organización y la trazabilidad de los datos.
  2. Facilita la limpieza y la transformación de los datos.
  3. Mejora el rendimiento y la escalabilidad del sistema.
  4. Flexibilidad en el uso por parte de diferentes usuarios en cada una de las capas (ingenieros, analistas…).
  5. Mejora la calidad y la consistencia de los datos
  6. Reduce el coste de almacenamiento y procesamiento
  7. Permite reprocesamientos eficientes y facilita las auditorías.

 

Por lo tanto, nos obligamos a darle un voto de confianza este escrito y vamos a revisarlo esperando que el lector pueda sacar aprendizajes y conclusiones de él.

El Señor de los Datillos: La Profecía de la Arquitectura Medallion

Tomo I – El Lago del Dato Puro y la Tabla de Bronce

“Un dato para gobernarlos a todos, un dato para encontrarlos, un dato para atraerlos a todos y en la cruda tabla de bronce sin refinar almacenarlos”

 

Tras nuestra particular versión de la famosa cita de Tolkien y tal vez con una introducción épica al respecto de los primeros compases de la formación de la Tierra Media con la Música de los Ainur, hablaremos de un lago de datos profundo y caótico que a través de un stream se llenaba diariamente de una amplitud y tipología de datos como nunca existió en los eventos que posteriormente habrían de transformar la plataforma y el conocimiento de los pueblos. Alimentaban poco a poco dicho lago de datos fuentes varias, desde los discretos logs de servidores o los escurridizos registros de aplicaciones hasta alguna que otra, siempre sólida y estable, base de datos transaccional, mezclándose todo en el fondo del lago a causa de la fuerza del stream.

Al principio, todo transcurría con tranquilidad entre las brumas del lago en los albores de la Era Digital. Los usuarios, habitantes del cercano país de Dôl-Data, de vez en cuando llegaban hasta sus orillas y extraían la información necesaria compactándolas en bases de datos para su posterior análisis, viviendo felizmente, con datos estructurados y ordenados en sus warehouses, sin preocuparse por el espacio o la consistencia, pues al ser estos pocos era fácil su manejabilidad.

Sin embargo, un enemigo acechaba con paciencia desde las montañas donde nacía el stream, un enemigo que iba cogiendo más fuerza a medida que transcurrían los años y los pueblos avanzaban en tecnología. Un enemigo cuyo nombre susurraban los analistas y los ingenieros a media voz en la camaradería que generaba estar alrededor de una hoguera con un pichel en la mano: “El Bigdaten se acerca” susurraban a media voz para, acto seguido, retorcerse ante el escalofrío que les generaba dicho pensamiento.

Transcurría el tiempo en Dôl-Data y progresivamente los warehouses se fueron llenando; cada vez aparecían más datos en el lago, amenazando con llenar de redundancia y poca fiabilidad la información disponible en el país. Llegado un punto, la cantidad de datos fue tanta que la realidad fue ineludible: Bigdaten había llegado y estaba desbordando el lago, generando tal cantidad de datos que era casi imposible ordenar dicho caos.

Los datenses, pues así se conocía a los habitantes de dicho país, rápidamente formaron consejo ante el problema que suponía la llegada de Bigdaten y determinaron que era imposible luchar contra el poder y la magnitud de dicho enemigo; tal era la fuerza con la que generaba datos que cualquier intento de pararlo hacía caer en la desesperación a los guerreros más avezados. Determinaron también que debía formarse una comunidad formada por los analistas e ingenieros más experimentados, una comunidad que llevaría por nombre Dat-ä-Bricks y que en el antiguo lenguaje de los dioses significaba “los que ponen orden”.

Ante la imposibilidad de pararlo y el caos reinante, la comunidad Dat-ä-Bricks acudió presta, como primera acción, a los archivos de la biblioteca central de la capital de Dôl-Data, donde, entre montañas de polvo moldeadas por la mano del tiempo y manuscritos indescifrables, encontraron un antiguo pergamino que profetizaba tiempo atrás y con precisión la llegada de Bigdaten y la creación de la comunidad Dat-ä-Bricks , rezando el siguiente augurio:

Con Bigdaten llegará el caos mas Dat-ä-Bricks creará la Arquitectura Medallion.

Bronce para el dato crudo.

Plata para refinar el dato.

 Oro para brindar conocimiento.

El dato ha de ser entendido al final del camino.

 

Bronce para el dato crudo. Tras ardua deliberación por parte de la comunidad determinaron que este, el primer paso, no podría ser otro que contener el dato desde su origen. Concluyeron que, para lidiar con Bigdaten, primero tenían que tratar de abarcar toda la información que este estaba generando, por lo que decidieron construir una tabla que recolectara todos los datos en su forma pura y sin filtro, en dicha tabla habría de todo: información importante o irrelevante, desde incompleta a duplicada, pasando por datos erróneos o inconsistentes.

Una vez completada la tarea, a la tabla la llamaron “Tabla de Bronce” y en la inscripción de la tabla pusieron “Aquí se almacena el dato puro, sin filtrar ni modificar, pues los datos crudos no están perdidos. Solo necesitan ser refinados en su momento”.

Así, nuestros héroes dieron la primera pisada del camino que los iba a ayudar a establecer el orden tras la llegada de Bigdaten. Sin embargo, los problemas no habían hecho más que empezar, pues la Tabla de Bronce yacía en desorden, y este propio desorden sería la clave de las aventuras que más adelante correría la comunidad Dat-ä-Bricks .

Tomo II – Alquimia de Refinado y la Tabla de Plata

“Aquí, en Rivendata, los datos encuentran su forma verdadera. Su caos se disipa y su propósito se revela.”

La fiebre del dato asola a las gentes de Dôl-Data. Tras los actos de la comunidad Dat-ä-Bricks, la cantidad de datos que se acumulaban en la Tabla de Bronce era tal, que muchos empezaron a ver patrones al visualizarla, cayendo en la locura del orden y perdiendo completamente la razón. En los callejones y plazuelas de la capital, Minas-Ïnsight, los datenses yacían en un estado catatónico murmurando frases como “este dato ya está duplicado”, “las fechas que veo no tienen un formato estándar” o “por los Dioses, esta columna es totalmente irrelevante”. El país se paralizó por completo y de nuevo el caos generado por Bigdaten parecía apoderarse de hasta el último aspecto de la vida cotidiana.

Mientras la histeria se iba apoderando de los más cuerdos, coincidió esta enajenación con la llegada al país de unos sabios elfos, que, sintiendo que un fuerte poder se había desencadenado desde las montañas, decidieron acudir a investigar. Sorprendidos, los elfos se encontraron con una comunidad Dat-ä-Bricks desalentada, pues pese a haber hecho todo lo posible recopilando absolutamente todos los datos en la Tabla de Bronce, no conseguían descifrar el orden dentro del caos reinante en la tabla.

– No temáis ni caigáis en la desidia. – dijeron los elfos – Pues guardamos en nuestra patria de origen conocimientos ancestrales que os ayudarán a establecer las pautas por las cuales se crea una Tabla de Plata. Pertrechaos, recopilad los datos y acompañadnos a Rivendata.-

Con los ánimos renovados se encontró la comunidad en el país de los elfos, donde les fue revelada la Alquimia de Refinado, una ciencia antigua creada para purificar el caos y convertir en información útil los datos. Los duplicados fueron eliminados como si nunca hubieran existido, los formatos inconsistentes fueron unificados y con arte y precisión fueron manejados los datos faltantes o nulos. Con gran alegría contempló la comunidad Dat-ä-Bricks como de repente los valores de los datos eran normalizados y formateados, conservando sólo los hechos relevantes y descartando el resto de información innecesaria.

Tras la Alquimia de Refinado recopilaron de nuevo todos los datos y, en base a las indicaciones la bautizaron “Tabla de Plata”, obteniendo así información útil, consistente y confiable.

Por fin el caos ocasionado por Bigdaten había sido encauzado y en DôlData la gente respiró tranquila al ver que sus alucinaciones no habían sido fundadas, sino que realmente se podía extraer orden de toda la maraña de datos que conjuntaba la Tabla de Bronce transfiriendo los datos ordenados y limpios a la Tabla de Plata. Con la ayuda de los elfos de Rivendata, la comunidad Dat-ä-Bricks había cumplido su cometido de nuevo, aunque la profecía no estaba completa aún. Esta, de hecho, abría un último interrogante: ¿Podría dominarse al enemigo y usar a Bigdaten a su favor para obtener ya no solo información limpia y relevante sino llevarlo a otro nivel de conocimiento más puro y valioso aún? ¿Podrían hacer el viaje necesario para crear una Tabla de Oro?…

Tomo III – La Tabla de Oro y el Tesoro del Conocimiento Agregado.

Era tal la cantidad y calidad de los datos que la ambición empezaba a latir entre la comunidad Dat-ä-Bricks. ¡Desarrollemos pipelines complejas de manera que apenas notemos la influencia de Bigdaten en nuestros warehouses! Aclamaban los ingenieros frenéticamente. ¡No! Decían los analistas. ¡Analicemos absolutamente todo lo que contiene la Tabla de Plata de manera que no se nos escape ni un campo de información!

Así, la brecha dentro de la comunidad se iba haciendo cada vez más grande con el paso del tiempo. Centrados en sus avances propios, ni unos ni otros eran conscientes de que los datos, pese a su calidad, cada vez venían en mayor cantidad, peligrando con esto el espacio disponible en Dôl-Data.

Hubo uno que, en el frenetismo de la comunidad, sin sucumbir al afán desmedido que se había apoderado del resto y que por casualidades ajenas a esta historia había permanecido un poco más de tiempo en Rivendata, nunca olvidó las ultimas frases de la profecía de la Arquitectura Medallion: Oro para brindar conocimiento. El dato ha de ser entendido al final del camino.

Con esto se dio a la tarea de tratar de convencer a ambos bandos que debían unirse de nuevo, pues la profecía aún no había sido completada. Les decía que por mucho que trabajaran en pipelines completas o complejos análisis, lo importante no era la cantidad, sino la calidad del dato, y que datos agregados y con métricas podían servir indudablemente para de una vez por toda someter a Bigdaten. Tenían que unirse de nuevo y perfeccionar el dato hasta el último punto, creando por consecuencia la mítica “Tabla de Oro”.

Los grupos, una vez caída la máscara de avaricia en la que se habían deslizado todos, se volvieron a unir como una sola comunidad Dat-ä-Bricks y aunaron esfuerzos para desentrañar el misterio que suponía la creación de la “Tabla de Oro”. Consultaron a magos de mar allende y extraños druidas cenobitas que habitaban cavernas y solo se alimentaban de jengibre, y, de todos, la misma conclusión sacaban: “El valor del dato radica en las necesidades de quien lo necesita”.

Con esta críptica conclusión, deliberaron durante meses mientras Bigdaten seguía generando datos que se iban acumulando sin pausa en los espacios de Dôl-Daten, hasta que un día, perdida toda esperanza, cayeron en la cuenta de que la información la necesitaban tanto ellos mismos como el país. Necesitaban establecer modelos predictivos y almacenarlos en un formato que ocupara menos espacio. Necesitaban crear dashboards que les permitieran analizar el propio volumen de datos que el enemigo estaba generando, identificar, a través de datos históricos, picos y valles en el envío masivo de datos, y así un sinfín de métricas y agregaciones.

Sin dilación, la comunidad Dat-ä-Bricks cogió el preciado tesoro que era la Tabla de Plata, y tras exhaustos esfuerzos, dio nacimiento a la pipeline suprema. Un flujo de datos que, desde el Lago de Datos, alimentado con fuerza por el Bigdaten volcaba los datos sin procesar en la Tabla de Bronce, los limpiaba y refinaba para volcarlos en la Tabla de Plata y, tras establecer agregaciones, promedios y otras métricas terminaban en el conocimiento más puro y valioso: La Tabla de Oro.

También, para paliar la falta de espacio, decidieron crear un nuevo formato, llamándolo “Parquët”, que en la lengua antigua significaba “eficiencia”, donde almacenarían las Tablas de Oro. Por último, decidieron que los warehouses, que desde tiempo atrás estaban desbordados, serían optimizados y, a través de la pipeline suprema, los datos empezarían a volcarse en un lago moldeado por la propia comunidad Dat-ä-Bricks y bautizado como el “Delta Lake”.

Así, nuestros héroes consiguieron por fin, no sólo dominar al Bigdaten, sino también, a través de la Arquitectura Medallion, usarlo a su favor, extrayendo información valiosa y útil del flujo de datos del que se alimentaba el Lago del Dato Puro.

Epílogo - El conocimiento refinado conduce a la victoria

Así, la Arquitectura Medallion en el mundo del Señor de los Datillos nos muestra que cada etapa tiene su propósito:

La tabla de bronce almacena todo el conocimiento crudo.

La tabla de plata filtra y refina los datos, convirtiendo el caos en orden.

La tabla de oro brinda información valiosa, lista para ser consumida por los héroes en su misión final.

«Al final, no es el volumen de datos lo que importa, sino su pureza y utilidad. Un dato bien refinado puede salvar el día.»

FIN

Y esta adaptación, querido lector, que esperamos que haya sido igual de entretenida que interesante, la podríamos resumir de forma sintética y clara de la siguiente manera:

La Arquitectura Medallion se basa en tres capas:

Tabla de Bronce: Datos crudos, sin procesar y en su forma original.

Tabla de Plata: Datos limpios, transformados y listos para análisis intermedio.

Tabla de Oro: Datos finales, altamente refinados, con agregaciones y listos para decisiones críticas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Business Data Master Logo

No te pierdas el

WEBINAR
Gratuito

Explicaremos en detalle los contenidos y objetivos del Business Data Master

29/11/2021

18:30 (GTM+1)

Online

BUSINESS DATA MASTER

* Tu información será utilizada exclusivamente para contactarte en relación al Business Data Master. No hacemos spam ni compartimos datos con terceros.

Best Data Solutions - Logo
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando utilizas nuestra web para personalizar el idioma o ayudar a nuestro equipo a comprender qué secciones de la web son más visitadas.