La malla de datos Data mesh es un enfoque organizativo y técnico descentralizado a la hora de compartir, acceder y gestionar los datos para la analítica y el ML. Su objetivo es crear un enfoque sociotécnico que amplíe la obtención de valor de los datos a medida que crezca la complejidad de la organización y proliferen los casos de uso de los datos y se diversifiquen las fuentes de los mismos. Esencialmente, crea un modelo de intercambio de datos responsable que está en consonancia con el crecimiento de la organización y el cambio continuo. Según nuestra experiencia, el interés por la aplicación de la malla de datos ha crecido enormemente. Este enfoque ha inspirado a muchas organizaciones a adoptarlo y a los proveedores de tecnología a readaptar sus tecnologías existentes para una implantación de malla. A pesar del gran interés y la creciente experiencia en la malla de datos, sus implantaciones se enfrentan a un elevado coste de integración. Además, su adopción sigue limitada a secciones de grandes organizaciones y los proveedores de tecnología están distrayendo a las organizaciones de los aspectos socio más duros de la malla de datos: la propiedad descentralizada de los datos y un modelo operativo de gobierno federado.
Estas ideas se exploran en Data Mesh, Delivering Data-Driven Value at Scale, que guía a los profesionales, arquitectos, líderes técnicos y responsables de la toma de decisiones en su transición desde una arquitectura tradicional de big data a la malla de datos. Proporciona una introducción completa a los principios de la malla de datos y sus componentes; cubre cómo diseñar una arquitectura de malla de datos, guiar y ejecutar una estrategia de malla de datos y navegar por el diseño organizativo hacia un modelo de propiedad de datos descentralizado. El objetivo del libro es crear un nuevo marco para profundizar en las conversaciones y conducir a la siguiente fase de madurez de la malla de datos.
Cada vez más, vemos una falta de coincidencia entre lo que las organizaciones basadas en datos quieren lograr y lo que permiten las arquitecturas de datos y las estructuras organizativas actuales. Las organizaciones quieren integrar la toma de decisiones basada en datos, machine learning y la analítica en muchos aspectos de sus productos y servicios y en cómo operan internamente; esencialmente, quieren aumentar todos los aspectos de su panorama operativo con inteligencia basada en datos. Sin embargo, todavía nos queda mucho camino por recorrer antes de que podamos integrar datos analíticos, acceder a ellos y cómo se administran en los dominios y operaciones comerciales. Hoy en día, todos los aspectos de la gestión de datos analíticos se externalizan fuera de los dominios comerciales operativos al equipo de datos y a los monolitos de gestión de datos: lagos de datos y almacenes de datos. Data mesh es un enfoque sociotécnico descentralizado para eliminar la dicotomía de datos analíticos y operaciones comerciales. Su objetivo es integrar el intercambio y el uso de datos analíticos en cada dominio comercial operativo y cerrar la brecha entre los planos operativo y analítico. Se basa en cuatro principios: propiedad de los datos de dominio, datos como producto, plataforma de datos de autoservicio y gobernanza federada computacional.
Nuestros equipos han estado implementando la arquitectura de data mesh; han creado nuevas abstracciones arquitectónicas, como el cuanto de producto de datos para encapsular código, la política de datos como una unidad autónoma de intercambio de datos analíticos incrustada en dominios operativos; y han creado capacidades de plataforma de datos de autoservicio para administrar el ciclo de vida de los cuantos de productos de datos de manera declarativa, como se describe en Data Mesh. A pesar de nuestros avances técnicos, todavía estamos experimentando fricciones con el uso de las tecnologías existentes en una topología de data mesh, sin mencionar la resistencia de los dominios comerciales a aceptar el uso compartido y el uso de datos como una responsabilidad de primera clase en algunas organizaciones.
La malla de datos marca el inicio de un cambio en los paradigmas arquitectónicos y organizacionales sobre cómo se gestionan los datos analíticos masivos. El paradigma se fundamenta en cuatro principios: (1) descentralización orientada al dominio de la propiedad de los datos y de su arquitectura; (2) datos orientados al dominio servidos como un producto; (3) auto servicio de infraestructura de datos como plataforma, para impulsar la autonomía de los equipos orientados al dominio; y (4) gobernanza federada para impulsar ecosistemas y la interoperabilidad. Si bien los principios son intuitivos y pretenden abordar muchos de los desafíos ya conocidos de la gestión centralizada de datos analiticos, estos trascienden las tecnologías actuales para datos analiticos. Luego de construir mallas de datos en muchos clientes con las herramientas existentes hemos aprendido dos cosas: (a) hay una gran brecha en las herramientas de código abierto o comerciales para acelerar la implementación de mallas de datos (por ejemplo, la implementación de un modelo de acceso universal a datos políglota basados en tiempo, que actualmente construimos a la medida para nuestros clientes) y (b) a pesar de la brecha, es factible usar tecnologías existentes como elementos básicos.
Naturalmente, la idoneidad tecnológica es un componente importante en la implementación de una estrategia de datos de una organización basada en una malla de datos. Sin embargo, el éxito requiere de una reorganización estructural para separar al equipo de la plataforma de datos, crear el rol del product owner de datos para cada dominio e introducir las estructuras necesarias de incentivos para que los dominios se apropien y compartan los datos analíticos como productos.
La malla de datos (data mesh) es un paradigma de arquitectura y de organización que desafía la vieja presunción de que se debe centralizar los grandes datos analíticos para utilizarlos, tener todos los datos en un mismo lugar o gestionarlos a través de un equipo de datos centralizado para entregar valor. Este paradigma afirma que, para que big data promueva la innovación, su propiedad debe ser federada entre los dueños de los datos de dominio quienes son responsables de proveer sus datos como productos (con el soporte de una plataforma de datos de autoservicio para abstraer la complejidad técnica que supone servir productos de datos); también se debe adoptar una nueva forma de gobierno federado a través de la automatización que permita la interoperabilidad de los productos de datos orientados a dominios. La descentralización, junto con la interoperabilidad y el enfoque en la experiencia para los consumidores de datos, son clave para la democratización de la innovación usando datos.
Si en la organización existe un gran número de dominios con varios sistemas y equipos generando datos o un conjunto diverso de casos de uso y patrones de acceso basados en datos, sugerimos evaluar a malla de datos. La implementación de este paradigma requiere invertir en la construcción de una plataforma de datos de autoservicio y aceptar y promover un cambio organizacional para que los dominios tomen la propiedad a largo plazo de sus productos de datos, así como una estructura de incentivos que premien a los dominios que sirvan y utilicen datos como producto.
Malla de datos es un paradigma de arquitectura que desbloquea datos analíticos a escala; rápidamente desbloquea accesos a un número cada vez mayor de conjuntos distribuidos de datos de dominio, para una proliferación de escenarios de consumo tales como aplicaciones de aprendizaje automático, análisis o uso intensivo de datos en toda la organización. Malla de datos aborda los modos de fallas comunes de los data lakes centralizados tradicionales o de la arquitectura de plataforma de datos, con un cambio desde el paradigma centralizado de un lake, o su predecesor, el data warehouse. Malla de datos cambia a un paradigma que traza desde una arquitectura distribuida moderna: considerando dominios como los asuntos de primera clase, aplicando platform thinking para crear una infraestructura de datos de autoservicio, tratamiento de datos como un producto, e implementando estandarización abierta para habilitar un ecosistema de productos de datos distribuidos inter-operables.