Enable javascript in your browser for better experience. Need to know to enable it? Go here.

Resolviendo desafíos relacionados con personas, procesos y habilidades en la gestión de datos

A medida que el volumen y la variedad de datos organizacionales aumentan, los equipos de datos enfrentan desafíos complejos en su gestión. Los paradigmas existentes se vuelven insuficientes, exigiendo un nuevo enfoque para la gestión de datos. Este blog, basado en una conversación entre Vanya Seth, Head of Technology Thoughtworks India, , Aveek Mishra del Centro de Desarrollo de Intuit India y Rajesh Parikh, fundador y CEO de la organización de catálogo de datos Cynepia, explora los desafíos que enfrentan los equipos de productos de datos y cómo pueden resolverlos.


Responsabilidad

 

En los modelos tradicionales, la responsabilidad de los datos recae en los equipos de datos. Sin embargo, estos equipos no siempre tienen el conocimiento del dominio necesario para comprender completamente los datos que tienen frente a ellos. "En cada organización/industria, hay cientos de subdominios, lo que hace casi imposible que los equipos de datos se conviertan en expertos", dice Vanya Seth, jefa de Tecnología de Thoughtworks en India.

 

Por otro lado, los equipos de dominio ya deberían conocer el panorama y poseer cierto conocimiento no solo sobre los datos que tienen, sino también sobre las reglas de integridad que deben cumplir. Entonces, entra en juego el modelo Data Mesh, una arquitectura y modelo operativo de datos analíticos donde los datos se tratan como un producto y son propiedad de los equipos que conocen y consumen los datos de manera más cercana. El modelo traslada la responsabilidad de la calidad, integridad y usabilidad de los datos a los equipos de dominio. Esto debería mejorar la capacidad de la organización para obtener valor de los datos. En pocas palabras, Data Mesh lleva el modelo DevOps a la gestión de datos.

 

Calidad de datos

 

Como señala Rajesh Parikh, fundador y CEO de Cynepia Technologies, "uno de los mayores desafíos en la gestión de datos hoy en día es que los datos incorrectos no se rastrean en el canal de datos y terminan en informes y paneles dirigidos a los consumidores". Las soluciones actuales, como la observabilidad y los contratos de datos, son insuficientes si los datos incorrectos fluyen sin control. Esto es cierto también para la arquitectura de Data Mesh. Aveek Misra, gerente de Ingeniería para Ingeniería de Datos en el Centro de Desarrollo de Productos de Intuit India, agrega que "hoy en día, cualquier control de calidad de datos que esté en su lugar no puede detectar problemas porque no incorporan reglas comerciales. Realizan comprobaciones de nulos, comprobaciones de recuento de filas y comprobaciones de hash, pero eso no es suficiente". Esto se debe a que los sistemas de control de calidad de datos carecen de experiencia y conocimientos del dominio.

 

Existen varios problemas interrelacionados de calidad de datos que deben abordarse cuidadosamente. A medida que la responsabilidad se traslada a los equipos de dominio, también asumen la responsabilidad de definir métricas de calidad. Por ejemplo, en la industria de la salud, el equipo de dominio debería saber que un resultado de prueba de diabetes es válido solo por tres meses. Esto significa que están en la mejor posición para definir estas reglas. Sin embargo, trasladar la responsabilidad aguas arriba por sí sola no es suficiente.

 

Los productos de datos se construyen en múltiples niveles, desde productos de datos orientados a la fuente, hasta productos de datos agregados y productos de datos orientados al consumidor, por lo que incluso si los datos son de alta calidad en la fuente, pueden distorsionarse más adelante. Por eso, debe haber mecanismos de control de calidad sólidos en cada etapa del viaje del producto de datos. Para hacer esto, debe haber una relación cercana entre los equipos de dominio y datos para asegurar que las pruebas de calidad estén alineadas con los objetivos y metas comerciales.

 

Centricidad en el cliente

 

 

En la mayoría de las organizaciones, la orientación al cliente es un asunto externo. Sin embargo, los equipos de datos son los clientes de los datos generados por los equipos de dominio. Lamentablemente, como clientes internos, no reciben el mismo trato que los clientes externos. La satisfacción del cliente rara vez es una prioridad, lo que crea ineficiencias en la gestión de datos.

 

"Si un científico de datos tiene que hipotetizar sobre cómo mejorar las ventas, puede tener que pedir datos a los equipos de productos o preguntar la mejor forma de realizar experimentos. Esto aumenta la carga cognitiva en los equipos de datos", dice Vanya de Thoughtworks. El modelo Data Mesh resuelve este problema desafiando el status quo y asegurando que los equipos de dominio sean responsables de proporcionar los datos. Deben colaborar activamente con el equipo de datos para definir detalles como si se debe usar una interfaz SQL o un formato de gráficos.

 

Habilidades y capacidades

 

Los roles en la gestión de datos tienen apenas una década de existencia y están evolucionando rápidamente. "Por ejemplo, hoy en día, un analista de datos está creando paneles y transformando datos simultáneamente. Un científico de datos está transformando datos y construyendo modelos. Estamos viendo una superposición de responsabilidades. A medida que la responsabilidad por los datos se desplaza hacia la izquierda, ¿deberían los equipos de dominio también incluir analistas de datos/ingenieros/científicos?" pregunta Rajesh de Cynepia Technologies.

 

Vanya, Head of Tech Thoughtworks, piensa que no. "Dado que son habilidades especializadas, es difícil obtener y retener ese talento a gran escala", dice. Este problema se resuelve mejor definiendo una plataforma de autoservicio agnóstica del dominio que brinde todo lo que los equipos de dominio necesitan para aprovechar esos datos. Data Mesh abstrae las interacciones y el flujo, creando capacidades de plataforma que democratizan los datos para que cualquier desarrollador pueda construir un producto de datos.

 

Mentalidad de producto

 

Crear productos de datos requiere una mentalidad de producto. Como señala Aveek de Intuit, "En el mundo de productos, hemos resuelto cómo se validan los contratos de microservicios, revisando la resistencia y los interruptores de circuito, por ejemplo. Algunas de estas mejores prácticas deben llevarse al mundo de los datos".

 

Vanya de Thoughtworks amplía este cambio de mentalidad sugiriendo que para que los datos se consideren un producto, deben tener una vida útil larga y ser utilizados repetidamente. Los equipos de datos que piensan como productos no solo resuelven problemas puntuales, sino que crean soluciones reutilizables a largo plazo. Esto también evita la creación de cientos de canalizaciones rápidas para problemas puntuales que podrían hacer que el sistema sea tan complejo que colapse como un castillo de naipes.

 

Gobernanza

 

"Hemos sacrificado la calidad de los datos y la gobernanza por la velocidad de entrega", dice Rajesh de Cynepia Technologies, planteando una preocupación importante. El modelo tradicional de gobernanza, centralizado con un equipo en la cima tomando decisiones, ya no es viable. Además, la gestión de datos maestros, el modelo más comúnmente utilizado hoy en día, no puede escalar al ritmo al que evolucionan los datos.

 

El futuro requiere otro cambio de mentalidad, esta vez centrado en la gobernanza. Vanya reitera la descentralización como un enfoque que puede llevar a cabo el cambio necesario. No muy diferente al modelo de microservicios, se habilita mediante una automatización cuidadosa. "Los equipos de plataforma deben automatizar problemas de gobernanza, aprovechando modelos de políticas como código y gobernanza como modelos de código. Los equipos de dominio deben encontrar formas de dar retroalimentación computacionalmente al desarrollador y permitir que la plataforma se encargue de ello", dice ella.

 

Sin embargo, la gobernanza no se trata solo de calidad, sino también de descubribilidad. Necesitamos crear plataformas que permitan a los consumidores explorar datos y tomar decisiones sobre el conjunto de datos adecuado para cada caso de uso. Debe basarse en métricas y ser transparente. "Y los equipos deben pensar en esto desde el primer día", agrega Aveek de Intuit. "Por ejemplo, el RGPD exige la eliminación de datos si un cliente lo solicita. Pero, ¿uno sabe siquiera dónde se almacenan todos esos datos? En casos como estos, la genealogía se vuelve muy importante".

 

A medida que los datos se convierten en una ventaja competitiva para las empresas, es probable que los desafíos en torno a la gestión de datos se vuelvan más complejos. El éxito radica en capacitar a cada individuo para que sea responsable de lo que hace mejor y aprovechar cada activo sin cuellos de botella innecesarios.

 

Para obtener una comprensión más detallada del tema, puedes ver la conversación completa aquí.

Aviso legal: Las declaraciones y opiniones expresadas en este artículo son las del autor/a o autores y no reflejan necesariamente las posiciones de Thoughtworks.

¿Cómo puedes lograr un crecimiento más rápido?