Al construir productos de datos usando un enfoque en el producto, es necesario considerar el linaje, la visibilidad y la gobernanza de los datos. Nuestros equipos han encontrado que DataHub puede ser de gran ayuda en estos casos. A pesar de que las primeras versiones de DataHub necesitaban que se genere una rama y se gestione la sincronización desde el producto principal a mano (si existiese la necesidad de actualizar el modelo de metadatos), las mejoras recientes han introducido características que permiten a nuestros equipos implementar modelos personalizados de metadatos con una arquitectura basada en complementos. Otra característica útil de DataHub es el robusto linaje de datos de extremo a extremo, desde el origen, pasando por el procesamiento, hasta el consumo. DataHub soporta integraciones de tipo push y pull para la extracción de linajes que automáticamente examinan los metadatos de orígenes, schedulers, orquestadores (scanning the Airflow DAG), tareas de procesamiento de pipelines y tableros (dashboards), por nombrar algunos. Como opción de código abierto para un catálogo de datos holístico, DataHub se está convirtiendo en la opción por defecto de nuestros equipos.
Desde que mencionamos el descubrimiento de datos por primera vez en el Radar, LinkedIn ha evolucionado WhereHows hacia DataHub, la plataforma de nueva generación para descubrimiento de datos vía un sistema extensible de metadatos. En lugar de rastrear y extraer metadatos, DataHub adopta un modelo basado en push, en el que los componentes individuales del ecosistema de datos publican metadatos mediante una API o un stream hacia la plataforma central. Este modelo de integración traslada la propiedad de la entidad central a cada uno de los equipos, haciéndolos responsables de sus metadatos. Como resultado, hemos utilizado DataHub con éxito como repositorio de metadatos a nivel de organización y punto de entrada de múltiples productos de datos mantenidos autónomamente. Cuando se toma este enfoque, hay que asegurarse de que sea ligero y evitar el peligroso camino que lleva al control centralizado sobre un recurso compartido.
Desde que mencionamos al descubrimiento de datos por primera vez en el Radar, LinkedIn ha evolucionado WhereHows en DataHub, la plataforma de nueva generación que aborda la capacidad de descubrimiento de datos a través de un sistema extensible de metadatos. En lugar de rastrear y extraer metadatos, DataHub adopta un modelo basado en push en el que los componentes individuales del ecosistema de datos publican metadatos mediante un API o un stream hacia la plataforma central. Este modelo de integración traslada la propiedad de la entidad central a los equipos individuales, haciéndolos responsables de sus metadatos. A medida que más y más empresas intentan orientarse a los datos, es fundamental tener un sistema que ayude con el descubrimiento y la comprensión de la calidad y el linaje de los datos, por lo que recomendamos evaluar a DataHub en esa capacidad.