OpenLineage Es un estándar abierto para recopilar metadatos de linaje para pipelines de datos, diseñado para instrumentar jobs mientras se ejecutan. Define un modelo genérico de ejecución, jobs y entidades de conjuntos de datos utilizando convenciones de nomenclatura consistentes. El modelo de linaje principal se puede extender definiendo facetas específicas que enriquecen esas entidades. OpenLineage resuelve el problema de interoperabilidad entre productores y consumidores de información de linaje, quienes de otra manera requerirían saber cómo comunicarse entre sí de diferentes maneras. Aunque existe un riesgo al ser otro “estándar en el medio”, ser un proyecto respaldado por Linux Foundation AI & Data Foundation aumenta su posibilidad de adopción masiva. OpenLineage actualmente soporta colecciones de datos en múltiples plataformas, como Spark, Airflow y dbt, aunque los usuarios necesitan configurar sus listeners. El soporte para consumidores de datos de OpenLineage es más limitado en estos momentos.