Ao construir produtos de dados utilizando o conceito de mentalidade para produtos de dados, é essencial considerar a linhagem da dados, sua descoberta e governança. Nossos times descobriram que o DataHub oferece suporte particularmente útil nesses quesitos. Embora versões anteriores do DataHub exigissem a bifurcação (fork) e o gerenciamento da sincronização a partir do produto principal (caso fosse necessária a atualização do modelo de metadados), melhorias em lançamentos recentes trouxeram recursos que permitem que nossos times implementem modelos de metadados customizados com uma arquitetura baseada em plugins. Outra funcionalidade útil do DataHub é a robusta linhagem de dados ponta-a-ponta, da origem ao processamento e consumo. O DataHub suporta integração baseada em push e também extração de linhagem baseada em pull, que automaticamente varre os metadados técnicos em fontes de dados, agendadores, orquestradores (como Airflow DAG scanning), tarefas de pipelines de processamento e painéis, entre outros. Como uma opção de código aberto para um catálogo de dados holístico, o DataHub está se tornando a escolha padrão para nossos times.
Desde que mencionamos a detecção de dados pela primeira vez no Radar, o LinkedIn evoluiu o WhereHows para DataHub, uma plataforma de próxima geração que aborda a descoberta de dados por meio de um sistema de metadados extensível. Em vez de rastrear e extrair metadados, DataHub adota um modelo baseado em push, em que componentes individuais do ecossistema de dados publicam metadados por meio de uma API ou um fluxo para a plataforma central. Essa integração baseada em push transfere a propriedade da entidade central para times individuais, tornando-os responsáveis por seus metadados. Como resultado, usamos o DataHub com sucesso como um repositório de metadados em toda a organização e como ponto de entrada para vários produtos de dados mantidos de forma autônoma. Ao adotar essa abordagem, certifique-se de mantê-la leve e evitar o caminho escorregadio que leva ao controle centralizado sobre um recurso compartilhado.
Desde que mencionamos pela primeira vez a detecção de dados no Radar, o LinkedIn evoluiu o WhereHows para DataHub, uma geração seguinte da plataforma que lida com a detecção de dados por meio de um sistema de metadados extensível. Em vez de rastrear e extrair metadados, o DataHub adota um modelo baseado em push, no qual componentes individuais do ecossistema de dados publicam metadados por meio de uma API ou de um stream para a plataforma central. Essa integração baseada em push transfere a propriedade da entidade central para times individuais, tornando-os responsáveis por seus metadados. À medida que mais empresas tentam se tornar orientadas por dados, ter um sistema que ajuda na descoberta de dados e no entendimento da qualidade e da linhagem dos dados é fundamental, e recomendamos que você avalie essa capacidade no DataHub.