Enable javascript in your browser for better experience. Need to know to enable it? Go here.

Definição de pipeline de dados declarativa

Atualizado em : Oct 28, 2020
NÃO ENTROU NA EDIÇÃO ATUAL
Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais
Oct 2020
Experimente ?

Muitos pipelines de dados são definidos em um script grande, mais ou menos imperativo, escrito em Python ou Scala. O script contém a lógica das etapas individuais, bem como o código que as une. Quando confrontadas com uma situação semelhante nos testes Selenium, as pessoas desenvolvedoras descobriram o padrão Page Object e, posteriormente, muitos frameworks de desenvolvimento orientados a comportamento (BDD) implementaram uma divisão entre as definições de etapas e sua composição. Agora, alguns times estão tentando trazer o mesmo pensamento para a engenharia de dados. Uma definição de pipeline de dados declarativa separada, talvez escrita em YAML, contém apenas a declaração e a sequência de etapas. Ela indica conjuntos de dados de entrada e saída, mas faz referência a scripts se e quando uma lógica mais complexa for necessária. A La Mode é uma ferramenta relativamente nova que usa uma abordagem DSL para definir pipelines, mas airflow-declarative, uma ferramenta que transforma grafos acíclicos direcionados definidos em YAML em agendas de tarefas Airflow, parece ter mais força neste espaço.

May 2020
Avalie ?

Muitos pipelines de dados são definidos em um script grande, mais ou menos imperativo, escrito em Python ou Scala. O script contém a lógica das etapas individuais, bem como o código que as une. Quando confrontadas com uma situação semelhante nos testes Selenium, as pessoas desenvolvedoras descobriram o padrão Objeto de Página e, posteriormente, muitos frameworks de desenvolvimento orientado a comportamento (BDD) implementaram uma divisão entre as definições de etapas e sua composição. Agora, alguns times estão tentando trazer o mesmo pensamento para a engenharia de dados. Uma definição de pipeline de dados declarativa separada, talvez escrita em YAML, contém apenas a declaração e a sequência de etapas. Ela indica conjuntos de dados de entrada e saída, mas refere-se a scripts se e quando uma lógica mais complexa for necessária. Com o A La Mode, estamos vendo a primeira ferramenta de código aberto a aparecer nesse espaço.

Publicado : May 19, 2020

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber o boletim informativo Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores