Great Expectations tornou-se um padrão sensato para nossos times no espaço de qualidade de dados, e por isso recomendamos adotá-lo — não apenas pela falta de alternativas melhores, mas também porque nossos times relataram ótimos resultados em vários projetos de clientes. Great Expectations é um framework que permite criar controles internos que sinalizam anomalias ou problemas de qualidade em pipelines de dados. Assim como os testes de unidade são executados em um pipeline de compilação, Great Expectations faz asserções durante a execução de um pipeline de dados. Gostamos de sua simplicidade e facilidade de uso — as regras armazenadas em JSON podem ser modificadas por nossa equipe de especialistas em domínio de dados sem necessariamente precisar de habilidades de engenharia de dados.
Escrevemos sobre Great Expectations na edição anterior do Radar. Continuamos gostando e o movemos para o anel Avalie nesta edição. Great Expectations é um framework que permite criar controles integrados que sinalizam anomalias ou problemas de qualidade em pipelines de dados. Assim como os testes de unidade são executados em um pipeline de compilação, o Great Expectations faz afirmações durante a execução de um pipeline de dados. Gostamos de sua simplicidade e facilidade de uso — as regras armazenadas em JSON podem ser modificadas por especialistas em domínio de dados sem necessariamente precisar de habilidades de engenharia de dados.
Com o crescimento de CD4ML, os aspectos operacionais da engenharia e ciência de dados têm recebido mais atenção. A governança de dados automatizada é um aspecto desse desenvolvimento. Great Expectations é um framework que permite criar controles integrados que sinalizam anomalias ou problemas de qualidade em pipelines de dados. Assim como os testes de unidade são executados em um pipeline de compilação, o Great Expectations faz afirmações durante a execução de um pipeline de dados. Isso é útil não apenas para implementar uma espécie de Andon para pipelines de dados, mas também para garantir que algoritmos baseados em modelo permaneçam dentro da faixa operacional determinada por seus dados de treinamento. Controles automatizados como esses podem ajudar a distribuir e democratizar o acesso e a custódia dos dados. O Great Expectations também vem com uma ferramenta de criação de perfil para ajudar a entender as qualidades de um determinado conjunto de dados e definir os limites apropriados.