DVC continua a ser nossa ferramenta preferida para gerenciar experimentos em projetos de ciência de dados. O fato de ser baseado no Git faz com que seja um território conhecido para as pessoas desenvolvedoras trazerem práticas de engenharia para o ecossistema de ciência de dados. A visão opinativa do DVC de um ponto de verificação do modelo encapsula cuidadosamente um conjunto de dados de treinamento, um conjunto de dados de teste, hiperparâmetros do modelo e o código. Ao tornar a reprodutibilidade uma preocupação de primeira classe, permite que a equipe viaje no tempo em várias versões do modelo. Nossas equipes usaram DVC com sucesso em produção para permitir entrega contínua para aprendizado de máquina (CD4ML); pode ser conectada a qualquer tipo de armazenamento (incluindo AWS S3, Google Cloud Storage, MinIO e Google Drive). No entanto, com conjuntos de dados cada vez maiores, a criação de snapshots com base no sistema de arquivos pode se tornar particularmente cara. Quando os dados subjacentes mudam com rapidez, o DVC sobre um bom armazenamento com controle de versão permite rastrear os desvios do modelo ao longo de um período de tempo. Nossas equipes usaram efetivamente o DVC em formatos de armazenamento de dados como Delta Lake que otimiza o controle de versão (COW). A maioria de nossas equipes de ciência de dados configura DVC como uma tarefa do dia zero enquanto fazem o bootstrap de um projeto; por esse motivo, estamos felizes em movê-lo para Adote.
Em 2018, mencionamos DVC em conjunto com dados versionados para análises reproduzíveis. Desde então, ele se tornou a ferramenta preferida para gerenciar experimentos em projetos de aprendizado de máquina (ML). Baseado em Git, o DVC é um ambiente familiar para pessoas desenvolvedoras de software levarem suas práticas de engenharia à prática de ML. Como ele libera o código que processa os dados junto com os próprios dados e rastreia os estágios em um pipeline, ajuda a ordenar as atividades de modelagem sem interromper o fluxo de analistas.