Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Oct 23, 2024
Oct 2024
Avalie ?

Preparar dados de teste para engenharia de dados é um desafio significativo. Transferir dados do ambiente de produção para ambientes de teste pode ser arriscado, então as equipes muitas vezes dependem de dados falsos ou sintéticos. Neste Radar, exploramos abordagens inovadoras como dados sintéticos para teste e treinamento de modelos. Mas, na maioria das vezes, a geração procedural de baixo custo é suficiente. O dbldatagen (Databricks Labs Data Generator) é uma dessas ferramentas; é uma biblioteca Python para gerar dados sintéticos no ambiente Databricks para testes, benchmarks, demonstrações e outros usos. dbldatagen pode gerar dados sintéticos em grande escala, até bilhões de linhas em minutos, suportando vários cenários como múltiplas tabelas, captura de dados alterados e operações de mesclagem/junção. Ele lida bem com os tipos primitivos do Spark SQL, gera intervalos e valores discretos, além de aplicar distribuições específicas. Ao criar dados sintéticos usando o ecossistema Databricks, o dbldatagen é uma opção que vale a pena avaliar.

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber o boletim informativo Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores