Durante nossas discussões para esta edição do Radar, surgiram várias ferramentas e aplicações para geração de dados sintéticos. À medida que as ferramentas amadurecem, descobrimos que usar dados sintéticos para testes de modelos é uma técnica poderosa e amplamente útil. Embora não pretenda substituir os dados reais na validação do poder de discriminação dos modelos de aprendizado de máquina, os dados sintéticos podem ser usados em diversas situações. Por exemplo, podem ser usados para proteção contra falhas catastróficas do modelo em resposta a eventos que ocorrem raramente ou para testar pipelines de dados sem expor informações de identificação pessoal. Dados sintéticos também são úteis para explorar casos extremos que não possuem dados reais ou para identificar vieses de modelo. Algumas ferramentas úteis para gerar dados incluem Faker ou Synth, que geram dados de acordo com as propriedades estatísticas desejadas, e ferramentas como Synthetic Data Vault, que podem gerar dados que imitam as propriedades de um conjunto de dados de entrada.