Em edições anteriores do Radar, apresentamos plataformas de validação e teste de dados como a Great Expectations, que podem ser usadas para validar suposições e testar a qualidade de dados de entrada empregados em treinamento ou classificação. Às vezes, porém, tudo o que você precisa é de uma biblioteca de código simples para implementar testes e verificações de qualidade diretamente nos pipelines. pandera é uma biblioteca Python para testar e validar dados em uma ampla variedade de tipos de frames, como pandas, Dask ou PySpark. pandera pode implementar afirmações simples sobre campos ou testes de hipóteses com base em modelos estatísticos. A grande variedade de bibliotecas de frames suportadas significa que os testes podem ser escritos uma vez e depois aplicados a uma variedade de formatos de dados subjacentes. pandera também pode ser usada para gerar dados sintéticos para testar modelos de ML.