Great Expectations se ha convertido en una prácticas por default para nuestros equipos en el ámbito de la calidad de datos, es por esto que recomendamos su adopción, no sólo por la falta de mejores alternativas, sino también porque nuestros equipos han obtenido grandes resultados en varios proyectos de clientes. Great Expectations es un framework que permite elaborar controles integrados para identificar anomalías o problemas de calidad en los pipelines de datos. Al igual que las pruebas unitarias que se ejecutan en un pipeline de construcción, Great Expectations realiza validaciones durante la ejecución de un proceso de datos. Nos gusta su simplicidad y facilidad de uso — las reglas almacenadas en JSON pueden ser modificadas por nuestros expertos en el dominio de datos sin necesidad de tener conocimientos en ingeniería de datos.
Habíamos escrito sobre Great Expectations en la edición anterior del Radar. Nos encanta y hemos decidido moverlo al anillo "Probar" en esta edición. Great Expectations es un marco de trabajo que permite crear controles que etiquetan anomalías o problemas de calidad en los pipelines de datos. Igual que la ejecución de una prueba unitaria en un pipeline de compilación, Great Expectations realiza verificaciones durante la ejecución del pipeline de datos. Nos gusta su simplicidad y facilidad de uso: las reglas almacenadas en formato JSON pueden ser modificadas por nuestros expertos del dominio de datos sin necesidad de tener habilidades de ingeniería de datos.
Con el surgimiento de CD4ML, los aspectos operacionales de la ingeniería y la ciencia de datos han recibido más atención. La gobernanza de datos automatizada es un aspecto de este desarrollo. Great Expectations es un framework que permite crear controles integrados que señalan anomalías o problemas de calidad en los pipelines de datos. Al igual que las pruebas unitarias corren en un pipeline de compilación, Great Expectations realiza verificaciones durante la ejecución de un pipeline de datos. Esto es útil no solo para implementar una especie de Andon para pipelines de datos sino también para garantizar que los algoritmos basados en modelos permanezcan dentro del rango operativo determinado por sus datos de entrenamiento. Los controles automatizados como este pueden ayudar a distribuir, democratizar y custodiar el acceso a los datos. Great Expectations también contiene una herramienta de generación de perfiles para ayudar a comprender las cualidades de un conjunto de datos en particular y establecer límites apropiados.