Metaflow es una librería de Python y un servicio de back-end fácil de usar que ayuda a los data scientists e ingenieros de data a construir y administrar el procesamiento de datos que está listo para producción, Machine Learning (ML) y flujos de inferencia. Metaflow provee APIs de Python que estructuran el código como un grafo dirigido de pasos. Cada paso puede ser decorado con configuraciones flexibles como los recursos requeridos de procesamiento y de almacenamiento. Los artefactos de código y de data para ejecutar cada uno de los pasos (conocido como tarea) están almacenados y pueden ser recuperados ya sea para futuras ejecuciones o para los próximos pasos en el flujo, permitiéndole recuperarse de los errores, ejecuciones repetitivas y seguimiento de versiones de modelos y sus dependencias a través de múltiples ejecuciones.
La propuesta de valor de Metaflow es la simplicidad de la librería idiomática de Python: se integra completamente con la infraestructura construida y con el tiempo de ejecución para habilitar la ejecución de la ingeniería de data y las tareas científicas en ambientes de producción locales y escalados. Al momento de escribir este artículo, Metaflow se integra fuertemente con los servicios AWS como S3 por su servicio de almacenamiento de data y las funciones de paso para la orquestación. Metaflow admite el lenguaje R además de Python. Sus funcionalidades principales son open source.
Si estás construyendo y desplegando tu producción de Machine Learning (ML) y de data-processing pipelines en AWS, Metaflow es una estructura alterna, ligera y full-stack para plataformas más complejas como MLflow.