Google Cloud Dataflow es un servicio de procesamiento de datos basado en la nube para aplicaciones de transmisión de datos en tiempo real y por lotes. Nuestros equipos usan Dataflow para crear flujos de procesamiento para integrar, preparar y analizar grandes conjuntos de datos, con el modelo de programación unificado de Apache Beam para facilitar su administración. Presentamos Dataflow por primera vez en 2018, y su estabilidad, rendimiento y conjunto completo de funciones nos dan confianza para moverlo a la sección Trial en esta edición del Radar.
Google Cloud Dataflow is useful in traditional ETL scenarios for reading data from a source, transforming it and then storing it to a sink, with configurations and scaling being managed by dataflow. Dataflow supports Java, Python and Scala and provides wrappers for connections to various types of data sources. However, the current version won’t let you add additional libraries, which may make it unsuitable for certain data manipulations. You also can’t change the dataflow DAG dynamically. Hence, if your ETL has conditional execution flows based on parameters, you may not be able to use dataflow without workarounds.