Google Cloud Dataflow é um serviço de processamento de dados baseado em nuvem para aplicações de fluxo de dados em lote e em tempo real. Nossos times estão usando o Dataflow para criar pipelines de processamento para integrar, preparar e analisar grandes conjuntos de dados, com o modelo de programação unificado do Apache Beam para facilitar o gerenciamento. Apresentamos o Dataflow pela primeira vez em 2018, e sua estabilidade, desempenho e conjunto de recursos avançados nos deixam confiantes em movê-lo para o anel Experimente nesta edição do Radar.
Google Cloud Dataflow is useful in traditional ETL scenarios for reading data from a source, transforming it and then storing it to a sink, with configurations and scaling being managed by dataflow. Dataflow supports Java, Python and Scala and provides wrappers for connections to various types of data sources. However, the current version won’t let you add additional libraries, which may make it unsuitable for certain data manipulations. You also can’t change the dataflow DAG dynamically. Hence, if your ETL has conditional execution flows based on parameters, you may not be able to use dataflow without workarounds.