Apache Iceberg

Technology Radar

Publicado : Mar 29, 2022

NÃO ENTROU NA EDIÇÃO ATUAL

Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais

Mar 2022

Avalie

Apache Iceberg é um formato de tabela aberta para conjuntos de dados analíticos muito grandes. O Iceberg suporta operações de dados analíticos modernas, como inserção, atualização, exclusão em nível de registro, consultas de viagem no tempo, transações ACID, particionamento oculto e evolução completa de esquema. Oferece suporte a vários formatos de armazenamento de arquivos subjacentes, como Apache Parquet, Apache ORC e Apache Avro. Muitos mecanismos de processamento de dados suportam Apache Iceberg, incluindo mecanismos SQL como Dremio e Trino, bem como mecanismos de streaming (estruturado) como Apache Spark e Apache Flink.

Apache Iceberg se enquadra na mesma categoria que Delta Lake e Apache Hudi. Todos suportam recursos mais ou menos semelhantes, mas se diferem nas implementações subjacentes e nas listas detalhadas de recursos. Iceberg é um formato independente e não é nativo de nenhum mecanismo de processamento específico, portanto, é compatível com um número crescente de plataformas, incluindo AWS Athena e Snowflake. Pelo mesmo motivo, o Apache Iceberg, ao contrário de formatos nativos como Delta Lake, pode não se beneficiar das otimizações quando usado com o Spark.