Apache Iceberg

Radar Tecnológico

Publicado : Mar 29, 2022

NO EN LA EDICIÓN ACTUAL

Este blip no está en la edición actual del Radar. Si ha aparecido en una de las últimas ediciones, es probable que siga siendo relevante. Si es más antiguo, es posible que ya no sea relevante y que nuestra valoración sea diferente hoy en día. Desgraciadamente, no tenemos el ancho de banda necesario para revisar continuamente los anuncios de ediciones anteriores del Radar. Entender más

Mar 2022

Evaluar

Apache Iceberg Es un formato de tabla abierta para conjuntos de datos analíticos muy grandes. Iceberg admite operaciones de datos analíticos modernos, como la inserción, actualización y eliminación a nivel de registro, time-travel queries, transacciones ACID, partición oculta y evolución completa del esquema. Soporta múltiples formatos de almacenamiento de archivos subyacentes como Apache Parquet, Apache ORC y Apache Avro. Muchos motores de procesamiento de datos soportan Apache Iceberg, incluyendo motores SQL como Dremio y Trino, así como motores de streaming (estructurado) como Apache Spark y Apache Flink.

Apache Iceberg está en la misma categoría que Delta Lake y Apache Hudi. Todos ellos soportan más o menos características similares, pero cada uno difiere en las implementaciones subyacentes y en las listas de características detalladas. Iceberg es un formato independiente y no es nativo de ningún motor de procesamiento específico, por lo que es soportado por un número creciente de plataformas, incluyendo AWS Athena y Snowflake. Por la misma razón, Apache Iceberg, a diferencia de los formatos nativos como Delta Lake, puede no beneficiarse de las optimizaciones cuando se utiliza con Spark.