Apache Iceberg Es un formato de tabla abierta para conjuntos de datos analíticos muy grandes. Iceberg admite operaciones de datos analíticos modernos, como la inserción, actualización y eliminación a nivel de registro, time-travel queries, transacciones ACID, partición oculta y evolución completa del esquema. Soporta múltiples formatos de almacenamiento de archivos subyacentes como Apache Parquet, Apache ORC y Apache Avro. Muchos motores de procesamiento de datos soportan Apache Iceberg, incluyendo motores SQL como Dremio y Trino, así como motores de streaming (estructurado) como Apache Spark y Apache Flink.
Apache Iceberg está en la misma categoría que Delta Lake y Apache Hudi. Todos ellos soportan más o menos características similares, pero cada uno difiere en las implementaciones subyacentes y en las listas de características detalladas. Iceberg es un formato independiente y no es nativo de ningún motor de procesamiento específico, por lo que es soportado por un número creciente de plataformas, incluyendo AWS Athena y Snowflake. Por la misma razón, Apache Iceberg, a diferencia de los formatos nativos como Delta Lake, puede no beneficiarse de las optimizaciones cuando se utiliza con Spark.