Apache Iceberg é um formato de tabela aberta para conjuntos de dados analíticos muito grandes. O Iceberg suporta operações de dados analíticos modernas, como inserção, atualização, exclusão em nível de registro, consultas de viagem no tempo, transações ACID, particionamento oculto e evolução completa de esquema. Oferece suporte a vários formatos de armazenamento de arquivos subjacentes, como Apache Parquet, Apache ORC e Apache Avro. Muitos mecanismos de processamento de dados suportam Apache Iceberg, incluindo mecanismos SQL como Dremio e Trino, bem como mecanismos de streaming (estruturado) como Apache Spark e Apache Flink.
Apache Iceberg se enquadra na mesma categoria que Delta Lake e Apache Hudi. Todos suportam recursos mais ou menos semelhantes, mas se diferem nas implementações subjacentes e nas listas detalhadas de recursos. Iceberg é um formato independente e não é nativo de nenhum mecanismo de processamento específico, portanto, é compatível com um número crescente de plataformas, incluindo AWS Athena e Snowflake. Pelo mesmo motivo, o Apache Iceberg, ao contrário de formatos nativos como Delta Lake, pode não se beneficiar das otimizações quando usado com o Spark.