iceberge(一)

发布时间:2026/5/20 1:48:26

iceberge(一) 什么是 Apache Iceberg定义一种用于大型数据分析场景的开放表格格式Table Format。类比它的使用方式类似于 SQL 表是一种高性能的表格式。存储能力支持存储数十 PB​ 级别的数据。生态兼容适配多种计算引擎如 Spark、Trino、PrestoDB、Flink 和 Hive提供高性能的读写和元数据管理功能。定位是一种数据湖解决方案。关于 Trino 的小知识注意点Trino 的历史原名Trino 最初叫 PrestoSQL。更名时间2020年12月27日PrestoSQL 项目更名为 Trino。分支Presto 项目后来分成了两大分支PrestoDB​ 和 PrestorSQL现名 Trino。Iceberg 的核心特点Iceberg 的 7 个关键特性读写支持支持实时和批量数据写入和读取兼容 Spark/Flink 计算引擎。事务支持支持 ACID​ 事务允许添加、删除、更新数据。存储解耦不绑定任何底层存储支持 Parquet、ORC、Avro 格式兼容行存储和列存储。分区灵活性支持隐藏分区和分区变更方便业务调整分区策略。版本控制支持快照数据重复查询具备版本回滚功能。查询性能扫描计划很快读取表或查询文件时可以不依赖分布式 SQL 引擎。元数据过滤通过元数据对查询进行高效过滤。并发控制基于乐观锁的并发支持提供多线程并发写入能力并保证数据线性一致。总结这张图片是一份关于 Apache Iceberg 的技术简介重点在于说明它是一种现代化的数据湖表格式解决了传统数据湖在事务、性能、Schema 演进等方面的问题并且与主流的大数据计算引擎如 Spark、Flink、Trino紧密集成。

相关新闻