数据湖与 LakeHouse 依然炙手可热

语言: CN / TW / HK
马进

网易数帆大数据实时计算技术专家、湖仓一体项目负责人,负责网易集团分布式数据库、数据传输平台、实时计算平台、实时数据湖等项目,长期从事中间件、大数据基础设施方面的研究和实践,目前带领团队聚焦于流批一体、湖仓一体的平台方案和技术演进,及流式湖仓服务 Arctic 项目开源。

近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》网易数帆大数据实时计算技术专家马进在报告中对开源 AI 领域进行了解读,以下为原文。


数据湖与 LakeHouse 依然炙手可热

2022 年,数据湖与 LakeHouse 依然是炙手可热的话题。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名开源项目的带动下,国内的一些基础软件公司也开始在数据湖开源领域积极布局,代表有网易数帆开源的湖仓管理系统 Arctic,阿里云开源的流式数仓 Flink Tablestore;另一方面,一些传统架构的开源数仓软件,以及闭源的数据分析引擎,也开始积极拥抱开放的数据湖格式,标志性事件如 Snowfake 可以对接 Delta 和 Iceberg,Doris 系的开源数仓可以查询 Iceberg 数据。

在众多开源项目与头部企业的带动下,行业和市场相比去年对 LakeHouse 的价值认知有了长足进步。

目前,用户切入 LakeHouse 主要有两点:一是数据湖上云,公有云的对象存储与私有化的 Hadoop 在一些功能上有较大不同,比如 list 和 rename 接口的性能缺陷,导致用户在把围绕 Hadoop 构建的数仓体系迁往云端时需要应对各种问题,而以 Iceberg 为代表的新型表格式在使用上天然不依赖这些接口,并且提供了 ACID、模式演进等高阶特性,为用户提供了更好的上云方案;二是数据处理的流批一体,新型数据湖格式的快照机制对流更加友好,可以将数据湖拓展到更多流计算场景,甚至演进到流式湖仓的场景,实现实时数仓和离线数仓在湖仓上的统一。

但需要承认的是,LakeHouse 这项技术还没有瓜熟蒂落,尤其在流批一体方面,依然有很多想象空间。在 Gartner 技术成熟度曲线中,LakeHouse 处于期望膨胀期的临界点,距离主流市场采纳还需要 2-5 年的时间。得益于数据湖天然的体量和成本优势,可以预见当 LakeHouse 成为标准技术方案时,它将给企业的数字化转型带来极具意义的变革。


 《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。

在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。

欲了解更多报告内容,请点击:http://gitee.com/report/china-open-source-2022/