数据湖与 LakeHouse 依然炙手可热
马进网易数帆大数据实时计算技术专家、湖仓一体项目负责人,负责网易集团分布式数据库、数据传输平台、实时计算平台、实时数据湖等项目,长期从事中间件、大数据基础设施方面的研究和实践,目前带领团队聚焦于流批一体、湖仓一体的平台方案和技术演进,及流式湖仓服务 Arctic 项目开源。
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。网易数帆大数据实时计算技术专家马进在报告中对开源 AI 领域进行了解读,以下为原文。
数据湖与 LakeHouse 依然炙手可热
2022 年,数据湖与 LakeHouse 依然是炙手可热的话题。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名开源项目的带动下,国内的一些基础软件公司也开始在数据湖开源领域积极布局,代表有网易数帆开源的湖仓管理系统 Arctic,阿里云开源的流式数仓 Flink Tablestore;另一方面,一些传统架构的开源数仓软件,以及闭源的数据分析引擎,也开始积极拥抱开放的数据湖格式,标志性事件如 Snowfake 可以对接 Delta 和 Iceberg,Doris 系的开源数仓可以查询 Iceberg 数据。
在众多开源项目与头部企业的带动下,行业和市场相比去年对 LakeHouse 的价值认知有了长足进步。
目前,用户切入 LakeHouse 主要有两点:一是数据湖上云,公有云的对象存储与私有化的 Hadoop 在一些功能上有较大不同,比如 list 和 rename 接口的性能缺陷,导致用户在把围绕 Hadoop 构建的数仓体系迁往云端时需要应对各种问题,而以 Iceberg 为代表的新型表格式在使用上天然不依赖这些接口,并且提供了 ACID、模式演进等高阶特性,为用户提供了更好的上云方案;二是数据处理的流批一体,新型数据湖格式的快照机制对流更加友好,可以将数据湖拓展到更多流计算场景,甚至演进到流式湖仓的场景,实现实时数仓和离线数仓在湖仓上的统一。
但需要承认的是,LakeHouse 这项技术还没有瓜熟蒂落,尤其在流批一体方面,依然有很多想象空间。在 Gartner 技术成熟度曲线中,LakeHouse 处于期望膨胀期的临界点,距离主流市场采纳还需要 2-5 年的时间。得益于数据湖天然的体量和成本优势,可以预见当 LakeHouse 成为标准技术方案时,它将给企业的数字化转型带来极具意义的变革。
《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。
在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
欲了解更多报告内容,请点击:http://gitee.com/report/china-open-source-2022/
- 从云原生到 Serverless,我们对数据库还有哪些想象?
- 2022 年大前端总结来了,我们能抓住什么?
- 15 大分论坛不容错过,GOTC 2023 即将拉开帷幕!
- WebGPU 尚未发布,Orillusion 提前公测,我们先和创始人聊了聊
- 多样性算力、全场景支持是操作系统刚性需求
- Thoughtworks 技术专家 Phodal:2022 年前端趋势总结
- 云原生业界生态空前活跃,要落地仍然考验创造力
- eBPF为云原生应用可观测性开启更多可能性
- 白鲸开源代立冬:数据技术快速更迭, DataOps 应运而生
- 下一代开源操作系统 因云而与众不同
- 争执不断,但低代码的发展已经成为趋势
- 网关基础设施或迈出走向标准化的关键一步
- 前后端开发的边界越来越模糊
- 为什么说 AI 标准化和规模化应用来临?
- 平台工程理念崛起
- 云原生成为数据库产品的重要演进方向
- 开源数据库赛道为何吸金?
- 数据湖与 LakeHouse 依然炙手可热
- 操作系统根社区或能应对停服难题
- 统信王耀华:把握开源操作系统供应链安全