大数至简|炎凰数据平台v2.0技术特点大揭秘!
炎凰数据平台v2.0采用混合建模技术、高性能计算引擎和云原生架构,在多个技术方面进行了探索与突破,最大程度提高了灵活性、易用性和高效性 。
本篇文章,我们将为大家详细介绍炎凰数据平台v2.0的技术细节和功能特点。
《炎凰数据平台读时建模》
炎凰数据平台v2.0是我们自主研发的一个 异构数据即时分析平台 ,其中有两大关键词:
01
异构数据
一个简单易用的数据分析系统要能够快速灵活地处理不同格式的数据。炎凰数据利用 读时建模 的技术,对各种异构数据进行高效灵活的处理。
读时建模技术的核心思想是 直接存储原始数据 ,确保数据的 高保真 ,在查询数据时可以按需生成新的字段,动态构建模型,灵活地响应业务需求的变化。
分析师或数据工程师把原始数据导入炎凰数据平台之后,可以在炎凰数据平台中通过交互式SQL直接提取字段建立数据模型,进一步完成分析的需求。当分析需求变化时,只需要改写字段提取SQL逻辑,即可修改数据模型,无需重新导入数据,从而将需求的实现过程从以月计加速到以天计。
02
即时分析
通过对原始数据构建倒排索引以及时序索引,炎凰数据平台v2.0具备即时查询分析数据的能力。炎凰数据引擎兼具读时建模、时序处理和数据搜索三大能力。围绕这一核心引擎,炎凰数据也构建了数据采集、导入和展现等模块,提供端到端的开箱即用的数据服务。
《炎凰数据平台三大模块》
炎凰数据平台具有 三个技术特点 :
灵活性 :炎凰数据核心引擎以读时建模为主,同时兼容写时建模,保证了数据处理的灵活性。
高效性 :使用C++实现引擎,采用现代架构和工程优化,确保了数据处理的快速高效。
先进性 :炎凰数据利用云原生微服务的架构,实现服务之间的解耦,存算分离,可以根据不同的业务场景和工作负载,单独扩展存储或者计算服务。
从数据流的角度,可以把炎凰数据平台分为 三大模块 :
01
数据采集模块
将 各类异构数据 接入炎凰数据平台。
02
数据索引模块
对时间戳自动识别和分析,根据时间对数据分片。对数据进行分词,构建 倒排索引 。热数据暂时存储到内存当中,当满足条件之后,把数据和索引写入磁盘。对于普通的文本类型的日志,单节点可以达到 20MB/s 的写入速度。炎凰数据利用 列式存储 技术,实现数据高压缩比存储,为客户节省了存储成本。
03
数据查询模块
SQL解析和查询的引擎在解析查询后可以锁定检索数据范围,然后利用查询中用到的读时建模的规则,构建数据模型,进一步进行聚类、过滤和关联分析。利用 即时编译 和 向量计算加速 等技术,单节点可以每秒钟处理超过 100万条数据 。
《炎凰数据平台技术发展方向》
在产品和技术上,炎凰数据也会践行“ 大数至简 ”的核心理念,持续在 易用性 、 高效性 、 云原生 三方面继续投入。
易用性
选择 SQL 作为分析语言,可以降低学习成本,让用户更快速地上手数据分析,未来,炎凰数据会进一步丰富SQL计算的能力。同时,持续完善从数据采集到展示的 全栈式的服务 ,在安装平台之后,可以立即导入数据进行数据分析,验证分析结果,加快数据产生价值的闭环。
高效性
选用 C++ 来实现底层的存储和计算的引擎,能够从底层去控制并行计算的粒度,控制内存的使用量,实现内存的 零拷贝 。炎凰数据会持续进行工程优化,保证高效地导入数据和计算数据。
云原生
利用 云原生 的架构,可以更好地适配各种云环境,提高资源利用率,灵活地 弹性伸缩 ,让企业使用数据的时候更加简单。
- 京东零售焦文健:挖掘客户意见,驱动经营改善
- 搭建基于知识图谱的医疗行业问答系统
- NLP技术落地难在哪?
- 大数至简|炎凰数据平台v2.0技术特点大揭秘!
- 风控贷后管理中的非结构化数据应用
- 预训练时代微调新范式,高性能加速2800%,NLPer赶紧看过来!
- 金融场景下的模型可解释性应用探索
- 银行风控中台实践
- 效率VS安全,从来就不是单选题。成年人,都要!
- 多类目MoE模型在京东电商搜索中的应用
- 炎凰数据:新一代异构大数据处理平台
- CVPR 2021 顶会冠军图像分割算法全解密
- OLAP进阶:Excel可直接分析的大数据语义层
- 不卷了,图像识别算法这一个就够了
- 网易严选 x 网易有数:数据产品 数据中台双引擎模式实践
- 小红书 x DorisDB:小红书OLAP平台建设实践
- 贝壳基于Spark的HiveToHBase实践
- 蜻蜓FM信息流推荐探索与实践
- 百度UNIT智能对话及语音语义一体化方案
- 中文NER碎碎念:聊聊词汇增强与实体嵌套