大數至簡|炎凰數據平台v2.0技術特點大揭祕!
炎凰數據平台v2.0採用混合建模技術、高性能計算引擎和雲原生架構,在多個技術方面進行了探索與突破,最大程度提高了靈活性、易用性和高效性 。
本篇文章,我們將為大家詳細介紹炎凰數據平台v2.0的技術細節和功能特點。
《炎凰數據平台讀時建模》
炎凰數據平台v2.0是我們自主研發的一個 異構數據即時分析平台 ,其中有兩大關鍵詞:
01
異構數據
一個簡單易用的數據分析系統要能夠快速靈活地處理不同格式的數據。炎凰數據利用 讀時建模 的技術,對各種異構數據進行高效靈活的處理。
讀時建模技術的核心思想是 直接存儲原始數據 ,確保數據的 高保真 ,在查詢數據時可以按需生成新的字段,動態構建模型,靈活地響應業務需求的變化。
分析師或數據工程師把原始數據導入炎凰數據平台之後,可以在炎凰數據平台中通過交互式SQL直接提取字段建立數據模型,進一步完成分析的需求。當分析需求變化時,只需要改寫字段提取SQL邏輯,即可修改數據模型,無需重新導入數據,從而將需求的實現過程從以月計加速到以天計。
02
即時分析
通過對原始數據構建倒排索引以及時序索引,炎凰數據平台v2.0具備即時查詢分析數據的能力。炎凰數據引擎兼具讀時建模、時序處理和數據搜索三大能力。圍繞這一核心引擎,炎凰數據也構建了數據採集、導入和展現等模塊,提供端到端的開箱即用的數據服務。
《炎凰數據平台三大模塊》
炎凰數據平台具有 三個技術特點 :
靈活性 :炎凰數據核心引擎以讀時建模為主,同時兼容寫時建模,保證了數據處理的靈活性。
高效性 :使用C++實現引擎,採用現代架構和工程優化,確保了數據處理的快速高效。
先進性 :炎凰數據利用雲原生微服務的架構,實現服務之間的解耦,存算分離,可以根據不同的業務場景和工作負載,單獨擴展存儲或者計算服務。
從數據流的角度,可以把炎凰數據平台分為 三大模塊 :
01
數據採集模塊
將 各類異構數據 接入炎凰數據平台。
02
數據索引模塊
對時間戳自動識別和分析,根據時間對數據分片。對數據進行分詞,構建 倒排索引 。熱數據暫時存儲到內存當中,當滿足條件之後,把數據和索引寫入磁盤。對於普通的文本類型的日誌,單節點可以達到 20MB/s 的寫入速度。炎凰數據利用 列式存儲 技術,實現數據高壓縮比存儲,為客户節省了存儲成本。
03
數據查詢模塊
SQL解析和查詢的引擎在解析查詢後可以鎖定檢索數據範圍,然後利用查詢中用到的讀時建模的規則,構建數據模型,進一步進行聚類、過濾和關聯分析。利用 即時編譯 和 向量計算加速 等技術,單節點可以每秒鐘處理超過 100萬條數據 。
《炎凰數據平台技術發展方向》
在產品和技術上,炎凰數據也會踐行“ 大數至簡 ”的核心理念,持續在 易用性 、 高效性 、 雲原生 三方面繼續投入。
易用性
選擇 SQL 作為分析語言,可以降低學習成本,讓用户更快速地上手數據分析,未來,炎凰數據會進一步豐富SQL計算的能力。同時,持續完善從數據採集到展示的 全棧式的服務 ,在安裝平台之後,可以立即導入數據進行數據分析,驗證分析結果,加快數據產生價值的閉環。
高效性
選用 C++ 來實現底層的存儲和計算的引擎,能夠從底層去控制並行計算的粒度,控制內存的使用量,實現內存的 零拷貝 。炎凰數據會持續進行工程優化,保證高效地導入數據和計算數據。
雲原生
利用 雲原生 的架構,可以更好地適配各種雲環境,提高資源利用率,靈活地 彈性伸縮 ,讓企業使用數據的時候更加簡單。
- 移動雲湖倉一體的探索與實踐
- 京東零售焦文健:挖掘客户意見,驅動經營改善
- 搭建基於知識圖譜的醫療行業問答系統
- NLP技術落地難在哪?
- 大數至簡|炎凰數據平台v2.0技術特點大揭祕!
- 風控貸後管理中的非結構化數據應用
- 預訓練時代微調新範式,高性能加速2800%,NLPer趕緊看過來!
- 金融場景下的模型可解釋性應用探索
- 銀行風控中台實踐
- 效率VS安全,從來就不是單選題。成年人,都要!
- 多類目MoE模型在京東電商搜索中的應用
- 炎凰數據:新一代異構大數據處理平台
- CVPR 2021 頂會冠軍圖像分割算法全解密
- OLAP進階:Excel可直接分析的大數據語義層
- 不捲了,圖像識別算法這一個就夠了
- 網易嚴選 x 網易有數:數據產品 數據中台雙引擎模式實踐
- 小紅書 x DorisDB:小紅書OLAP平台建設實踐
- 貝殼基於Spark的HiveToHBase實踐
- 蜻蜓FM信息流推薦探索與實踐
- 百度UNIT智能對話及語音語義一體化方案