怎麼理解資料網格(Data Mesh)

語言: CN / TW / HK

來源:網路翻譯    編輯:資料一哥

全文共  2179 個字,建議閱讀 5 分鐘

資料網格是一種架構模式,用於在大型複雜組織中實現企業資料平臺。它有助於擴充套件分析的採用範圍,使其超越單個平臺和單個實施團隊

對分析的需求並不新鮮。組織總是需要分析業務績效,自從引入計算機以來,就一直使用計算機來分析業務績效。大約在20世紀80年代,組織開始通過使用專門用於決策支援的資料庫來構建資料倉庫解決方案。這些解決方案長期以來為組織提供了良好的服務。

然而,隨著業務的變化以及生成的資料越來越多樣化,使用關係資料庫的資料倉庫解決方案可能並不總是最佳解決方案。在2000年代,大資料作為一個通用術語被引入。快速採用了新的解決方案,可以分析以極高速度生成的大量不同資料。這包括資料湖和分析大量資料的橫向擴充套件解決方案等技術。

近年來,許多組織成功地使用了現代體系結構和分析模式,這些模式將資料倉庫技術和最新的大資料技術相結合。

然而,一些組織在使用此模式部署分析解決方案時會遇到問題。這些解決方案通常仍作為整體解決方案實施,其中一個團隊是平臺提供商,另一個團隊是進行資料整合的團隊。從團隊設定的角度來看,這適用於較小的組織和高度集中的組織。然而,僅使用一個團隊通常會在大型組織中造成瓶頸。這一瓶頸導致了大量積壓工作,組織中的一些部門不得不等待資料整合服務和分析解決方案。

隨著組織採用現代資料科學解決方案,這種模式變得越來越普遍。與過去的傳統商業智慧解決方案相比,許多資料科學解決方案需要更多的資料。

最近轉向使用微服務作為應用程式開發模式是圍繞資料整合的長期積壓的另一個驅動因素,因為它增加了資料來源的數量。

在大型組織中,讓一個團隊在一個平臺上處理所有資料攝取也可能會有問題。一個團隊很少有針對每個資料來源的專家。從業務角度來看,大多陣列織都是分散和分佈的。不同的業務部門和部門處理不同的操作部分,因此資料專家通常分佈在各個部門。

為了解決這些問題,幾年前引入了一種稱為資料網格的新體系結構模式。Data mesh的目標是讓分散式團隊以分散和靈活的方式處理和共享資訊。

資料網格是一種技術模式,也需要組織變革。資料網格方法的好處是通過實施釋出和使用資料產品的多學科團隊來實現的。

以下概念是理解資料網格體系結構的基礎:

  • 02

    資料域

  • 資料域是資料網格的基礎。 資料域的概念來自領域驅動的開發,這是一種在軟體開發中經常用來建模複雜軟體解決方案的正規化。 在資料網格中,資料域是定義企業資料周圍邊界的一種方法。 域可能因組織而異,在某些情況下,您可以圍繞組織定義域。 在其他情況下,您可以選擇基於業務流程或源系統對資料域進行建模。

資料域有三個方面:

  • 您選擇的邊界使其成為長期所有權。它們存在了很長一段時間,並確定了所有者。

  • 領域應該符合現實,而不僅僅是理論概念。

  • 您的域需要具有原子完整性。如果區域之間沒有關係,不要將它們組合在一個域中。

有關資料域以及如何定義它們的更多資訊,請參閱什麼是資料域?

03

資料產品

資料產品是資料網格的另一個重要組成部分。 資料產品旨在將產品思維帶入資料世界。 為了使您的資料產品獲得成功,它需要為目標使用者提供長期的業務價值。 在資料網格中,資料產品涉及資料、程式碼資產、元資料和相關策略。 資料產品可以作為API、報表、表或資料湖中的資料集交付。

成功的資料產品必須:

對於本節,如果您將其格式設定為:

  • 可用:您的產品必須有直接資料域之外的使用者。

  • 價值:您的產品必須隨著時間的推移保持價值。如果沒有長期價值,就不會成功。

  • 可行:你的產品必須是可行的。如果你不能真正構建它,那麼這個產品就不會成功。從資料可用性和技術角度來看,您的產品必須是可行的。

資料產品的程式碼資產包括生成資料產品的程式碼和交付資料產品的程式碼。它還包括用於建立產品和產品最終報告的管道。

有關使用資料網格的具體指導,請參閱什麼是資料產品

04

自助服務平臺

資料網格的核心是有一個平臺,允許資料域自己構建資料產品。 他們需要能夠通過使用與其使用者相關的工具和流程來定義其資料產品,而不需要對中央平臺或中央平臺團隊有強烈的依賴性。 在資料網格中,您擁有開發和管理自主產品的自主團隊。

在與瞭解您的資料的業務使用者進行分散和協調的同時,您還將有多面手在您的平臺上工作。因此,您不能將需要專業知識才能操作的專業工具作為基於網格的平臺的核心基礎

05

聯合治理

當您採用自助式分散式資料平臺時,您必須更加重視治理。缺乏治理會導致跨資料域的豎井和資料重複。聯合您的治理,因為了解治理需求的人存在於與域一致的團隊和資料所有者中。

要建立聯合治理,請圍繞平臺和資料需求實施自動化策略。使用高度自動化進行測試和監控。採用程式碼優先的實施策略,將標準、策略、資料產品和平臺部署作為程式碼處理

資料網格是實現企業資料平臺的有效方法,但它不是所有組織的最佳解決方案。資料網格需要能夠獨立工作的自治團隊。它在需要將其分析採用範圍擴充套件到單個平臺和實施團隊之外並擁有獨立業務部門的大型複雜組織中效果最好。

使用資料網格時,在實施治理時要特別小心,以免建立豎井。始終將對資料的產品思考作為實施的核心,以確保成功。

原文連線:http://docs.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/cloud-scale-analytics/architectures/what-is-data-mes

長按以識別二維碼,加入大資料微訊號群~ 

公眾號推送規則變了

點選上方公眾號名片, 收藏公眾號 ,不錯過精彩內容推送!