DevOps + Machine Learning = MLOps ?

語言: CN / TW / HK

時間 2022-06-09 03:01:34 譚中意

前言：近日，企業智慧化轉型開源社群---星策社群組織了DevOps和MLOps的Meetup，是把DevOps和MLOps拉在一起進行分享的社群活動，筆者作為該活動的組織者，寫點東西來說下這兩者的關係和異同，並做回顧。

什麼是DevOps？

最近看好友喬梁（江湖人稱喬幫主）的朋友圈，他說他曾經在2012年QCon大會DevOps Track上預言“過去十年敏捷從熱詞成為市場主流，未來十年DevOps將成為市場的主流”，如今是2022年了，他的預言成為現實，DevOps基本上已經成為每個技術企業、每個工程師都耳熟能詳的一個詞了，也有很多企業已經在進行或多或少的DevOps實踐推行了。

那麼什麼是DevOps？

摘自百度百科上的定義如下：

DevOps（Development和Operations的組合詞）是一組過程、方法與系統的統稱，用於促進開發（應用程式/軟體工程）、技術運營和質量保障（QA）部門之間的溝通、協作與整合。

它是一種重視“軟體開發人員（Dev）”和“IT運維技術人員（Ops）”之間溝通合作的文化、運動或慣例。透過自動化“軟體交付”和“架構變更”的流程，來使得構建、測試、釋出軟體能夠更加地快捷、頻繁和可靠。

它的出現是由於軟體行業日益清晰地認識到：為了按時交付軟體產品和服務，開發和運維工作必須緊密合作。

我總結一下，DevOps有如下三點是做的非常出色的。

1. 打破Dev和Ops之間的部門牆

在傳統研發模式下，Dev（即軟體開發人員）和Ops（IT運維人員）之間存在一個牆導致協作不順暢，我們來看看Google SRE團隊對DevOps的解讀（Google SRE團隊認為是SRE是DevOps的一種實現），我擷取其影片（http://www.youtube.com/watch?v=uTEL8Ff1Zvk&t=112s）中幾個圖來解讀一下。

在傳統研發模式下，Developers（軟體研發人員）和Operators（IT運維人員）分屬於不同的團隊，兩者之間有一個“部門牆”（專業術語叫Silos）。Dev關心Agility即產品功能的快速迭代，Ops更關心Stability，即系統的穩定性。從部門分工和崗位職責來看，Dev希望更多更快的Code Change，Ops則希望更少的程式碼修改，因為在傳統運維模式下，系統沒人動則出事概率小，而實際上很大概率的線上問題都是因為上線引起的，所以對於運維同學來說，線上出問題的第一反應是誰剛才上線了，是否可以無腦回滾來解決問題。

軟體研發人員做好開發和測試之後，把生成好的軟體包，扔過“牆”去，然後就交給IT運維團隊負責了。這個移交過程在某些公司做的比較規範，會設定一定的准入條件門檻，例如需要清晰完整的測試報告、完整詳細的上線文件（包括如何回滾）等，基本上都是為了運維方便，這種模式下研發不太關心線上穩定性。

IT運維團隊在接受這些軟體包之後，部署到線上環境裡面。他們負責這些系統的穩定性執行，可能會採用小流量到全流量部署，多地多機房分散式部署等，來提升系統的穩定性和健壯性。線上服務的穩定性，包括常見的幾個9，往往是運維同學的KPI。

DevOps首先是打破了這個牆，促使軟體開發人員和IT運維人員更好的協作，因此產生了很多落地的實踐，包括團隊組織上，例如更小的敏捷團隊、開發運維一體化；程式碼和配置共享，例如內部開源、Configuration As a Code；運維任務共享，例如研發也OnCall（即線上運維值班，第一時間處理業務報警和事故）等等。

2. 把自動化流水線擴充套件到了運維環節

包括Continuous Integration（簡稱CI）和Continuous Deployment（簡稱CD）。在DevOps之前的工程實踐為敏捷，往往只有Continuous Integration，只覆蓋了編碼，編譯，測試，打包環節，並沒有覆蓋部署環節。

這是非常著名的DevOps雙環流水線模型，左半邊集中在軟體研發階段，從Plan（需求定義），到Code（編寫程式碼），然後到Build（編譯），再通過Test（測試），最後生成軟體包，形成Release（釋出）。

右半邊集中在軟體部署階段，從獲得軟體包開始，Deploy（部署），然後Operate（線上運維），再到Monitor（監控線上服務）。

兩個環構成DevOps的完整流水線，這個流水線的運轉是持續的，左半邊一般稱之為持續整合（Continuous Integration），右半邊一般稱之為持續部署（Continuous Deployment）。顯然這個流水線運轉的速度說明了該研發運維團隊的工程能力。當然，是需要在保證一定質量的前提下的快。也不是部署頻率越多越快就越好，需要每次迭代都是朝著提升業務價值的目標，不斷逼近理想值的迭代。

DevOps業內的有名的調研報告《State of DevOps 2021》（http://cloud.google.com/blog/products/devops-sre/announcing-dora-2021-accelerate-state-of-devops-report）

中指出，Elite團隊（即在DevOps領域內做的出色的團隊）能做到按需部署（每天可以做很多次部署），而一般的團隊部署週期在一週或者一個月左右，再差一點的團隊部署週期在一個月到半年左右，最差的團隊部署週期在半年以上。

3. 利用工具來支援自動化，並形成了繁榮的工具生態

這只是我在網際網路上隨機找的一個圖，類似的圖還有很多種，特點是DevOps的流水線上每個環節都有多個工具在支援，在協作。這裡面有開源的軟體，例如git，gitlab，gradle，jenkins，也有商業的軟體和服務，包括Azure和AWS等。

DevOps的推廣和運營如此成功，之後又有很多類似的名詞產生出來。包括DevSecOps，GitOps，DataOps，ModelOps，AIOps，NoOps，MLOps等等。其中AIOps是指用AI的能力提升傳統運維的能力，包括利用機器學習來進行流量預測來幫助進行流量排程，利用機器學習來進行硬體壽命預估來幫助進行硬體成本控制等。NoOps指的是減少業務的運維操作，把業務系統的運維操作下沉到底層的基礎設施的運維上。

其他各種Ops都是各種Operation（Ops）的自動化，都包含相應的流程和工具（即通過工具自動化來完成所需要流程），Ops都包含相應的角色，不同點是具體哪個領域內，哪些任務的自動化，流程、工具、角色各異。

例如MLOps就是在機器學習領域內，目標是為了提升機器學習落地的效率。

下面將詳細的介紹MLOps。

什麼是MLOps

MLOps目前沒有特別清晰一致的定義。

來自Wikipedia的定義如下：

MLOps is a set of practices that aims to deploy and maintain Machine Learning models in production reliably and efficiently.

（有人認為MLOps和ModelOps是同一個概念，筆者認為MLOps的ML是指Machine Learning，而不只是Model的縮寫，MLOps所包含的概念比ModelOps的概念要廣泛，ModelOps指的是模型（Model）相關的開發和運維自動化，而MLOps關心的內容不只是Model，還包括Data和Code。）