重慶大學劉禮:因果學習與應用

語言: CN / TW / HK

作者 | 劉禮

編輯 | 維克多

因果學習作為人工智慧領域研究熱點之一,其研究進展與成果也引發了眾多關注。4月9日,在AI TIME青年科學家——AI 2000學者專場論壇上,重慶大學大資料與軟體學院教授 劉禮 做了 《因果學習與應用》 的報告。

在報告中, 他從辛 普森悖論入手,分析了當前機器學習面臨的困難,然後介紹了幾個主流因果框架解決“非獨立同分布”、“結合知識”的思路,以及框架的優缺點, 例如他提到:

“目前有兩套主要的因果模型:Pearl的結構因果模型,以及Rubin的潛在結果模型。兩者都可以預測、干預以及回答反事實問題,但對於“發現定理知識”不確定是否可行。潛在結果模型的不同之處在於,可以從資料中學習,但結合現有知識較為困難,結構因果模型則相反,可以結合現有知識,但從資料中學習的能力還亟待進一步檢驗。”

此外,他還結合自己的工作成果,提到了因果框架如何應用於影象合成、疾病診斷、行為識別等例子,以下是演講原文,AI科技評論做了不改變原意的整理。

今天報告的內容是因果學習及其應用。該領域最著名的一個例子是辛普森悖論:在700例腎病患者中,觀察他們服藥情況,發現服藥男性的治癒率是93%,女性治癒率73%,不服藥的男性治癒率為87%,女性為69%。分男女組別考察,能夠得出”服藥有助於恢復”的結論,但從整體樣本考察,會發現不服藥的治癒率83%高於服藥的治癒率78%。

另外一個辛普森悖論的例子關於房價。10年前,某城市市中心的房價是8000元/平米,共銷售了1000萬平;高新區是4000元/平米,共銷售了100萬平;整體來看,該市7636元/平米;現在,市中心10000元/平米,銷售了200萬平;高新區是6000元/平米,銷售了2000萬平,整體來看,該市6363元/平米。因此,分割槽來看分別都漲了,但從整體上看,會有疑惑:為什麼現在的房價反而跌了?

辛普森悖論雖然不是新提出的,但卻是各領域不可忽視“頑疾”。2019年,新冠爆發時,有學者分國家對病死率進行了統計,如上圖,在各個年齡段,中國的病死率都比義大利高;但整體統計下來,義大利卻反而更高。

這種分組和整體結論不同的情況,也是機器學習模型的困境。例如訓練資料和測試資料不滿足獨立同分布的假設,那麼機器學習在分佈偏移情況下很難魯棒地學習,在新的場景中很難使用現有的模型。

實際上, 目前基於資料驅動的機器學習方法,訓練出的模型都得出的結論大多是變數和變數之間的相關關係,而不是因果關係。 例如之前有項研究發現,在某大國暴力犯罪與醃黃瓜消耗密切相關,但這種相關性並不代表因果性。

從因果的角度,辨析醃黃瓜和暴力犯罪之間的關係需要考慮混淆變數。如上圖,混淆變數會同時影響獨立變數和因果變數,從而造成兩者之間的偽相關。如果將傳統統計和因果推斷進行對比,有以下幾個特點:

在90年代,知識驅動的機器學習方法佔據主流,基於人類知識,編碼成規則,讓計算機自動在規則之上進行推理。深入思考,其實西方科學的發展史就是因果問題,這套真理體系+推理體系我們從小就在學習:已知1+1=2, 1+2=3,可以推導得出1+1+1=3。

這套體系也有可能出錯,例如牛頓定律在地球上適用,但在宇宙中就失效,從而愛因斯坦提出了相對論。

東方科學發展也有幾千年,也大量地研究過因果關係。

1

超越資料驅動,邁向可解釋性

主流資料驅動的機器學習已經非常成功,無論是阿法狗,還是GPT都帶來了驚豔的效果。但有兩個缺點: 沒有可解釋性、可控性差。

為了解決上述問題,圖靈獎獲得者朱迪亞·珀爾提出 因果關係之梯 。如上圖,第一層次是關聯,通過概率表達描述出觀察到的一堆資料。第二層次是干預,不僅是觀察,而且是進行實驗改變,例如如果吃了阿司匹林,我的頭痛會得到治癒嗎?如果我們禁止吸菸將會發生什麼?其中,吃藥和禁止吸菸都是干預手段。第三層次是反事實,在既定結果已經發生的情況,假設當初採取另一方案,則會發生什麼。反事實不會得到觀察資料,畢竟不存在兩個平行世界,但確實經常遇到的情況,經典的就是人們常說的“如若當初........就不會......”。

在概率空間層面,如何解釋?如上圖,觀察到的資料,形成一個聯合分佈概率表達;加入干預之後,每一個操作對應一個概率分佈,因此可能解決“獨立同分布”假設帶來的缺陷。

反事實問題目前非常難解決,也有很多例子。黑人被警察控制事件,反事實下,就對應:如若白人被警察控制了,會發生什麼?在影視劇中,也常發出如若是另外某個明星參演,票房會有什麼變化。這些反事實問題沒辦法驗證,但需要回答。

針對此問題,目前有兩套主要的因果模型:Pearl的結構因果模型;Rubin的潛在結果模型。兩者都可以預測、干預以及回答反事實問題,對於“發現定理知識”目前還不確定是否可行。但潛在結果模型的不同之處在於,可以從資料中學習,但與現有知識相結合比較困難,而結構因果模型則相反,可以結合現有知識,但從資料中學習的能力還亟待進一步檢驗。

目前,因果正規化有幾個問題正在解決: 因果發現、因果推理。

因果發現需要基於已有的資料找出變數和變數之間的因果關係。目前有兩套主流的方法:基於約束以及基於評分的。這兩套方法不去詳細講述。但存在的問題是:隨著變數的增多,需要檢驗因果圖就會達到天文數字。因此,如何利用機器學習方法反過來提升因果發現,是目前流行的問題。

在機器學習領域中,Pearl的方法本質是基於結構方程,主流方向是用它進行因果解耦。同時,也有一些非因果的方法,例如在SVM空間中進行超平面切分。

在因果推理層面,Pearl提出了do運算元,在因果圖上給出了一系列定理和假設,用傳統的概率表達形式進行操作,這就讓“因果”變得可計算。Pearl同樣給出了反事實計算框架,其最重要的是“孿生網路”,包含一個真實世界,以及一個反事實世界。Pearl這套理論其實也存在缺點,即假設因果圖是存在的,並需要包含一些先驗知識,例如方程的結構是線性還是非線性的。

因果效應評估,就是在有一堆觀察變數以及未觀察變數的情況下,如何評估出變數X對變數Y的因果效應有多大。目前主流方法包括傾向得分、工具變數等等。

2

應用例舉,因果框架符合現實假設

目前的影象自動生成很多都是以條件為主的,例如給定標籤的控制、影象的控制、文字的控制,考慮如何基於已有的觀察資料進行訓練模型、進行生成。

與基於條件的生成方法不同,基於潛在變數資料的方法目的在於解決“某些變數無法直接被觀察”的困境。

因果乾預影象合成方法,是對相應的變數進行解耦,即觀察變數變化如何導致結果變化,該方法能夠精準控制影象的某一部分合成。

此外,因果方法在醫療領域有很多應用。基於結構函式的因果模型,設計因果發現框架,試圖超越分子與分子之間的關聯性,找出其因果性。具體操作分成兩步:第一步發現變數和變數之間,包括潛變數之間的因果圖;第二步基於因果圖,確定明確的結構函式關係。

目前,我們開發出基於貝葉斯圖學習因果模型,超越了傳統學習函式步驟,使用因果圖進行描述關係,也是分為兩步:第一步邊定向,需要滿足馬爾科夫等價條件,使得因果效應最大化;第二步是因果效應評估。目前,該方法已經應用在最具代表性腫瘤特徵選擇這一課題上。

最後一個應用是人體行為識別。人體識別多是採用感測器和影片流的方式進行,會有前後的因果關係。因此,可以用格蘭傑因果方法解決時序因果中的問題。

最後推薦幾本書,《WHY》、《Causal Inference in Statistics》、《Causality》、《Elements of Causal Inference》、《What If》 都非常棒。其中,《Causality》目前,我們歷經3年時間已經翻譯成了中文,即將出版,請大家期待。

「其他文章」