青源Talk第8期|苗旺：因果推斷，觀察性研究和2021年諾貝爾經濟學獎

語言: CN / TW / HK

時間 2022-08-28 09:19:00 部落格園-原創精華區

biobank 英國的基金資料

因果推斷和不同的研究互相論證，而非一個研究得到的接了就行。

資料融合，data fusion,同一個因果問題不同資料不同結論，以及歷史上的資料，來共同得到更穩健、更高效的推斷。敏感性分析(評價假定的方法)。多方驗證。統計中的meta analysis薈萃分析。討論這個做法背後的模型、假定是如何解釋這個結果。

敏感性分析(評價假定的方法)。

1.實現你的方法，論證你的方法；

2.論證你的模型、假定，以及解釋你的結果。三者缺一不可。單單的方法是不行的。

大規模資料處理面對比較高維的資料時，skrining 作為標準預處理的一個步驟。與其配套的是敏感性分析，敏感性分析就是看你的假定，如果說錯了，錯到什麼程度會影響結論，會得到不一樣的結論；二者是配套的，也即你有一個搶的假定，同時也要有一個，評價假定的方法--敏感性分析。

相關的主要目的是為了做預測，只要預測好就行。因果關係母的不一樣，因果關係要特別在意解釋型；要直到到底哪些因素導致了明天的股票上漲。相關的主要目的是為了做預測，只要預測好就行。因果關係母的不一樣，因果關係要特別在意解釋型；要直到到底哪些因素導致了明天的股票上漲。

時空資料相關的發展到了什麼程度？最近的一些進展？也即時序資料上有一套不太一樣的因果推斷方法，如果把這樣的方法放到時空資料裡面，是否也有一套比較特定的好方法來解決它？時空資料、相關性資料的因果推斷。

confounding,selective bias為第一梯隊要研究的，inference,midiation,ide,以及異質化為第二梯隊要研究的。真正的拿因果關係的因素去預測，不一定比用相關關係的預測效果更好。

二者的目標不太一致；ML：主要關注的是預測、分類等類似的問題；而因果推斷天生的就是關注模型的解釋性，引數的識別性，定義，因果引數，因果的意義是什麼；二者目標不太一致。對於預測來講，你拿真正的因果關係去預測，不一定比拿相關關係去預測更好。反之，相關關係不能代表因果關係。當然現在大家正在把可解釋性和可預測性，預測能力結合在一起；這可能是因果推斷和深度學習能夠深入融合的地方，而不僅僅是換湯不換藥的模式。如何把預測、可解釋性、引數的推斷把目標給融合到一起，可能是一個方向。需要找到一條線，使得預測的目標和因果推理的目標能夠對齊。之前做預測可能相對來講大家再用一個比較簡單的資料集(e.g. i.i.d，隨機分割等這樣的交叉驗證的資料集來做，)，正是由於此導致今天很多的方法，在不符合這個假定條件下的真實的場景下邊就會出現各種問題。因果推理和ML裡面都有很多的假定。假如把這個假定換一下，換的更實用些、更realistic,可能就需要用一些更本質的統計的邏輯或結構可能才能夠做到這種事情；這種情況下可能更需要去借鑑一些更嚴格的統計的手段和方法來解決這樣的問題。讓ML或預測更加的stable。

除了讀書教書方面，學術研究有幾個方面讓其收益很大；1.寫作交流表達能力一定要重視起來，記錄單詞，積累句子等。2.拓寬自己的視野；不一定只是盯著前沿的東西，一定要對自己所在的領域有一個全域性的認識。3.擴充套件一些興趣，應用方面的以及交叉領域相關領域的一些事情，來拓寬自己的視野；不同的問題、方法交匯融合。4.加強閱讀，多讀多寫。

「其他文章」