機器學習,憑什麼運用於投資?(少數派投資)

語言: CN / TW / HK

機器學習是什麼?

Mitchell在1997年發表的定義認為,“機器學習是對於讓計算機程式能夠通過經驗和資料自動提升的演算法的研究。

這個解釋很經典,也被wiki所採納,但好像過於寬泛,讓我們覺得它什麼都能幹,簡直是萬能靈藥。

有沒有更接地氣的解釋呢?

Gu, Kelly, and Xiu在2020年給出的解釋筆者認為更佳,他們認為“機器學習是1)各種高維度統計預測模型的集合; 2)模型運用所謂正則化進行模型選擇及減少過擬合; 3)可運用高效演算法選擇模型引數。 ” 

這是一個更精準的,方便應用於金融領域理解的定義。 它描述出了機器學習演算法的核心部分: 高維的預測模型。

其實從定義我們不難猜到,相對於傳統統計更加追求對於模型意義的理解,機器學習追求的更多是模型的預測效果:利用大量的資料,通過高維度的複雜模型對其間可能存在的關聯關係進行擬合,以進行預測。

以一個時間序列為例,如果說傳統統計學更多的結合主觀認識,假設資料間為線性關係,其他大部分都是噪聲的話;機器學習更傾向於假設其間存在複雜的模型關係,並通過大量的資料以驗證其結果,相對於主觀認識和理解,機器學習顯然更傾向於信任資料的結果。

那麼這兩種,哪種是對的呢?或者換種說法,哪一種更符合現實情況呢?

答案是,it depends. 在存在複雜關係的地方使用高維模型,在存線上性關係的地方使用傳統統計模型。當然了這個答案稍顯無賴,因為在金融領域,我們絕大多數情況下並不知道底層真正的模型關係是什麼樣的,但是我們可以通過一些方法來增強我們預測的準確率。

一個常見的,卻是很值得深刻理解的方法是使用貝葉斯的邏輯。貝葉斯方法很簡單,其實就是大家都學過的條件概率。P(A|B) = P(A)*P(B|A)/P(B),也即一個事件發生的概率是存在先驗概率和後驗概率之分的。而在金融的領域中,我們的邏輯其實就是一種先驗概率,而經過資料的驗證後,它就轉化為確定性更強的後驗概率。

還不理解?

打個比方,我們想看看一個硬幣是不是公平的,然後我們擲了10次硬幣,發現6正4反,我們會覺得,“嗯,雖然不是55開,但是這個結果也很正常,它應該就是個公平的硬幣“。

這裡其實就是我們的經驗邏輯告訴我們,硬幣大概率都是公平的,所以賦予的P(A)很高,即使小樣本下資料並不完全是50-50,由於P(A)很大的影響,我們最後得到的P(A|B)仍會很高,即:我們認為硬幣公平。但同樣的硬幣,如果我們擲了1000次,發現600次正面,400次反面,這個時候即使我們先驗認為硬幣是不公平的概率很低,即P(~A)很低,但由於大樣本下資料的論證實在是太強力了,我們最後的後驗概率P(~A|B)就會很高了,也就是當這個結果出現,我們總算可以認為硬幣是不公平的了。

應用於投資?

很好理解,如果我們找到了一個具有較強經濟解釋的量化思路,那麼我們不需要特別多的資料驗證(注:這裡的“不需要特別多“是相對概念,實際上絕對數量上還是需要很多的資料點來驗證),可能10年的資料,可能t值只要>2,就可以有充分的信心認為策略是有效的,或者因子是顯著的。但是對於一些沒有明確經濟意義的,我們或許需要30年,50年的資料,需要t值>3,5甚至更高,我們才敢去認為,哦,這可能確實是個異象,而不是我們純粹擬合的結果。

回到機器學習的邏輯上,根據奧卡姆剃刀準則:沒有必要,勿增實體。如果可以用簡單統計學模型去表示、擬合、預測的,那就沒有必要採用更復雜的機器學習模型,大概率你是在擬合那些噪音。但是金融市場中很多因素對於價格的影響是複雜的,是非線性的,那麼這個時候再去採用高維的機器學習模型,甚至是深度學習模型,可能就是有意義的。但是這個過程中一定需要非常多大量資料的支援,因為你在驗證一個“先驗概率更小“的結論,只有更多更大量的資料提供了支撐,我們才有理由認為。”嗯,也許這裡使用機器學習更佳。“

至於在這個過程中,如何區分噪音和pattern,如何減少過擬合等等這些,就是研究員們的工作了。

而在具體投資應用的領域方面,除了直接預測股票收益外,機器學習還可以用於交易策略的構建,比如日內在什麼時候、什麼情況下買入丟擲股票最合理,以增厚收益;也可以用於語義分析、影象分析,並通過這些分析的結果,比如語義分析可以用來構建投資者情緒的指標,從而間接地幫助進行投資。

那麼回到標題中的問題,機器學習可以運用於投資嗎?

答案已經顯而易見了。不管是國外優秀的對衝基金,還是國內的量化投資機構,甚至是一些主動投資機構,其實都可以將 機器學習運用於投資實戰,有效提升投資表現 。其實他們中的很多都已經開始這麼做了。在你看到或是看不到的地方,機器學習或許早已在默默發揮作用。

往期文章回顧:

開年A股大變臉,基民是否要調倉?

市場震盪,如何轉危為“基”?

港股為何能成為今年全球股市的領頭羊?

“成精”的扇貝為獐子島帶來一線生機?

投資中如何平衡長邏輯與景氣度?

財富複利的根源

銀行大增的利潤從何而來?