Transformers+世界模型,竟能拯救深度強化學習?

語言: CN / TW / HK

新智元報道

編輯:武穆

【新智元導讀】前一段時間,LeCun曾預言AGI:大模型和強化學習都沒出路,世界模型才是新路。但最近,康奈爾大學有研究人員,正試著用Transformers將強化學習與世界模型連線起來。

很多人都知道,當年打敗李世石、柯潔等一眾國際頂尖棋手的AlphaGo一共迭代了三個版本,分別是戰勝李世石的一代目AlphaGo Lee、戰勝柯潔的二代目AlphaGo Master,以及吊打前兩代的三代目AlphaGo Zero。

AlphaGo的棋藝能夠逐代遞增,背後其實是在AI技術上一個出現了明顯的變化趨勢,就是強化學習的比重越來越大。

到了近幾年,強化學習又發生了一次「進化」,人們把「進化」後的強化學習,稱為深度強化學習。

但深度強化學習代理的樣本效率低下,這極大地限制了它們在實際問題中的應用。

最近,許多基於模型的方法被設計來解決這個問題,在世界模型的想象中學習是最突出的方法之一。

然而,雖然與模擬環境幾乎無限的互動聽起來很吸引人,但世界模型必須在很長一段時間內保持準確。

受Transformer在序列建模任務中的成功啟發,康奈爾大學的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介紹了IRIS,這是一種資料高效代理,它在由離散自編碼器和自迴歸Transformer組成的世界模型中學習。

在Atari 100k基準測試中,在僅相當於兩個小時的遊戲時間裡,IRIS的平均人類標準化得分為1.046,並且在26場比賽中的10場比賽中表現優於人類。

此前,LeCun曾說,強化學習會走進死衚衕。

現在看來,康奈爾大學的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在將世界模型與強化學習(更準確地說是深度強化學習)融為一體,而連線兩者的橋樑,便是Transformers。

深度強化學習有什麼不一樣

一提到人工智慧技術,很多人能想到的,還是深度學習上。

其實,雖然深度學習還活躍在AI領域,但已經暴露出很多問題。

現在深度學習用得最多的就是有監督學習。有監督學習不妨理解成“有參考答案的學習”,它有一個特點,就是資料必須經過標識才能用於訓練。但現在海量的資料是未標識資料,且標識成本很高。

以至於針對這種局面,有人調侃道「有多少人工,就有多少智慧」。

很多研究人員,甚至包括有不少的大牛都在反思,琢磨深度學習是不是“錯了”。

於是,強化學習開始崛起了。

強化學習和有監督學習、無監督學習都不太一樣,它是用智慧體不斷地試錯,並按試錯結果獎懲AI。這是DeepMind家做各種棋牌AI、遊戲AI的路數。這種路徑的信徒認為,只要獎勵激勵設定對頭,強化學習終將造出真正AGI。

但強化學習也有問題,用LeCun的話說,就是「強化學習要用巨量資料才能訓練模型執行最簡單任務」。

於是強化學習與深度學習進行了結合,成為深度強化學習。

深度強化學習,強化學習是骨架,深度學習是靈魂,這是什麼意思呢?深度強化學習的主要執行機制,其實與強化學習是基本一致的,只不過使用了深度神經網路來完成這一過程。

更有甚者,有的深度強化學習演算法,乾脆直接在現成的強化學習演算法上,通過新增深度神經網路來實現一套新的深度強化學習演算法,非常有名的深度強化學習演算法DQN就是典型的例子。

Transformers有什麼神奇之處

Transformers首次亮相於2017年,是Google的論文《Attention is All You Need》中提出的。

在 Transformer出現之前,人工智慧在語言任務上的進展一直落後於其他領域的發展。「在過去10年發生的這場深度學習革命中,自然語言處理在某種程度上是後來者,」馬薩諸塞大學洛厄爾分校的電腦科學家Anna Rumshisky 說,「從某種意義上說,NLP曾落後於計算機視覺,而Transformer改變了這一點。」

近年來,Transformer機器學習模型已經成為深度學習和深度神經網路技術進步的主要亮點之一。它主要用於自然語言處理中的高階應用。谷歌正在使用它來增強其搜尋引擎結果。

Transformer很快成為專注於分析和預測文字的單詞識別等應用程式的引領者。它引發了一波工具浪潮,比如OpenAI的GPT-3可以在數千億個單詞上進行訓練並生成連貫的新文字。

目前,Transformer架構不斷髮展並擴充套件到多種不同的變體,從語言任務擴充套件到其他領域。

比如,Transformer已被用於時間序列預測,同時也是DeepMind的蛋白質結構預測模型 AlphaFold背後的關鍵創新。

Transformer最近也進入了計算機視覺領域,在許多複雜任務中它們正在慢慢取代卷積神經網路(CNN)。

世界模型與Transformers聯手,其他人怎麼看

對於康奈爾大學的研究成果,有外國網友評論道:「請注意,這兩個小時是來自環境的鏡頭長度,在GPU上進行訓練需要一週的時間」。

還有人質疑:所以這個系統在一個特別精確的潛在世界模型上學習?該模型不需要預先訓練嗎?

另外,有人覺得,康奈爾大學的文森特·米凱利等人的成果並沒有破天荒的突破:「似乎他們只是訓練了世界模型,vqvae和演員評論家,所有這些都來自那2個小時的經驗(和大約600個紀元)的重播緩衝區」。

參考資料:

http://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/