有人預測GPT-4長這樣：比GPT-3略大、純文本、更注重最優計算與對齊

語言: CN / TW / HK

時間 2022-04-19 16:46:33 AI科技評論

主題: GPT-3 OpenAI

圖源 Pinkeyes on Shutterstock

作者 | 錢磊、Ailleurs

編輯 | 陳彩嫻

不久前，谷歌發佈基於他們最新一代人工智能架構Pathways研發的 5400 億參數大模型——PaLM，具備標記因果關係、上下文理解、推理、代碼生成等等多項功能，其中常識推理能力更是較以往的語言模型有較大提升。

但同時，大家也一如既往地注意到 PaLM 的計算成本：用了6144塊TPU。如果租顯卡訓練，最高花費可能達到1700萬美元（人民幣超過1個億，“一個小目標”）。

顯然，這很燒錢，不符合“經濟可用”的原則。難怪業內人士常常吐槽：苦大模型久矣。

如果模型往大走，一個勁地砸錢，何時是個盡頭？有學者也向AI科技評論表示：類似PaLM這樣的大模型在結果上確實取得了不錯的突破，但訓練與計算的成本非常高，沒必要將許多任務拼在一起。

對於大模型的未來發展，GPT系列或許能提供一些新的見解。

近日，Cambrian AI的分析師Alberto Romero便發表了一篇文章，基於OpenAI首席執行官Sam Altman在數月前的説法，推測GPT-4即將在今年7月到8月發佈，並基於Altman在去年的一場問答，對GPT-4的特徵進行了預測。

可以肯定的是，Altman稱，GPT-4的參數不會達到100T。

Alberto Romero也猜測，或許GPT-4的規模會比GPT-3略大，但“大”不會像GPT-3一樣成為GPT-4的“賣點”。相反，OpenAI更致力於如何讓規模較小的模型發揮更大的性能。

預測1：GPT-4不會太大

首先，Alberto判斷，GPT-4不會是最大的語言模型。Altman也稱它不會比GPT-3大很多。與前幾代的神經網絡相比，GPT-4肯定會很大，但大小不會是它的顯著特徵。GPT-4可能介於GPT-3和Gopher (175B-280B)之間。

接着，Alberto給出了他預測的理由：

去年由英偉達和微軟開發的Megatron-Turing NLG有530B參數，一直是最大的密集神經網絡——其大小已是GPT-3的3倍——直到最近出現了谷歌的PaLM，其大小為540B。但值得注意的是， MT-NLG之後的一些較小的模型達到了更高的性能水平。

也就是説，更大 ≠ 更好。小型模型的存在有兩個意義。

其一是，企業已經意識到，要改善性能，擴大模型的規模不是唯一的方法，也不是最好的方法。 2020年，OpenAI的Jared Kaplan和同事得出結論，當增加的計算預算主要分配到增加參數的數量上時，性能的提高是最顯著的，並且遵循冪律關係。谷歌、英偉達、微軟、OpenAI、DeepMind和其他開發語言模型的公司從表面上看接受了這一指導原則。

論文地址：http://arxiv.org/pdf/2001.08361.pdf

MT-NLG雖然規模很大，但在性能方面並不是最好的。事實上，它在任何單一類別基準上都不是最好的存在。像Gopher (280B)或Chinchilla (70B)這種更小的模型——哪怕僅僅是其一小部分——在任務上的表現都比MT-NLG好得多。

第二個意義是，公司開始拒絕“越大越好”的教條。雖然增加參數很簡單，但是擁有更多參數只是眾多可以提高性能的因素之一，而附帶損害（如碳足跡、計算成本或進入死路）反而使其成為最糟糕的因素之一。如果企業能夠從一個較小的模型中獲得類似或更好的結果時，在構建一個龐大的模型之前就會三思而後行。

Altman説，他們不再專注於製造非常大的模型，而是致力於讓較小的模型發揮最大的作用。 OpenAI的研究人員是縮放假設（scaling hypothesis）早期的倡導人，但現在他們可能已經意識到其他還沒走過的路可以改進模型。

相比將GPT-4做大，Alberto更傾向於認為，OpenAI會將把重點轉移到其他方面——比如數據、算法、參數化或對齊 ——這些因素可以更顯著地改進模型。

預測2：GPT-4試圖尋找“最優”

當涉及到優化時，語言模型會遇到一個關鍵的問題。訓練如此昂貴，以至於企業不得不在準確性和成本之間做出權衡。而這種抉擇常常會導致模型明顯未優化。

GPT-3只被訓練了一次，仍有一些錯誤，這些錯誤在某些情況下可能會導致重新訓練。由於成本太高、負擔不起，OpenAI決定不進行優化，而這使得研究人員無法找到模型的最佳超參數集（例如學習速率、批尺寸、序列長度等）。

訓練成本很高導致的另一個後果是模型行為的分析受到限制。當Kaplan的團隊總結出模型大小是提高性能最相關的變量時，他們沒有考慮到訓練令牌的數量——也就是輸入模型的數據量。這樣做將需要大量的計算資源。

科技公司遵循Kaplan的結論，因為這已是他們所知最好的想法。諷刺的是，正是受到經濟限制的影響，谷歌、微軟、Facebook和其他公司在越來越大的模型上“浪費”了數百萬美元，並且在這個過程中產生了大量的污染。

現在，以DeepMind和OpenAI為首的公司正在探索其他方法。他們試圖找到最優模型，而不僅僅是更大的模型。

最佳參數化

上個月，微軟和OpenAI證明，如果使用最優超參數訓練模型，GPT-3可以得到進一步的改進。他們發現，6.7B版GPT-3的性能提高了很多，可以與最初的13B版GPT-3媲美。超參數調優（對於較大的模型來説不可行）賦予的性能提升相當於參數數量增加了一倍。

他們發現了一種新的參數化(μP)，在這種參數化中，小型模型的最佳超參數也同樣適用於同類大型模型。μP使他們能夠優化任意大小的模型，而且只需花費很小一部分的培訓成本。然後這些超參數可以幾乎不花錢地轉移到更大的模型中。

最優計算模型

幾周前，DeepMind重新審視了Kaplan的發現，並意識到訓練令牌的數量與模型大小一樣影響性能，而這與人們的看法相反。他們的結論是，隨着更多的計算預算可用，應該將其平均分配給可縮放參數和數據。他們通過訓練Chinchilla來證明自己的假設，Chinchilla是一個70B模型（是曾經的SOTA，比Gopher小4倍），它使用的數據是GPT-3 (1.4T令牌-來自典型的300B）以來所有大型語言模型的4倍。

結果是明確的。在許多語言基準測試中，Chinchilla“一致且顯著地”優於Gopher、GPT-3、MT-NLG和所有其他語言模型，而目前的模型有過大的問題，且訓練不足。

考慮到GPT-4將略大於GPT-3，根據DeepMind的發現，GPT-4需要達到計算優化的訓練令牌數量將約為5萬億，比當前的數據集高出一個數量級。他們需要訓練模型以達到最小訓練損失的失敗次數，將比他們使用GPT-3（使用Gopher的計算預算作為代替）時多10 - 20倍。

Altman在問答中説GPT-4將比GPT-3使用更多的計算時，可能就是在指這一點。

OpenAI肯定會對GPT-4進行優化相關的調查——儘管具體到什麼程度還無法預測，因為他們的預算是未知的。可以肯定的是，OpenAI將專注於優化除模型大小之外的其他變量。找到超參數的最佳集合，最優計算模型大小和參數的數量可以在所有基準測試中帶來難以置信的改進。如果將這些方法合併到一個模型中，那這個模型將會達到一個所有預測都難以想象的高度。

Altman還説，如果不把模型做大，人們就不會相信模型能有多好。他可能是指擴大模型尺寸的工作目前已經結束。

預測3：GPT-4將是一個純文本模型

深度學習的未來是多模態模型。人類的大腦有多種感覺，這是因為我們生活在一個多模態的世界。每次只以一種模式感知世界，極大地限制了人工智能處理或理解世界的能力。

然而，良好的多模態模型比良好的僅用語言或僅用視覺的模型要難得多。將視覺信息和文本信息組合成單一的表示形式是一項艱鉅的任務。我們對大腦是如何做到這一點的瞭解非常有限（並不是説深度學習社區考慮了認知科學對大腦結構和功能的見解），所以我們不知道如何在神經網絡中實施。

Altman在問答中説 GPT-4不會是多模態的（像DALL·E或LaMDA那樣），而是一個純文本模型。因此，Alberto的猜測是，在跳到下一代多模態人工智能之前，他們試圖通過對模型和數據集大小等因素進行調整來達到語言模型的極限。

預測4：GPT-4將是一個密集模型

稀疏模型利用條件計算，使用模型的不同部分處理不同類型的輸入。稀疏模型最近取得了巨大的成功，其可以很容易地擴展到超過1T參數標記，而不會產生高額的計算成本，能夠在模型大小和計算預算之間創建一個看似正交的關係。然而，MoE方法的好處在非常大的模型上就沒那麼多了。

考慮到OpenAI關注密集語言模型的歷史，Alberto認為，GPT-4大概率也將是一個密集模型。又因為Altman説GPT-4不會比GPT-3大很多，我們可以得出結論，稀疏性不是OpenAI的選擇——至少目前是這樣。

鑑於人工智能的靈感來源，即人類大腦，嚴重依賴於稀疏處理。與多模態一樣，稀疏性很可能會主導未來幾代的神經網絡。

預測5：GPT-4會比GPT-3更對齊

OpenAI在解決AI對齊問題上投入了大量的精力：如何讓語言模型遵循我們的意圖並堅持我們的價值觀——不管這到底意味着什麼。這不僅是一個數學難題（例如，我們如何讓人工智能準確理解我們想要的東西?），而且也是一個哲學難題（比如沒有一種通用的方法可以讓人工智能與人類保持一致，因為人類價值觀在不同羣體之間的差異是巨大的，而且常常互相沖突）。

他們使用InstructGPT進行了第一次嘗試，這是一種通過人類的反饋來學習遵守指令的新GPT-3(不管這些指令是出於好意還是惡意，都沒有被納入模型中)。

InstructGPT的主要突破在於，不管其在語言基準上的結果如何，其都被人類評審認為是一個更好的模型（這些評審是一個由OpenAI員工和英語人士構成的同質的羣體，所以我們應該對得出的結論保持謹慎的態度）。這顯著表明，我們有必要克服把基準作為評估人工智能能力的唯一指標。人類如何感知這些模型可能同樣重要，如果不是更重要的話。

考慮到Altman和OpenAI要遵守作為一個有益AGI的承諾，我相信GPT-4將實現並構建他們從InstructGPT中獲得的發現。

我認為他們將改進對齊模式的方式，因為目前為這個模型製作標籤的僅限於OpenAI員工和英語人士。而真正的對齊應該包括各種性別、種族、國籍、宗教等方面羣體。這是一個巨大的挑戰，朝着這個目標邁進的任何一步都將受到大眾的歡迎。

總結

模型大小：GPT-4將比GPT-3大，但與目前最大的模型（MT-NLG 530B和PaLM 540B）相比不是很大。模型規模不會是一個顯著的特徵。

最優性：GPT-4將比GPT-3使用更多的計算。GPT-4 將實現對參數化（最優超參數）和比例法則（訓練令牌的數量與模型大小同樣重要）的新優化見解。

多模態：GPT-4將是一個純文本模型，而不是多模態模型。OpenAI希望在完全跳到像DALL·E這樣的多模態模型之前先充分利用好語言模型。

稀疏性：按照GPT-2和GPT-3的趨勢，GPT-4將是一個密集模型（所有參數將用於處理任何給定的輸入）。在未來，稀缺性將變得更加重要。

對齊：GPT-4將比GPT-3更對齊，其將從InstructGPT進行學習，而InstructGPT是根據人類的反饋進行訓練的。不過，人工智能的對齊還有很長的路要走，我們應該仔細評估所做出的工作，而不應該對此進行炒作。

你怎麼看？

參考鏈接：

http://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45

http://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbe

http://www.metaculus.com/questions/7401/when-will-gpt-4-be-announced/

「其他文章」