GPT-4 發佈了,趕緊申請 API 候補名單

語言: CN / TW / HK

theme: geek-black

介紹

GPT-4(Generative Pre-trained Transformer 4)是 OpenAI 開發的一種大型語言模型。它在 GPT-3 的基礎上進一步優化和擴展,提供了更加精確和全面的語言理解與生成能力。以下是官網介紹: 1. GPT-4 是一個多模態大型語言模型(支持接受圖像和文本輸入,以文本形式輸出),也是 OpenAI 努力擴展深度學習的最新里程碑。雖然 GPT-4 對於許多現實場景的處理比人類差,但它在各種體現專業和學術能力的 benchmark 上,已表現出和人類相當的水平。 2. 例如,GPT-4 通過了模擬律師考試,其分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分卻在倒數 10% 左右。OpenAI 表示,他們花了 6 個月的時間來使用對抗性測試程序,以及通過 ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性和可控性等方面取得了有史以來最好的結果(儘管遠非完美)。 3. 我們還開源了 OpenAI Evals,這是我們用於自動評估 AI 模型性能的框架,允許任何人報告我們模型中的缺點,以幫助指導進一步改進。

對比

在隨意的談話中,GPT-3.5 和 GPT-4 之間的區別可能很微妙。當任務的複雜性達到足夠的閾值時,差異就會出現——GPT-4 比 GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。

image.png

OpenAI 還將機器學習模型的傳統 benchmark 用於評估 GPT-4。結果顯示,GPT-4 已經遠遠超過現有的大型語言模型,以及大多數最先進的 SOTA(state-of-the-art)模型。benchmark 數據如下:

image.png

在 MMLU benchmark 中(一個基準數據集,包括來自於 STEM、人文、社科等 57 個學科的選擇題,它用於測試 LLM 的世界知識和問題解答的能力),GPT-4 處理中文的準確度大約是 80%,已經優於其他 LLM 的英文表現,比如 GPT-3.5、Chinchilla、PALM。

image.png

示例

  1. 創造力:GPT-4 比以往任何時候都更具創造性和協作性。它可以生成、編輯並與用户一起迭代創意和技術寫作任務,例如創作歌曲、編寫劇本或學習用户的寫作風格。

  2. 輸入

    用一個句子解釋灰姑娘的情節,其中每個單詞必須以字母表中從 A 到 Z 的下一個字母開頭,不重複任何字母。 - 輸出

    A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously, xenial youth zealously.(翻譯:美麗的灰姑娘,熱切的棲居,終於獲得幸福;激起嫉妒的親人,愛情神奇地孕育出富貴的王子;悄悄拯救,拖鞋勝利,團結無比,熱心青年。)

  3. 視覺輸入:GPT-4 可以接受圖像作為輸入並生成説明、分類和分析。

  4. 輸入

    我可以用這些原料做什麼?

    放在表面上的配料,包括雞蛋、麪粉、黃油和牛奶

  5. 輸出

    你可以用這些原料做很多選擇!一些可能性包括:- 煎餅或華夫餅 - 可麗餅 - 法式吐司 - 煎蛋卷或菜肉餡煎蛋餅 - 乳蛋餅 - 奶油凍或布丁 - 蛋糕或紙杯蛋糕 - 鬆餅或麪包 - 餅乾。這些只是幾個例子,但可能性是無窮無盡的!

  6. 輸入

    這張圖有什麼好笑的?並對圖片中的每部分進行描述。

    消息 0 附件 0

  7. 輸出

    圖片顯示了一個 "Lightning Cable" 適配器的包裝,總共包含三個部分。

    圖片 1:一部智能手機,其充電端口插着一個 VGA 接口(大的藍色 15 針接口,通常用於電腦顯示器)。

    圖片 2:"Lightning Cable" 適配器的包裝上有一張 VGA 接口的圖片。

    圖片 3:VGA 連接器的特寫,末端是一個小的 Lightning 連接器(用於為 iPhone 和其他蘋果設備充電)。

這張圖片中的幽默來自將過時的大型 VGA 連接器插入小型現代智能手機充電端口的荒謬做法。

  1. 更長的上下文:GPT-4 能夠處理超過 25,000 個單詞的文本,允許使用長格式內容創建、擴展對話以及文檔搜索和分析等用例。

  2. 輸入

    [文章來自:http://en.wikipedia.org/wiki/Rihanna] 描述她在超級碗比賽中的表現以及它的特別之處(文章很長,要比 GPT3.5 能處理的文本長出一倍,下面是截圖)。

    image.png

  3. 輸出

    出於多種原因,蕾哈娜 (Rihanna) 的超級碗 LVII 中場秀表演很特別。首先,這是她五年多來的第一次現場表演,也是她第一次登上超級碗中場秀的頭條新聞。此外,她還創造了歷史,成為第一個在懷孕期間在超級碗上表演的人。該節目本身廣受好評,許多人稱讚她充滿活力的表演和令人印象深刻的歌聲。它還獲得了巨大的收視率,成為歷史上收視率第二高的中場秀。

高級用法

上面的示例看起來很簡單?OpenAI 緊接着展示了高級用法 —— 讀論文。簡單來説就是給 GPT-4 提供論文的圖片格式文件,讓它閲讀並總結出要點。效果如下:

image.png

回答圖片中包含的提問內容等操作:

image.png

甚至回答圖片中對應題號的問題:

image.png

GPT-4 侷限性

GPT-4 跟 GPT-3.5 類似,對訓練數據中斷後(2021 年 9 月)所發生的事情不太瞭解,也會犯一些在我們看來很簡單的推理性錯誤,給用户提供不合理的建議,以及在生成的代碼中引入安全漏洞。

在內部的對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 高 40%:

image.png

也就是説,即便 GPT4 生成的答案更準確,但也只是比 GPT-3.5 更加可信了 40% 而已!

在使用語言模型輸出時,尤其是在高風險上下文中,應非常小心,使用與特定用例需求匹配的精確協議(如人工審查、附加上下文基礎或完全避免高風險使用)。

對於這些潛在性的危險因素,團隊也聘請了來自多個不同行業的專家對模型進行了優化調整,但是其具體效果,還需要等後面場景應用較為廣泛後,才能得出結論。

試用

如果你有 ChatGPT Plus 訂閲會員,則可以直接在 chat.openai.com 上獲得 GPT-4 訪問權限,無需等待。不過有一定限制,在 4 小時內,最多隻能發佈 100 條信息。

獲得訪問權限後,用户當前還是隻能向 GPT-4 模型發出純文本請求,圖像輸入仍然只是研究預覽階段,得等一些時間才對外開放。

申請 GPT-4 API

OpenAI 已面向開發者開放 GPT-4 API 的申請通道,想使用的話,可以先提交申請,進入 waitlist 中等待通過。

申請通道:http://openai.com/waitlist/gpt-4-api

如果申請成功,會收到一封官方的郵件:

image.png

本文正在參加 人工智能創作者扶持計劃