世界看點：GPT-4震撼發布：多模態大模型，直接升級ChatGPT、必應，開放API，游戲終結了？

時間：2023-03-15 06:25:28

在 ChatGPT 引爆科技領域之后，人們一直在討論 AI「下一步」的發展會是什么，很多學者都提到了多模態，我們并沒有等太久。今天凌晨，OpenAI 發布了多模態預訓練大模型 GPT-4。

GPT-4 實現了以下幾個方面的飛躍式提升：強大的識圖能力；文字輸入限制提升至 2.5 萬字；回答準確性顯著提高；能夠生成歌詞、創意文本，實現風格變化。

「GPT-4 是世界第一款高體驗，強能力的先進AI系統，我們希望很快把它推向所有人，」OpenAI 工程師在介紹視頻里說道。

(資料圖)

似乎是想一口氣終結這場游戲，OpenAI 既發布了論文（更像是技術報告）、 System Card，把 ChatGPT 直接升級成了 GPT-4 版的，也開放了 GPT-4 的 API。

另外，微軟營銷主管在 GPT-4 發布后第一時間表示：「如果你在過去六周內的任何時候使用過新的 Bing 預覽版，你就已經提前了解了 OpenAI 最新模型的強大功能。」是的，微軟的新必應早就已經用上了GPT-4。

接下來，就讓我們細細品味這場震撼發布。

GPT-4：我 SAT 考 710，也能當律師

GPT-4 是一個大型多模態模型，能接受圖像和文本輸入，再輸出正確的文本回復。實驗表明，GPT-4 在各種專業測試和學術基準上的表現與人類水平相當。例如，它通過了模擬律師考試，且分數在應試者的前 10% 左右；相比之下，GPT-3.5 的得分在倒數 10% 左右。

OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓對 GPT-4 進行迭代調整，從而在真實性、可控性等方面取得了有史以來最好的結果。

在過去的兩年里，OpenAI 重建了整個深度學習堆棧，并與 Azure 一起為其工作負載從頭開始設計了一臺超級計算機。一年前，OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統，之后他們又陸續發現并修復了一些錯誤，改進了其理論基礎。這些改進的結果是 GPT-4 的訓練運行獲得了前所未有的穩定，以至于 OpenAI 能夠提前準確預測 GPT-4 的訓練性能，它也是第一個實現這一點的大模型。OpenAI 表示他們將繼續專注于可靠的擴展，進一步完善方法，以幫助其實現更強大的提前預測性能和規劃未來的能力，這對安全至關重要。

OpenAI 正在通過 ChatGPT 和 API（有候補名單）發布 GPT-4 的文本輸入功能。圖像輸入功能方面，為了獲得更廣泛的可用性，OpenAI 正在與其他公司展開合作。

OpenAI 今天還開源了 OpenAI Evals，這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點，以幫助 OpenAI 進一步改進模型。

有趣的是，GPT-3.5 和 GPT-4 之間的區別很微妙。當任務的復雜性達到足夠的閾值時，差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意，并且能夠處理更細微的指令。為了了解這兩個模型之間的差異，OpenAI 在各種基準和一些為人類設計的模擬考試上進行了實驗。

OpenAI 還在為機器學習模型設計的傳統基準上評估了 GPT-4。GPT-4 大大優于現有的大型語言模型，以及大多數 SOTA 模型：

許多現有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力，研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中，GPT-4 優于 GPT-3.5 和其他大語言模型（Chinchilla、PaLM）的英語語言性能：

就像許多使用 ChatGPT 的公司一樣，OpenAI 表示他們內部也在使用 GPT-4，因此 OpenAI 也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI 還使用 GPT-4 輔助人們評估 AI 輸出，這也是 OpenAI 對其策略的第二階段。OpenAI 既是 GPT-4 的開發者，也是使用者。

GPT-4：我能玩梗圖

GPT-4 可以接受文本和圖像形式的 prompt，新能力與純文本設置并行，允許用戶指定任何視覺或語言任務。

具體來說，它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出（自然語言、代碼等）。在一系列領域 —— 包括帶有文本和照片的文檔、圖表或屏幕截圖上 ——GPT-4 展示了與純文本輸入類似的功能。此外，它還可以通過為純文本語言模型開發的測試時間技術得到增強，包括少樣本和思維鏈 prompt。

比如給 GPT-4 一個長相奇怪的充電器的圖片，問為什么這很可笑？

GPT-4 回答道，VGA 線充 iPhone。

格魯吉亞和西亞的人均每日肉類消費，算平均數：

看起來，現在的 GPT 已經不會在計算上胡言亂語了：

還是太簡單，那直接讓它做題，還是個物理題：

GPT-4 看懂了法語題目，并完整解答：

GPT-4 可以理解一張照片里「有什么不對勁的地方」：

GPT-4 還可以量子速讀看論文，如果你給它 InstructGPT 的論文，讓它總結摘要，就會變成這樣：

如果你對論文里的某一個圖感興趣呢？GPT-4 也可以解釋一下：

接著來，問 GPT-4 梗圖是什么意思：

它給出了詳細的回答：

那么漫畫呢？

讓 GPT-4 解釋為什么要給神經網絡加層數，似乎有一點加倍的幽默感。

不過 OpenAI 在這里說了，圖像輸入是研究預覽，仍不公開。

研究人員用學術的 Benchmark 視角來解讀 GPT-4 的看圖能力，然而這已經不夠了，他們還能不斷發現該模型可以令人興奮地處理新任務 —— 現在的矛盾是 AI 的能力和人類想象力之間的矛盾。

看到這里，應該有研究人員感嘆：CV 不存在了。

可控性

與具有固定冗長、平靜語氣和風格的經典 ChatGPT 個性不同，開發人員（以及 ChatGPT 用戶）現在可以通過在「系統」消息中描述這些方向來規定他們的 AI 的風格和任務。

系統消息允許 API 用戶在一定范圍內定制化實現不同的用戶體驗。OpenAI 知道你們在讓 ChatGPT 玩 Cosplay，也鼓勵你們這樣做。

局限性

盡管功能已經非常強大，但 GPT-4 仍與早期的 GPT 模型具有相似的局限性，其中最重要的一點是它仍然不完全可靠。OpenAI 表示，GPT-4 仍然會產生幻覺、生成錯誤答案，并出現推理錯誤。

目前，使用語言模型應謹慎審查輸出內容，必要時使用與特定用例的需求相匹配的確切協議（例如人工審查、附加上下文或完全避免使用）。

總的來說，GPT-4 相對于以前的模型（經過多次迭代和改進）已經顯著減輕了幻覺問題。在 OpenAI 的內部對抗性真實性評估中，GPT-4 的得分比最新的 GPT-3.5 模型高 40%：

GPT-4 在 TruthfulQA 等外部基準測試方面也取得了進展，OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力，結果如下圖所示。

實驗結果表明，GPT-4 基本模型在此任務上僅比 GPT-3.5 略好；然而，在經過 RLHF 后訓練之后，二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時候它都能做出正確的選擇。

該模型在其輸出中可能會有各種偏見，OpenAI 在這些方面已經取得了進展，目標是使建立的人工智能系統具有合理的默認行為，以反映廣泛的用戶價值觀。

GPT-4 通常缺乏對其絕大部分數據截止后（2021 年 9 月）發生的事件的了解，也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤，這似乎與這么多領域的能力不相符，或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗，比如在它生成的代碼中引入安全漏洞。

GPT-4 預測時也可能出錯但很自信，意識到可能出錯時也不會 double-check。有趣的是，基礎預訓練模型經過高度校準（其對答案的預測置信度通常與正確概率相匹配）。然而，通過 OpenAI 目前的后訓練（post-training）過程，校準減少了。

風險及緩解措施

OpenAI 表示，研究團隊一直在對 GPT-4 進行迭代，使其從訓練開始就更加安全和一致，所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。

GPT-4 有著與以前的模型類似的風險，如產生有害的建議、錯誤的代碼或不準確的信息。同時，GPT-4 的額外能力導致了新的風險面。為了了解這些風險的程度，團隊聘請了 50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家，對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估，來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。

預防風險

按照 demo 視頻里 OpenAI 工程師們的說法，GPT-4 的訓練在去年 8 月完成，剩下的時間都在進行微調提升，以及最重要的去除危險內容生成的工作。

GPT-4 在 RLHF 訓練中加入了一個額外的安全獎勵信號，通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由 GPT-4 的零樣本分類器提供的，它判斷安全邊界和安全相關 prompt 的完成方式。為了防止模型拒絕有效的請求，團隊從各種來源（例如，標注的生產數據、人類的紅隊、模型生成的 prompt）收集多樣化的數據集，在允許和不允許的類別上應用安全獎勵信號（有正值或負值）。

這些措施大大在許多方面改善了 GPT-4 的安全性能。與 GPT-3.5 相比，模型對不允許內容的請求的響應傾向降低了 82%，而 GPT-4 對敏感請求（如醫療建議和自我傷害）的響應符合政策的頻率提高了 29%。

訓練過程

與之前的 GPT 模型一樣，GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI 使用公開可用的數據（例如互聯網數據）以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫，包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述，以及各種各樣的意識形態和想法。

因此，當提出問題時，基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致，OpenAI 依然使用強化學習人類反饋 (RLHF) 來微調模型的行為。請注意，該模型的能力似乎主要來自預訓練過程 ——RLHF 不會提高考試成績（甚至可能會降低它）。但是模型的控制來自后訓練過程 —— 基礎模型甚至需要及時的工程設計來回答問題。

GPT-4 的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是，對于像 GPT-4 這樣的大型訓練，進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化，在多種規模下都有可預測的行為。為了驗證這種可擴展性，他們提前準確地預測了 GPT-4 在內部代碼庫（不屬于訓練集）上的最終損失，方法是通過使用相同的方法訓練的模型進行推斷，但使用的計算量為 1/10000。

現在，OpenAI 可以準確地預測在訓練過程中優化的指標（損失）。例如從計算量為 1/1000 的模型中推斷并成功地預測了 HumanEval 數據集的一個子集的通過率：

有些能力仍然難以預測。例如，Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標，而 hindsight neglect 任務是獲勝者之一。GPT-4 扭轉了這一趨勢。

能夠準確預測未來的機器學習能力對于技術安全來說至關重要，但它并沒有得到足夠的重視，OpenAI 表示正在投入更多精力開發相關方法，并呼吁業界共同努力。

OpenAI 表示正在開源 OpenAI Evals 軟件框架，它被用于創建和運行基準測試以評估 GPT-4 等模型，同時可以逐樣本地檢查模型性能。

ChatGPT 直接升級至 GPT-4 版

GPT-4 發布后，OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權限。

要訪問 GPT-4 API（它使用與 gpt-3.5-turbo 相同的 ChatCompletions API），用戶可以注冊等待。OpenAI 會邀請部分開發者體驗。

獲得訪問權限后，用戶目前可以向 GPT-4 模型發出純文本請求（圖像輸入仍處于有限的 alpha 階段）。至于價格方面，定價為每 1k 個 prompt token 0.03 美元，每 1k 個 completion token 0.06 美元。默認速率限制為每分鐘 40k 個 token 和每分鐘 200 個請求。

GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個 token 上下文（約 50 頁文本）版本的有限訪問，該版本也將隨著時間自動更新（當前版本 gpt-4-32k-0314，也支持到 6 月 14 日)。定價為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上，就是今天 OpenAI 關于 GPT-4 的所有內容了。令人不滿的一點是，OpenAI 公開的技術報告中，不包含任何關于模型架構、硬件、算力等方面的更多信息，可以說是很不 Open 了。

不管怎樣，迫不及待的用戶大概已經開始測試體驗了吧。

最后，也想問一下讀者，看完 GPT-4 的發布，你有何感想。

關鍵詞：

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文

欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

科技

熱文