首次開(kāi)源這一強(qiáng)大算法，我們向Meta致敬

時(shí)間：2022-05-08 08:14:01

Facebook改名Meta后，“財(cái)務(wù)厄運(yùn)”并未因此終止，但技術(shù)作風(fēng)卻一如既往的大膽。

雖然自2022年2月以來(lái)，公司股價(jià)已下跌30% ，市值損失超過(guò)2500億美元。但是，這并沒(méi)有影響開(kāi)發(fā)者們的精神世界與工作動(dòng)力。

本周，來(lái)自Meta一小撮程序員的瘋狂舉動(dòng)，在全球AI開(kāi)發(fā)者群體中引發(fā)了巨大騷動(dòng)——

Meta AI 實(shí)驗(yàn)室高調(diào)宣布，將開(kāi)放自己的語(yǔ)言大模型 OPT（Open Pretrained Transformer，預(yù)訓(xùn)練變換模型），毫無(wú)保留地貢獻(xiàn)出所有代碼。

不夸張地說(shuō)，在人工智能圈，這算得上是一個(gè)里程碑事件。

這個(gè)被稱為OPT的大規(guī)模語(yǔ)言模型，自建立以來(lái)，各項(xiàng)參數(shù)與能力便精準(zhǔn)對(duì)標(biāo)OpenAI 的GPT3，甚至連缺點(diǎn)都是。后者在全球?qū)W術(shù)界建立的赫赫聲望和隨處可見(jiàn)的網(wǎng)絡(luò)小說(shuō)續(xù)寫(xiě)作品，想必已不必再過(guò)多贅述。

簡(jiǎn)而言之，這是一種利用巨量網(wǎng)絡(luò)文本與書(shū)籍進(jìn)行訓(xùn)練，可以將單詞和短語(yǔ)串在一起組成精彩文本的深度學(xué)習(xí)算法模型。

它能生成復(fù)雜句子，有時(shí)候甚至讀起來(lái)與人類撰寫(xiě)毫無(wú)無(wú)異（想粗淺了解GPT，可以看這篇《讓00后瘋狂的超級(jí)算法》）。某種程度上，它所具備的神奇人工文本模仿能力，被視為人類通往真正機(jī)器智能道路上的一個(gè)巨大突破口。

GPT3生成的文本

然而，“培育”大模型的代價(jià)，是昂貴的人力成本與成千上萬(wàn)塊顯卡。因此，許多學(xué)者都認(rèn)為，把這種大模型開(kāi)放出來(lái)，幾乎不可能發(fā)生在“游走在壟斷邊緣”的大型科技公司身上。

譬如，OpenAI 的GPT3曾被專家粗略估算過(guò)，至少投入了1000萬(wàn)美元。他們后來(lái)為了擺脫入不敷出的現(xiàn)狀，將GPT3作為一項(xiàng)付費(fèi)服務(wù)來(lái)推廣——只提供API，但不會(huì)開(kāi)放模型本身和底層代碼。

然而，Meta表示，會(huì)把不同參數(shù)規(guī)模的訓(xùn)練模型以及“OPT如何建造和訓(xùn)練”的詳細(xì)信息分發(fā)給研究人員。

其中，也包括一份超過(guò)100頁(yè)的算法訓(xùn)練日志——實(shí)驗(yàn)室記錄下的每一個(gè)錯(cuò)誤與崩潰現(xiàn)象，訓(xùn)練和添加數(shù)據(jù)的過(guò)程，以及有效與無(wú)效策略。

“考慮到計(jì)算成本，如果沒(méi)有大量資金，這些模型很難復(fù)制。對(duì)于少數(shù)通過(guò)api可調(diào)用的模型（這里暗指GPT3），如果不能獲得完整的模型權(quán)重，就難以進(jìn)行研究。”他們?cè)贠PT的論文摘要里鮮明表達(dá)了態(tài)度，

“因此，我們推出了OPT（這是一個(gè)只有解碼器的預(yù)訓(xùn)練變換模型），參數(shù)范圍從125M到175B，目標(biāo)是全面且負(fù)責(zé)任地分享給感興趣的研究人員。”

“是真的開(kāi)放。”

一位“正準(zhǔn)備去看看他們實(shí)現(xiàn)情況”的中國(guó)開(kāi)發(fā)者查閱了MetaAI網(wǎng)站后，告訴虎嗅，這的確是一個(gè)好消息。“從現(xiàn)有數(shù)據(jù)來(lái)看，整個(gè)訓(xùn)練代碼都被貼出來(lái)了。Meta很了不起。”

擅用集體力量

這一次開(kāi)源，毫無(wú)意外受到了學(xué)術(shù)界的高度認(rèn)可，甚至有科學(xué)家稱其是一個(gè)偉大的舉動(dòng)。

究其原因，一方面，一項(xiàng)強(qiáng)大技術(shù)，如何在一個(gè)封閉的企業(yè)精英團(tuán)隊(duì)中誕生，一直是包括學(xué)界在內(nèi)大眾好奇的焦點(diǎn)；

另一方面，“開(kāi)源”的優(yōu)勢(shì)在于利用集體力量來(lái)解決問(wèn)題，因此長(zhǎng)期被硅谷的有識(shí)之士所倡導(dǎo)——更多人參與進(jìn)來(lái)，技術(shù)突破便來(lái)得越快，漏洞便填得越快。

盡管大部分人幾乎只記住了GPT3（因?yàn)樗瞧駷橹棺詈玫摹巴ú拧保瑢?shí)際上，除了Meta，谷歌、微軟都曾在2020年都推出過(guò)相似的大模型，但由于都是“關(guān)起家門(mén)”做私密研究，因此在“透明度”方面飽受詬病。

譬如，2021年的“谷歌人工智能倫理學(xué)科學(xué)家辭退事件”便引發(fā)了長(zhǎng)達(dá)一年的“批判海嘯”，而這一切都是因一篇探討“語(yǔ)言大模型暗藏重大隱患”的論文而起。

被谷歌無(wú)理辭退的人工智能倫理科學(xué)家Timnit Gebru

沒(méi)錯(cuò)，GPT3們不僅缺陷多多，而且非常致命。盡管多數(shù)責(zé)任應(yīng)歸咎背后的人類文本。

創(chuàng)業(yè)公司 Latitude 曾在2019年推出過(guò)一款基于GPT3開(kāi)發(fā)的半開(kāi)放冒險(xiǎn)游戲 AI Dungeon。但沒(méi)想到，隨著用戶增多，OpenAI監(jiān)測(cè)到，有玩家竟然利用這項(xiàng)高階技術(shù)，自發(fā)生成兒童性愛(ài)場(chǎng)景。

雖然用戶利用GPT3生成的污言穢語(yǔ)也曾遭遇過(guò)廣泛抨擊，但這件事仍然讓大眾嘩然。這也是外界第一次意識(shí)到，GPT3這類大模型更為深刻的陰暗面。因此，Latitude增加了審核系統(tǒng)，但卻引發(fā)了與用戶體驗(yàn)相關(guān)的一系列麻煩。

AI Dungeon游戲界面

然而，“越是危險(xiǎn)，越不能回避危險(xiǎn)”。這也是Facebook自稱選擇開(kāi)放的關(guān)鍵原因之一。

Meta AI 負(fù)責(zé)人Joelle Pineau承認(rèn)，團(tuán)隊(duì)解決不了所有問(wèn)題，包括文本生成過(guò)程中的倫理偏見(jiàn)和惡毒詞句。因此，他們誠(chéng)邀天下豪杰，共同學(xué)習(xí)；而實(shí)際上，這也是一種彼此監(jiān)督。

“我認(rèn)為，建立信任的唯一途徑是極端透明。”

我們查看了Meta提供的下載通道，發(fā)現(xiàn)實(shí)驗(yàn)室根據(jù)每個(gè)模型的參數(shù)規(guī)模設(shè)立了不同的下載條件：300億參數(shù)以下可隨意；而1750億參數(shù)值模型，也就是與GPT3大小相同的OPT，則需要填寫(xiě)申請(qǐng)表證明用于非商業(yè)用途，獲得批準(zhǔn)后方可下載。

翻過(guò)大山，仍然是山

當(dāng)然，理論上這個(gè)做法是可圈可點(diǎn)的，但一個(gè)更大的問(wèn)題出現(xiàn)了：如果你要使用這個(gè)1750億參數(shù)值的大模型，就意味著你的計(jì)算機(jī)要帶得動(dòng)它。

換句話說(shuō)，你需要擁有足夠的算力，這里可以直接換算成“財(cái)力”。

“一個(gè)參數(shù)如果是FP32，也就是4個(gè)字節(jié)大小。而1750億參數(shù)值則先相當(dāng)于7000億字節(jié)，大約700G顯存空間。而現(xiàn)在一張普通顯卡是20GB。” 一個(gè)開(kāi)發(fā)者向虎嗅稱贊了Meta的做法，但他認(rèn)為，對(duì)于普通開(kāi)發(fā)者群體，該模型仍然是不可承受之重。

“雖然可以把不同參數(shù)放在不同顯卡里的框架里，但據(jù)個(gè)人體驗(yàn)，目前仍然欠缺開(kāi)源成熟的框架。”

因此，截至目前，這個(gè)開(kāi)源大模型，仍然是屬于大型科技公司、擁有充足資金的大型實(shí)驗(yàn)室與學(xué)術(shù)機(jī)構(gòu)的“內(nèi)部游戲”。

曾有家嘗試做中國(guó)版GPT3的創(chuàng)業(yè)公司嘆息說(shuō)，他們也在想方設(shè)法實(shí)現(xiàn)GPT3可以實(shí)現(xiàn)的文字能力，但的確掣肘于有限算力。

事實(shí)上，除了巨頭，GPT3一直難以解決的商業(yè)化難題，是讓絕大部分企業(yè)呈觀望之勢(shì)的根本原因。盡管大型語(yǔ)言模型已成為過(guò)去幾年來(lái)人工智能領(lǐng)域最熱門(mén)的趨勢(shì)之一。但至少目前來(lái)看，除了品牌營(yíng)銷優(yōu)勢(shì)，OpenAI 的投入產(chǎn)出比，很不盡如人意。

圖片來(lái)自MIT

此外，在西方社會(huì)普遍認(rèn)知中，比起技術(shù)突破，它們帶來(lái)的巨量能源消耗更是一種原罪。

科學(xué)家Emma Strubell與合作者在2019年發(fā)表的論文，就揭露了大型語(yǔ)言模型在碳排放上超乎想象的環(huán)境破壞力（上圖）。

他們發(fā)現(xiàn)，用一種神經(jīng)結(jié)構(gòu)搜索方法（NAS）訓(xùn)練出的特定語(yǔ)言模型，可產(chǎn)生284噸（626155磅），上圖）二氧化碳，這大約是5輛小轎車(chē)長(zhǎng)達(dá)5年的排放總量；

而谷歌搜索引擎的基礎(chǔ)——BERT語(yǔ)言模型訓(xùn)練，則產(chǎn)生了0.65噸二氧化碳，Strubell提醒，這相當(dāng)于一個(gè)乘客從紐約到舊金山往返航班的碳排放量。

更需要注意的是，這些數(shù)字都應(yīng)被視為“最保守?cái)?shù)值”：只是在一次性訓(xùn)練中的模型成本。

因此，考慮到能源效率與環(huán)境成本，西方不少科學(xué)家與開(kāi)發(fā)者認(rèn)為，某種程度上，大模型的訓(xùn)練開(kāi)發(fā)也是在允許大型企業(yè)掠奪著環(huán)境資源，而這些成本，將會(huì)平攤在所有人身上。因此，他們并不希望企業(yè)加入到大模型隊(duì)列中。

“盡管是無(wú)意識(shí)的，但這只會(huì)加大對(duì)邊緣人群的打擊。”

開(kāi)源商業(yè)回報(bào)，巨大且無(wú)形

很多時(shí)候，人們會(huì)對(duì)開(kāi)源模式發(fā)出這樣的質(zhì)疑：

有什么能比“兩個(gè)來(lái)自競(jìng)爭(zhēng)對(duì)手公司的員工，可以為同一個(gè)目標(biāo)協(xié)作，還免費(fèi)送出自己成果”更不可思議的事情？

譬如，可能連小學(xué)生都清楚的安卓系統(tǒng)，就是基于開(kāi)源的Linux操作系統(tǒng)。這意味著，任何人都可以查看絕大多數(shù)安卓手機(jī)的核心代碼，修改并分享它。

事實(shí)上，“開(kāi)源”正是為不同利益群體，提供一種“利遠(yuǎn)大于弊”的長(zhǎng)期技術(shù)合作方式——你增加的獨(dú)特元素我能使用，那么我迭代的版本你也不會(huì)錯(cuò)過(guò)。

這種“互利”態(tài)度，讓看似不可思議的“協(xié)作”成為可能，經(jīng)過(guò)100多年來(lái)的反復(fù)修正，早已成為一種常態(tài)。如今，Linux 就是由全世界超過(guò)15000名程序員共同開(kāi)發(fā)和維護(hù)。

而在人工智能領(lǐng)域內(nèi)，最有名的案例則是谷歌的深度學(xué)習(xí)開(kāi)源框架Tensorflow。它已是開(kāi)發(fā)人工智能應(yīng)用程序的標(biāo)準(zhǔn)框架之一。非常有趣，當(dāng)Tensorflow在2015年開(kāi)源時(shí)，外界也是發(fā)出了跟這次Meta開(kāi)源大模型同樣的疑問(wèn)：

作為開(kāi)放者，谷歌為什么要放棄對(duì)自己搜索業(yè)務(wù)如此重要的東西？

一部分原因上面講過(guò)——外部開(kāi)發(fā)人員把軟件做的更好，該軟件就能適應(yīng)谷歌未來(lái)商業(yè)化的很多需要。就像當(dāng)下，大模型商業(yè)化還尚不明朗，那么前期工作的開(kāi)放性與主導(dǎo)性，就變得至關(guān)重要。

根據(jù)谷歌自己公布的數(shù)據(jù)，已有超過(guò)1300名外部人員在TensorFlow上幫助升級(jí)迭代。而完善后的Tensorflow，則為谷歌云上的相關(guān)付費(fèi)服務(wù)輸送了強(qiáng)力支持。

另外，我們永遠(yuǎn)不要小看開(kāi)源軟件為企業(yè)帶來(lái)的巨大營(yíng)銷價(jià)值。

它最一流的“帶貨效果”，便是吸引和留住一眾頂尖人才，不知道為大廠省下多少高昂的人力資本。這也與當(dāng)下Meta開(kāi)始收縮招聘規(guī)模的現(xiàn)狀，做了完美呼應(yīng)。

當(dāng)然，優(yōu)秀開(kāi)源軟件打的時(shí)間差和聚攏效應(yīng)，將會(huì)使后來(lái)者很難在短時(shí)間內(nèi)形成氣候，Tensorflow與一眾國(guó)產(chǎn)深度學(xué)習(xí)開(kāi)源框架的往事就是最好的例子。

因此，Meta這一決定，將會(huì)讓OpenAI陷入一個(gè)尷尬的境地——雖然名聲很大，但它畢竟是一家創(chuàng)業(yè)公司。從另一個(gè)角度看，在尋找商業(yè)落地的過(guò)程中，大廠通過(guò)開(kāi)放、免費(fèi)等手段遏制對(duì)手，取得勝利，這種事情似乎永遠(yuǎn)都在發(fā)生。

但好處在于，這會(huì)讓一家公司意識(shí)到，在商業(yè)世界，沒(méi)有一分鐘時(shí)間可用來(lái)頓足，絕不能停下創(chuàng)新的狂奔步伐——近期他們發(fā)布的達(dá)利系統(tǒng)第二代，也許是以GPT3為跳板，向文字與視覺(jué)融合方向躍升的最好標(biāo)志。

關(guān)鍵詞： meta 人工智能 gpt3

延伸閱讀:

版權(quán)聲明：
凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來(lái)源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文