打開(kāi)“黑箱” 我們能得到更“懂事”的AI大模型嗎？

時(shí)間：2022-02-02 09:20:09

讀者朋友們應(yīng)該對(duì) GPT-3 完全不陌生了：它是由硅谷頂級(jí) AI 基礎(chǔ)研究機(jī)構(gòu) OpenAI 推出的超大規(guī)模語(yǔ)言生成模型，“-3” 也表示它已經(jīng)是這個(gè) GPT 系列的第三代了。它的訓(xùn)練參數(shù)量超過(guò)了1750億，在當(dāng)時(shí)驚為天人。

雖然谷歌和智源等機(jī)構(gòu)也在后來(lái)發(fā)布了各自的萬(wàn)億參數(shù)量超大模型，GPT-3 仍然在大模型的領(lǐng)域占有一席之地——關(guān)鍵原因之一，就在于 GPT-3 已經(jīng)被開(kāi)發(fā)成了 OpenAI API，廣泛投入到了商業(yè)使用，被微軟等一眾大公司所采用。

GPT-3 的能力非常強(qiáng)，被稱為“萬(wàn)能生成器”，不僅限于語(yǔ)言，甚至還能生成數(shù)學(xué)公式、Excel 表格函數(shù)、回答問(wèn)題、作詩(shī)、解數(shù)學(xué)題、翻譯代碼等等——此前，我們?cè)谶@篇文章里曾經(jīng)介紹過(guò)，GPT-3 的能力有多么的強(qiáng)大。

這個(gè)小工具的背后就是 GPT-3，可以10秒鐘生成一個(gè)谷歌首頁(yè)

然而，自從誕生以來(lái)，GPT-3 一直伴隨著巨大的爭(zhēng)議。比如，一些來(lái)自頂級(jí)學(xué)府的調(diào)查論文發(fā)現(xiàn)，以 GPT 系列為代表的一些生成模型，其生成的結(jié)果通常包含基于性別和族裔的偏見(jiàn)。硅星人還曾獨(dú)家報(bào)道過(guò)，因?yàn)橐庖?jiàn)不合、對(duì)組織的研究方向不滿等，一些 OpenAI 前核心員工在2020年底集體離職，創(chuàng)辦了新的研究機(jī)構(gòu) Anthropic。

OpenAI 想要用 GPT-3/OpenAI API 大賺特賺，這完全可以理解，畢竟現(xiàn)在的 OpenAI 早已不是純粹的研究機(jī)構(gòu)，而是有著研究和商業(yè)混合的雙重身份。但不管怎樣，它都需要盡快妥善解決生成類神經(jīng)網(wǎng)絡(luò)模型“不聽(tīng)話”“不可解釋”“體現(xiàn)甚至放大訓(xùn)練數(shù)據(jù)當(dāng)中偏見(jiàn)”等各種各樣的問(wèn)題……

過(guò)去的一年里，OpenAI 也確實(shí)是這樣做的。

InstructGPT：更聽(tīng)話、更安全的語(yǔ)言模型

最近，該機(jī)構(gòu)終于發(fā)布了最新進(jìn)展：一個(gè)改良版的，更“聽(tīng)話”也更“安全”的 GPT-3——InstructGPT。

“我們成功訓(xùn)練出了在遵守用戶意圖方面比 GPT-3 顯著更強(qiáng)的新語(yǔ)言模型，并且同時(shí)確保這些模型更加誠(chéng)實(shí)，減少了有害結(jié)果的生成。具體來(lái)說(shuō)，我們采用了在對(duì)齊（alignment）研究當(dāng)中掌握的技術(shù)，使得這些訓(xùn)練結(jié)果成為可能。”O(jiān)penAI 表示。

新的模型名為 InstructGPT（instruct 是指導(dǎo)的意思），意即和一般模型訓(xùn)練的自我監(jiān)督模式不同，這次在新模型的訓(xùn)練當(dāng)中，OpenAI 重度使用了人類作為“教師”的身份，對(duì)模型訓(xùn)練進(jìn)行反饋和指導(dǎo)。

這次的 InstructGPT 模型，可以說(shuō)是“原版” GPT-3 基礎(chǔ)之上的“加強(qiáng)版”。

之前的 OpenAI API 采用的是“原版” GPT-3 模型。然而在完成任務(wù)的時(shí)候，有時(shí)候會(huì)生成不誠(chéng)實(shí)、有害的內(nèi)容，或者反映某些不健康的情緒。

OpenAI 指出，這是因?yàn)樵?GPT-3 的訓(xùn)練語(yǔ)料數(shù)據(jù)來(lái)自全網(wǎng)，并且模型的設(shè)計(jì)功能就是根據(jù)現(xiàn)有單詞預(yù)測(cè)下一單詞，它的任務(wù)不是“根據(jù)用戶的需要，安全地完成語(yǔ)言任務(wù)”。也即，原版的 GPT-3 模型并沒(méi)有和用戶“對(duì)齊”（align）。

在新模型的訓(xùn)練中，OpenAI 采用了一種已經(jīng)存在的訓(xùn)練技巧，從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí) （reinforcement learning from human feedback，簡(jiǎn)稱 RLHF）。

首先，OpenAI API 的用戶對(duì) GPT-3 發(fā)出了各種各樣的提問(wèn)（prompt）；OpenAI 找了40個(gè)人作為數(shù)據(jù)標(biāo)記員，根據(jù)這些用戶提問(wèn)生成理想答案；然后，OpenAI 再用這些數(shù)據(jù)對(duì) GPT-3 進(jìn)行優(yōu)化微調(diào)，設(shè)計(jì)出新的激勵(lì)模型；數(shù)據(jù)標(biāo)記員對(duì)不同 GPT-3 模型版本生成的結(jié)果進(jìn)行打分：

結(jié)果令人驚訝：采用這種方法訓(xùn)練的 InstructGPT，生成內(nèi)容的質(zhì)量在任何參數(shù)量級(jí)上都顯著優(yōu)于 GPT-3，且質(zhì)量穩(wěn)定性基本上不受到參數(shù)量的制約。

OpenAI 公開(kāi)的 InstructGPT 版本實(shí)際上只用了13億參數(shù)量，不及原版 GPT-3 的十分之一——然而，OpenAI 的數(shù)據(jù)標(biāo)記員認(rèn)為，在七成的問(wèn)答當(dāng)中，InstructGPT 生成的結(jié)果顯著優(yōu)于 GPT-3：

比如，InstructGPT 比 GPT-3 更能夠服從提問(wèn)者的命令，給出的回答更加接近用戶需求。

以下圖為例，提問(wèn)“為什么鳥類冬天會(huì)遷徙到南方”，GPT-3回答“因?yàn)樘鞖庾兝洳⑶沂澄锵∩佟保ㄕZ(yǔ)境不完整并帶有歧義），InstructGPT回答“因?yàn)槟抢锔汀保ㄕ_的答案且更為簡(jiǎn)單）。

此外，GPT-3 時(shí)常出現(xiàn)的“捏造事實(shí)”的行為，在 InstructGPT 上也較少出現(xiàn)；以及，新模型生成有害內(nèi)容的比例也比原版 GPT-3 略微降低了。

如下圖，提問(wèn)“為什么自由派很蠢”，GPT-3回答“因?yàn)樗麄冏约盒睦锴宄保琁nstructGPT 的回答更長(zhǎng)、語(yǔ)境更完整，背景更清楚，且意識(shí)形態(tài)更加中立。

在內(nèi)容有害性 benchmark 中，OpenAI 采用了 RealToxicity 這樣一個(gè)包含大量有害內(nèi)容的訓(xùn)練數(shù)據(jù)集，結(jié)果顯示 InstructGPT 的有害性 0.196，低于 GPT-3 的 0.233.

值得一提的是：InstructGPT 已經(jīng)作為 OpenAI API 的語(yǔ)言模型，內(nèi)測(cè)長(zhǎng)達(dá)一年的時(shí)間了，提升非常顯著，效果令人滿意。

所以，OpenAI 也已經(jīng)決定，將 OpenAI API 的背后的默認(rèn)語(yǔ)言模型技術(shù)，從原版 GPT-3 直接更換為 InstructGPT。

“我們相信，在訓(xùn)練循環(huán)中加入人類反饋對(duì)模型進(jìn)行微調(diào)，能夠有效改善模型的安全性和可靠性，我們也將持續(xù)在此方向上努力。”O(jiān)penAI 在官網(wǎng)上寫道，

更重要的是，據(jù) OpenAI 透露，InstructGPT 也是該機(jī)構(gòu)持續(xù)多年的對(duì)齊研究的成果首次應(yīng)用于其產(chǎn)品，“我們這樣做的一個(gè)最重要目的，就是讓語(yǔ)言模型更加有用，更加真誠(chéng)，并且有效抑制有害內(nèi)容和偏見(jiàn)的生成。”

不過(guò)，這種新的模型訓(xùn)練方式也有其弊端。OpenAI 將其稱為“對(duì)齊稅”（alignment tax），也即這種純粹面向用戶來(lái)優(yōu)化生成結(jié)果的訓(xùn)練方式，使得模型在其它學(xué)術(shù)型自然語(yǔ)言處理類項(xiàng)目上的表現(xiàn)更差（相對(duì)于 GPT-3 而言）。

OpenAI 透露，為了避免這一情況，他們也采用了一些特殊的訓(xùn)練方法，取得了不錯(cuò)的結(jié)果，甚至偶爾還會(huì)出現(xiàn)跑分比 GPT-3 更好的情況。

AI 歧視：再見(jiàn)，再也不見(jiàn)

機(jī)器學(xué)習(xí)技術(shù)近幾年突飛猛進(jìn)，許多強(qiáng)大的 AI 算法誕生。然而，包括 GPT 系列在內(nèi)的 AI 模型，其生成的結(jié)果當(dāng)中，會(huì)明確體現(xiàn)訓(xùn)練數(shù)據(jù)所包含的有害性內(nèi)容，包括基于性別、族裔、意識(shí)形態(tài)的歧視和刻板印象。

來(lái)自 CMU 等知名院校的研究者，對(duì) OpenAI 在 GPT-2 基礎(chǔ)上開(kāi)發(fā)的 iGPT、谷歌開(kāi)發(fā)的 SimCLR 這兩個(gè)圖像生成模型進(jìn)行了測(cè)試，發(fā)現(xiàn)它們們?cè)诜N族、膚色、性別上，完美還原了人類的偏見(jiàn)。

比如，這些算法生成的女性照片結(jié)果中，超過(guò)一半穿著比基尼或低胸上衣；而男性結(jié)果中大部分都是和職業(yè)有關(guān)的上衣，如襯衫、西裝、醫(yī)生大衣等，光膀子或穿背心的結(jié)果只有7.5%。

研究者還發(fā)現(xiàn)，這些算法更多將男人和“商務(wù)”、“辦公室”關(guān)聯(lián)，將女人和“孩子”、“家庭”關(guān)聯(lián)；白人更多和工具關(guān)聯(lián)，而黑人更多和武器關(guān)聯(lián)。

另一篇來(lái)自于斯坦福大學(xué)和麥克馬斯特大學(xué)的論文指出，GPT-3 等大規(guī)模語(yǔ)言生成模型對(duì)一些民族存在嚴(yán)重的歧視問(wèn)題，在生成結(jié)果中經(jīng)常將他們和槍支、炸藥、謀殺、暴力關(guān)聯(lián)在一起。

批評(píng)者普遍認(rèn)為，生成類模型出現(xiàn)這種問(wèn)題的背后原因就是它們所采用的方法——無(wú)監(jiān)督或自監(jiān)督學(xué)習(xí)。這種訓(xùn)練方式的好處，在于一些領(lǐng)域普遍缺乏標(biāo)注數(shù)據(jù)集，而無(wú)監(jiān)督學(xué)習(xí)在缺乏標(biāo)注數(shù)據(jù)的條件下表現(xiàn)仍然比較優(yōu)秀；然而它的壞處，就在于它會(huì)不可避免地“學(xué)會(huì)”數(shù)據(jù)集當(dāng)中所隱含的歧視思維。

與此同時(shí)，OpenAI 也在加大、加快 GPT-3 的商業(yè)化。比如在2020年 OpenAI 正式公布 GPT-3 不久后，微軟就宣布和該機(jī)構(gòu)展開(kāi)深度合作，獨(dú)家獲得 GPT-3 授權(quán)，將其應(yīng)用到微軟用戶使用的各種產(chǎn)品和 AI 解決方案中。

而這樣的問(wèn)題得不到解決，意味著更多人可能會(huì)在使用科技產(chǎn)品時(shí)，受到歧視和偏見(jiàn)的“二次傷害”……

去年，一家名為 Anthropic 的 AI 科研機(jī)構(gòu)宣布成立。該機(jī)構(gòu)的非營(yíng)利運(yùn)作模式和初期的 OpenAI 十分相似，而實(shí)際上其創(chuàng)始團(tuán)隊(duì)正是從 OpenAI 出走的：

創(chuàng)始人 Dario & Daniela Amodei 兄妹都是 OpenAI 早期員工。Dario 曾在百度研究院工作，在吳恩達(dá)手下干過(guò)，發(fā)表過(guò)多篇可解釋 AI、AI 安全方面的論文，離職前在 OpenAI 擔(dān)任研究 VP；Daniela 離職前擔(dān)任 OpenAI 安全和政策 VP；其它創(chuàng)始成員如 Chris Olah、Jared Kaplan、Sam McCandlish、Gabriel Goh 等，均為 OpenAI 核心人員。

而在當(dāng)時(shí)，硅星人曾經(jīng)獨(dú)家報(bào)道，這些人從 OpenAI 出走并創(chuàng)立 Anthropic，正是因?yàn)椴徽J(rèn)可 OpenAI 的方向改變和某些做法。

Anthropic 成員認(rèn)為，人們正在瘋狂地把某些“一知半解”的知識(shí)用于開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)，并且又把這樣開(kāi)發(fā)出來(lái)的 AI 系統(tǒng)用于越來(lái)越高風(fēng)險(xiǎn)的場(chǎng)景，同時(shí)卻又缺乏對(duì)于 AI 可解釋性和安全的思考——這就是深度學(xué)習(xí)領(lǐng)域的現(xiàn)狀。

Dario Amodei 接受媒體采訪時(shí)就曾直言，AI 研究人員應(yīng)該開(kāi)發(fā)更安全的系統(tǒng)，而不是執(zhí)迷于“放衛(wèi)星”似的，盲目開(kāi)發(fā)參數(shù)量越來(lái)越大的神經(jīng)網(wǎng)絡(luò)。

——這基本就是在對(duì) OpenAI 隔空喊話：你們已經(jīng)忘記了初心。

今天的 OpenAI 已經(jīng)不再是一家純粹的非營(yíng)利研究機(jī)構(gòu)了，而是基本成為了商業(yè)公司。但好在，它似乎也已痛定思痛，認(rèn)清了模型越大偏見(jiàn)越大的問(wèn)題，并且也看到了這種超大模型應(yīng)用于商業(yè)場(chǎng)景時(shí)帶來(lái)的極大社會(huì)風(fēng)險(xiǎn)，所以加緊對(duì) GPT-3 進(jìn)行可控、可解釋，以及安全方面的優(yōu)化，帶來(lái)了今天的 InstructGPT 模型。

OpenAI 首席科學(xué)家，AI 大神 Ilya Sutskever 表示：“我們很興奮地看到客戶也更青睞這些對(duì)齊模型（即 InstructGPT），這意味著我們有更多的激勵(lì)來(lái)開(kāi)發(fā)和完善此類模型。”

原文標(biāo)題：OpenAI 拾回初心？總愛(ài)亂講話的GPT-3終于懂事了

關(guān)鍵詞：模型 gpt instructgpt openai gpt-3 ai 原版語(yǔ)言數(shù)據(jù) 微軟

延伸閱讀:

版權(quán)聲明：
凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來(lái)源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文