ChatGPT幕后的真正大佬……

來源：鳳凰網

時間：2023-02-27 11:09:42

ChatGPT紅得發紫，強得讓人類心悸，但在它的背后，還隱藏著一位真正的大佬。

可以說，與它相比，ChatGPT其實只是它的一個跟班小弟。

(資料圖)

或者說，只是它掌控家族中的一個比較靚的仔。

這位大佬自2017年問世以來，隱約已成為AI領域的基石王者。

它的名字叫做——Transformer。

一、Chat不重要，GPT才重要

先拆解一下ChatGPT，它由Chat與GPT兩部分組成。

聊天不重要，GPT才重要。

那什么是GPT，它的全英文是Generative Pre-trained Transformer。

翻譯過來就是——生成式預訓練的變形金剛。

先問ChatGPT——你是誰？

我是誰，它是這樣解釋的：

GPT是基于Transformer架構的預訓練語言模型，可以生成自然語言文本。Transformer是基于自注意力機制的深度學習模型架構，它在自然語言處理領域中得到了廣泛的應用，如機器翻譯、文本分類和生成模型等。

GPT是基于Transformer模型的改進版本，主要是針對生成任務進行了優化，通過預訓練學習自然語言的語義和語法規律，進而生成高質量的文本。

因此，GPT可以看作是Transformer模型在生成任務上的一個應用擴展。

短短的自我介紹中，ChatGPT就四次提到Transformer。

Transformer模型結構圖，圖/Google Research

Transformer到底是什么，讓ChatGPT如此迷戀？

這只變形金剛，到底是只什么怪獸？

二、強大的變形金剛Transformer

Transformer的定義清晰明了：

是用于自然語言處理（NLP）的神經網絡架構。

在Transformer出現之前，人工智能研究領域百家爭鳴。

Transformer出現之后，格局開始變了，開始打壓如日中天的循環神經網絡（RNN）和卷積神經網絡（CNN）。

Transformer架構使用了注意力機制，能夠處理長序列的依賴關系。

這讓它具有以下明顯優點：

? 并行計算：由于自注意力機制的引入，Transformer可以實現并行計算，加快訓練速度。

? 長序列處理：相比傳統的循環神經網絡和卷積神經網絡，Transformer可以處理更長的序列，這是由于自注意力機制可以學習到全局的序列信息。

? 模塊化結構：Transformer由編碼器和解碼器兩部分組成，每部分都包含了多層相同的模塊，這種模塊化結構使得Transformer更易于擴展和調整。

Transformer在各種任務中的表現，也將不斷得到改善和優化，發展日新月益。

自2017年推出之后， Transformer已經形成了自己的家族體系。

基于GPT架構，ChatGPT就隱藏在GPT-3的后面。

現在你就明白，它為什么叫變形金剛了。

它的確是可以演變成各種不同的角色，而且個個都挺厲害。

三、統一自然語言NLP

人工智能的一大研究方向，首先是自然語言處理NLP領域。

自從Transformers出現后，全球NLP領域的人工智能的工程師們望風景從。

Transformers在該領域的進展所向披靡，不可阻擋，原因如下：

? 模型大小和訓練數據規模的增加：大規模的Transformers模型，如GPT-3.5、bert、T5等，有些模型參數量達到千億級別，具有更強表達能力。

? 多語言和跨語言應用：由于Transformers模型具有更強泛化能力，因此可以被應用于多語言和跨語言任務，如機器翻譯、跨語言文本分類等。

? 與其他模型的結合和拓展：與其他模型結合使用，如結合卷積神經網絡（CNN）或循環神經網絡（RNN）進行多模態學習等。

? 解釋性和可解釋性：隨著越來越多的機器學習算法被應用于實際場景，對于模型的解釋性和可解釋性要求也越來越高。

LLM成長的時間線，圖/amatriain.net

在自然語言處理NLP領域，總體的趨勢是：LSTM/CNN→Transformer。

NLP領域分為兩大不同類型的任務：

? 理解類人工智能

? 生成式人工智能

這兩個領域的研發，已經收斂到了兩個不同的預訓練模型框架里：

? 自然語言理解，技術體系統一到了以Bert為代表的“雙向語言模型預訓練+應用Fine-tuning”模式；

? 自然語言生成類任務，其技術體系則統一到了以GPT為代表的“自回歸語言模型（即從左到右單向語言模型）+Zero /Few Shot Prompt”模式。

而這兩大模型都是基于Transformers，而且兩者也出現了技術統一趨向。

在自然語言處理NLP這個領域，Transformer基本上已經一統天下。

以至于那些還沉迷于CNN，RNN的工程師被警告：

放棄戰斗吧，向Transformer投降！

四、藏不住的野心：統一計算機視覺CV

除了NLP，人工智能的另一分支是計算機視覺CV。

Transformer最開始，只是專注于自然語言的處理。NLP曾經落后于計算機視覺，但是Transformer的出現迅速地改變了現狀。

一出生就風華正茂，用來形容Transformer毫不為過。它催生了一大批舉世矚目的模型，達到了令人類不安的程度。

隨著Transformer統一了NLP，計算機視覺領域顯然受到了啟發。

一直沉迷于CNN神經網絡中的科學家，開始想知道Transformer是否可以在計算機視覺方面取得類似的效果。

不試不知道，一試嚇一跳。

Transformer在計算機視覺領域同樣治療效果明顯：

? 圖像分類

ViT（Vision Transformer）是一種將Transformer應用于圖像分類的模型。在ImageNet等基準數據集上取得了與卷積神經網絡（CNN）相媲美的結果。

圖/Google Research

? 目標檢測

DETR（DEtection TRansformer）是基于Transformer的目標檢測模型。DETR在COCO數據集上取得了與 Faster R-CNN 方法相當的結果。

? 語義分割

Transformer可以用于語義分割任務，其中每個像素被視為一個token。在Cityscapes、ADE20K和COCO-Stuff等數據集上取得了領先的結果。

以上例子都是Transformer的應用，它在計算機視覺領域也是虎視耽耽。

五、花8分鐘時間，拆解Transformer這只變形金剛

Transformer為何如此強大，我們花8分鐘來解剖它。

以下內容來自Jay Alammar：

Transformers可以被看做一個黑盒，以文本翻譯中的法-英翻譯任務為例，這個黑箱接受一句法語作為輸入，輸出一句相應的英語。

那么在這個黑盒子里面都有什么呢？

里面主要有兩部分組成：Encoder 和 Decoder。

輸入一個文本的時候，該文本數據會先經過一個叫Encoders的模塊，對該文本進行編碼。然后將編碼后的數據再傳入一個叫Decoders的模塊進行解碼，解碼后就得到了翻譯后的文本。

Encoders為編碼器，Decoders為解碼器。

細心的同學可能已經發現了，上圖中的Decoders后邊加了個s，那就代表有多個編碼器了唄，沒錯，這個編碼模塊里邊，有很多小的編碼器，一般情況下，Encoders里邊有6個小編碼器，同樣的，Decoders里邊有6個小解碼器。

在編碼部分，每一個的小編碼器的輸入，是前一個小編碼器的輸出。而每一個小解碼器的輸入，不光是它的前一個解碼器的輸出，還包括了整個編碼部分的輸出。

那每一個小編碼器里邊又是什么呢？

放大一個encoder，發現里邊的結構是一個自注意力機制+一個前饋神經網絡。

先來看下Self-attention是什么樣子的。

通過幾個步驟來解釋：

(1) 首先，Self-attention的輸入就是詞向量，即整個模型的最初的輸入是詞向量的形式。自注意力機制，顧名思義就是自己和自己計算一遍注意力，即對每一個輸入的詞向量，我們需要構建Self-attention的輸入。

(2) 接下來就要計算注意力得分了，這個得分是通過計算Q與各個單詞的K向量的點積得到的。以X1為例，分別將Q1和K1、K2進行點積運算，假設分別得到得分112和96。

(3) 將得分分別除以一個特定數值8（K向量的維度的平方根，通常K向量的維度是64）這能讓梯度更加穩定。

(4) 將上述結果進行softmax運算得到，softmax主要將分數標準化，使他們都是正數并且加起來等于1。

(5) 將V向量乘上softmax的結果，這個思想主要是為了保持我們想要關注的單詞的值不變，而掩蓋掉那些不相關的單詞。

(6) 將帶權重的各個V向量加起來，至此，產生在這個位置上（第一個單詞）的Self-attention層的輸出，其余位置的Self-attention輸出也是同樣的計算方式。

將上述的過程總結為一個公式就可以用下圖表示：

Self-attention層到這里就結束了嗎？

還沒有，論文為了進一步細化自注意力機制層，增加了“多頭注意力機制”的概念，這從兩個方面提高了自注意力層的性能。

第一個方面，它擴展了模型關注不同位置的能力，這對翻譯一下句子特別有用，因為我們想知道“it”是指代的哪個單詞。

第二個方面，它給了自注意力層多個“表示子空間”。對于多頭自注意力機制，不止有一組Q/K/V權重矩陣。

經過多頭注意力機制后，就會得到多個權重矩陣Z，我們將多個Z進行拼接就得到了Self-attention層的輸出：

上述我們經過了self-attention層，我們得到了self-attention的輸出，self-attention的輸出即是前饋神經網絡層的輸入，然后前饋神經網絡的輸入只需要一個矩陣就可以了，不需要八個矩陣，所以我們需要把這8個矩陣壓縮成一個，我們怎么做呢？只需要把這些矩陣拼接起來然后用一個額外的權重矩陣與之相乘即可。

最終的Z就作為前饋神經網絡的輸入。

接下來就進入了小編碼器里邊的前饋神經網模塊了。

然后在Transformer中使用了6個encoder，為了解決梯度消失的問題，在Encoders和Decoder中都是用了殘差神經網絡的結構，即每一個前饋神經網絡的輸入，不光包含上述Self-attention的輸出Z，還包含最原始的輸入。

上述說到的encoder是對輸入（機器學習）進行編碼，使用的是自注意力機制+前饋神經網絡的結構，同樣的，在ecoder中使用的也是同樣的結構。

以上，就講完了Transformer編碼和解碼兩大模塊，那么我們回歸最初的問題，將“Je suis etudiant”翻譯成“I am a student”，解碼器輸出本來是一個浮點型的向量，怎么轉化成“I am a student”這兩個詞呢？

這個工作是最后的線性層接上一個Softmax，其中線性層是一個簡單的全連接神經網絡，它將解碼器產生的向量投影到一個更高維度的向量（logits）上。

假設我們模型的詞匯表是10000個詞，那么logits就有10000個維度，每個維度對應一個惟一的詞的得分。之后的Softmax層將這些分數轉換為概率。選擇概率最大的維度，并對應地生成與之關聯的單詞作為此時間步的輸出就是最終的輸出啦！

假設詞匯表維度是6，那么輸出最大概率詞匯的過程如下：

以上就是Transformer的框架了，但是還有最后一個問題，我們都知道RNN中的每個輸入是時序的，是又先后順序的，但是Transformer整個框架下來并沒有考慮順序信息，這就需要提到另一個概念了：“位置編碼”。

Transformer中確實沒有考慮順序信息，那怎么辦呢，我們可以在輸入中做手腳，把輸入變得有位置信息不就行了，那怎么把詞向量輸入變成攜帶位置信息的輸入呢？

我們可以給每個詞向量加上一個有順序特征的向量，發現sin和cos函數能夠很好的表達這種特征，所以通常位置向量用以下公式來表示：

六、Transformer，在AI領域能形成大統一理論嗎？

從以上技術可以看出：Transformer是通用深度學習模型。

它的適用性非常強，原因在于它的自注意力機制（self-attention mechanism），可以更好地處理序列數據。

那這里就要談一個更前沿的技術：跨模態。

也就是人工智能領域，能否創造一個可以處理語言、文字、圖片、視頻的大統一模型。

如果在物理世界，那就有點像愛因斯坦追求的“大統一理論”。

在跨模態應用中，Transformer模型通常使用圖像和文本特征作為輸入信息。

? 使用自注意力機制來學習兩個模態之間的關系。

? 使用多模態自注意力機制（multi-modal self-attention）來處理多個模態之間的關系。

Transformer應用于跨模態任務的效果非常好，在跨模態上取得成功的幾個例子：

CLIP：CLIP是一種使用Transformer的聯合訓練框架，同時使用圖像和文本來預訓練模型。該模型能夠將自然語言描述和圖像聯系起來，在多個視覺推理任務上取得了非常出色的表現。

DALL-E：DALL-E是OpenAI發布的一個模型，該模型通過預訓練得到了非常強大的生成能力，在生成包括飛行的大象、色彩斑斕的沙漏等具有挑戰性的圖像時表現出色。

通過DALL-E生成的圖像

AI繪畫的老玩家一定知道這兩個產品。

Transformer在各個方向上齊頭并進，形成了龐大的Transformer家族。

那么，Transformer會在AI領域能形成大統一理論嗎？

現在得出這樣的結論為時過早，AI領域應用非常復雜，需要結合各種技術和算法才能解決，期待單一的模型解決所有問題，有點難。

但人類對于AGI的期待，又是實實在在的。

七、記住那些無名的技術英雄

Transformer如此強大，仍然沒有幾個人知道。就算是背后站著谷歌這樣的巨人，同樣被大眾忽略。

此時光芒四射的ChatGPT，連太陽的光輝都能夠遮蓋。可實際上，沒有Transformer的開源，就沒有ChatGPT。

從技術譜系上來看，ChatGPT只是Transformer家族中的一員。其它譜系的成員，同樣表現優秀且杰出。

如果一定要說未來誰能引領人工智能世界，我更相信是Transformer而非ChatGPT。

這里引出來另一個問題，我們不能只看到成功的山姆·阿爾特曼（Sam Altman），還要看到ChatGPT后面更多的技術英雄。例如：

Ashish Vaswani等人：提出自注意力機制Transformer模型；

Bradly C. Stadie等人：提出RLHF這種人類反饋機制；

Ilya Sutskever， Oriol Vinyals等人：提出Seq2Seq模型；

EleutherAI團隊：創建GPT-Neo模型的社區項目，是GPT-3的一個分支。

Hugging Face團隊：開發了PyTorch和TensorFlow庫。

Brown等人：在GPT-3論文中提出了新穎的訓練策略。

圖/amatriain.net

這樣的人還有很多，也許他們只是充滿著理想主義的科學家、工程師、數學家和程序員，他們在商業上毫無追求，也不是最后的名利收割者。

但是，我們需要記住這些人。

當我看著Transformer那張經典的技術原理圖時，莫名會有一種心悸，甚至百感交集，這里面容納了上千上萬智者的心血啊。真的美，又真的讓人痛。對知識的追求，千折百回，這是我們人類最值得驕傲的品質吧。

當你看到Transformer的原理圖時，你會感動嗎？

本文來自微信公眾號：量子學派（ID：quantumschool），作者：十七進制

關鍵詞： transformer self-attention

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文

欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

科技

熱文