ChatGPT紅得發紫,強得讓人類心悸,但在它的背后,還隱藏著一位真正的大佬。
可以說,與它相比,ChatGPT其實只是它的一個跟班小弟。
(資料圖)
或者說,只是它掌控家族中的一個比較靚的仔。
這位大佬自2017年問世以來,隱約已成為AI領域的基石王者。
它的名字叫做——Transformer。
一、Chat不重要,GPT才重要
先拆解一下ChatGPT,它由Chat與GPT兩部分組成。
聊天不重要,GPT才重要。
那什么是GPT,它的全英文是Generative Pre-trained Transformer。
翻譯過來就是——生成式預訓練的變形金剛。
先問ChatGPT——你是誰?
我是誰,它是這樣解釋的:
GPT是基于Transformer架構的預訓練語言模型,可以生成自然語言文本。Transformer是基于自注意力機制的深度學習模型架構,它在自然語言處理領域中得到了廣泛的應用,如機器翻譯、文本分類和生成模型等。
GPT是基于Transformer模型的改進版本,主要是針對生成任務進行了優化,通過預訓練學習自然語言的語義和語法規律,進而生成高質量的文本。
因此,GPT可以看作是Transformer模型在生成任務上的一個應用擴展。
短短的自我介紹中,ChatGPT就四次提到Transformer。
Transformer模型結構圖,圖/Google Research
Transformer到底是什么,讓ChatGPT如此迷戀?
這只變形金剛,到底是只什么怪獸?
二、強大的變形金剛Transformer
Transformer的定義清晰明了:
是用于自然語言處理(NLP)的神經網絡架構。
在Transformer出現之前,人工智能研究領域百家爭鳴。
Transformer出現之后,格局開始變了,開始打壓如日中天的循環神經網絡(RNN)和卷積神經網絡(CNN)。
Transformer架構使用了注意力機制,能夠處理長序列的依賴關系。
這讓它具有以下明顯優點:
? 并行計算:由于自注意力機制的引入,Transformer可以實現并行計算,加快訓練速度。
? 長序列處理:相比傳統的循環神經網絡和卷積神經網絡,Transformer可以處理更長的序列,這是由于自注意力機制可以學習到全局的序列信息。
? 模塊化結構:Transformer由編碼器和解碼器兩部分組成,每部分都包含了多層相同的模塊,這種模塊化結構使得Transformer更易于擴展和調整。
Transformer在各種任務中的表現,也將不斷得到改善和優化,發展日新月益。
自2017年推出之后, Transformer已經形成了自己的家族體系。
基于GPT架構,ChatGPT就隱藏在GPT-3的后面。
現在你就明白,它為什么叫變形金剛了。
它的確是可以演變成各種不同的角色,而且個個都挺厲害。
三、統一自然語言NLP
人工智能的一大研究方向,首先是自然語言處理NLP領域。
自從Transformers出現后,全球NLP領域的人工智能的工程師們望風景從。
Transformers在該領域的進展所向披靡,不可阻擋,原因如下:
? 模型大小和訓練數據規模的增加:大規模的Transformers模型,如GPT-3.5、bert、T5等,有些模型參數量達到千億級別,具有更強表達能力。
? 多語言和跨語言應用:由于Transformers模型具有更強泛化能力,因此可以被應用于多語言和跨語言任務,如機器翻譯、跨語言文本分類等。
? 與其他模型的結合和拓展:與其他模型結合使用,如結合卷積神經網絡(CNN)或循環神經網絡(RNN)進行多模態學習等。
? 解釋性和可解釋性:隨著越來越多的機器學習算法被應用于實際場景,對于模型的解釋性和可解釋性要求也越來越高。
LLM成長的時間線,圖/amatriain.net
在自然語言處理NLP領域,總體的趨勢是:LSTM/CNN→Transformer。
NLP領域分為兩大不同類型的任務:
? 理解類人工智能
? 生成式人工智能
這兩個領域的研發,已經收斂到了兩個不同的預訓練模型框架里:
? 自然語言理解,技術體系統一到了以Bert為代表的“雙向語言模型預訓練+應用Fine-tuning”模式;
? 自然語言生成類任務,其技術體系則統一到了以GPT為代表的“自回歸語言模型(即從左到右單向語言模型)+Zero /Few Shot Prompt”模式。
而這兩大模型都是基于Transformers,而且兩者也出現了技術統一趨向。
在自然語言處理NLP這個領域,Transformer基本上已經一統天下。
以至于那些還沉迷于CNN,RNN的工程師被警告:
放棄戰斗吧,向Transformer投降!
四、藏不住的野心:統一計算機視覺CV
除了NLP,人工智能的另一分支是計算機視覺CV。
Transformer最開始,只是專注于自然語言的處理。NLP曾經落后于計算機視覺,但是Transformer的出現迅速地改變了現狀。
一出生就風華正茂,用來形容Transformer毫不為過。它催生了一大批舉世矚目的模型,達到了令人類不安的程度。
隨著Transformer統一了NLP,計算機視覺領域顯然受到了啟發。
一直沉迷于CNN神經網絡中的科學家,開始想知道Transformer是否可以在計算機視覺方面取得類似的效果。
不試不知道,一試嚇一跳。
Transformer在計算機視覺領域同樣治療效果明顯:
? 圖像分類
ViT(Vision Transformer)是一種將Transformer應用于圖像分類的模型。在ImageNet等基準數據集上取得了與卷積神經網絡(CNN)相媲美的結果。
圖/Google Research
? 目標檢測
DETR(DEtection TRansformer)是基于Transformer的目標檢測模型。DETR在COCO數據集上取得了與 Faster R-CNN 方法相當的結果。
? 語義分割
Transformer可以用于語義分割任務,其中每個像素被視為一個token。在Cityscapes、ADE20K和COCO-Stuff等數據集上取得了領先的結果。
以上例子都是Transformer的應用,它在計算機視覺領域也是虎視耽耽。
五、花8分鐘時間,拆解Transformer這只變形金剛
Transformer為何如此強大,我們花8分鐘來解剖它。
以下內容來自Jay Alammar:
Transformers可以被看做一個黑盒,以文本翻譯中的法-英翻譯任務為例,這個黑箱接受一句法語作為輸入,輸出一句相應的英語。
那么在這個黑盒子里面都有什么呢?
里面主要有兩部分組成:Encoder 和 Decoder。
輸入一個文本的時候,該文本數據會先經過一個叫Encoders的模塊,對該文本進行編碼。然后將編碼后的數據再傳入一個叫Decoders的模塊進行解碼,解碼后就得到了翻譯后的文本。
Encoders為編碼器,Decoders為解碼器。
細心的同學可能已經發現了,上圖中的Decoders后邊加了個s,那就代表有多個編碼器了唄,沒錯,這個編碼模塊里邊,有很多小的編碼器,一般情況下,Encoders里邊有6個小編碼器,同樣的,Decoders里邊有6個小解碼器。
在編碼部分,每一個的小編碼器的輸入,是前一個小編碼器的輸出。而每一個小解碼器的輸入,不光是它的前一個解碼器的輸出,還包括了整個編碼部分的輸出。
那每一個小編碼器里邊又是什么呢?
放大一個encoder,發現里邊的結構是一個自注意力機制+一個前饋神經網絡。
先來看下Self-attention是什么樣子的。
通過幾個步驟來解釋:
(1) 首先,Self-attention的輸入就是詞向量,即整個模型的最初的輸入是詞向量的形式。自注意力機制,顧名思義就是自己和自己計算一遍注意力,即對每一個輸入的詞向量,我們需要構建Self-attention的輸入。
(2) 接下來就要計算注意力得分了,這個得分是通過計算Q與各個單詞的K向量的點積得到的。以X1為例,分別將Q1和K1、K2進行點積運算,假設分別得到得分112和96。
(3) 將得分分別除以一個特定數值8(K向量的維度的平方根,通常K向量的維度是64)這能讓梯度更加穩定。
(4) 將上述結果進行softmax運算得到,softmax主要將分數標準化,使他們都是正數并且加起來等于1。
(5) 將V向量乘上softmax的結果,這個思想主要是為了保持我們想要關注的單詞的值不變,而掩蓋掉那些不相關的單詞。
(6) 將帶權重的各個V向量加起來,至此,產生在這個位置上(第一個單詞)的Self-attention層的輸出,其余位置的Self-attention輸出也是同樣的計算方式。
將上述的過程總結為一個公式就可以用下圖表示:
Self-attention層到這里就結束了嗎?
還沒有,論文為了進一步細化自注意力機制層,增加了“多頭注意力機制”的概念,這從兩個方面提高了自注意力層的性能。
第一個方面,它擴展了模型關注不同位置的能力,這對翻譯一下句子特別有用,因為我們想知道“it”是指代的哪個單詞。
第二個方面,它給了自注意力層多個“表示子空間”。對于多頭自注意力機制,不止有一組Q/K/V權重矩陣。
經過多頭注意力機制后,就會得到多個權重矩陣Z,我們將多個Z進行拼接就得到了Self-attention層的輸出:
上述我們經過了self-attention層,我們得到了self-attention的輸出,self-attention的輸出即是前饋神經網絡層的輸入,然后前饋神經網絡的輸入只需要一個矩陣就可以了,不需要八個矩陣,所以我們需要把這8個矩陣壓縮成一個,我們怎么做呢?只需要把這些矩陣拼接起來然后用一個額外的權重矩陣與之相乘即可。
最終的Z就作為前饋神經網絡的輸入。
接下來就進入了小編碼器里邊的前饋神經網模塊了。
然后在Transformer中使用了6個encoder,為了解決梯度消失的問題,在Encoders和Decoder中都是用了殘差神經網絡的結構,即每一個前饋神經網絡的輸入,不光包含上述Self-attention的輸出Z,還包含最原始的輸入。
上述說到的encoder是對輸入(機器學習)進行編碼,使用的是自注意力機制+前饋神經網絡的結構,同樣的,在ecoder中使用的也是同樣的結構。
以上,就講完了Transformer編碼和解碼兩大模塊,那么我們回歸最初的問題,將“Je suis etudiant”翻譯成“I am a student”,解碼器輸出本來是一個浮點型的向量,怎么轉化成“I am a student”這兩個詞呢?
這個工作是最后的線性層接上一個Softmax,其中線性層是一個簡單的全連接神經網絡,它將解碼器產生的向量投影到一個更高維度的向量(logits)上。
假設我們模型的詞匯表是10000個詞,那么logits就有10000個維度,每個維度對應一個惟一的詞的得分。之后的Softmax層將這些分數轉換為概率。選擇概率最大的維度,并對應地生成與之關聯的單詞作為此時間步的輸出就是最終的輸出啦!
假設詞匯表維度是6,那么輸出最大概率詞匯的過程如下:
以上就是Transformer的框架了,但是還有最后一個問題,我們都知道RNN中的每個輸入是時序的,是又先后順序的,但是Transformer整個框架下來并沒有考慮順序信息,這就需要提到另一個概念了:“位置編碼”。
Transformer中確實沒有考慮順序信息,那怎么辦呢,我們可以在輸入中做手腳,把輸入變得有位置信息不就行了,那怎么把詞向量輸入變成攜帶位置信息的輸入呢?
我們可以給每個詞向量加上一個有順序特征的向量,發現sin和cos函數能夠很好的表達這種特征,所以通常位置向量用以下公式來表示:
六、Transformer,在AI領域能形成大統一理論嗎?
從以上技術可以看出:Transformer是通用深度學習模型。
它的適用性非常強,原因在于它的自注意力機制(self-attention mechanism),可以更好地處理序列數據。
那這里就要談一個更前沿的技術:跨模態。
也就是人工智能領域,能否創造一個可以處理語言、文字、圖片、視頻的大統一模型。
如果在物理世界,那就有點像愛因斯坦追求的“大統一理論”。
在跨模態應用中,Transformer模型通常使用圖像和文本特征作為輸入信息。
? 使用自注意力機制來學習兩個模態之間的關系。
? 使用多模態自注意力機制(multi-modal self-attention)來處理多個模態之間的關系。
Transformer應用于跨模態任務的效果非常好,在跨模態上取得成功的幾個例子:
CLIP:CLIP是一種使用Transformer的聯合訓練框架,同時使用圖像和文本來預訓練模型。該模型能夠將自然語言描述和圖像聯系起來,在多個視覺推理任務上取得了非常出色的表現。
DALL-E:DALL-E是OpenAI發布的一個模型,該模型通過預訓練得到了非常強大的生成能力,在生成包括飛行的大象、色彩斑斕的沙漏等具有挑戰性的圖像時表現出色。
通過DALL-E生成的圖像
AI繪畫的老玩家一定知道這兩個產品。
Transformer在各個方向上齊頭并進,形成了龐大的Transformer家族。
那么,Transformer會在AI領域能形成大統一理論嗎?
現在得出這樣的結論為時過早,AI領域應用非常復雜,需要結合各種技術和算法才能解決,期待單一的模型解決所有問題,有點難。
但人類對于AGI的期待,又是實實在在的。
七、記住那些無名的技術英雄
Transformer如此強大,仍然沒有幾個人知道。就算是背后站著谷歌這樣的巨人,同樣被大眾忽略。
此時光芒四射的ChatGPT,連太陽的光輝都能夠遮蓋。可實際上,沒有Transformer的開源,就沒有ChatGPT。
從技術譜系上來看,ChatGPT只是Transformer家族中的一員。其它譜系的成員,同樣表現優秀且杰出。
如果一定要說未來誰能引領人工智能世界,我更相信是Transformer而非ChatGPT。
這里引出來另一個問題,我們不能只看到成功的山姆·阿爾特曼(Sam Altman),還要看到ChatGPT后面更多的技術英雄。例如:
Ashish Vaswani等人:提出自注意力機制Transformer模型;
Bradly C. Stadie等人:提出RLHF這種人類反饋機制;
Ilya Sutskever, Oriol Vinyals等人:提出Seq2Seq模型;
EleutherAI團隊:創建GPT-Neo模型的社區項目,是GPT-3的一個分支。
Hugging Face團隊:開發了PyTorch和TensorFlow庫。
Brown等人:在GPT-3論文中提出了新穎的訓練策略。
圖/amatriain.net
這樣的人還有很多,也許他們只是充滿著理想主義的科學家、工程師、數學家和程序員,他們在商業上毫無追求,也不是最后的名利收割者。
但是,我們需要記住這些人。
當我看著Transformer那張經典的技術原理圖時,莫名會有一種心悸,甚至百感交集,這里面容納了上千上萬智者的心血啊。真的美,又真的讓人痛。對知識的追求,千折百回,這是我們人類最值得驕傲的品質吧。
當你看到Transformer的原理圖時,你會感動嗎?
本文來自微信公眾號:量子學派 (ID:quantumschool),作者:十七進制
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.xnbt.net All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
主站蜘蛛池模板: 好男人社区www在线观看| 成年性午夜免费视频网站不卡| 久久精品国产大片免费观看| 日本高清免费不卡视频| 四虎永久地址4hu2019| 精品国产柚木在线观看| 色噜噜狠狠色综合日日| 国产精品视频全国免费观看| 精品无码久久久久久国产| 国产精品多p对白交换绿帽| 奇米色在线| 国产嫩草在线观看| 亚洲最大成人网色| 好猛好能干h| 新人本田岬847正在播放| 一个上面吃一个下免费| 本子库里番acg全彩无遮挡| 翁公厨房嫒媛猛烈进出| 国产一区风间由美在线观看| 国产大片黄在线观看| 四虎影视在线影院4hutv| 成人性生活免费视频| 人妖视频在线观看专区| 小兔子被蛇用两根是什么小说| 最近免费中文字幕大全高清大全1| 麻豆三级视频| 男人桶女人视频不要下载| 国产免费午夜| 旧里番6080在线观看| 别揉我胸啊嗯~| www.俺去| 天天摸天天摸色综合舒服网| 嗯~啊太紧了妖精h| 中文字幕在线免费看| 国产v亚洲v欧美v专区| 美女131爽| 爱情岛论坛亚洲永久入口口| 波多野结衣新婚被邻居| 免费人成在线观看网站品爱网日本| 男人一边吃奶一边做边爱| 美女被无套进入|