【天天時快訊】60行代碼就能構建GPT！網友：比之前的教程都要清晰

來源：鳳凰網

時間：2023-02-19 13:08:10

Pine 發自凹非寺

量子位 | 公眾號 QbitAI

現在只用60行代碼，就能從0構建GPT了！

(資料圖片僅供參考)

想當初，前特斯拉前AI總監的minGPT和nanoGPT也都還要300行代碼。

這個60行代碼的GPT也有名字，博主將它命名為PicoGPT。

不過和此前minGPT和nanoGPT的教程不同，今天要講的這個博主的教程，更側重于代碼實現部分，模型的權重則用已經訓練好的。

對此，博主解釋稱這篇教程的重點在于提供一個簡單且易于破解的完整技術介紹。

這對還不理解GPT背后概念的盆友，算是非常友好了。

還有網友稱贊，這篇博客介紹得非常清晰，第一部分尤為如此。

這篇介紹GPT模型的文章太好了，它比我之前看到的介紹都要清晰，至少在第一部分討論文本生成和取樣是這樣的。

目前，此項目在GitHub上標星已破百，HackerNews上的點擊量也即將破千。

從GPT是什么講起

在介紹之前，還是需要說明一下，這篇教程不是完全零門檻，需要讀者提前熟悉Python、NumPy以及一些基本的訓練神經網絡。

教程的重點聚焦在技術介紹上，統共有六大部分：

什么是GPT？

按照慣例，在正式構建GPT之前得先對它做一些基本介紹，教程從輸入/輸出、生成文本以及訓練三個部分分別來講GPT是如何工作的。

在這趴，博主附上代碼，甚至還用了一些比喻來讓讀者們更好地理解GPT。

舉個栗子

，在輸入這一部分，作者將句子比作一條繩子，tokenizer則會將其分割成一小段一小段（單詞），被稱作token。

又比如說，在生成文本這part介紹自動回歸時，博主直接貼上代碼：

def generate(inputs, n_tokens_to_generate):

for _ in range(n_tokens_to_generate): # auto-regressive decode loop

output = gpt(inputs) # model forward pass

next_id = np.argmax(output[-1]) # greedy sampling

inputs = np.append(out, [next_id]) # append prediction to input

return list(inputs[len(inputs) - n_tokens_to_generate :]) # only return generated ids

input_ids = [1, 0] # "not" "all"

output_ids = generate(input_ids, 3) # output_ids = [2, 4, 6]

output_tokens = [vocab[i] for i in output_ids] # "heroes" "wear" "capes"

在每次迭代中，它會將預測的token追加回輸入，這個預測未來值并將其添加回輸入的過程就是GPT被描述為自動回歸的原因。

60行代碼怎么運行？

了解完GPT的基本概念之后，就直接快進到了如何在電腦上運行這個PicoGPT。

博主先是甩出了他那只有60行的代碼：

import numpy as np

def gpt2(inputs, wte, wpe, blocks, ln_f, n_head):

pass # TODO: implement this

def generate(inputs, params, n_head, n_tokens_to_generate):

from tqdm import tqdm

for _ in tqdm(range(n_tokens_to_generate), "generating"): # auto-regressive decode loop

logits = gpt2(inputs, **params, n_head=n_head) # model forward pass

next_id = np.argmax(logits[-1]) # greedy sampling

inputs = np.append(inputs, [next_id]) # append prediction to input

return list(inputs[len(inputs) - n_tokens_to_generate :]) # only return generated ids

def main(prompt: str, n_tokens_to_generate: int = 40, model_size: str = "124M", models_dir: str = "models"):

from utils import load_encoder_hparams_and_params

# load encoder, hparams, and params from the released open-ai gpt-2 files

encoder, hparams, params = load_encoder_hparams_and_params(model_size, models_dir)

# encode the input string using the BPE tokenizer

input_ids = encoder.encode(prompt)

# make sure we are not surpassing the max sequence length of our model

assert len(input_ids) + n_tokens_to_generate < hparams["n_ctx"]

# generate output ids

output_ids = generate(input_ids, params, hparams["n_head"], n_tokens_to_generate)

# decode the ids back into a string

output_text = encoder.decode(output_ids)

return output_text

if name == "__main__":

import fire

fire.Fire(main)

然后從克隆存儲庫，安裝依賴項等步驟一步步教你如何在電腦上運行GPT。

其中，還不乏一些貼心的小tips，比如說如果使用的是M1 Macbook，那在運行pip install之前，需要將requments.txt中的tensorflow更改為tensorflow-macos。

此外，對于代碼的四個部分：gpt2，generate，main以及fire.Fire(main)，博主也有做詳細解釋。

等到代碼能夠運行之后，下一步博主就準備詳細介紹編碼器、超參數（hparams）以及參數（params）這三部分了。

直接在筆記本或者Python會話中運行下面這個代碼：

from utils import load_encoder_hparams_and_params

encoder, hparams, params = load_encoder_hparams_and_params("124M", "models")

Bingo！一些必要的模型和tokenizer文件就直接下載到model/124M，編碼器、hparams和params也能直接加載。

更具體的內容這里就不多說了，教程的鏈接已經附在文末。

一些基礎神經網絡層的介紹

這一趴涉及到的知識就更加基礎了，因為下一趴是實際GPT自身的架構，所以在此之前，需要了解一些非特定于GPT的更基本的神經網絡層。

博主介紹了GeLU、Softmax函數以及Layer Normalization和Linear。

GPT架構

終于！這部分要來講GPT自身的架構了，博主從transformer的架構引入。

△transformer架構

GPT的架構只使用了transformer中的解碼器堆棧（即圖表的右邊部分），并且其中的的“交叉注意”層也沒有用到。

△GPT架構

隨后，博主將GPT的架構總結成了三大部分：

文本 + 位置嵌入

變壓器解碼器堆棧

下一個token預測頭

并且還將這三部分用代碼展示了出來，是醬紫的：

def gpt2(inputs, wte, wpe, blocks, ln_f, n_head): # [n_seq] -> [n_seq, n_vocab]

# token + positional embeddings

x = wte[inputs] + wpe[range(len(inputs))] # [n_seq] -> [n_seq, n_embd]

# forward pass through n_layer transformer blocks

for block in blocks:

x = transformer_block(x, block, n_head=n_head) # [n_seq, n_embd] -> [n_seq, n_embd]

# projection to vocab

x = layer_norm(x, ln_f) # [n_seq, n_embd] -> [n_seq, n_embd]

return x @ wte.T # [n_seq, n_embd] -> [n_seq, n_vocab]

再后面，就是關于這三部分的更多細節……

測試構建的GPT

這部分將全部的代碼組合在一起，就得到了gpt2.py，統共有120行代碼，刪除注釋和空格的話，就是60行。

然后測試一下！

python gpt2.py \

"Alan Turing theorized that computers would one day become" \

--n_tokens_to_generate 8

結果是這樣的：

the most powerful machines on the planet.

成功了！

一些后續補充

最后一部分，博主也總結了這短短60行代碼的不足：非常低效！

不過他還是給出了兩個可以讓GPT變高效的方法：

同時地而不是順序地執行注意力計算。

實現 KV 緩存。

此外，博主還推薦了一些訓練模型、評估模型以及改進架構的方法和教程。

關鍵詞： inputs params

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文

欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

科技

熱文