Meta 不僅是全球最大的社交網絡公司,和當下最熱門技術概念“元宇宙”的推行者。它同時也是人工智能(AI)研究的全球頂級公司之一。
該公司在 AI 方面卓越研究成果的背后,必然有強大的算力支持。不過一直以來,Meta 從未對外界公開展示過其算力究竟有多厲害。
而在今天,Meta 公司突然對外宣布了其在打造 AI 超級計算機方面的最新進展。
根據 Meta 此次公開透露的結果,其打造的超級計算機 AI RSC,目前算力在全球應該已經排到了前四的水平。
這個情況已經足以令人非常震驚。畢竟,在算力方面能夠和 RSC 相提并論的其它超級計算機,均由中國、美國、日本的國有研究機構運作——而 RSC 是前五里唯來自于私營機構的超算系統。
這還沒完:這臺超級計算機,還在以驚人的速度,變得更快、更強。
Meta 預測,到今年7月,也即半年之內,RSC 的算力將實現2.5倍的增長。另據專業機構 HPCwire 估計,Meta 的 RSC 超級計算機,其運行 Linpack benchmark 的算力將有望達到220 PFlops。
如無意外,RSC 將成為名副其實的“全球最快 AI 超級計算機”。
AI RSC 內部,圖片來源:Meta
AI 研發進入“超算”時代
首先需要回答一個問題:什么樣的 AI 研究,需要如此強大的超級計算機?
一般的模型,或許可以在一般的電腦或普通的數據中心里,用一塊或是幾塊顯卡就可以完成訓練。而 Meta 正在研究的,是比目前的模型參數量要大得多,性能要求更高、更嚴格,訓練花費時間更久的——超大模型。
以識別有害內容為例:CV 算法需要能夠以更高的采樣率,處理更大、更長的視頻;語音識別算法需要在極大噪音的復雜背景下達到更高的識別準確度;NLP 模型要能夠同時理解多種語言、方言和口音,等等……
在過去,許多算法在跑分數據集上都得到了不錯的成績。然而,Meta 是一家幾大洲十億級別用戶量的公司,它必須確保同一個模型投放到生產環境中能夠最大限度保證普適性。所以,一般模型不夠用了,現在要訓練大模型。
訓練大模型,需要大算力——問任何一個從事大模型研究的人,你都會得到這樣的答案。畢竟過去的訓練任務用幾周能夠完成,可在今后,面對新的大模型,我們可等不起幾年……
“在今天,包括識別有害內容等在內的許多重要的工作,都對于超大模型產生了極大的需要,”Meta 在其新聞稿中寫道,“而高性能計算系統是訓練這些超大模型的重要組件。”
Meta 此次發布的超級計算機 AI RSC,全稱為 AI Research SuperCluster(人工智能研究超級計算集群)。
雖然 Meta 在今天首次公開宣布推出這一系統,實際上 RSC 的前身版本最早在 2017 年就已經在 Facebook 公司內部投入生產使用了。當時,Facebook 團隊采用了2.2萬張英偉達 V100 Tensor GPU 組成了首個單一集群。該系統每天可以運行大約3.5萬個訓練任務。
據 HPCwire 預計,這個基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點計算性能應該已經達到了135 PFlops。這個水平在全球超算排行榜 Top500 的2021年11月排名中,已經足以排到第三名了,也即其算力可能已經超越了美國能源部在加州 Livermore 運作的“山脊”(Sierra)超級計算機。
不過,對于 Meta 來說,這還遠遠不夠。他們想要的,是世界上最大、最快、最強的 AI 超級計算機。
這臺超算還必須要達到生產環境的數據安全級別,畢竟在未來,Meta 的生產系統所用的模型可能直接在它上面訓練甚至運行。
并且,這臺超算還需要為用戶——Meta 公司的 AI 研究員——提供不亞于一般訓練機/顯卡的使用便利性,和流暢的開發者體驗。
Meta AI RSC 技術項目經理 Kevin Lee 圖片來源:Meta
2020年初,Meta 團隊認為當時公司的超算集群難以跟上未來大模型訓練的需要,決定“重新出發”,采用最頂尖的 GPU 和數據傳輸網絡技術,打造一個全新的集群。
這臺新的超算,必須能夠在大小以 EB(超過10億GB)為單位的數據集上,訓練具有超過萬億參數量的超大神經網絡模型。
(例如,中國科研機構智源 BAAI 開發的“悟道”,以及谷歌去年用 Switch Transformer 技術訓練的混合專家系統模型,都是參數量達到萬億級別的大模型;相比來看,此前在業界非常著名的 OpenAI GPT-3 語言模型,性能和泛用性已經非常令人驚訝,參數量為1750億左右。)
Meta 團隊選擇了三家在 AI 計算和數據中心組件方面最知名的公司:英偉達、Penguin Computing,和 Pure Storage。
具體來說,Meta 直接從英偉達采購了 760 臺 DGX 通用訓練系統。這些系統包含共計6080塊 Ampere 架構 Tesla A100 Tensor 核心 GPU,在當時,乃至今天,都是最頂級的 AI 訓練、推理、分析三合一系統。中間的網絡通信則采用了英偉達 InfiniBand,數據傳輸速度高達200GB每秒。
存儲方面,Meta 從 Pure Storage 采購了共計 231PB 的閃存陣列、模塊和緩存容量;而所有的機架搭建、設備安裝和數據中心的后續管理工作,則由從 Facebook 時代就在服務該公司的 Penguin Computing 負責。
這樣組建出來的新超算集群,Meta 將其正式命名為 AI RSC:
圖中顯示的是 RSC 第一階段(P1)的參數細節。圖片來源:Meta
相較于之前 FAIR 采用 V100 顯卡搭建的計算集群,初代 RSC 對于生產級別的計算機視覺類算法帶來了20倍的性能提升,運行英偉達多卡通訊框架的速度提升了超過9倍,對于大規模自然語言處理類 workflow 的訓練速度也提升了3倍——節約的訓練時間以周為單位。
值得一提的是,在 Meta 剛剛做好 RSC 升級計劃的時候,新冠疫情突然襲來了。所有實體建造的工期都遇到了極大的不確定性,RSC 能否成功升級換代,打上了一個巨大的問號。
然而,公司業務發展和 AI 科研的需要,無法等待新冠疫情。負責 RSC 升級和建造的團隊,以及包括英偉達、Penguin Computing、Pure Storage 等三家硅谷公司在內的技術合作方,不得不在極大的工期壓力下,完成數據中心的裝修建設、設備的生產和運輸、現場裝機、布線、調試等一系列非常繁瑣和技術要求極高的工作。
更夸張的是由于當時全美各地都有居家隔離令,整個 RSC 項目團隊的多位負責人,都不得不在家中遠程工作……團隊里的研究員 Shubho Sengupta 表示,“最讓我感到驕傲的是,我們在完全遠程辦公的條件下完成了(RSC 的升級工作)。考慮到項目的復雜性,完全沒有和其它團隊成員見面就能把這些事都辦了,簡直太瘋狂了”。
就目前來看,RSC 已經是世界上運行速度最快的 AI 超級計算機之一了。
但是 Meta 仍不滿足。
打造全球最快、最安全的 AI 超算
為了滿足 Meta 在生產環境和 AI 研究這兩大方面日益增長的算力需求,RSC 必須持續升級擴容。
按照 Meta 的 RSC 第二階段(P2)計劃,到今年7月,也即半年之內,整個計算集群的 A100 GPU 總數提升到驚人的 1.6 萬塊……
初代 RSC 采用的 DGX A100 單機數量是760臺,折合6,080張顯卡——這樣計算的話,也就是說 RSC 將在 P2 再增加9,920張顯卡,即 Meta 需要再從英偉達采購1,240臺 DGX A100 超級計算機……
就連英偉達也表示,Meta 的計劃,將讓 RSC 成為英偉達 DGX A100 截至目前最大的客戶部署集群,沒有之一。
算力提升了,其它配套設施,包括存儲和網絡,也要跟上。
按照 Meta 的預計,RSC 的 P2 完成后,其數據存儲總量將達到1 EB——折合超過 10 億 GB。
不僅如此,整個超算集群的單個節點之間的通訊帶寬也獲得了史無前例般的提升,達到驚人的16TB/s,并且實現一比一過載(也即每個 DGX A100 計算節點對應一個網絡接口,不出現多節點共享接口爭搶帶寬資源的情況)。
(這里還有個點值得單獨提一下:按照 Meta 團隊的估計,像 RSC 這樣采用 DGX A100 節點組建超算集群的做法,能夠支持的節點上限也就是1.6萬了,再多就會出現過載,意味著追加投資的邊際收益顯著降低。)
在數據安全的角度,Meta 這次也沒有忘了在新聞稿中專門介紹其數據處理方式,以求令公眾安心。
“無論是檢測有害內容,還是創造新的增強現實體驗——為了打造新的 AI 模型,我們都會用到來自公司生產系統,取自真實世界的數據。”Meta 表示,這也是為什么RSC 從設計之初就加入了數據隱私和數據安全方面的考慮。只有這樣,Meta 的研究院才能夠安全地使用加密、匿名化后的真實世界數據來訓練模型。
1)RSC 被設計為無法和真正的互聯網直接連接,而是和位于 RSC 所在地附近的一座 Meta 數據中心進行連接;
2)當 Meta 的研究人員向 RSC 的服務器導入數據的時候,這些數據首先要通過一道隱私審查系統,確認數據已經進行了匿名化;
3)在數據正式投入到 AI 模型算法的訓練之前,數據也會再次進行加密,并且密鑰是周期生成和拋棄的,這樣即使有舊的訓練數據存儲,也無法被訪問;
4)數據只會在訓練系統的內存中解密,這樣即使有不速之客闖入 RSC,對服務器進行物理訪問,也無法破解數據。
可能是出于保密的目的,Meta 甚至連 RSC 的具體所在地都沒有透露……
不過根據已知的情況,RSC 的附近必有一座 Facebook/Meta 數據中心存在。并且,下圖截取自 RSC 的公告視頻,圖中我們可以看到,AI RSC 位于右上,左下則是 Meta 的一座數據中心。圖中有著大量較高的樹木。
硅星人基本可以確定,上圖中的 Meta 數據中心位于美國弗吉尼亞州 Henrico 縣。該縣是美國東部最大的數據中心集中地,也是連接歐洲、南美、亞洲、非洲的多條海底光纜在美國的末端所在地。至于 RSC 的實際所在地,其前身應該是 QTS Richmond 數據中心。
右邊為 Meta 數據中心,左邊為 QTS Richmond 也即 Meta AI RSC 所在地 截自 Google Maps
最后,讓我們來看看成本……
不考慮同樣極其昂貴的存儲和網絡基礎設施,我們就先只看計算的部分:
每臺 DGX A100 的標準售價為19.9萬美元,Meta 大宗采購肯定有折扣,但假設沒有折扣的話:RSC 這次 P2 的擴容成本,僅顯卡采購的部分,就高達2.5億美元……
當然,按照今天的 Meta 市值來看,這筆費用簡直是九牛一毛。假若真的打造出全世界最大最強最快的 AI 超算,對于這家公司的業務,無論是其現在的核心業務,還是未來的元宇宙產品,預計都能夠帶來非常大的幫助。
Meta 是這么說的:“最終,我們在 RSC 上面的努力,將能夠為作為下一個關鍵計算平臺的元宇宙鋪就道路。屆時,AI 驅動的應用和產品將會扮演重要的角色。”
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.xnbt.net All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
主站蜘蛛池模板: 999国产精品999久久久久久| 3d动漫啪啪| 91福利视频网| 国产精品一区二区久久精品涩爱| 日产亚洲一区二区三区| 交换年轻夫妇5| 黄a在线观看| 老子影院午夜| 一级日本强免费| 亚洲国产电影在线观看| 波多野结衣办公室33分钟| 韩国黄色片在线观看| 99久久精品费精品国产一区二区 | 亚洲一区电影在线观看| 永久免费毛片在线播放| 天天操天天干天天干| 亚洲午夜一区二区三区| 蜜桃成熟之蜜桃仙子| 性做久久久久久久久| 中国美女一级毛片| 亚洲一区电影在线观看| zoom和okzoom在线视频| 午夜影院欧美| 三上悠亚日韩精品一区在线| 色妞色妞| 小婷又紧又深又滑又湿好爽| 最新视频-88av| 村上里沙在线播放| 日韩美香港a一级毛片| 久久综合狠狠综合久久综合88| 美女扒开尿眼让男人桶爽视频| 亚洲ww| 日韩特黄| 久久精品国产亚洲7777| 交换韩国伦理片| 成年女人毛片| 8888奇米影视笫四色88me| 四只虎免费永久观看| 从镜子里看我怎么c你| 再深点灬舒服灬太大了岳| 干妞网在线观看|