Meta想要打造“全球最快AI超算” 為了元宇宙？

來源：硅星人

時間：2022-01-26 12:20:07

Meta 不僅是全球最大的社交網絡公司，和當下最熱門技術概念“元宇宙”的推行者。它同時也是人工智能（AI）研究的全球頂級公司之一。

該公司在 AI 方面卓越研究成果的背后，必然有強大的算力支持。不過一直以來，Meta 從未對外界公開展示過其算力究竟有多厲害。

而在今天，Meta 公司突然對外宣布了其在打造 AI 超級計算機方面的最新進展。

根據 Meta 此次公開透露的結果，其打造的超級計算機 AI RSC，目前算力在全球應該已經排到了前四的水平。

這個情況已經足以令人非常震驚。畢竟，在算力方面能夠和 RSC 相提并論的其它超級計算機，均由中國、美國、日本的國有研究機構運作——而 RSC 是前五里唯來自于私營機構的超算系統。

這還沒完：這臺超級計算機，還在以驚人的速度，變得更快、更強。

Meta 預測，到今年7月，也即半年之內，RSC 的算力將實現2.5倍的增長。另據專業機構 HPCwire 估計，Meta 的 RSC 超級計算機，其運行 Linpack benchmark 的算力將有望達到220 PFlops。

如無意外，RSC 將成為名副其實的“全球最快 AI 超級計算機”。

AI RSC 內部，圖片來源：Meta

AI 研發進入“超算”時代

首先需要回答一個問題：什么樣的 AI 研究，需要如此強大的超級計算機？

一般的模型，或許可以在一般的電腦或普通的數據中心里，用一塊或是幾塊顯卡就可以完成訓練。而 Meta 正在研究的，是比目前的模型參數量要大得多，性能要求更高、更嚴格，訓練花費時間更久的——超大模型。

以識別有害內容為例：CV 算法需要能夠以更高的采樣率，處理更大、更長的視頻；語音識別算法需要在極大噪音的復雜背景下達到更高的識別準確度；NLP 模型要能夠同時理解多種語言、方言和口音，等等……

在過去，許多算法在跑分數據集上都得到了不錯的成績。然而，Meta 是一家幾大洲十億級別用戶量的公司，它必須確保同一個模型投放到生產環境中能夠最大限度保證普適性。所以，一般模型不夠用了，現在要訓練大模型。

訓練大模型，需要大算力——問任何一個從事大模型研究的人，你都會得到這樣的答案。畢竟過去的訓練任務用幾周能夠完成，可在今后，面對新的大模型，我們可等不起幾年……

“在今天，包括識別有害內容等在內的許多重要的工作，都對于超大模型產生了極大的需要，”Meta 在其新聞稿中寫道，“而高性能計算系統是訓練這些超大模型的重要組件。”

Meta 此次發布的超級計算機 AI RSC，全稱為 AI Research SuperCluster（人工智能研究超級計算集群）。

雖然 Meta 在今天首次公開宣布推出這一系統，實際上 RSC 的前身版本最早在 2017 年就已經在 Facebook 公司內部投入生產使用了。當時，Facebook 團隊采用了2.2萬張英偉達 V100 Tensor GPU 組成了首個單一集群。該系統每天可以運行大約3.5萬個訓練任務。

據 HPCwire 預計，這個基于 V100 GPU 的前身版本，按照 Linpack benchmark 的浮點計算性能應該已經達到了135 PFlops。這個水平在全球超算排行榜 Top500 的2021年11月排名中，已經足以排到第三名了，也即其算力可能已經超越了美國能源部在加州 Livermore 運作的“山脊”（Sierra）超級計算機。

不過，對于 Meta 來說，這還遠遠不夠。他們想要的，是世界上最大、最快、最強的 AI 超級計算機。

這臺超算還必須要達到生產環境的數據安全級別，畢竟在未來，Meta 的生產系統所用的模型可能直接在它上面訓練甚至運行。

并且，這臺超算還需要為用戶——Meta 公司的 AI 研究員——提供不亞于一般訓練機/顯卡的使用便利性，和流暢的開發者體驗。

Meta AI RSC 技術項目經理 Kevin Lee 圖片來源：Meta

2020年初，Meta 團隊認為當時公司的超算集群難以跟上未來大模型訓練的需要，決定“重新出發”，采用最頂尖的 GPU 和數據傳輸網絡技術，打造一個全新的集群。

這臺新的超算，必須能夠在大小以 EB（超過10億GB）為單位的數據集上，訓練具有超過萬億參數量的超大神經網絡模型。

（例如，中國科研機構智源 BAAI 開發的“悟道”，以及谷歌去年用 Switch Transformer 技術訓練的混合專家系統模型，都是參數量達到萬億級別的大模型；相比來看，此前在業界非常著名的 OpenAI GPT-3 語言模型，性能和泛用性已經非常令人驚訝，參數量為1750億左右。）

Meta 團隊選擇了三家在 AI 計算和數據中心組件方面最知名的公司：英偉達、Penguin Computing，和 Pure Storage。

具體來說，Meta 直接從英偉達采購了 760 臺 DGX 通用訓練系統。這些系統包含共計6080塊 Ampere 架構 Tesla A100 Tensor 核心 GPU，在當時，乃至今天，都是最頂級的 AI 訓練、推理、分析三合一系統。中間的網絡通信則采用了英偉達 InfiniBand，數據傳輸速度高達200GB每秒。

存儲方面，Meta 從 Pure Storage 采購了共計 231PB 的閃存陣列、模塊和緩存容量；而所有的機架搭建、設備安裝和數據中心的后續管理工作，則由從 Facebook 時代就在服務該公司的 Penguin Computing 負責。

這樣組建出來的新超算集群，Meta 將其正式命名為 AI RSC：

圖中顯示的是 RSC 第一階段（P1）的參數細節。圖片來源：Meta

相較于之前 FAIR 采用 V100 顯卡搭建的計算集群，初代 RSC 對于生產級別的計算機視覺類算法帶來了20倍的性能提升，運行英偉達多卡通訊框架的速度提升了超過9倍，對于大規模自然語言處理類 workflow 的訓練速度也提升了3倍——節約的訓練時間以周為單位。

值得一提的是，在 Meta 剛剛做好 RSC 升級計劃的時候，新冠疫情突然襲來了。所有實體建造的工期都遇到了極大的不確定性，RSC 能否成功升級換代，打上了一個巨大的問號。

然而，公司業務發展和 AI 科研的需要，無法等待新冠疫情。負責 RSC 升級和建造的團隊，以及包括英偉達、Penguin Computing、Pure Storage 等三家硅谷公司在內的技術合作方，不得不在極大的工期壓力下，完成數據中心的裝修建設、設備的生產和運輸、現場裝機、布線、調試等一系列非常繁瑣和技術要求極高的工作。

更夸張的是由于當時全美各地都有居家隔離令，整個 RSC 項目團隊的多位負責人，都不得不在家中遠程工作……團隊里的研究員 Shubho Sengupta 表示，“最讓我感到驕傲的是，我們在完全遠程辦公的條件下完成了（RSC 的升級工作）。考慮到項目的復雜性，完全沒有和其它團隊成員見面就能把這些事都辦了，簡直太瘋狂了”。

就目前來看，RSC 已經是世界上運行速度最快的 AI 超級計算機之一了。

但是 Meta 仍不滿足。

打造全球最快、最安全的 AI 超算

為了滿足 Meta 在生產環境和 AI 研究這兩大方面日益增長的算力需求，RSC 必須持續升級擴容。

按照 Meta 的 RSC 第二階段（P2）計劃，到今年7月，也即半年之內，整個計算集群的 A100 GPU 總數提升到驚人的 1.6 萬塊……

初代 RSC 采用的 DGX A100 單機數量是760臺，折合6,080張顯卡——這樣計算的話，也就是說 RSC 將在 P2 再增加9,920張顯卡，即 Meta 需要再從英偉達采購1,240臺 DGX A100 超級計算機……

就連英偉達也表示，Meta 的計劃，將讓 RSC 成為英偉達 DGX A100 截至目前最大的客戶部署集群，沒有之一。

算力提升了，其它配套設施，包括存儲和網絡，也要跟上。

按照 Meta 的預計，RSC 的 P2 完成后，其數據存儲總量將達到1 EB——折合超過 10 億 GB。

不僅如此，整個超算集群的單個節點之間的通訊帶寬也獲得了史無前例般的提升，達到驚人的16TB/s，并且實現一比一過載（也即每個 DGX A100 計算節點對應一個網絡接口，不出現多節點共享接口爭搶帶寬資源的情況）。

（這里還有個點值得單獨提一下：按照 Meta 團隊的估計，像 RSC 這樣采用 DGX A100 節點組建超算集群的做法，能夠支持的節點上限也就是1.6萬了，再多就會出現過載，意味著追加投資的邊際收益顯著降低。）

在數據安全的角度，Meta 這次也沒有忘了在新聞稿中專門介紹其數據處理方式，以求令公眾安心。

“無論是檢測有害內容，還是創造新的增強現實體驗——為了打造新的 AI 模型，我們都會用到來自公司生產系統，取自真實世界的數據。”Meta 表示，這也是為什么RSC 從設計之初就加入了數據隱私和數據安全方面的考慮。只有這樣，Meta 的研究院才能夠安全地使用加密、匿名化后的真實世界數據來訓練模型。

1）RSC 被設計為無法和真正的互聯網直接連接，而是和位于 RSC 所在地附近的一座 Meta 數據中心進行連接；

2）當 Meta 的研究人員向 RSC 的服務器導入數據的時候，這些數據首先要通過一道隱私審查系統，確認數據已經進行了匿名化；

3）在數據正式投入到 AI 模型算法的訓練之前，數據也會再次進行加密，并且密鑰是周期生成和拋棄的，這樣即使有舊的訓練數據存儲，也無法被訪問；

4）數據只會在訓練系統的內存中解密，這樣即使有不速之客闖入 RSC，對服務器進行物理訪問，也無法破解數據。

可能是出于保密的目的，Meta 甚至連 RSC 的具體所在地都沒有透露……

不過根據已知的情況，RSC 的附近必有一座 Facebook/Meta 數據中心存在。并且，下圖截取自 RSC 的公告視頻，圖中我們可以看到，AI RSC 位于右上，左下則是 Meta 的一座數據中心。圖中有著大量較高的樹木。

硅星人基本可以確定，上圖中的 Meta 數據中心位于美國弗吉尼亞州 Henrico 縣。該縣是美國東部最大的數據中心集中地，也是連接歐洲、南美、亞洲、非洲的多條海底光纜在美國的末端所在地。至于 RSC 的實際所在地，其前身應該是 QTS Richmond 數據中心。

右邊為 Meta 數據中心，左邊為 QTS Richmond 也即 Meta AI RSC 所在地截自 Google Maps

最后，讓我們來看看成本……

不考慮同樣極其昂貴的存儲和網絡基礎設施，我們就先只看計算的部分：

每臺 DGX A100 的標準售價為19.9萬美元，Meta 大宗采購肯定有折扣，但假設沒有折扣的話：RSC 這次 P2 的擴容成本，僅顯卡采購的部分，就高達2.5億美元……

當然，按照今天的 Meta 市值來看，這筆費用簡直是九牛一毛。假若真的打造出全世界最大最強最快的 AI 超算，對于這家公司的業務，無論是其現在的核心業務，還是未來的元宇宙產品，預計都能夠帶來非常大的幫助。

Meta 是這么說的：“最終，我們在 RSC 上面的努力，將能夠為作為下一個關鍵計算平臺的元宇宙鋪就道路。屆時，AI 驅動的應用和產品將會扮演重要的角色。”

關鍵詞： meta rsc 模型 ai 數據中心超級計算機集群英偉達數據算力

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文

欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

科技

熱文