全球觀熱點：王慧文2億美金撬動中國版OpenAI的計劃，有退路嗎？

時間：2023-02-14 22:15:05

作者｜齊健

編輯｜陳伊凡

二級市場剛冷靜了一點，ChatGPT的風(fēng)暴又開始席卷創(chuàng)投圈了。

(資料圖片僅供參考)

2月10日晚，原美團(tuán)聯(lián)合創(chuàng)始人王慧文的一條朋友圈在網(wǎng)絡(luò)上熱傳，這條朋友圈的截圖顯示王慧文提出的“人工智能宣言”如下：5000萬美元，帶資入組，不在意崗位、薪資和title，求組隊。

網(wǎng)傳原美團(tuán)聯(lián)合創(chuàng)始人王慧文的朋友圈截圖

兩天后，王慧文本人在社交平臺“即刻”上正式發(fā)文宣布，雖然目前還處在學(xué)習(xí)AI的階段，但計劃出資5千萬美元，設(shè)立北京光年之外科技有限公司，打造中國的OpenAI。王慧文在博文中稱，目前公司估值2億美元，下輪融資已有頂級VC認(rèn)購2.3億美金。

“一石激起千層浪”，王慧文發(fā)布“AI英雄榜”后，2月14日，真格基金官方微信也發(fā)布了一則 “AI英雄帖”，稱正在尋找有能力引領(lǐng)新一代創(chuàng)業(yè)公司的創(chuàng)始人。

源碼資本創(chuàng)始合伙人曹毅在朋友圈也表示，行業(yè)也等到了老王出山。

而對于王慧文的這次AI創(chuàng)業(yè)，坊間議論最多的莫過于2億多美金要撬動中國版OpenAI這么大的項目，可行嗎？有哪些坑？又有哪些可能的商業(yè)化方向？

ChatGPT是怎么做出來的？

要做中國版的OpenAI，或許先要了解，OpenAI是怎么來的？它的“頭牌”ChatGPT又是如何做出來的。

從現(xiàn)在來看，通用大模型的研究是一個燒錢的游戲，2億美金可能不太夠。OpenAI成立于2015年，從可以查到的融資紀(jì)錄看，2016年-2022年，OpenAI的融資額可能超過30億美元。

與多數(shù)創(chuàng)業(yè)公司一樣，OpenAI在這些年中不太賺錢。甚至一開始完全是以非盈利機構(gòu)的身份在開展AI研究。不賺錢的同時，OpenAI在研發(fā)方面還持續(xù)燒錢。有統(tǒng)計顯示，GPT-3的一次模型訓(xùn)練費用可能超過百萬美元，上線之后的ChatGPT每天回答問題的成本也是百萬美元規(guī)模。

從研發(fā)的資金上來看，要在短時間內(nèi)，用有限的資金復(fù)制OpenAI的成功恐怕并不容易。事實上，即便是資金量夠大，AI大模型也不是說做就能做的。“這玩意兒不是屯點錢然后花點時間就能干成的。”一位AI行業(yè)專家如是說。

通用大模型的研究需要海量數(shù)據(jù)和技術(shù)創(chuàng)新的積累。要做一款像ChatGPT一樣紅到爆炸的產(chǎn)品，起碼要分四步。

第一步，數(shù)據(jù)收集，通過爬取互聯(lián)網(wǎng)上的大量語料數(shù)據(jù)來訓(xùn)練模型，語料數(shù)據(jù)包括了文本、對話和問答數(shù)據(jù)等。

第二步則是模型設(shè)計和數(shù)據(jù)預(yù)處理，OpenAI選擇了Transformer模型作為ChatGPT的模型結(jié)構(gòu)，并對其進(jìn)行了許多改進(jìn)，以提高模型的語言生成能力。對語料數(shù)據(jù)進(jìn)行預(yù)處理，包括語料的清洗、分詞和標(biāo)注等步驟。

再之后是模型訓(xùn)練和模型評估，使用大量的計算資源和高性能的訓(xùn)練算法，對模型進(jìn)行訓(xùn)練，使其能夠生成高質(zhì)量的語言文本。對模型的語言生成效果進(jìn)行評估，并不斷對模型進(jìn)行調(diào)整和優(yōu)化，以保證生成的語言文本具有足夠的質(zhì)量。

最后則是模型部署，將訓(xùn)練完成的模型部署到生產(chǎn)環(huán)境，供用戶使用。

“如果你手里掌握著幾十篇大模型領(lǐng)域頂會論文的技術(shù)積累，能夠接受5年，甚至更長的時間，沒有盈利，并耐心完成幾百次AI試驗。同時，有微軟的Azure這樣實力雄厚的公司提供幾乎免費的云服務(wù)。”一位AI大模型專家向虎嗅表示，“（如果是這樣的話）要做出ChatGPT，或者成為OpenAI其實并不難。”

從頭做AI大模型道阻且長，需要耐心和長期投入。那么在資金量有限的情況下，能否先做一些能夠較為快速實現(xiàn)商業(yè)化的產(chǎn)品？

不做中國OpenAI，AI領(lǐng)域創(chuàng)業(yè)還有幾條路

如果不做OpenAI的話，筆者認(rèn)為，以王慧文現(xiàn)有的資金量，5000萬美元的起步資金和未來2.3億美元的投資，在AI領(lǐng)域做出點事兒來，可能另外有幾條路徑可以嘗試。

最簡單的方法就是投資已有的大模型公司。不過，在技術(shù)和模型訓(xùn)練方面的積累是這類公司的核心。目前，不論國內(nèi)還是國外，在通用大模型研究方面技術(shù)實力較強的公司多數(shù)是隸屬于互聯(lián)網(wǎng)巨頭的AI部門或研究實驗室。在這方面，優(yōu)秀的初創(chuàng)公司不多，處于投融資早期的好標(biāo)的更是鳳毛麟角。

以5000萬美元的資金量，其實可以嘗試找一找在“文本生成模型、方法及裝置”技術(shù)方面專利較多的，或是在Transformer大模型研究方面論文較多的AI公司，參與他們的中后期融資。不過，要做早期投資或是自己創(chuàng)業(yè)的話，這種方式應(yīng)該是不在考慮范圍內(nèi)。

第二條路就是基于ChatGPT類的大模型產(chǎn)品做上層應(yīng)用，目前這種模式可以說是通用大模型或是類ChatGPT產(chǎn)品方向比較靠譜的創(chuàng)業(yè)路徑了。畢竟在美國，已經(jīng)有一些通用大模型的SaaS服務(wù)商，跑出了成功的商業(yè)落地模式。

成立于2020年的AI獨角獸Jasper的業(yè)務(wù)，就是通過調(diào)用OpenAI的GPT-3模型為用戶提供文生文寫作服務(wù)。雖然Jasper成立時間不長，但估值已達(dá)15億美元。

在API調(diào)用方面，OpenAI最近也被爆出可能會增強這項業(yè)務(wù)，給調(diào)用API的用戶提供更多優(yōu)化和拓展空間。近期CNBC曾報道稱，有知情人士透露，OpenAI可能在未來針對ChatGPT推出類似SDK的服務(wù)，可以讓用戶自己開發(fā)基于大模型的聊天機器人，用戶可以根據(jù)需要引用特定來源的信息，以改進(jìn)自己的聊天機器人。

OpenAI的官方公告中曾提到“正在積極探索低成本計劃、業(yè)務(wù)計劃和數(shù)據(jù)包的選項，以提高可用性。”

通用大模型正在逐步形成PaaS形式的平臺能力，基于平臺的SaaS服務(wù)，自然是一條很好的創(chuàng)業(yè)路徑。不過目前，這條路最大的問題是，在通用大模型領(lǐng)域可以提供體驗良好，且商業(yè)化成熟的API服務(wù)公司太少，且多為美國公司。而AI領(lǐng)域涉及大量創(chuàng)新科技和敏感數(shù)據(jù)，AI技術(shù)方面的跨國商務(wù)合作難免會收到數(shù)據(jù)安全，技術(shù)出口等方面的限制。

不過，國內(nèi)公司在這方面也一直沒有落后，目前北京智源人工智能研究院的悟道大模型、百度文心大模型等在API服務(wù)方面均已開展了相關(guān)的實驗和探索工作。

最后，還有一條比較著眼未來的路徑，那就是做大模型應(yīng)用的外延拓展。

“ChatGPT最好的應(yīng)用場景肯定不會局限在搜索引擎，而是更個性化的智能語音助手。”一位NLP（自然語言識別）研發(fā)工程師告訴虎嗅，不管是Bing還是谷歌，在搜索領(lǐng)域的AI探索應(yīng)該都處在試水階段。而基于大模型和自然語音、語意理解的語音助手肯定是未來的大方向。

目前，亞馬遜的人工智能助手Alexa就正在引入基于Transformer的大規(guī)模多語言模型AlexaTM（Alexa Teacher Models）。百度即將推出的“文心一言”則計劃與小度深度整合，打造針對智能設(shè)備場景的人工智能模型「小度靈機」。

除了生活需求，基于通用大模型的AI語音助手，更加適合做成專業(yè)領(lǐng)域的智能助理，比如給制造業(yè)、工程建設(shè)行業(yè)提供技術(shù)支持，或是在醫(yī)療專業(yè)知識方面，給醫(yī)生提供參考建議。

一位工業(yè)領(lǐng)域?qū)＜医o虎嗅舉了這樣一個例子：你想在家里掛一幅壁畫，需要在墻上打個釘子。當(dāng)施工工人拿著沖擊鉆，準(zhǔn)備打眼兒的時候，他需要了解面前這堵墻的一些信息，例如墻里是否預(yù)埋了電路？是否有水管？要打眼的位置有沒有鋼筋？

這些信息要如何得知？要么問記得管線位置的主人，要么問裝修的工長，要么看裝修的圖紙。這時，如果前面的三個選項都不可用，那么有一個對你家里信息了如指掌的智能AI，提供這種信息查詢服務(wù)，不就大幅簡化這個過程了嗎？

雖然現(xiàn)在市面上不乏各種類型的語音助手，且它們已經(jīng)能給人類提供很多幫助了，但多數(shù)此類產(chǎn)品只能理解預(yù)設(shè)的問題，回答預(yù)設(shè)的答案，很難提供通用性的幫助。

“ChatGPT還真是挺神奇的，什么都知道。”一位航空領(lǐng)域的技術(shù)專家對虎嗅表示，他曾嘗試向ChatGPT詢問了一些航空領(lǐng)域的技術(shù)問題，比如：基于點云重構(gòu)曲面的方法，飛機隱身特性和外形參數(shù)的關(guān)系。都沒能難倒ChatGPT，且得到的回答非常專業(yè)。

ChatGPT雖然知道的多，但是要真用它給專業(yè)技術(shù)領(lǐng)域提供支持還有個很大的問題，就是準(zhǔn)確性。很多人在與ChatGPT對話過程中都遇到過“AI編造事實”的現(xiàn)象，中文互聯(lián)網(wǎng)上流傳比較廣泛的例子包括“林黛玉倒拔垂楊柳”“賈寶玉最應(yīng)該與賈母在一起”等，在專業(yè)領(lǐng)域的應(yīng)用很難容忍這種錯誤。

因此，類似ChatGPT的產(chǎn)品要想應(yīng)用在專業(yè)領(lǐng)域，還需要解決穩(wěn)定性和可靠性的問題，在優(yōu)化AI、增強AI準(zhǔn)確性方面或許可以給新的AI創(chuàng)業(yè)公司提供方向。

給通用大模型，或是類ChatGPT產(chǎn)品提供適合AI訓(xùn)練的高質(zhì)量行業(yè)知識庫，以及持續(xù)的知識更新服務(wù)，或許會成為未來的一項AI行業(yè)服務(wù)。在強化學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和行業(yè)數(shù)據(jù)包（知識庫）等方面做技術(shù)升級，幫助大模型公司對AI進(jìn)行強化學(xué)習(xí)訓(xùn)練，從而提高ChatGPT的準(zhǔn)確性和可靠性。

順著這個方向再向下延展，在自動駕駛，生物制藥等領(lǐng)域也有很多基于通用大模型的創(chuàng)新機會。目前，百度文心、毫末智行、小鵬等國內(nèi)公司已經(jīng)開始在自動駕駛研究方面引入大模型技術(shù)，其中包括通過圖文弱監(jiān)督預(yù)訓(xùn)練模型，利用大模型數(shù)千種物體識別能力，擴(kuò)充自動駕駛語義識別數(shù)據(jù)。以及利用ChatGPT的“人類反饋強化學(xué)習(xí)（RLHF）”技術(shù)改進(jìn)自動駕駛決策等。

寫在最后

AI創(chuàng)業(yè)，尤其是大模型創(chuàng)業(yè)，從現(xiàn)在開始干，或許已經(jīng)有些晚了。

從資本市場角度看，中國二級市場注意到ChatGPT的速度已經(jīng)比一級市場和整個AI圈子晚了2個月。

如果技術(shù)方面看，OpenAI在2015年成立，谷歌在2017年發(fā)布Transformer，2018年OpenAI推出了GPT的第一個版本，2022年底，現(xiàn)在的ChatGPT才第一次上線。即使一家公司已經(jīng)具備了OpenAI在2020年推出的大模型GPT-3的水平，現(xiàn)在開始也要3年的時間才能追上ChatGPT。

目前OpenAI的估值達(dá)290億美元，2019年微軟就對OpenAI投資了10億美元，并為之提供了大量基于Azure的云服務(wù)支持。

而在今天，對于沒有微軟這樣一棵大樹可以依靠的初創(chuàng)公司來說，最好的情況或許是，用2.3億美元給“中國的OpenAI”打開一個起步的局面，不過這個起步積累的階段，可能會非常長。

在ChatGPT之前，中國整體的AI創(chuàng)業(yè)并聚焦到大模型研究方面。多數(shù)公司都是在做實際場景落地的小模型，而大模型似乎更需要在沉寂中爆發(fā)，需要技術(shù)積累到一定程度的涌現(xiàn)。虎嗅接觸過的國內(nèi)的大模型初創(chuàng)公司的創(chuàng)始人都有一個共性的特點，他們普遍傾向于在技術(shù)實現(xiàn)了重大突破，或是找到典型應(yīng)用場景之后再去講技術(shù)，講產(chǎn)品。

“大模型研究需要耐得住寂寞，厚積薄發(fā)。”一位AI公司創(chuàng)始人告訴虎嗅。

關(guān)鍵詞： chatgpt openai

延伸閱讀:

火速變現(xiàn) 微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權(quán) 2023-03-30
一枚超2億元的腕表背后：“表王”百達(dá)翡麗的危機 2023-03-29
環(huán)球看點！3億個工作將被ChatGPT取代更要擔(dān)心的卻不是失業(yè) 2023-03-29
當(dāng)前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現(xiàn)在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業(yè)務(wù)場景融合價值潛力大 2023-03-29

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文