【全球快播報】剛剛 ChatGPT官宣數學能力再升級網友：終于精通十以內加減法了

來源：鳳凰網

時間：2023-01-31 13:14:06

編輯：蛋醬、杜偉

(資料圖片僅供參考)

隨著 ChatGPT 熱度一直不減，OpenAI 持續拓展其能力。同時，ChatGPT 的競品不斷涌現，如何更準確檢測其生成文本也成為了近來學界的一大研究課題。

自 ChatGPT 發布以來，它的能力不斷被人們解鎖，比如寫神經網絡、做智能音箱。人們在試用中慢慢發現，數學能力是 ChatGPT 的一大短板，連簡單的「雞兔同籠」題都能算錯。

大概是考慮到了這一點，ChatGPT 剛剛宣布了一次重要更新：提升了「真實性」和「數學能力」。

本次是 ChatGPT 自去年 11 月推出以來的第三次更新，但由于「更新說明」過于模糊，人們還需要經歷一個對新能力的探索過程。

幾日前，計算機科學家、Wolfram 語言之父 Stephen Wolfram 將理工科神器 Wolfram|Alpha 與 ChatGPT 結合起來，為后者注入超強計算知識實現互補，效果相當不錯。

那么，這次更新之后的 ChatGPT 數學能力可與其一戰嗎？

看起來…… 對比的結果不盡如人意：

「只能說神經網絡不是用來干這個的」，Sebastian Raschka 都覺得無奈了。

還有人發現，升級后的 ChatGPT「脾氣逐漸暴躁」：

「你數學是哪位老師教的？」面對一道十以內加減法的題目，它的語氣像極了輔導孩子作業的家長。

這也許是「偶然現象」？看來數學是真難。

不管怎么說，我們可以期待一波后續的有趣 Demo 了。

太卷了：ChatGPT 和它的競爭者們

「未來 6 到 12 個月將帶來實驗的爆炸式增長，一旦公司能夠使用 OpenAI 的 API 在 ChatGPT 之上構建。出現的殺手級用例可能是圍繞生成式 AI 對知識管理的影響。」

Nicola Morini Bianzino。

在最近的一次公開活動上，安永全球首席技術官 Nicola Morini Bianzino 表示，目前還沒出現在企業中使用 ChatGPT 的「殺手級」用例。但這種狀態可能很快就會改變，他預測未來 6 到 12 個月將帶來大量實驗，尤其是當公司能夠使用 OpenAI 的 API 在 ChatGPT 上構建之后。

Bianzino 將生成式 AI 對知識管理的影響描述為「AI 的辯證法」。「知識公司傾向于以一種非常扁平的二維方式存儲知識，這使得訪問、互動和對話變得困難。我們在 20、30、40 年前嘗試構建專家系統。這并不是很順利，因為它們太死板了。我認為這項技術有望克服專家系統存在的許多問題。」Nicola Morini Bianzino 表示。

與此同時，ChatGPT 的競爭者們也不斷涌現，這個賽道變得越來越「卷」。從 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、谷歌公司的 LaMDA 到 Character AI，每天似乎都有新競爭者步入賽場。

Anthropic 是一家舊金山的初創公司，由幾位離開 OpenAI 的研究人員于 2021 年創立。公司成立不到一年后就宣布了高達 5.8 億美元的融資，上周五還被報道即將增加 3 億美元融資。

這家公司開發了一個名為「Claude」的 AI 聊天機器人，目前通過 Slack 集成在封閉測試版中可用，據報道它與 ChatGPT 相似，甚至有一些改進。Anthropic 描述自身的使命為「致力于構建可靠、可解釋和可操縱的 AI 系統」。

DeepMind 同樣是這條賽道上不可忽視的力量。這家公司在 9 月份的一篇論文中介紹了「Sparrow」，被譽為「朝著創建更安全、偏差更小的機器學習系統邁出的重要一步」。Sparrow 是「一種有用的對話智能體，可以降低不安全和不適當答案的風險」，旨在「與用戶交談、回答問題并在有助于查找證據」。

不過，DeepMind 的安全研究員、 Sparrow 論文的主要作者 Geoffrey Irving 表示，DeepMind 認為 Sparrow 是一個基于研究的概念驗證模型，尚未準備好部署。

在兩周前的《時代周刊》文章中，該公司的首席執行官兼聯合創始人 Demis Hassabis 表示，DeepMind 正在考慮在 2023 年的某個時候發布其聊天機器人 Sparrow 的「私人測試版」。如此一來，公司就可以開發基于強化學習的功能，比如引用來源 —— 這是 ChatGPT 所沒有的能力。

再說到谷歌的 LaMDA，這一模型曾在去年夏天引發過熱議 —— 谷歌工程師 Blake Lemoine 因聲稱 LaMDA 具有感知能力而被解雇。

即使不像 Lemoine 認為的那樣，LaMDA 仍被認為是 ChatGPT 最大的競爭對手之一。谷歌在 2021 年發布的博客文章中表示，LaMDA 的對話技巧「已經醞釀多年」。與 ChatGPT 一樣，LaMDA 建立在 Transformer 架構之上，也接受過對話方面的訓練。

根據谷歌的說法，「在訓練期間，LaMDA 發現了一些將開放式對話與其他形式的語言區分開來的細微差別。」

《紐約時報》在 1 月 20 日的一篇報道中提到，谷歌創始人 Larry Page 和 Sergey Brin 上個月會見了公司高管，討論了 ChatGPT 可能對谷歌 1490 億美元的搜索業務構成的威脅。谷歌發言人在一份聲明中表示：「我們繼續在內部測試我們的 AI 技術，以確保它有用且安全，我們期待盡快與外部分享更多經驗。」

另外一位頗具實力的玩家則是Character AI，這家公司由 Transformer 論文作者之一 Noam Shazeer 創辦，逐漸為人熟知。

該公司推出的 AI 聊天機器人技術允許用戶與任何人聊天或進行角色扮演，比如模仿伊麗莎白女王和莎士比亞等歷史人物。目前該技術是免費使用的，Character 正在「研究用戶如何與之互動，然后再制定具體的創收計劃。」

傳百度將發布類似 ChatGPT 的聊天機器人

更能引起國內 AI 從業者關注的是，據路透社、彭博社等多家外媒報道稱，百度公司計劃在 3 月份推出類似于 OpenAI 的 ChatGPT 的人工智能聊天機器人服務。

消息人士稱，百度計劃在用戶提出搜索請求時整合聊天機器人生成的結果，而不僅僅是鏈接。「該工具尚未命名，將嵌入在主搜索服務中，用戶將返回對話風格的搜索結果。」

在去年 12 月在一次內部討論中，百度 CEO 李彥宏曾分享自己對 ChatGPT 的看法：「把這么酷的技術變成人人需要的產品」才是最難的，希望百度新的一年「至少能有一個高成長、有創新的業務，真正的 above and beyond our expectation」。

而據《科創板日報》1 月 30 日報道，百度內部確有推出類似 ChatGPT 聊天機器人的規劃，但具體時間并不精確。百度 CEO 李彥宏對于該項目的定位是「引領搜索體驗的代際變革」。他在內部指出，相關技術已達到臨界點，百度在其中有較大的機會。

檢測利器：讓大型語言模型生成的文本無處隱藏

ChatGPT 的能力縱然強大，但同時它在學校作業、論文發表等領域的濫用已經引發了人們廣泛的擔憂。因此，學界開始探索檢測 ChatGPT 等大型語言模型（LLM）生成文本的方法和工具。

馬里蘭大學幾位研究者對 ChatGPT 等語言模型輸出的水印進行了研究。在論文《A Watermark for Large Language Models》，他們提出了一種高效水印框架，水印的嵌入對文本質量的影響忽略不計，可以使用高效的開源算法進行檢測，而無需訪問語言模型的 API 或參數。

本文方法可以檢測到比較短的合成文本（少至 25 個 tokens），同時使得人類文本在統計學上不可能被標記為機器生成。

論文地址：https://arxiv.org/pdf/2301.10226v1.pdf

斯坦福大學幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中，證明了從 LLM 中采樣的文本傾向于占據模型對數概率函數的負曲率區域。利用這一觀察結果，他們定義了一個基于曲率的新標準，來判斷一段文章是否由給定的 LLM 生成。

研究者將他們的方法稱為 DetectGPT，它不需要訓練單獨的分類器、收集真實或生成段落的數據集以及顯式地為生成文本加水印。DetectGPT 僅使用感興趣模型計算的對數概率和另一通用預訓練語言模型（如 T5）生成段落的隨機擾動。

結果發現，DetectGPT 比當前模型樣本檢測的零樣本方法更具辨別力，尤其是將 20B 參數 GPT-NeoX 生成的假新聞報道檢測從最強零樣本基線的 0.81 AUROC 提升到了 0.95 AUROC。未來將公布代碼和數據。

DetectGPT 檢測 GPT-3 生成文本的示意圖。

論文地址：https://arxiv.org/abs/2301.11305

除了以論文形式展現的檢測方案，也有個人推出了強大的檢測工具。比如一位來自 Hive AI、致力于 ChatGPT 檢測器研究的 ML 工程師，其方案能夠識別 ChatGPT、GPT-3 和其他流行 AI 引擎生成的文本。

從內部基準測試結果來看，該方案效果明顯優于 GPTZero 和 OpenAI GPT2 Output Detector 等類似方法。在內部數據集上，模型平衡準確率 > 99%，而 GPTZero 的準確率約為 60%，OpenAI GPT2 Output Detector 的準確率為 84%。

Demo 地址：https://hivemoderation.com/ai-generated-content-detection

最后，GPTZero 也迎來了更新 ——GPTZeroX，一個專為教育者打造的全新 AI 檢測模型。該模型可以混合處理 AI 生成和人類文本，并突出顯示最有可能由 AI 生成的文本部分。此外構建了一個 pipeline 來處理 PDF、Word 和.txt 格式的文件批量上傳，從而輕松運行多個文件。

Demo 地址：https://gptzero.substack.com/p/gptzerox

總之，隨著 AI 生成文本檢測工具的日益豐富和日加完善，ChatGPT 等大型語言模型在應用時勢必會越來越正規，幫助人們更高效地釋放 AI 的能力。

關鍵詞： chatgpt lamda

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文

欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

科技

熱文