首頁 > 科技要聞 > 科技> 正文

遙遙領(lǐng)先的OpenAI慢下來了

虎嗅網(wǎng) 整合編輯:龔震 發(fā)布于:2024-05-14 09:32

“如果發(fā)布的是GPT-5,那OpenAI依然遙遙領(lǐng)先。如果是AI Search或者是語音助手,那就說明OpenAI沒落了。”

一位AI大模型從業(yè)者告訴虎嗅,業(yè)內(nèi)對OpenAI的期待太高,除非是GPT-5這樣的顛覆式創(chuàng)新,否則很難滿足觀眾的“胃口”。

雖然Sam Altman在OpenAI線上直播前,已經(jīng)預告不會發(fā)布GPT-5(或GPT-4.5),但外界對OpenAI的期待早已是九牛拉不轉(zhuǎn)了。

北京時間5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)。20多分鐘的演示直播,展示了遠超當前所有語音助手的AI交互體驗,與外媒此前透露的消息基本重合。

雖然GPT-4o的演示效果仍可稱得上“炸裂”,但業(yè)內(nèi)人士普遍認為很難配得上Altman預告中的“魔法”二字。很多人認為,這些功能性的產(chǎn)品,都是“偏離OpenAI使命”的。

OpenAI的PR團隊似乎也預料到了這種輿論走向。發(fā)布會現(xiàn)場以及會后Altman發(fā)布的博客中對此解釋道:

“我們使命的一個關(guān)鍵部分是將非常強大的人工智能工具免費(或以優(yōu)惠的價格)提供給人們。我非常自豪我們在 ChatGPT 中免費提供了世界上最好的模型,沒有廣告或類似的東西。 

當我們創(chuàng)辦 OpenAI 時,我們最初的想法是我們要創(chuàng)造人工智能并利用它為世界創(chuàng)造各種利益。相反,現(xiàn)在看起來我們將創(chuàng)造人工智能,然后其他人將使用它來創(chuàng)造各種令人驚奇的事物,讓我們所有人都受益。”

遙遙領(lǐng)先的GPT-4o

“如果我們必須等待 5 秒鐘才能得到‘每個’回復,用戶體驗就會一落千丈。即使合成音頻本身聽起來很真實,它也會破壞沉浸感,讓人感覺毫無生氣。”

在OpenAI發(fā)布會前夕,英偉達Embodied AI負責人Jim Fan在X上預測了OpenAI會發(fā)布的語音助手,并提出:

幾乎所有的語音AI都會經(jīng)歷三個階段:

1. 語音識別或“ASR”:音頻->文本1,例如Whisper;

2. 計劃下一步要說什么的 LLM:text1 -> text2;

3. 語音合成或“TTS”:text2 ->音頻,例如ElevenLabs或VALL-E。

經(jīng)歷 3 個階段會導致巨大的延遲。

GPT-4o在響應速度方面,幾乎解決了延遲問題。GPT-4o的響應音頻輸入的最短時長為232毫秒,平均響應時長320毫秒,幾乎與人類相似。沒有使用GPT-4o的ChatGPT語音對話功能平均延遲為2.8秒 (GPT-3.5) 和5.4秒(GPT-4)。

GPT-4o不僅通過縮短延遲極大地提升了體驗,還在GPT-4的基礎(chǔ)上做了很多升級包括:

*極佳的多模態(tài)交互能力,包括語音、視頻,以及屏幕共享。

*可以實時識別和理解人類的表情,文字,以及數(shù)學公式。

*交互語音感情豐富,可以變換語音語調(diào)、風格,還可以模仿,甚至“即興”唱歌。

*超低延時,且可以在對話中實時打斷AI,增加信息或開啟新話題。

*所有ChatGPT用戶均可免費使用(有使用上限)。

*速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。

“沒落”的OpenAI

“這些局限性的突破都是創(chuàng)新。”

有業(yè)內(nèi)專家認為,GPT-4o的多模態(tài)能力只是“看起來”很好,實際上OpenAI并未展示對于視覺多模態(tài)來說真正算是“突破”的功能。

這里我們按大模型行業(yè)的習慣,對比一下隔壁廠Anthropic的Claude 3。

Claude 3的技術(shù)文檔中提到,“雖然Claude的圖像理解能力是尖端的,但需要注意一些局限性”。

其中包括:

*人物識別:Claude不能用于在圖像中識別(即姓名)人物,并將拒絕這樣做。

*準確性:Claude在解釋200像素以下的低質(zhì)量、旋轉(zhuǎn)或非常小的圖像時,可能會產(chǎn)生幻覺或犯錯誤。

*空間推理:克勞德的空間推理能力有限。它可能很難完成需要精確定位或布局的任務,例如讀取模擬鐘面或描述棋子的確切位置。

*計數(shù):Claude可以給出圖像中物體的近似計數(shù),但可能并不總是精確準確的,特別是對于大量小物體。

*AI生成的圖像:Claude不知道圖像是否是人工智能生成的,如果被問到,可能不正確。不要依賴它來檢測假圖像或合成圖像。

*不適當?shù)膬?nèi)容:Claude不會處理違反我們可接受使用政策的不適當或露骨的圖像。

*醫(yī)療保健應用:雖然Claude可以分析一般醫(yī)學圖像,但它不是為解釋CT或MRI等復雜診斷掃描而設(shè)計的。Claude的輸出不應被視為專業(yè)醫(yī)療建議或診斷的替代品。

在GPT-4o網(wǎng)站發(fā)布的案例中,有一些與“空間推理”有相關(guān)的能力,但仍難算得上突破。

此外,從發(fā)布會現(xiàn)場演示中GPT-4o輸出的內(nèi)容很容易看出,其模型能力與GPT-4相差并不大。

GPT-4o跑分

雖然模型可以在對話中增加語氣,甚至即興演唱,但對話內(nèi)容還是與GPT-4一樣缺乏細節(jié)和創(chuàng)造力。

此外,發(fā)布會后OpenAI官網(wǎng)還發(fā)布了GPT-4o的一系列應用案例探索。包括:照片轉(zhuǎn)漫畫風格;會議記錄;圖片合成;基于圖片的3D內(nèi)容生成;手寫體、草稿生成;風格化的海報,以及連環(huán)畫生成;藝術(shù)字體生成等。

而這些能力中,照片轉(zhuǎn)漫畫風格、會議記錄等,也都是一些看起來很普通的文生圖或者是AI大模型功能。

能挑戰(zhàn)現(xiàn)有的商業(yè)模式嗎?

“我注冊5個免費的ChatGPT賬號,是不是就不需要每月花20美元訂閱ChatGPT Plus呢?”

OpenAI公布的GPT-4o使用政策是ChatGPT Plus用戶比限制普通用戶的流量限制高5倍。

GPT-4o對所有人免費,首先挑戰(zhàn)的似乎是OpenAI自己的商業(yè)模型。

第三方市場分析平臺Sensor Tower公布的數(shù)據(jù)顯示,過去一個月中,ChatGPT在全球App Store中的下載量為700萬,訂閱收入1200萬美元;全球Google Play市場的下載量為9000萬,訂閱收入300萬美元。

目前,ChatGPT Plus在兩個應用商店的訂閱價格均為19.99美元。由訂閱數(shù)據(jù)推斷,ChatGPT Plus過去一個月中,通過應用商店付費的訂閱用戶數(shù)為75萬。雖然ChatGPT Plus還有大量的直接付費用戶,但從手機端的收入來看,每年進項才不到2億美元,再翻幾倍也很難撐起OpenAI近千億的估值。

由此來看,OpenAI在個人用戶充值方面,其實并不需要考慮太多。

更何況GPT-4o主打體驗好,如果你跟AI聊著聊著就斷了,還要換賬號重新聊,那你會不會憤然充值呢?

“最初的 ChatGPT 暗示了語言界面的可能性;這個新事物給人的感覺有本質(zhì)上的不同。它快速、智能、有趣、自然且有幫助。”

Sam Altman的最新博客中提到了“語言界面的可能性”,這也正是GPT-4o接下來可能要做的:挑戰(zhàn)所有GUI(圖形交互界面),以及想要在LUI(語音交互界面)上發(fā)力的人。

結(jié)合近期外媒透出的OpenAI與蘋果合作的消息,可以猜測GPT-4o可能很快就要對所有AI PC、AI手機的廠商“拋橄欖枝”或是“掀桌子”。

不管是哪種語音助手或是AI大模型,對于AIPC、AI手機來說核心價值都是優(yōu)化體驗,而GPT-4o一下把體驗優(yōu)化到了極致。

GPT-4o很可能會卷到所有已知的App,甚至是SaaS行業(yè)。過去一年多時間里,市場上所有已經(jīng)開發(fā)和正在開發(fā)的AI Agent都會面臨威脅。

某位資源聚合類app產(chǎn)品經(jīng)理曾對虎嗅表示,“我的操作流程就是產(chǎn)品的核心,如果操作流程被你ChatGPT優(yōu)化了,那相當于我的App沒價值了。”

試想,如果訂外賣的App,UI變成了一句話“給我訂餐”,那打開美團還是打開餓了么,對于用戶來說就一樣了。

廠商的下一步只能是壓縮供應鏈、生態(tài)的利潤空間,甚至是惡性價格戰(zhàn)。

從目前的形式來看,其他廠商要在模型能力上打敗OpenAI恐怕還需要一段時間。

產(chǎn)品要對標OpenAI,可能只有通過做更“便宜”的模型了。

對于國內(nèi)產(chǎn)業(yè)的影響

“最近忙死了,沒顧上關(guān)注他們。”

一位工業(yè)AI大模型創(chuàng)始人告訴虎嗅,近期一直在忙著溝通戰(zhàn)略合作、產(chǎn)品發(fā)布、客戶交流資本交流,完全沒有時間關(guān)注OpenAI這種發(fā)布。

OpenAI發(fā)布前,虎嗅也詢問了多位來自各行各業(yè)的國內(nèi)AI從業(yè)者,他們對OpenAI最新發(fā)布的預測與看法都很一致:非常期待,但與我無關(guān)。

一位從業(yè)者表示,從國內(nèi)目前的進度來看,要在短期內(nèi)追上OpenAI不太現(xiàn)實。所以關(guān)心OpenAI發(fā)布了什么,最多也就是看看最新的技術(shù)方向。

目前國內(nèi)公司在AI大模型研發(fā)方面,普遍比較關(guān)注工程化和垂直模型,這些比較務實、容易變現(xiàn)的方向。

在工程方面,近期躥紅的Deepseek就正在國內(nèi)大模型行業(yè)中掀起Token的價格戰(zhàn)。在垂直模型方面,多位業(yè)內(nèi)人士告訴虎嗅,短期內(nèi)小模型和垂直模型的研發(fā),基本都不會受到OpenAI的裹挾。

“有時候OpenAI的技術(shù)方向也不是很值得借鑒。”一位模型專家對虎嗅表示,Sora就是個很好的例子,2024年2月OpenAI發(fā)布了視頻模型Sora,實現(xiàn)了60秒的視頻穩(wěn)定輸出。雖然看起來效果很好,但后續(xù)的實踐幾乎沒有,落地速度也非常慢。

在Sora之前,國內(nèi)很多在文生視頻領(lǐng)域發(fā)力的公司和機構(gòu)已經(jīng)實現(xiàn)了15秒穩(wěn)定視頻生成,而Sora出來以后,一些公司的研發(fā)、融資、產(chǎn)品節(jié)奏都被打亂了,甚至使整個文生視頻行業(yè)的發(fā)展演變成了一場“技術(shù)的大躍進”。

所幸,這次GPT-4o與Sora大有不同。OpenAI CTO Muri Murati 表示,在接下來的幾周內(nèi),我們將繼續(xù)我們的迭代部署,為您提供所有功能。

發(fā)布會結(jié)束不久,GPT-4o就已經(jīng)可以上線試用了。

文章來源:虎嗅APP

虎嗅網(wǎng)

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部