首頁 > 科技要聞 > 科技> 正文

OpenAI教谷歌做語音助手!新模型GPT-4o科幻級(jí)語音交互,零延遲滿情緒,AI進(jìn)入HER時(shí)代

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2024-05-14 17:42

5月14日凌晨,OpenAI終于發(fā)布了Sam Altman提前造勢(shì)的“Magic(魔法)”,主要包括三個(gè)重點(diǎn)發(fā)布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模態(tài)模型GPT-4o。

當(dāng)模型變得越來越復(fù)雜,新的ChatGPT用戶界面變得更加簡潔,交互體驗(yàn)實(shí)際上變得更加自然和簡單。

ChatGPT新UI

桌面版GPT實(shí)時(shí)在線,能隨時(shí)幫你解決寫代碼、讀圖表等任務(wù),且從演示視頻看上去,桌面版GPT可以直接通過視覺等方式“讀懂”你的任務(wù),這大大提高了端側(cè)任務(wù)處理的想象力。

最重磅的是新的模型GPT-4o。根據(jù)OpenAI的官網(wǎng)解釋,"o"代表“全知”,是朝著更自然的人類與計(jì)算機(jī)交互邁出的一步。

總結(jié)下來,新模型GPT-4o有三大“魔法”:

①多模態(tài):接受文本、音頻、圖像作為組合輸入,并生成任何文本、音頻和圖像的組合輸出。同時(shí),在多模態(tài)理解能力中,最讓人感到驚奇的是,它能夠識(shí)別人類的感情,并根據(jù)感情做出“有感情的反應(yīng)”。

②幾乎無延遲:它對(duì)音頻輸入的響應(yīng)時(shí)間最短為232毫秒,平均為320毫秒,這與人類在對(duì)話中的響應(yīng)時(shí)間相似。

③可在電腦桌面運(yùn)行,隨時(shí)擁有一個(gè)AI隊(duì)友,能隨時(shí)幫你處理寫代碼、看圖表等任務(wù)。

看完這三大特點(diǎn),真的是直接感嘆:“賈維斯”上線!“HER”闖進(jìn)生活。從今天起,OpenAI給了你一個(gè)沒延遲,有感情,可以隨時(shí)看著你,無處不在的AI助理。還免費(fèi)。本文的后半部分,將詳細(xì)介紹GPT-4o解鎖的新能力。

概覽:GPT-4o是一個(gè)端到端的新模型

GPT-4o在英文文本和代碼上與GPT-4 Turbo的性能相匹配,在非英文文本上有了顯著提升,同時(shí)在API上速度更快,成本降低了50%。與現(xiàn)有模型相比,GPT-4o在視覺和音頻理解方面尤其更好。

根據(jù)OpenAI發(fā)布在官網(wǎng)的最新博客文章顯示,在GPT-4o之前,我們使用語音模式與ChatGPT對(duì)話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為了實(shí)現(xiàn)這一點(diǎn),語音模式是由三個(gè)獨(dú)立的模型組成的流水線:一個(gè)簡單的模型將音頻轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個(gè)簡單的模型將該文本再轉(zhuǎn)換回音頻。這個(gè)過程意味著主要的智能來源,GPT-4,丟失了很多信息,它不能直接觀察語調(diào)、多個(gè)說話者或背景噪音,也不能輸出笑聲、歌唱或表達(dá)情感。

GPT-4o,是單獨(dú)訓(xùn)練的新模型,可以端到端地處理文本、視覺和音頻,這意味著所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理

GPT-4o并不是第一個(gè)端到端多模態(tài)模型。早在去年十二月,谷歌就已經(jīng)發(fā)布了他們的Gemini模型。后續(xù)業(yè)界也一直判斷OpenAI也會(huì)遵從大一統(tǒng)模型的模式,最終開發(fā)出端到端的多模態(tài)模式。

四個(gè)月過去了,OpenAI的大一統(tǒng)模型總算閃亮登場(chǎng)。還比谷歌的多了語音這一模態(tài)。

更重要的是,雖然大一統(tǒng)模型是谷歌先發(fā),但OpenAI今天展示了一個(gè)更“真”的多模態(tài)模型到底應(yīng)該達(dá)到什么水平。

新產(chǎn)品能力——魔法背后的魔法

1、 魔法的基礎(chǔ):一體化多模態(tài)的多模態(tài)模型。傳統(tǒng)文本、代碼等推理能力沒有質(zhì)的提升,但音頻視覺等能力達(dá)到新標(biāo)準(zhǔn)。

作為一個(gè)一體化的多模態(tài)模型,GPT-4o在傳統(tǒng)基準(zhǔn)測(cè)試中,文本推理和編程能力上達(dá)到GPT-4 Turbo水平,而在多語言、語音識(shí)別、語音翻譯、視覺理解等方面創(chuàng)下新紀(jì)錄。多模態(tài)能力的平均分高,是這個(gè)模型“魔法”能力的基礎(chǔ)。

文本推理能力提高有限

與Whisper-v3相比,GPT-4o在多種語言的識(shí)別表現(xiàn)優(yōu)異,尤其是小語種語言

GPT-4o在音頻翻譯表現(xiàn)上達(dá)到新的高水準(zhǔn)

在多項(xiàng)基準(zhǔn)測(cè)試上,分?jǐn)?shù)都有提高,在視覺理解的測(cè)試上,GPT-4o達(dá)到新的高水準(zhǔn)

2、 易用性的魔法:OpenAI教蘋果、谷歌做語音助手

雖然在能力上,大一統(tǒng)的多模態(tài)模型和Gemini一樣并沒帶來想象中的性能巨幅提升。但OpenAI明顯比谷歌多走了一步:用一個(gè)統(tǒng)合的助手在所有場(chǎng)景下應(yīng)用所有這些多模態(tài)。

就從這次演示來看,這一交互層面的升級(jí)才證明了多模態(tài)確實(shí)是AI的Game Changer。

更強(qiáng)的是手機(jī)版的GPT-4o可以通過語音能力理解你的話語,狀態(tài)(累不累,喘氣粗不粗)。

還能通過視覺識(shí)別你所處的環(huán)境和你正在做的事情,并對(duì)它作出反應(yīng)。幫你解數(shù)學(xué)題,沒問題,解完還能陪你聊聊人生

這就是OpenAI想做到的全知:一個(gè)陌生人看到你時(shí)所能感受到的幾乎一切,它全部能接收到。因此它也有了真正能和你做與你私人相關(guān)的,符合場(chǎng)景的操作。

很多人會(huì)覺得這都是舊有的功能,因?yàn)椴徽撌荊emini還是過去的GPT-4V,我們都可以截圖給他們看當(dāng)下的環(huán)境,他們也能識(shí)別照片中的信息并給你回應(yīng)。語音,過去也有基于Whisper的識(shí)別系統(tǒng),足以讓上個(gè)版本的GPT4能回應(yīng)你。

但這次GPT-4o帶來的是對(duì)易用性體驗(yàn)的顛覆。

它能對(duì)實(shí)時(shí)環(huán)境產(chǎn)生理解,隨時(shí)對(duì)已經(jīng)變化的環(huán)境做反應(yīng),甚至還能借助記憶能力聯(lián)系起這些變化。這比起過去不停截圖給一個(gè)軟件才能順利對(duì)話的交互模式易用太多了。

除此之外,在演示中讓人印象最深刻的是GPT-4o的快如閃電。與前代動(dòng)輒2.6秒的反應(yīng)速度相比,GPT-4o能毫無延遲的反饋對(duì)話。反應(yīng)速度對(duì)用戶體驗(yàn)的影響之大,想必產(chǎn)品經(jīng)理們都熟記在心。

這就是得益于GPT-4o為多模態(tài)統(tǒng)一編碼,并且是目前最真·多模態(tài)。因此我們不再需要語音轉(zhuǎn)文本-問答-文本轉(zhuǎn)語音(語音~文本-問答-文本~語音)這個(gè)傳統(tǒng)的流程管線了。在GPT-4o中,可以直接做到語音-問答-語音,一步到位,大大縮短了反應(yīng)時(shí)間。

Jim Fan演示的過去的三步走模式

同時(shí),易用性還意味著更符合人類交互的習(xí)慣:GPT-4o在對(duì)話時(shí)可以隨時(shí)被打斷,且能接續(xù)的語音對(duì)話模式。

Jim Fan的賽前預(yù)測(cè),滿分

以上這三種能力的組合,讓這個(gè)產(chǎn)品真正達(dá)到了用戶用起來不覺得麻煩的水平。從今天起,AI終于成為了一個(gè)真正的常用陪伴型助手,而非只是我們需要求助時(shí)不情不愿調(diào)用的效率工具了。

這也許才是AI時(shí)代語音助手應(yīng)該有的樣子:隨時(shí)可得,易用自然,功能強(qiáng)大。

正如美國知名技術(shù)布道者在會(huì)后第一時(shí)間提出的看法一樣。

所以,Siri,谷歌語音助手,你們準(zhǔn)備好了嗎?

而Rabbit R1,AI Pin們,你們獨(dú)特的價(jià)值還能存續(xù)嗎?

除了語音助手本身,OpenAI 還通過新的GPT桌面版本展示了一下GPT-4o在桌面系統(tǒng)內(nèi)能帶來的改變。教了微軟怎么叫真正的Copilot。

GPT-4o可以利用視覺能力識(shí)別出屏幕中你在寫的代碼,看的PDF,并給出總結(jié)或者提示。這比起GPT-4V的截圖,上傳文件也更易用自然;更比打開微軟Copilot,用鍵盤在側(cè)邊欄提問交互易用自然太多。

3、 沉浸性的魔法——有情感的機(jī)器

自然易用只是GPT-4o的基礎(chǔ)操作,OpenAI真正讓人感到深不可測(cè)技術(shù)力的其實(shí)是它讓模型變得有“人味”了。

先看看這段對(duì)話,GPT-4o的回應(yīng)簡直自然的像是你的好閨蜜,情緒飽滿到幾乎與真人毫無差別:她會(huì)驚訝,會(huì)笑,會(huì)隨著你的情緒激動(dòng)起來,語氣中充滿了細(xì)節(jié)。這和過往雖然也能模仿人類語調(diào),但總歸是缺了點(diǎn)真人情緒反饋的GPT4相比,太像人了。

尤其是這些情緒變化都非常貼合上下文和對(duì)話的場(chǎng)景,就好像她知道什么時(shí)候該表現(xiàn)出什么情緒一樣。

另一個(gè)例子也可以證明它是真的懂“情緒”是什么。在Demo過程中,當(dāng)測(cè)試者要求它用“最戲劇性”的方式去講故事的時(shí)候,她表現(xiàn)的和一個(gè)話劇演員幾乎沒什么差別了。這需要她懂得“戲劇性”這一在很大程度上形容情緒強(qiáng)度的詞匯是什么意思。

除了自身會(huì)表達(dá)情緒,GPT-4o還有個(gè)“情緒探查器”,能夠讀懂你的情感。結(jié)合之前的演示,它也能從你的語氣中理解你的狀態(tài)。

這些性能不由讓人想起在3月27日,Hume AI剛剛的發(fā)布第一個(gè)能識(shí)別人類感情的AI——Evi,它能通過人類的聲音語調(diào)判斷出63種情感的綜合。這在當(dāng)時(shí)引發(fā)了業(yè)界的相當(dāng)震動(dòng)。

但它能做到的僅僅是識(shí)別感情,而非能夠應(yīng)對(duì)人類的感情來生成富有感情的語句。

但現(xiàn)在GPT-4o似乎做到了這個(gè)堪稱魔法的能力。

這意味著更加可信的對(duì)話對(duì)象,一個(gè)你會(huì)不光從能力角度上覺得它有智力,而是從交流感受上覺得它像人的AI誕生了。這將意味著前所未有的交互性沉浸感。

正如Sam Altamn所說,正是在這個(gè)背景下,屬于每個(gè)人的云端情人HER到來了。

可惜的是,OpenAI的技術(shù)文檔對(duì)此只字未提。我們也無法對(duì)它進(jìn)行更深入的解讀了。一個(gè)可能的猜測(cè)是,這是OpenAI在訓(xùn)練端到端語音模型中自發(fā)涌現(xiàn)出的一種新的模型能力。

可以想見的是,在GPT-4o的魔法影響下,AI交友、AI心理咨詢師等等所有需要強(qiáng)情緒交互的賽道都會(huì)很快就變成一片藍(lán)海。

4、魔法之旅剛剛開始,真·多模態(tài)的能力也許遠(yuǎn)不止于此

情感識(shí)別和適配,也許是GPT-4o作為統(tǒng)一多模態(tài)模型所涌現(xiàn)出來的一種非常強(qiáng)大的能力。但它潛在的可能性并不止于。如Greg Brockman在推特上的發(fā)聲,GPT-4o通過音頻、文本、圖像輸出的任意組合,可以無限解鎖新的功能。而OpneAI對(duì)這些新涌現(xiàn)也不過只是瞥見了一小部分。

這一小部分也已經(jīng)非常驚人了。除了在直播中重點(diǎn)強(qiáng)調(diào)的功能,在OpenAI的技術(shù)文檔中,我們看到在GPT4-o的能力列表中,還包含3D能力、圖像詩能力、轉(zhuǎn)換卡通照片等能力。

圖注:OpenAI官方Blog中的能力探索列表

比如:生成3D模型的魔法

像波德萊爾那幫現(xiàn)代主義詩人一樣,用詩歌或logo填滿規(guī)定的形象。

潛在的粘土人能力,只不過OpenAI選的是把現(xiàn)實(shí)頭像轉(zhuǎn)換卡通圖像

這一切都說明, GPT-4o給我們可能帶來的驚喜可能還遠(yuǎn)不止如此。

其它值得注意的小細(xì)節(jié)

1、GPT-4o采用全新的tokenizer,大幅提高了對(duì)各種語言的編碼效率,比如古吉拉特語的token數(shù)減少了4.4倍,這其中包括20種語言,如英語、法語、德語、葡萄牙語、西班牙語等,其中也包括中文。

2、 模型安全性和局限性

根據(jù)OpenAI的安全評(píng)估,GPT-4o在網(wǎng)絡(luò)安全等風(fēng)險(xiǎn)維度上都控制在中等水平以下。但其語音模態(tài)帶來一些新的安全挑戰(zhàn),需要持續(xù)迭代改進(jìn)。目前向公眾開放的是文本和圖像輸入,以及文本輸出。語音輸出將限定為預(yù)設(shè)的聲音,這意味著,語音的克隆還是會(huì)有某些限制,OpenAI未來將分享更多細(xì)節(jié)。

3、Sam Altman上線”承認(rèn)“,GPT-4o就是前兩天放出來的I'm a good gpt2 chatbot

免費(fèi),降價(jià),OpenAI想盡辦法讓你在幾周后就用上它

不是期貨,馬上就能用。GPT-4o的文本和圖像能力今天開始在ChatGPT中推出。在免費(fèi)版中提供GPT-4o,并為Plus用戶提供高達(dá)5倍的消息限制。在未來幾周內(nèi),將在ChatGPT Plus中推出帶有GPT-4o的語音模式新版本。

開發(fā)者現(xiàn)在也可以通過API以文本和視覺模型的形式訪問GPT-4o。與GPT-4 Turbo相比,GPT-4o的速度提高了2倍,價(jià)格降低了一半,速率限制提高了5倍。OpenAI計(jì)劃在未來幾周內(nèi)向API中的一小部分信任合作伙伴推出對(duì)GPT-4o的新音頻和視頻能力的支持。

與GPT4-turbo對(duì)比:

GPT-4o

輸入:$5.00 / 1M tokens

輸出:$15.00 / 1M tokens

GPT4-turbo:

輸入:$10.00 / 1M tokens

輸出:$30.00 / 1M tokens

本文來源:騰訊科技

騰訊科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部