太平洋科技要聞

OpenAI教谷歌做語音助手！新模型GPT-4o科幻級(jí)語音交互，零延遲滿情緒，AI進(jìn)入HER時(shí)代

騰訊科技整合編輯：太平洋科技發(fā)布于：2024-05-14 17:42

5月14日凌晨，OpenAI終于發(fā)布了Sam Altman提前造勢(shì)的“Magic（魔法）”，主要包括三個(gè)重點(diǎn)發(fā)布，ChatGPT新UI、桌面版GPT、以及最重要的，新的多模態(tài)模型GPT-4o。

當(dāng)模型變得越來越復(fù)雜，新的ChatGPT用戶界面變得更加簡潔，交互體驗(yàn)實(shí)際上變得更加自然和簡單。

ChatGPT新UI

桌面版GPT實(shí)時(shí)在線，能隨時(shí)幫你解決寫代碼、讀圖表等任務(wù)，且從演示視頻看上去，桌面版GPT可以直接通過視覺等方式“讀懂”你的任務(wù)，這大大提高了端側(cè)任務(wù)處理的想象力。

最重磅的是新的模型GPT-4o。根據(jù)OpenAI的官網(wǎng)解釋，"o"代表“全知”，是朝著更自然的人類與計(jì)算機(jī)交互邁出的一步。

總結(jié)下來，新模型GPT-4o有三大“魔法”：

①多模態(tài)：接受文本、音頻、圖像作為組合輸入，并生成任何文本、音頻和圖像的組合輸出。同時(shí)，在多模態(tài)理解能力中，最讓人感到驚奇的是，它能夠識(shí)別人類的感情，并根據(jù)感情做出“有感情的反應(yīng)”。

②幾乎無延遲：它對(duì)音頻輸入的響應(yīng)時(shí)間最短為232毫秒，平均為320毫秒，這與人類在對(duì)話中的響應(yīng)時(shí)間相似。

③可在電腦桌面運(yùn)行，隨時(shí)擁有一個(gè)AI隊(duì)友，能隨時(shí)幫你處理寫代碼、看圖表等任務(wù)。

看完這三大特點(diǎn)，真的是直接感嘆：“賈維斯”上線！“HER”闖進(jìn)生活。從今天起，OpenAI給了你一個(gè)沒延遲，有感情，可以隨時(shí)看著你，無處不在的AI助理。還免費(fèi)。本文的后半部分，將詳細(xì)介紹GPT-4o解鎖的新能力。

概覽：GPT-4o是一個(gè)端到端的新模型

GPT-4o在英文文本和代碼上與GPT-4 Turbo的性能相匹配，在非英文文本上有了顯著提升，同時(shí)在API上速度更快，成本降低了50%。與現(xiàn)有模型相比，GPT-4o在視覺和音頻理解方面尤其更好。

根據(jù)OpenAI發(fā)布在官網(wǎng)的最新博客文章顯示，在GPT-4o之前，我們使用語音模式與ChatGPT對(duì)話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。為了實(shí)現(xiàn)這一點(diǎn)，語音模式是由三個(gè)獨(dú)立的模型組成的流水線：一個(gè)簡單的模型將音頻轉(zhuǎn)錄為文本，GPT-3.5或GPT-4接收文本并輸出文本，第三個(gè)簡單的模型將該文本再轉(zhuǎn)換回音頻。這個(gè)過程意味著主要的智能來源，GPT-4，丟失了很多信息，它不能直接觀察語調(diào)、多個(gè)說話者或背景噪音，也不能輸出笑聲、歌唱或表達(dá)情感。

GPT-4o，是單獨(dú)訓(xùn)練的新模型，可以端到端地處理文本、視覺和音頻，這意味著所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

GPT-4o并不是第一個(gè)端到端多模態(tài)模型。早在去年十二月，谷歌就已經(jīng)發(fā)布了他們的Gemini模型。后續(xù)業(yè)界也一直判斷OpenAI也會(huì)遵從大一統(tǒng)模型的模式，最終開發(fā)出端到端的多模態(tài)模式。

四個(gè)月過去了，OpenAI的大一統(tǒng)模型總算閃亮登場(chǎng)。還比谷歌的多了語音這一模態(tài)。

更重要的是，雖然大一統(tǒng)模型是谷歌先發(fā)，但OpenAI今天展示了一個(gè)更“真”的多模態(tài)模型到底應(yīng)該達(dá)到什么水平。

新產(chǎn)品能力——魔法背后的魔法

1、魔法的基礎(chǔ)：一體化多模態(tài)的多模態(tài)模型。傳統(tǒng)文本、代碼等推理能力沒有質(zhì)的提升，但音頻視覺等能力達(dá)到新標(biāo)準(zhǔn)。

作為一個(gè)一體化的多模態(tài)模型，GPT-4o在傳統(tǒng)基準(zhǔn)測(cè)試中,文本推理和編程能力上達(dá)到GPT-4 Turbo水平,而在多語言、語音識(shí)別、語音翻譯、視覺理解等方面創(chuàng)下新紀(jì)錄。多模態(tài)能力的平均分高，是這個(gè)模型“魔法”能力的基礎(chǔ)。

文本推理能力提高有限

與Whisper-v3相比，GPT-4o在多種語言的識(shí)別表現(xiàn)優(yōu)異，尤其是小語種語言

GPT-4o在音頻翻譯表現(xiàn)上達(dá)到新的高水準(zhǔn)

在多項(xiàng)基準(zhǔn)測(cè)試上，分?jǐn)?shù)都有提高，在視覺理解的測(cè)試上，GPT-4o達(dá)到新的高水準(zhǔn)

2、易用性的魔法：OpenAI教蘋果、谷歌做語音助手

雖然在能力上，大一統(tǒng)的多模態(tài)模型和Gemini一樣并沒帶來想象中的性能巨幅提升。但OpenAI明顯比谷歌多走了一步：用一個(gè)統(tǒng)合的助手在所有場(chǎng)景下應(yīng)用所有這些多模態(tài)。

就從這次演示來看，這一交互層面的升級(jí)才證明了多模態(tài)確實(shí)是AI的Game Changer。

更強(qiáng)的是手機(jī)版的GPT-4o可以通過語音能力理解你的話語，狀態(tài)（累不累，喘氣粗不粗）。

還能通過視覺識(shí)別你所處的環(huán)境和你正在做的事情，并對(duì)它作出反應(yīng)。幫你解數(shù)學(xué)題，沒問題，解完還能陪你聊聊人生

這就是OpenAI想做到的全知：一個(gè)陌生人看到你時(shí)所能感受到的幾乎一切，它全部能接收到。因此它也有了真正能和你做與你私人相關(guān)的，符合場(chǎng)景的操作。

很多人會(huì)覺得這都是舊有的功能，因?yàn)椴徽撌荊emini還是過去的GPT-4V，我們都可以截圖給他們看當(dāng)下的環(huán)境，他們也能識(shí)別照片中的信息并給你回應(yīng)。語音，過去也有基于Whisper的識(shí)別系統(tǒng)，足以讓上個(gè)版本的GPT4能回應(yīng)你。

但這次GPT-4o帶來的是對(duì)易用性體驗(yàn)的顛覆。

它能對(duì)實(shí)時(shí)環(huán)境產(chǎn)生理解，隨時(shí)對(duì)已經(jīng)變化的環(huán)境做反應(yīng)，甚至還能借助記憶能力聯(lián)系起這些變化。這比起過去不停截圖給一個(gè)軟件才能順利對(duì)話的交互模式易用太多了。

除此之外，在演示中讓人印象最深刻的是GPT-4o的快如閃電。與前代動(dòng)輒2.6秒的反應(yīng)速度相比，GPT-4o能毫無延遲的反饋對(duì)話。反應(yīng)速度對(duì)用戶體驗(yàn)的影響之大，想必產(chǎn)品經(jīng)理們都熟記在心。

這就是得益于GPT-4o為多模態(tài)統(tǒng)一編碼，并且是目前最真·多模態(tài)。因此我們不再需要語音轉(zhuǎn)文本-問答-文本轉(zhuǎn)語音（語音~文本-問答-文本~語音）這個(gè)傳統(tǒng)的流程管線了。在GPT-4o中，可以直接做到語音-問答-語音，一步到位，大大縮短了反應(yīng)時(shí)間。

Jim Fan演示的過去的三步走模式

同時(shí)，易用性還意味著更符合人類交互的習(xí)慣：GPT-4o在對(duì)話時(shí)可以隨時(shí)被打斷，且能接續(xù)的語音對(duì)話模式。

Jim Fan的賽前預(yù)測(cè)，滿分

以上這三種能力的組合，讓這個(gè)產(chǎn)品真正達(dá)到了用戶用起來不覺得麻煩的水平。從今天起，AI終于成為了一個(gè)真正的常用陪伴型助手，而非只是我們需要求助時(shí)不情不愿調(diào)用的效率工具了。

這也許才是AI時(shí)代語音助手應(yīng)該有的樣子：隨時(shí)可得，易用自然，功能強(qiáng)大。

正如美國知名技術(shù)布道者在會(huì)后第一時(shí)間提出的看法一樣。

所以，Siri，谷歌語音助手，你們準(zhǔn)備好了嗎？

而Rabbit R1，AI Pin們，你們獨(dú)特的價(jià)值還能存續(xù)嗎？

除了語音助手本身，OpenAI 還通過新的GPT桌面版本展示了一下GPT-4o在桌面系統(tǒng)內(nèi)能帶來的改變。教了微軟怎么叫真正的Copilot。

GPT-4o可以利用視覺能力識(shí)別出屏幕中你在寫的代碼，看的PDF，并給出總結(jié)或者提示。這比起GPT-4V的截圖，上傳文件也更易用自然；更比打開微軟Copilot，用鍵盤在側(cè)邊欄提問交互易用自然太多。

3、沉浸性的魔法——有情感的機(jī)器

自然易用只是GPT-4o的基礎(chǔ)操作，OpenAI真正讓人感到深不可測(cè)技術(shù)力的其實(shí)是它讓模型變得有“人味”了。

先看看這段對(duì)話，GPT-4o的回應(yīng)簡直自然的像是你的好閨蜜，情緒飽滿到幾乎與真人毫無差別：她會(huì)驚訝，會(huì)笑，會(huì)隨著你的情緒激動(dòng)起來，語氣中充滿了細(xì)節(jié)。這和過往雖然也能模仿人類語調(diào)，但總歸是缺了點(diǎn)真人情緒反饋的GPT4相比，太像人了。

尤其是這些情緒變化都非常貼合上下文和對(duì)話的場(chǎng)景，就好像她知道什么時(shí)候該表現(xiàn)出什么情緒一樣。

另一個(gè)例子也可以證明它是真的懂“情緒”是什么。在Demo過程中，當(dāng)測(cè)試者要求它用“最戲劇性”的方式去講故事的時(shí)候，她表現(xiàn)的和一個(gè)話劇演員幾乎沒什么差別了。這需要她懂得“戲劇性”這一在很大程度上形容情緒強(qiáng)度的詞匯是什么意思。

除了自身會(huì)表達(dá)情緒，GPT-4o還有個(gè)“情緒探查器”，能夠讀懂你的情感。結(jié)合之前的演示，它也能從你的語氣中理解你的狀態(tài)。

這些性能不由讓人想起在3月27日，Hume AI剛剛的發(fā)布第一個(gè)能識(shí)別人類感情的AI——Evi，它能通過人類的聲音語調(diào)判斷出63種情感的綜合。這在當(dāng)時(shí)引發(fā)了業(yè)界的相當(dāng)震動(dòng)。

但它能做到的僅僅是識(shí)別感情，而非能夠應(yīng)對(duì)人類的感情來生成富有感情的語句。

但現(xiàn)在GPT-4o似乎做到了這個(gè)堪稱魔法的能力。

這意味著更加可信的對(duì)話對(duì)象，一個(gè)你會(huì)不光從能力角度上覺得它有智力，而是從交流感受上覺得它像人的AI誕生了。這將意味著前所未有的交互性沉浸感。

正如Sam Altamn所說，正是在這個(gè)背景下，屬于每個(gè)人的云端情人HER到來了。

可惜的是，OpenAI的技術(shù)文檔對(duì)此只字未提。我們也無法對(duì)它進(jìn)行更深入的解讀了。一個(gè)可能的猜測(cè)是，這是OpenAI在訓(xùn)練端到端語音模型中自發(fā)涌現(xiàn)出的一種新的模型能力。

可以想見的是，在GPT-4o的魔法影響下，AI交友、AI心理咨詢師等等所有需要強(qiáng)情緒交互的賽道都會(huì)很快就變成一片藍(lán)海。

4、魔法之旅剛剛開始，真·多模態(tài)的能力也許遠(yuǎn)不止于此

情感識(shí)別和適配，也許是GPT-4o作為統(tǒng)一多模態(tài)模型所涌現(xiàn)出來的一種非常強(qiáng)大的能力。但它潛在的可能性并不止于。如Greg Brockman在推特上的發(fā)聲，GPT-4o通過音頻、文本、圖像輸出的任意組合，可以無限解鎖新的功能。而OpneAI對(duì)這些新涌現(xiàn)也不過只是瞥見了一小部分。

這一小部分也已經(jīng)非常驚人了。除了在直播中重點(diǎn)強(qiáng)調(diào)的功能，在OpenAI的技術(shù)文檔中，我們看到在GPT4-o的能力列表中，還包含3D能力、圖像詩能力、轉(zhuǎn)換卡通照片等能力。

圖注：OpenAI官方Blog中的能力探索列表

比如：生成3D模型的魔法

像波德萊爾那幫現(xiàn)代主義詩人一樣，用詩歌或logo填滿規(guī)定的形象。

潛在的粘土人能力，只不過OpenAI選的是把現(xiàn)實(shí)頭像轉(zhuǎn)換卡通圖像

這一切都說明， GPT-4o給我們可能帶來的驚喜可能還遠(yuǎn)不止如此。

其它值得注意的小細(xì)節(jié)

1、GPT-4o采用全新的tokenizer,大幅提高了對(duì)各種語言的編碼效率,比如古吉拉特語的token數(shù)減少了4.4倍，這其中包括20種語言，如英語、法語、德語、葡萄牙語、西班牙語等，其中也包括中文。

2、模型安全性和局限性

根據(jù)OpenAI的安全評(píng)估,GPT-4o在網(wǎng)絡(luò)安全等風(fēng)險(xiǎn)維度上都控制在中等水平以下。但其語音模態(tài)帶來一些新的安全挑戰(zhàn),需要持續(xù)迭代改進(jìn)。目前向公眾開放的是文本和圖像輸入,以及文本輸出。語音輸出將限定為預(yù)設(shè)的聲音，這意味著，語音的克隆還是會(huì)有某些限制，OpenAI未來將分享更多細(xì)節(jié)。

3、Sam Altman上線”承認(rèn)“，GPT-4o就是前兩天放出來的I'm a good gpt2 chatbot

免費(fèi)，降價(jià)，OpenAI想盡辦法讓你在幾周后就用上它

不是期貨，馬上就能用。GPT-4o的文本和圖像能力今天開始在ChatGPT中推出。在免費(fèi)版中提供GPT-4o，并為Plus用戶提供高達(dá)5倍的消息限制。在未來幾周內(nèi)，將在ChatGPT Plus中推出帶有GPT-4o的語音模式新版本。

開發(fā)者現(xiàn)在也可以通過API以文本和視覺模型的形式訪問GPT-4o。與GPT-4 Turbo相比，GPT-4o的速度提高了2倍，價(jià)格降低了一半，速率限制提高了5倍。OpenAI計(jì)劃在未來幾周內(nèi)向API中的一小部分信任合作伙伴推出對(duì)GPT-4o的新音頻和視頻能力的支持。

與GPT4-turbo對(duì)比：

GPT-4o

輸入：$5.00 / 1M tokens

輸出：$15.00 / 1M tokens

GPT4-turbo:

輸入：$10.00 / 1M tokens

輸出：$30.00 / 1M tokens

本文來源：騰訊科技

OpenAI GPT-4o 多模態(tài)

騰訊科技

原創(chuàng)欄目