首頁(yè) > 科技要聞 > 科技> 正文

深夜重磅炸彈!OpenAI再壓谷歌一頭,最強(qiáng)模型GPT-4o免費(fèi)發(fā)布,語(yǔ)言對(duì)話媲美人類反應(yīng)

網(wǎng)易科技 整合編輯:龔震 發(fā)布于:2024-05-14 17:39

GPT-4o 語(yǔ)音延遲大幅降低,能在 232 毫秒內(nèi)回應(yīng)音頻輸入,平均為 320 毫秒,這與對(duì)話中人類的響應(yīng)時(shí)間相似。

5月14日,OpenAI春季發(fā)布會(huì),依舊是奧特曼熟悉的味道:

不僅搶在自己最大競(jìng)爭(zhēng)對(duì)手“Google I/O”大會(huì)前發(fā)布,并在會(huì)前數(shù)次吹風(fēng):“將會(huì)帶來(lái)很有意思的東西。”

現(xiàn)場(chǎng),OpenAI首席技術(shù)官M(fèi)iraMurati,在輕松的氛圍中宣布:Open AI推出桌面版ChatGPT,并推出名為GPT-4o的全新旗艦人工智能模型。

那么,GPT-4o有何特別之處?

而堪稱AI圈里最懂PR的奧特曼,這一次,有沒(méi)有繼續(xù)吹牛?

電影《Her》,從科幻走進(jìn)現(xiàn)實(shí)

“GPT-4o 可以綜合利用語(yǔ)音、文本和視覺(jué)信息進(jìn)行推理。”

現(xiàn)場(chǎng),OpenAI首席技術(shù)官M(fèi)iraMurati指出,過(guò)去的GPT-4可以處理由圖像和文本混合而成的信息,并能完成諸如從圖像中提取文字或描述圖像內(nèi)容等任務(wù)。

不過(guò),GPT-4o的強(qiáng)大之處,就是可以在GPT-4的基礎(chǔ)上,新增語(yǔ)音處理能力。

并且,GPT-4o還可接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。

這也意味著,GPT-4o相比GPT-4,不僅能看文本,還能看圖像,能言善道,反應(yīng)迅速。

并且更加像人。

而這,是這次GPT-4o的核心變化。大家紛紛驚呼,OpenAI再次改變世界!

1、實(shí)時(shí)回應(yīng),反應(yīng)迅速

現(xiàn)場(chǎng),演示者提問(wèn)結(jié)束后,GPT-4o 幾乎可以做到即時(shí)回應(yīng),沒(méi)有停頓。

答案生成后,GPT-4o 能夠立馬將文本轉(zhuǎn)語(yǔ)音,進(jìn)行朗讀。

準(zhǔn)確來(lái)說(shuō),這不像是和一個(gè)AI進(jìn)行模塊式問(wèn)答,而更像是和一個(gè)“真人”對(duì)話。

事實(shí)上,GPT-4o有著更快的反應(yīng)速度:它可以在232毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入,平均為320毫秒,這與人類在談話中的反應(yīng)時(shí)間,基本一致。

此外,GPT-4o在英語(yǔ)文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語(yǔ)文本上的性能顯著提高,同時(shí) API 的速度也更快,成本降低了50%,速度是GPT-4-turbo的兩倍。

與現(xiàn)有模型相比,GPT-4o 在視覺(jué)和音頻理解方面尤其出色。

2、全能立體,溝通無(wú)障礙

相比前輩們,GPT-4o變得更加強(qiáng)大了。

現(xiàn)場(chǎng),它不僅可以通過(guò)畫面實(shí)時(shí)解答數(shù)學(xué)方程,并能根據(jù)統(tǒng)計(jì)畫圖,進(jìn)行現(xiàn)場(chǎng)指導(dǎo)。

并且,GPT-4o還能跨越國(guó)界,掌握多國(guó)語(yǔ)言。

現(xiàn)場(chǎng),GPT-4o就根據(jù)實(shí)時(shí)提問(wèn),來(lái)了一段意大利語(yǔ)。

事實(shí)上,根據(jù)傳統(tǒng)基準(zhǔn)測(cè)試,GPT-4o 在文本、推理和編碼智能方面實(shí)現(xiàn)了 GPT-4 Turbo 級(jí)別的性能。

此外,GPT-4o同時(shí)在多語(yǔ)言、音頻和視覺(jué)功能上設(shè)置了新的高水位線。

3、更加自然,更加真實(shí),也更加“像人”

GPT-4o 還有著更加擬人的功能,F(xiàn)場(chǎng),GPT-4o還能調(diào)整說(shuō)話時(shí)的語(yǔ)氣,根據(jù)指令改變聲音。

能夠以自然的、聽(tīng)起來(lái)像人類的聲音說(shuō)話,甚至還可以唱出部分回應(yīng)。

不管是夸張、戲劇,乃至低沉陰冷,甚至機(jī)械嗓音。

GPT-4o都展現(xiàn)出了其聲音極強(qiáng)的張力和可塑性。

不僅如此,在與人對(duì)話中,它還能發(fā)出不止一種語(yǔ)氣詞。

以及最重要的,對(duì)話中,GPT-4o體現(xiàn)了很多“情緒化”的表達(dá)。

能夠查看圖表圖像并進(jìn)行討論,檢測(cè)用戶情緒。

現(xiàn)場(chǎng),它能通過(guò)音頻感知,去試著對(duì)觀看提問(wèn)者的面部表情,做出情緒分析。

這不由得令人聯(lián)想道電影《Her》中,那位具有磁性嗓音、復(fù)雜多變的AI,正從科幻走向現(xiàn)實(shí)。

更加簡(jiǎn)單、直觀的GPT-4o ,要不要錢?

那么,強(qiáng)大的GPT-4o是如何感知情緒的?它是否會(huì)收費(fèi)呢?

GPT-4o 之前,人們雖然可以使用語(yǔ)音模式與 ChatGPT 對(duì)話。然而,其平均延遲為2.8秒 (GPT-3.5) 和5.4秒 (GPT-4)。

一般而言,ChatGPT 采用的語(yǔ)音模式,是由三個(gè)獨(dú)立模型組成:例如,其中一個(gè)簡(jiǎn)單的模型,是將音頻轉(zhuǎn)錄為文本,GPT-3.5或 GPT-4接收文本并輸出文本,再由型將該文本轉(zhuǎn)換回音頻。

然而,這也意味著GPT-4丟失了大量信息:它無(wú)法直接觀察音調(diào)、多個(gè)說(shuō)話者或背景噪音,也無(wú)法輸出笑聲、歌唱或表達(dá)情感。

因此,此次的 GPT-4o,則達(dá)成了跨文本、視覺(jué)和音頻端到端地訓(xùn)練了一個(gè)新模型,這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。

這也使得,該模型使用起來(lái)將更加簡(jiǎn)單、直觀。

GPT-4o 的出現(xiàn),則標(biāo)志著一個(gè)夠使用文本、語(yǔ)音和視覺(jué)交互的數(shù)字助手,一個(gè)能夠查看用戶上傳的屏幕截圖、照片、文檔或圖表,并進(jìn)行對(duì)話的貼心管家,正在加速而來(lái)。

此外,OpenAI 首席技術(shù)官 Mira Murati 表示,ChatGPT 現(xiàn)在還將具有記憶功能,這意味著它可以從之前與用戶的對(duì)話中學(xué)習(xí)。

“這是我們第一次在易用性方面真正邁出一大步,”穆拉蒂在公司舊金山總部的現(xiàn)場(chǎng)演示中說(shuō)道。“這種互動(dòng)變得更加自然,也更加容易。”

值得注意的是,此前OpenAI 發(fā)布新版 ChatGPT 模型時(shí),通常會(huì)將其置于付費(fèi)墻之后。不過(guò),這次 GPT-4o 將免費(fèi)提供給所有用戶,付費(fèi)用戶則可以享受五倍的調(diào)用額度。

Mira Murati表示,該模型將在未來(lái)幾周內(nèi)分階段集成至 OpenAI 的各個(gè)產(chǎn)品之中GPT-4O將免費(fèi)提供。

此外,OpenAI還將推出桌面版ChatGPT,并推出名為GPT-4o的全新旗艦人工智能模型。

GPT-4o只是開(kāi)胃小菜

盡管此次GPT-4O亮點(diǎn)不少,然而,不管是展示時(shí)間置于谷歌大會(huì)前一天的微妙,還是推出桌面版ChatGPT免費(fèi)使用,無(wú)一例外都凸顯了OpenAI 隱隱的競(jìng)爭(zhēng)壓力和增長(zhǎng)焦慮。

事實(shí)上,本次OpenAI 春季發(fā)布會(huì)之前的數(shù)天,OpenAI創(chuàng)始人薩姆奧特曼就多次發(fā)聲,提前預(yù)熱,給觀眾留足了懸念:“我們一直在努力開(kāi)發(fā)一些我們認(rèn)為人們會(huì)喜歡的新東西,對(duì)我來(lái)說(shuō)感覺(jué)就像魔法一樣。”

不過(guò),最終呈現(xiàn)的產(chǎn)品,既不是GPT5、也不是搜索引擎,似乎擺了大眾一道。

從這點(diǎn)傷說(shuō),奧特曼堪稱AI圈最懂PR的人。

此前,Sora發(fā)布的時(shí)間點(diǎn),恰好趕在 Anthropic 的 Claude3以及其他大模型上線時(shí)間段。

彼時(shí)Sora登場(chǎng)“搶戲”,就用生成式視頻的形式,對(duì)其他文本大模型進(jìn)行降維打擊。

于是立即輿論調(diào)轉(zhuǎn),全世界都將聚光燈對(duì)準(zhǔn)Sora,OpenAI 又成了業(yè)界唯一的明星?芍档猛嫖兜氖,Sora直至現(xiàn)在,也沒(méi)有開(kāi)放給公眾使用。

而屢屢“搶戲”的奧特曼,實(shí)則有著肉眼可見(jiàn)的急迫與壓力。

一方面,OpenAI本次春季開(kāi)發(fā)大會(huì),呼聲最高的AI搜索產(chǎn)品,就被放了鴿子。

業(yè)內(nèi)人士曾指出,OpenAI要想在AI聊天機(jī)器人領(lǐng)域保持領(lǐng)先,AI搜索是繞不過(guò)去的,現(xiàn)在包括谷歌及AI搜索初創(chuàng)公司Perplexity等對(duì)手正在發(fā)力。

此前,Perplexity已憑借AI搜索和引用功能獲得了10億美元的估值。此外,OpenAI強(qiáng)大的對(duì)手谷歌,也在全面AI化它的搜索引擎業(yè)務(wù),并計(jì)劃在下周的開(kāi)發(fā)者大會(huì)上公布Gemini AI模型的最新計(jì)劃。

然而,根據(jù)報(bào)道,先前ChatGPT搜索的內(nèi)測(cè)資格,雖然總體評(píng)價(jià)不錯(cuò),但仍有瑕疵:OpenAI的AI搜索評(píng)價(jià)是,對(duì)于它不知道的信息會(huì)去聯(lián)網(wǎng),但對(duì)于非常實(shí)時(shí)的信息,依然不能很好地處理。

不僅如此,此次GPT-4O的免費(fèi)推出,則凸顯出OpenAI在增長(zhǎng)上的面臨的焦慮。

此前,OpenAI的用戶增長(zhǎng)在短時(shí)間內(nèi)經(jīng)歷了顯著的波動(dòng)。

例如,從2023年初到中期,OpenAI的月活躍用戶數(shù)量迅速增長(zhǎng),從1億增加到接近10億。

然而,進(jìn)入2024年后,OpenAI的GPT-4的性能下降和用戶體驗(yàn)問(wèn)題開(kāi)始受到關(guān)注。一個(gè)直觀的例子是,即用戶在使用GPT-4時(shí),發(fā)現(xiàn)其記憶能力和對(duì)指令的遵從性有所下降,這意味著GPT-4可能無(wú)法有效地記住之前的對(duì)話內(nèi)容或正確執(zhí)行復(fù)雜的指令。

此外,OpenAI與微軟的合作關(guān)系緊張也影響了開(kāi)發(fā)者社區(qū),導(dǎo)致一些中小企業(yè)開(kāi)發(fā)者選擇離開(kāi)OpenAI平臺(tái)。

盡管,競(jìng)爭(zhēng)與增長(zhǎng)并非是OpenAI一家難念的經(jīng)。不過(guò),作為AI的領(lǐng)頭羊,OpenAI這次的GPT-4O,或許只能是道開(kāi)胃小菜。

文章來(lái)源:網(wǎng)易科技

網(wǎng)易科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部