首頁 > 科技要聞 > 科技> 正文

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場(chǎng)!

頭號(hào)AI玩家 整合編輯:太平洋科技 發(fā)布于:2024-05-14 09:33

OpenAI真憋了個(gè)大的。

美國(guó)當(dāng)?shù)貢r(shí)間5月13日上午10點(diǎn)(北京時(shí)間5月14日凌晨1點(diǎn)),OpenAI春季發(fā)布會(huì)如約而至,沒有GPT-5,沒有搜索引擎,但推出了一個(gè)新的旗艦?zāi)P停篏PT-4o。

“o”是Omni的縮寫,意為“全能”,接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。

從直播演示來看,GPT-4o的多模態(tài)、實(shí)時(shí)交互能力,已經(jīng)足夠驚艷到讓人直呼科幻電影《her》真的變成了現(xiàn)實(shí)。

值得劃重點(diǎn)的是,GPT-4o和ChatGPT Plus會(huì)員版所有的能力,將免費(fèi)向所有用戶開放!

不過,GPT-4o的新語音模式在未來幾周內(nèi)會(huì)優(yōu)先對(duì)ChatGPT Plus會(huì)員開放。

此外,GPT-4o也向開發(fā)者開放了API。與GPT-4 Turbo相比,GPT-4o價(jià)格減半,但速度卻快了2倍,速率限制高出5倍。OpenAI稱,接下來會(huì)向部分API合作伙伴提供新的音頻和視頻功能支持。

GPT-4o到底有多強(qiáng)?昨晚“頭號(hào)AI玩家”全程圍觀直播,現(xiàn)在讓我們來一起回顧下其中細(xì)節(jié)。

GPT-4o驚艷面世,核心能力全盤點(diǎn)

01.零延遲實(shí)時(shí)語音交互,自然真實(shí)富有情感

首先是零延遲實(shí)時(shí)語音交互,在這個(gè)環(huán)節(jié),GPT表現(xiàn)得像是富有情感的真人。

在直播演示過程中,演示者M(jìn)ark對(duì)GPT-4o說:“我正在做demo,我有點(diǎn)緊張。”然后他開始故意喘息得非常急促,GPT-4o很快識(shí)別出了他的呼吸聲,告訴他:“哦,哦,哦,別緊張,慢下來,你不是個(gè)吸塵器。”并指導(dǎo)他調(diào)整呼吸。

整個(gè)過程中,GPT-4o的語氣都非常自然、真實(shí)、富有情感,你可以隨時(shí)打斷它,要求它調(diào)整語氣和音調(diào)。

另一位演示者讓GPT-4o講一個(gè)關(guān)于“機(jī)器人與愛”的睡前故事。剛講一句,Mark Chen就打斷了它,說它講故事的語氣不夠有情感。GPT-4o調(diào)整過后,Mark Chen又很快打斷它,要求它情緒再飽滿再drama一點(diǎn),然后GPT-4o的情緒又上了一個(gè)臺(tái)階,甚至可以說是浮夸的程度。

然后,演示者要求它切換成機(jī)器人聲音,GPT-4o的聲音和語氣立馬變得冷漠和機(jī)械。

這還沒完,演示者又讓GPT-4o用唱歌的方式把故事講完,GPT-4o當(dāng)場(chǎng)把故事改編成了一首歌,并直接唱了出來,節(jié)目效果拉滿。

相比之下,ChatGPT的語音模式平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4),這無疑會(huì)破壞對(duì)話的沉浸感。

此外,由于模型需要先將語音轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收處理并輸出文本,再將文本轉(zhuǎn)換為語音,所以GPT-3.5或GPT-4無法直接獲知語氣、音調(diào)、背景噪音等信息,也無法輸出笑聲、歌聲或表達(dá)情感。

02.通過攝像頭視覺傳達(dá)內(nèi)容,在線解方程式

除了語音交互外,還可以通過視覺+語音的形式,如實(shí)時(shí)視頻、上傳圖片等方式,與GPT-4o進(jìn)行多模態(tài)交互。

發(fā)布會(huì)上,OpenAI展示了GPT-4o通過多模態(tài)能力幫助用戶解決數(shù)學(xué)題的完整過程。

視覺解析圖形報(bào)表也手到擒來。OpenAI官方博客中,用戶一邊和GPT-4o語音,一邊在平板上畫圖,根據(jù)語音信息,解幾何數(shù)學(xué)題。

03.更智能的保姆級(jí)編程助手

用GPT-4o來實(shí)時(shí)編程,也比以前的純文本形式或上傳圖片進(jìn)行文字對(duì)話的方式,更有交互感。

官方演示中, OpenAI使用電腦桌面端GPT-4o來檢查代碼,它不僅可以解釋代碼的作用,還可以告訴用戶如果調(diào)整特定代碼會(huì)發(fā)生什么。

通過一步又一步的實(shí)時(shí)問答溝通,GPT-4o可以幫助用戶提高編程效率,整個(gè)過程相當(dāng)絲滑。

超強(qiáng)的實(shí)時(shí)語音+視覺交互能力,運(yùn)用在編程輔助上,以后還要啥程序員鼓勵(lì)師。

04.視頻通話,實(shí)時(shí)分析面部情緒

演示者還在X上實(shí)時(shí)收集了網(wǎng)友的反饋,其中有人提出挑戰(zhàn):打開攝像頭,看GPT-4o能不能實(shí)時(shí)分析面部情緒。

演示者先是打開了后置攝像頭,拍到的是面前的桌子,GPT-4o立刻分析道:“你看起來是個(gè)桌子。”

在切換為前置攝影頭后,演示者的臉出現(xiàn)在與GPT-4o進(jìn)行交互的界面,一整個(gè)打視頻電話的即視感。

GPT-4o立刻說:“你看起來非常開心,有大大的笑容,你想分享一下讓你這么開心的原因嗎?”語氣中甚至能聽出一絲好奇和試探。

演示者回答道:“因?yàn)槲以谧鰧?shí)時(shí)演示,讓大家看看你有多出色。”

GPT-4o帶著笑聲說:“拜托,別害我臉紅了。”

看到這,“頭號(hào)AI玩家”腦海里不禁回響起Samantha與Theodore之間的戀人絮語。

《Her》真的變成現(xiàn)實(shí)了。

05.同聲傳譯,支持多國(guó)語言

目前,ChatGPT支持超過50種語言。據(jù)介紹,GPT-4o的語言能力在質(zhì)量和速度上都得到了改進(jìn)。

官方演示中,一個(gè)人說英語,另一個(gè)人說西班牙語,通過語音指示GPT-4o實(shí)時(shí)翻譯,兩人實(shí)現(xiàn)了流暢的溝通。GPT-4o基本上只在開頭停頓了1~2秒,在句子中沒有出現(xiàn)停頓、卡殼等現(xiàn)象。

不過,有點(diǎn)bug的是,由于GPT-4o是中間的溝通媒介,導(dǎo)致兩位對(duì)話者并沒有直接看對(duì)方,而是都看向了手機(jī)。未來或許會(huì)有新型設(shè)備出現(xiàn),利用AI技術(shù)讓使用不同語言的人們能夠更自然地進(jìn)行交流。

變革人機(jī)交互,但還不是GPT-5

OpenAI首席技術(shù)官M(fèi)ira Murati在直播中介紹,GPT-4o是標(biāo)志性產(chǎn)品GPT-4模型的一個(gè)迭代版本:提供了GPT-4級(jí)別的智能,但速度更快,并改進(jìn)了其在文本、語音和視覺方面的能力。

OpenAI首席執(zhí)行官Sam Altman發(fā)帖稱該模型是“原生多模態(tài)”的,在文本、視覺和音頻上端到端地訓(xùn)練了一個(gè)新模型,GPT-4o所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

根據(jù)官方博客介紹,在基準(zhǔn)測(cè)試中,GPT-4o在文本、推理和編碼智能方面達(dá)到了GPT-4 Turbo級(jí)別的性能,同時(shí)在多語言、音頻和視覺能力上設(shè)定了新的標(biāo)準(zhǔn)。

 

圖源:OpenAI官網(wǎng)

OpenAI計(jì)劃在未來幾周內(nèi)逐步推出GPT-4o的各項(xiàng)能力。其中,文本和圖像能力將從發(fā)布會(huì)后當(dāng)天開始在ChatGPT中推出,Plus用戶可以搶先體驗(yàn),并擁有相比免費(fèi)用戶多高達(dá)5倍的消息限制。帶有GPT-4o新版本語音模式也將在未來幾周內(nèi)在ChatGPT Plus中推出。

針對(duì)免費(fèi)用戶,OpenAI也主打一個(gè)“雨露均沾”,在接下來的幾周內(nèi)會(huì)面向所有用戶,推出GPT-4o及其相關(guān)功能:

1.體驗(yàn)GPT-4級(jí)智能

2.從模型和網(wǎng)頁獲取響應(yīng)(聯(lián)網(wǎng)了)

3.分析數(shù)據(jù)并創(chuàng)建圖表

4.支持上傳照片進(jìn)行交互

5.上傳文件以幫助總結(jié)、撰寫或分析

6.發(fā)現(xiàn)和使用GPT和GPT商店

7.可自定義控制的ChatGPT“內(nèi)存”(擁有更強(qiáng)的“記憶力”)

目前已經(jīng)體驗(yàn)到GPT-4o的玩家告訴我們:體驗(yàn)太絲滑了!后續(xù)“頭號(hào)AI玩家”也將跟進(jìn)更詳細(xì)的玩法評(píng)測(cè)。

當(dāng)然,炸場(chǎng)的不只是OpenAI,在這個(gè)被稱為全球“AI月”的5月,肉眼可見地,我們還將迎來谷歌的I/O開發(fā)者大會(huì)、微軟Build年度開發(fā)者大會(huì)、英偉達(dá)一季報(bào)發(fā)布等AI領(lǐng)域重要事件。

此外,預(yù)計(jì)6月10日舉辦的蘋果WWDC大會(huì)或?qū)⑼瞥鋈翧I應(yīng)用商店,并可能升級(jí)Siri語音助手,引入新的生成式AI系統(tǒng)。

試猜想,如果蘋果真的順利與OpenAI達(dá)成合作,GPT-4o被引入到iPhone設(shè)備端,取代(或升級(jí))Siri,似乎也是順理成章的事。

總的來說,相比圖形用戶界面,GPT-4o近乎實(shí)時(shí)的語音和視頻交互體驗(yàn),標(biāo)志著人機(jī)交互迎來了新的變革,更自然、更直觀的交互體驗(yàn),已經(jīng)非常接近我們?cè)诳苹闷锟吹降娜斯ぶ悄,斯派?middot;瓊斯導(dǎo)演的科幻電影《Her》也因此被頻頻提及。

獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛甚至連夜錄制視頻夸OpenAI在“大家都在拼大模型的參數(shù)和性能時(shí),OpenAI殺了個(gè)回馬槍,認(rèn)真地做起了整合和應(yīng)用”。

看完今天OpenAI的發(fā)布,很難想象谷歌明天得拿出多大的殺手锏,才能擺脫“AI屆汪峰”的命運(yùn)。

本文來源:頭號(hào)AI玩家

 

頭號(hào)AI玩家

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部