首頁 > 科技要聞 > 科技> 正文

谷歌一夜亮出十幾款產(chǎn)品對陣OpenAI:什么都有,只是沒有驚喜

騰訊科技 整合編輯:龔震 發(fā)布于:2024-05-15 09:56

經(jīng)過OpenAI的科幻級演示,所有人都在等著來自谷歌的反擊。

如果說2023年的I/O大會是谷歌在AI領(lǐng)域的背水一戰(zhàn),今年的I/O大會上皮查雖然靠著自家的Gemini等產(chǎn)品逐步追上OpenAI,但形勢卻難稱喜人。過去一年里,就算祭出免費兩個月的大殺器,Gemini的用戶量也不過是ChatGPT的1/5,每每有新品上市,必然被OpenAI截胡,讓谷歌活活成了AI界的汪峰。

所以皮查太需要一場驚艷的發(fā)布會,拿回屬于谷歌的牌面了。

所以與OpenAI的僅半個小時,集中在產(chǎn)品介紹的發(fā)布會完全不同。谷歌的I/O骨子里就透著一種武庫盡出,拼死一戰(zhàn)的意思。兩個小時的發(fā)布會,它一口氣拿出來十來款新品及升級,量大管飽,全面對標(biāo)OpenAI在AI各領(lǐng)域上的發(fā)展。

很多產(chǎn)品單看Demo還是有著不錯的完成度,但整場發(fā)布會沒有一點像GPT-4o帶來那樣的驚艷感。因為他們發(fā)布的大多數(shù)是追趕那些OpenAI已有的東西,沒人會為一些別人已經(jīng)做到的事情感到驚艷。

最有可能帶來驚艷感的新品——Gemini Astra的戲份已經(jīng)被昨天的GPT-4o演完了。

到頭來,想一秀肌肉的谷歌,還是被OpenAI四兩撥千斤的卸了力。

我們更多的從它的搜索產(chǎn)品,模型產(chǎn)品上看到了谷歌的疲態(tài),創(chuàng)新的缺失。

本想看巔峰對決,但實際上昨天這場對決就已經(jīng)結(jié)束了。

另外,雖然除了本來就是期貨發(fā)貨的Gemini之外基本谷歌的這次發(fā)布又都是期貨?赐暾麍霭l(fā)布會就像逛完一家期房交易中心一樣失落,心里甚至有點“別是爛尾樓吧”的疑慮。在谷歌產(chǎn)品序列里這并不少見——Lydia,ESG,這些都是宣布了半年以上還沒完全開放給用戶的產(chǎn)品。在日新月異的AI領(lǐng)域,這個開放速度基本和爛尾無疑。

谷歌心急想秀肌肉我們理解,但是我們心急想用,不想看期貨也希望谷歌能多理解。

因為產(chǎn)品太多,我們把他們做了個簡單表格整合,連帶發(fā)布和新升級的AI相關(guān)產(chǎn)品足足有14項:

下面我們就沿著發(fā)布會的四大主題來拆解一下本次I/O大會谷歌帶來的各項產(chǎn)品吧。

 

基礎(chǔ)模型:Gemini 1.5 Pro 期貨成真,Light 提速增效,Gemini 2 展露可能

在三個月前發(fā)布的Gemini 1.5 Pro終于不再是期貨了!從今天起它將正式開放給訂閱了Geminni Advance的用戶。如果你之前沒白嫖過,那這兩個月內(nèi)你都可以免費用。

除了期貨成真,在沒完全鋪開的這三個月時間里,谷歌也沒停止對它的升級,四個基礎(chǔ)模型最重要的維度都做了加強。

首先是模型性能,谷歌通過數(shù)據(jù)和算法改進增強了其代碼生成、邏輯推理和計劃、多回合對話以及音頻和圖像理解能力。最新版本的 1.5 Pro 在多個benchmark中取得了Sota的成績,谷歌揚眉吐氣。

上下文方面,谷歌還把新Gemini 1.5 Pro 的上下文窗口從業(yè)界最高的100萬token 擴展到合300本書的200萬token。三個月就提升一倍,谷歌的表現(xiàn)證明了上下文的問題在今年看起來已經(jīng)不再是什么門檻了。

在多模態(tài)支持上,Gemini Pro現(xiàn)在還把語音理解這個過去的短板部分進行了補齊,雖然不像GPT-4o一樣是原生語音多模態(tài),但總算是模態(tài)齊全,成了完全體。

非常影響使用體驗的指令跟隨能力方面,Gemini 1.5 Pro也進行了一輪更新。現(xiàn)在可以遵循越來越復(fù)雜和細(xì)微的指令,包括那些指定產(chǎn)品級行為(如角色、格式和風(fēng)格)的指令。你現(xiàn)在能讓Gemnini假裝自己是貓了。

雖然沒有公布Gemini 2,但四維拉滿,從數(shù)據(jù)上看全面超越GPT4的Gemini 1.5 Pro應(yīng)該還是能給谷歌撐起更大的場子。

后續(xù)宣布的Gemini 1.5 Flash就是本場的汪峰本峰了。它的主要特色——快速反應(yīng)和昨天的GPT-4o完美撞車,本該有的驚艷感被完全破壞了。

從功能上看,雖然它比 1.5 Pro 輕量化,但它也能夠跨大量信息進行多模態(tài)推理,并且擅長摘要、聊天、圖像和視頻字幕、長文檔和表格的數(shù)據(jù)提取等工作。但與GPT-4o青出于藍(lán)不同,Gemini 1.5 Flash還是犧牲了一些性能已達成其速度。

昨天GPT-4o基本上等于沒寫的技術(shù)報告沒法解釋的它的速度,谷歌比較老實,從技術(shù)文檔上看,這是因為 Flash 通過一種稱為“蒸餾”的過程,從較大的模型中傳遞最重要的知識和技能到較小、更高效的模型,實現(xiàn)了速度的提升。

這里展示的能力是需要Agent支持的,因此谷歌的下一個重磅產(chǎn)品是Project Astra。谷歌將其定義為自己的Agent戰(zhàn)略的核心。

它是一種Agent 框架:為了真正有用,Agent需要像人類一樣理解和響應(yīng)復(fù)雜多變的世界——并且記住它看到和聽到的內(nèi)容以理解上下文并采取行動。它還需要具有主動性、可教性和個性化,這樣用戶可以自然地與它交流而不會有滯后或延遲。低延遲的要求,讓你可以把Astra理解成Gemini Light 的Agent形式。在谷歌的展示中,它的最佳形態(tài)就是個人助手。

所以,為了讓它更有用,谷歌通過持續(xù)編碼視頻幀、將視頻和語音輸入結(jié)合到事件時間線上,并緩存這些信息以實現(xiàn)高效回憶來更快地處理信息,就是能與視頻交互,還有時間記憶。通過語音模型,谷歌還增強了Astra的聲音,使Agent具有更廣泛的語調(diào),讓這些Agent可以更好地理解它們所處的上下文,并在對話中快速響應(yīng)。

從演示上看,Astra的視覺理解能力確實讓人印象深刻。它可以理解薛定諤的貓之類的梗,反饋速度也非常快捷。

但它并沒有超越想象。整個演示的感覺就是又看了一遍GPT-4o的視頻溝通Demo。而且它遠(yuǎn)比GPT-4o期貨,要幾個月后才能上線。

谷歌表示,不是幾周,而是今年晚些時候,這些功能中也僅有“一些”將進入谷歌的產(chǎn)品,可能是XR眼鏡,也可能是個人助手。

所以Flash被GPT-4o的模型截胡,Astra 被GPT-4o的產(chǎn)品截胡。你說OpenAI沒有內(nèi)鬼知道谷歌 I/O的情報,我是絕對不信的。OpenAI只做了一件事,就是證明它能做,而且比你做的更好,出得比你更早。

不過再往下想,之前OpenAI都是在谷歌發(fā)布產(chǎn)品后再出個完全不同的升級來截胡谷歌熱度。這一次卻是趕在谷歌之前做了個功能完全一樣的產(chǎn)品,來破它帶來的驚喜感。這不由的讓人懷疑,OpenAI是不是真的沒有新品儲備了。

除了這兩個核心模型更新外,谷歌還宣布了前一陣大火的開源模型Gemma 的2.0版本,270億參數(shù)。并為它拓展了PaliGemma這個多模態(tài)版本。鑒于Llama3 官方還沒有微調(diào)多模態(tài),這很可能是目前最強的官方開源多模態(tài)大模型了。據(jù)谷歌表示,它的開發(fā)是收到了Pali-3的影響。

多模態(tài)生成模型:谷歌版Sora頗為驚艷,其余都略微常規(guī)

除了文生視頻模型的新公開,谷歌還推出了文生圖像模型Imagen 3。從細(xì)節(jié)擬真度來看與Midjourney v6能達到同一級別,比起Dalle-3更勝一籌。而且在對細(xì)節(jié)的跟隨上也要更細(xì)致。

音樂生成方面,去年驚艷眾人的期貨Lydia到這場發(fā)布會為止還是期貨。谷歌又給他加了個新拓展 Music AI Sandbox,一套音樂 AI 工具。這些工具旨在為創(chuàng)意打開新的游樂場,讓人們從頭開始創(chuàng)作新的器樂部分,以新的方式轉(zhuǎn)換聲音等等。

然后就是酷炫播片,看起來比Suno厲害。但我用不著,所以還是能用的厲害。

最后,谷歌介紹了自己的視頻生成模型——Veo 。它屬于谷歌之前的一系列視頻生成嘗試的集大成者:融合了WALT、VideoPoet、Lumiere這幾款在Sora之前發(fā)布的明星文生視頻模型的長處。

從能力上看它相當(dāng)能打,可以生成高質(zhì)量的 1080p 分辨率視頻,能夠超過一分鐘,涵蓋廣泛的電影和視覺風(fēng)格。

從示例視頻上看,Veo生成的畫面相當(dāng)一致且連貫:人物、動物和物體在鏡頭中移動的很真實。

谷歌還表示,Veo 具有對自然語言和視覺語義的高級理解能力,能夠生成與用戶創(chuàng)意愿景緊密匹配的視頻——準(zhǔn)確呈現(xiàn)詳細(xì)的長提示并捕捉情感。Veo甚至還能理解電影術(shù)語,如“延時”或“航拍鏡頭”。

從質(zhì)量上講,谷歌的Veo和Sora足有一戰(zhàn)之力。但是不得不說谷歌真的不太會演示。整個演示過程中,他們就放了一段汽車追逐的長生成視頻,還不是全屏,看不清細(xì)節(jié)。其他的都是小片段,小畫幅,細(xì)節(jié)模糊。震撼力大打折扣。

然而,和Sora一樣,Veo 只會將作為 VideoFX 內(nèi)的私人預(yù)覽版提供給少量創(chuàng)作者,一般用戶可以報名加入候補隊列。不過這也說明,靠著VEo,現(xiàn)在谷歌和OpenAI已經(jīng)進入了誰能首先壓縮成本,把這一技術(shù)推向toC領(lǐng)域的同一場競賽了。

AI搜索:多模態(tài)最強,但創(chuàng)新有限

AI搜索可以說是谷歌的必爭之地。面對著來勢洶洶,號稱要取代谷歌搜索的新秀Perplexity們,谷歌就算不用AI,也得留著后者。

從去年一年來看,新興的AI搜索雖然獲得了不少用戶,但基本上沒有動搖到谷歌搜索的根基。所以谷歌也是一副不緊不慢的樣子:它的AI搜索服務(wù)ESG從去年五月到現(xiàn)在,整整公布一年時間后總算從今天起向公眾開放使用了。這個更強的AI搜索引擎被谷歌命名為AI Overview,但僅限美國,其他國家還得排隊等著開。

從Demo展示來看,谷歌搜索在功能上的創(chuàng)新不算多,主要集中在多模態(tài)。

首先,用戶將能夠通過簡化語言或更詳細(xì)地分解來調(diào)整 AI 搜索結(jié)果概述。這個功能并不新,現(xiàn)在主流的AI搜索產(chǎn)品也會區(qū)分快捷回復(fù)和更深入的研究模式。

其次,借助 Gemini 的多步推理能力,AI 搜索可以一次性處理復(fù)雜的多步,乃至多問題。比如說,當(dāng)用戶尋找一個新的瑜伽或普拉提工作室,用戶希望找到受當(dāng)?shù)厝藲g迎,方便用戶的通勤,并且還提供新會員折扣的選項。通過谷歌AI搜索,用戶將能夠通過一次搜索詢問類似“查找波士頓最好的瑜伽或普拉提工作室,并顯示其入門優(yōu)惠和從 Beacon Hill 步行時間的詳細(xì)信息”的問題得到最佳答案。

這也是其他AI搜索產(chǎn)品現(xiàn)在在努力攻破的一個方向。谷歌在這方面憑借著模型優(yōu)勢很可能會處理的更好。

同樣構(gòu)建在多步推理能力之上的是AI搜索的計劃能力。通過AI搜索中的計劃功能,你可以直接在搜索里獲得一個完整的計劃。比如搜索類似“為一群人創(chuàng)建一個易于準(zhǔn)備的三天餐飲計劃”,您將獲得一個起點,包含來自網(wǎng)絡(luò)各處的各種食譜。這是其他搜索軟件暫時還沒有專精的能力。但是對于可聯(lián)網(wǎng)的ChatGPT來說,這應(yīng)該不是難事。當(dāng)然谷歌搜索組織的更漂亮,還可以直接連接,用戶體驗更優(yōu)。

GPT-4o生成的版本

谷歌生成的版本

最后是靈感延展功能,就是AI搜索在創(chuàng)建一個 AI 組織的結(jié)果頁面,使您更容易探索。在問了一個問題后,谷歌搜索將會延展到其他可能你感興趣的結(jié)果,按獨特的 AI 生成標(biāo)題分類,展示廣泛的視角和內(nèi)容類型。這種聯(lián)想搜索能力也已經(jīng)是AI搜索的某種標(biāo)配了,但谷歌對這個功能做了更好的結(jié)構(gòu)化。

以上的功能,其他的AI搜索都能做,但谷歌的結(jié)構(gòu)化和界面做的最好。也僅此而已。

最后其他AI搜索暫時做不到的是多模態(tài)搜索。

靠Gemini的多模態(tài)功能,谷歌可以做到利用聲音搜歌曲,利用圖片搜產(chǎn)品。甚至可以用Circle to Secarch 功能圈出圖片中的一部分去搜索。

AI還能結(jié)合視頻進行搜索。谷歌舉了個范例,比如用戶在舊貨店買了一臺唱片機,但打開時無法工作,帶有針頭的金屬部件在意外漂移。用視頻搜索能節(jié)省了用戶找到合適詞語來描述這個問題的時間和麻煩。

但Perplexity們,總有用上多模態(tài)模型的那一天。而且看到他們用看圖視花做例子介紹谷歌搜索的多模態(tài)功能時,我第一個想到的是微信掃一掃,不就能干嗎(雖然原理并不相同)?

模型產(chǎn)品升級:谷歌版GPTs上線,生態(tài)剛追及

模型產(chǎn)品可以說是最讓人失望的環(huán)節(jié)。新意全無,還多少讓人看出谷歌的保守態(tài)勢。

首先登場的是結(jié)合Gemini的Wrokspace。

你可以通過 Side Panel(一個能喚起Gemini的側(cè)邊欄)功能總結(jié)一系列郵件,可以總結(jié)你的賬單,形成一個Sheet。OK,去年看過了。自動回復(fù)郵件。去年看過了。

每個都進行了小的升級,比如回復(fù)郵件可以從確認(rèn),回絕,擱置三種可能中選了。但……現(xiàn)場都掌聲寥寥。

其他的更新,包括在聊天軟件里的虛擬員工Chip,能力基本沒超過前幾個月我們在國內(nèi)看到的各種辦公軟件Agent的演示。

整體看下來,就是去年I/O大會上谷歌展示的可能性下個月就能實現(xiàn)了。因為Side Panel這個產(chǎn)品下個月才公眾開放。

模型產(chǎn)品里最重要的更新就是Gmini Live。這是一個移動對話助理性產(chǎn)品,通過 Gemini Live,用戶可以與 Gemini 對話,并選擇它可以用來回應(yīng)的各種自然聲音。用戶甚至可以按照自己的節(jié)奏說話或在回答中途打斷以提出澄清問題,就像您在任何對話中一樣。而且今年晚些時候,用戶將能夠在上線時使用攝像頭,而開啟關(guān)于周圍所見內(nèi)容的對話。

好的,又一次GPT-4o的即視感。

剩下其余幾個產(chǎn)品升級都純屬是追趕性質(zhì)。

Gems登場的時候真的有點尷尬,全場鴉雀無聲,因為大家一聽介紹就明白了這就是谷歌的GPTs,還是慢了半年的版本。用戶可以創(chuàng)建一個定制化Geminni。通過描述希望 Gem 做什么以及希望它如何回應(yīng),例如“你是我的跑步教練,給我一個每日跑步計劃,并保持積極、樂觀和激勵的態(tài)度。”,Gemini 將根據(jù)這些指示進行增強,以創(chuàng)建一個符合您特定需求的 Gem。

所以只能通過Prompt制定,沒有外接工具,沒有工作流。

這屬于發(fā)布晚了半年,功能還不如GPTs的Agent產(chǎn)品。

去年上線的API擴展功能將再次擴大,例如正在推出的 YouTube Music 擴展、Google Calendar、Tasks 和 Keep。全是谷歌自家的服務(wù)。說實話,在這次擴展之前,谷歌的插件庫就這么五個插件,完全是少的可憐。就算加上這些新拓展,和其他Agent產(chǎn)品支持的API庫也完全無法同日而語。

(發(fā)布會之前,只有這幾個拓展可用)

就從這一點上看,谷歌固步自封在自己的生態(tài)里的沙文心態(tài)一眼可見。

Andriod + AI:風(fēng)光被GPT桌面版占盡

除了 Cricle in Search這個聚焦具體圖片局部的多模態(tài)搜索外,本次Android AI重點是介紹了Gemini的手機應(yīng)用,可以和手機上正在展示的內(nèi)容進行互動。比如閱讀打開的PDF,從你正在看的YouTube頻道反饋問題。

挺好的,GPT-4o的桌面版昨天都做到了,而且比起這里Android實際上是讀取打開的文件,GPT-4o的版本更像是和你一起在看著桌面上發(fā)生的一切。另外,它還有美妙的語音。

硬件:TPU穩(wěn)步升級

在這次發(fā)布會上,所有的AI模型都是由谷歌最新的TPU——Trillium TPU訓(xùn)練的。相較于前代,它的進步還是非常明顯的。Trillium實現(xiàn)了每芯片峰值計算性能的 4.7 倍提升,比 TPU v5e 提高了一倍。高帶寬內(nèi)存(HBM)的容量和帶寬和芯片間互連(ICI)的帶寬也比v5e翻了一番。

此外,Trillium 配備了第三代 SparseCore,這是一種專門用于處理超大嵌入的加速器,常見于先進的排序和推薦工作負(fù)載中。Trillium TPU 使訓(xùn)練下一波基礎(chǔ)模型更快,并以更低的延遲和更低的成本服務(wù)這些模型。Trillium 可以擴展到一個包含 256 個 TPU 的單個高帶寬低延遲 Pod。

另外,能耗上Trillium TPU 比 TPU v5e 的能源效率提高了 67% 以上,省電能力一流。

結(jié)語

這場發(fā)布會,看的人挺折磨的。

我們想看新的、有競爭力的產(chǎn)品,谷歌卻在不停的播片。從創(chuàng)作者感受,到體驗演示,就是沒有產(chǎn)品細(xì)部的表現(xiàn)。

我們想看現(xiàn)場演示,但演示內(nèi)容平淡無奇。

甚至在很多地方是重復(fù)的,很多產(chǎn)品在不同位置被多次提到并展示。

因此這兩個小時的時間顯得無比冗長,枯燥。

因為沒有驚喜,我甚至都很少被調(diào)動起好奇的情緒。

這當(dāng)然有OpenAI截胡的原因,但昨天25分鐘,三個產(chǎn)品(其中一個UI還基本沒說)的發(fā)布會,就足夠破壞谷歌這兩個小時里的十多個產(chǎn)品發(fā)布更新所帶來的所有驚喜。

這說明了什么問題?

毫無疑問,谷歌的技術(shù)力還在,那些模型都很能打。但那些讓人贊嘆的技術(shù)突破,讓人興奮的產(chǎn)品演示,都沒有了。

有的只是可預(yù)期的表現(xiàn),難超同行的功能。

在一個新技術(shù)的時代,一個無比需要去開創(chuàng)可能性的時代中,想象力可能才是最重要的。但今天這場發(fā)布會里的谷歌,沒有想象力了。

我有點為它惋惜。

文章來源:騰訊科技

騰訊科技

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部