太平洋科技要聞

谷歌一夜亮出十幾款產(chǎn)品對陣OpenAI：什么都有，只是沒有驚喜

騰訊科技整合編輯：龔震發(fā)布于：2024-05-15 09:56

經(jīng)過OpenAI的科幻級演示，所有人都在等著來自谷歌的反擊。

如果說2023年的I/O大會是谷歌在AI領(lǐng)域的背水一戰(zhàn)，今年的I/O大會上皮查雖然靠著自家的Gemini等產(chǎn)品逐步追上OpenAI，但形勢卻難稱喜人。過去一年里，就算祭出免費兩個月的大殺器，Gemini的用戶量也不過是ChatGPT的1/5，每每有新品上市，必然被OpenAI截胡，讓谷歌活活成了AI界的汪峰。

所以皮查太需要一場驚艷的發(fā)布會，拿回屬于谷歌的牌面了。

所以與OpenAI的僅半個小時，集中在產(chǎn)品介紹的發(fā)布會完全不同。谷歌的I/O骨子里就透著一種武庫盡出，拼死一戰(zhàn)的意思。兩個小時的發(fā)布會，它一口氣拿出來十來款新品及升級，量大管飽，全面對標(biāo)OpenAI在AI各領(lǐng)域上的發(fā)展。

很多產(chǎn)品單看Demo還是有著不錯的完成度，但整場發(fā)布會沒有一點像GPT-4o帶來那樣的驚艷感。因為他們發(fā)布的大多數(shù)是追趕那些OpenAI已有的東西，沒人會為一些別人已經(jīng)做到的事情感到驚艷。

最有可能帶來驚艷感的新品——Gemini Astra的戲份已經(jīng)被昨天的GPT-4o演完了。

到頭來，想一秀肌肉的谷歌，還是被OpenAI四兩撥千斤的卸了力。

我們更多的從它的搜索產(chǎn)品，模型產(chǎn)品上看到了谷歌的疲態(tài)，創(chuàng)新的缺失。

本想看巔峰對決，但實際上昨天這場對決就已經(jīng)結(jié)束了。

另外，雖然除了本來就是期貨發(fā)貨的Gemini之外基本谷歌的這次發(fā)布又都是期貨�？赐暾麍霭l(fā)布會就像逛完一家期房交易中心一樣失落，心里甚至有點“別是爛尾樓吧”的疑慮。在谷歌產(chǎn)品序列里這并不少見——Lydia，ESG，這些都是宣布了半年以上還沒完全開放給用戶的產(chǎn)品。在日新月異的AI領(lǐng)域，這個開放速度基本和爛尾無疑。

谷歌心急想秀肌肉我們理解，但是我們心急想用，不想看期貨也希望谷歌能多理解。

因為產(chǎn)品太多，我們把他們做了個簡單表格整合，連帶發(fā)布和新升級的AI相關(guān)產(chǎn)品足足有14項：

下面我們就沿著發(fā)布會的四大主題來拆解一下本次I/O大會谷歌帶來的各項產(chǎn)品吧。

基礎(chǔ)模型：Gemini 1.5 Pro 期貨成真，Light 提速增效，Gemini 2 展露可能

在三個月前發(fā)布的Gemini 1.5 Pro終于不再是期貨了！從今天起它將正式開放給訂閱了Geminni Advance的用戶。如果你之前沒白嫖過，那這兩個月內(nèi)你都可以免費用。

除了期貨成真，在沒完全鋪開的這三個月時間里，谷歌也沒停止對它的升級，四個基礎(chǔ)模型最重要的維度都做了加強。

首先是模型性能，谷歌通過數(shù)據(jù)和算法改進增強了其代碼生成、邏輯推理和計劃、多回合對話以及音頻和圖像理解能力。最新版本的 1.5 Pro 在多個benchmark中取得了Sota的成績，谷歌揚眉吐氣。

上下文方面，谷歌還把新Gemini 1.5 Pro 的上下文窗口從業(yè)界最高的100萬token 擴展到合300本書的200萬token。三個月就提升一倍，谷歌的表現(xiàn)證明了上下文的問題在今年看起來已經(jīng)不再是什么門檻了。

在多模態(tài)支持上，Gemini Pro現(xiàn)在還把語音理解這個過去的短板部分進行了補齊，雖然不像GPT-4o一樣是原生語音多模態(tài)，但總算是模態(tài)齊全，成了完全體。

非常影響使用體驗的指令跟隨能力方面，Gemini 1.5 Pro也進行了一輪更新。現(xiàn)在可以遵循越來越復(fù)雜和細(xì)微的指令，包括那些指定產(chǎn)品級行為（如角色、格式和風(fēng)格）的指令。你現(xiàn)在能讓Gemnini假裝自己是貓了。

雖然沒有公布Gemini 2，但四維拉滿，從數(shù)據(jù)上看全面超越GPT4的Gemini 1.5 Pro應(yīng)該還是能給谷歌撐起更大的場子。

后續(xù)宣布的Gemini 1.5 Flash就是本場的汪峰本峰了。它的主要特色——快速反應(yīng)和昨天的GPT-4o完美撞車，本該有的驚艷感被完全破壞了。

從功能上看，雖然它比 1.5 Pro 輕量化，但它也能夠跨大量信息進行多模態(tài)推理，并且擅長摘要、聊天、圖像和視頻字幕、長文檔和表格的數(shù)據(jù)提取等工作。但與GPT-4o青出于藍(lán)不同，Gemini 1.5 Flash還是犧牲了一些性能已達成其速度。

昨天GPT-4o基本上等于沒寫的技術(shù)報告沒法解釋的它的速度，谷歌比較老實，從技術(shù)文檔上看，這是因為 Flash 通過一種稱為“蒸餾”的過程，從較大的模型中傳遞最重要的知識和技能到較小、更高效的模型，實現(xiàn)了速度的提升。

這里展示的能力是需要Agent支持的，因此谷歌的下一個重磅產(chǎn)品是Project Astra。谷歌將其定義為自己的Agent戰(zhàn)略的核心。

它是一種Agent 框架：為了真正有用，Agent需要像人類一樣理解和響應(yīng)復(fù)雜多變的世界——并且記住它看到和聽到的內(nèi)容以理解上下文并采取行動。它還需要具有主動性、可教性和個性化，這樣用戶可以自然地與它交流而不會有滯后或延遲。低延遲的要求，讓你可以把Astra理解成Gemini Light 的Agent形式。在谷歌的展示中，它的最佳形態(tài)就是個人助手。

所以，為了讓它更有用，谷歌通過持續(xù)編碼視頻幀、將視頻和語音輸入結(jié)合到事件時間線上，并緩存這些信息以實現(xiàn)高效回憶來更快地處理信息，就是能與視頻交互，還有時間記憶。通過語音模型，谷歌還增強了Astra的聲音，使Agent具有更廣泛的語調(diào)，讓這些Agent可以更好地理解它們所處的上下文，并在對話中快速響應(yīng)。

從演示上看，Astra的視覺理解能力確實讓人印象深刻。它可以理解薛定諤的貓之類的梗，反饋速度也非常快捷。

但它并沒有超越想象。整個演示的感覺就是又看了一遍GPT-4o的視頻溝通Demo。而且它遠(yuǎn)比GPT-4o期貨，要幾個月后才能上線。

谷歌表示，不是幾周，而是今年晚些時候，這些功能中也僅有“一些”將進入谷歌的產(chǎn)品，可能是XR眼鏡，也可能是個人助手。

所以Flash被GPT-4o的模型截胡，Astra 被GPT-4o的產(chǎn)品截胡。你說OpenAI沒有內(nèi)鬼知道谷歌 I/O的情報，我是絕對不信的。OpenAI只做了一件事，就是證明它能做，而且比你做的更好，出得比你更早。

不過再往下想，之前OpenAI都是在谷歌發(fā)布產(chǎn)品后再出個完全不同的升級來截胡谷歌熱度。這一次卻是趕在谷歌之前做了個功能完全一樣的產(chǎn)品，來破它帶來的驚喜感。這不由的讓人懷疑，OpenAI是不是真的沒有新品儲備了。

除了這兩個核心模型更新外，谷歌還宣布了前一陣大火的開源模型Gemma 的2.0版本，270億參數(shù)。并為它拓展了PaliGemma這個多模態(tài)版本。鑒于Llama3 官方還沒有微調(diào)多模態(tài)，這很可能是目前最強的官方開源多模態(tài)大模型了。據(jù)谷歌表示，它的開發(fā)是收到了Pali-3的影響。

多模態(tài)生成模型：谷歌版Sora頗為驚艷，其余都略微常規(guī)

除了文生視頻模型的新公開，谷歌還推出了文生圖像模型Imagen 3。從細(xì)節(jié)擬真度來看與Midjourney v6能達到同一級別，比起Dalle-3更勝一籌。而且在對細(xì)節(jié)的跟隨上也要更細(xì)致。

音樂生成方面，去年驚艷眾人的期貨Lydia到這場發(fā)布會為止還是期貨。谷歌又給他加了個新拓展 Music AI Sandbox，一套音樂 AI 工具。這些工具旨在為創(chuàng)意打開新的游樂場，讓人們從頭開始創(chuàng)作新的器樂部分，以新的方式轉(zhuǎn)換聲音等等。

然后就是酷炫播片，看起來比Suno厲害。但我用不著，所以還是能用的厲害。

最后，谷歌介紹了自己的視頻生成模型——Veo 。它屬于谷歌之前的一系列視頻生成嘗試的集大成者：融合了WALT、VideoPoet、Lumiere這幾款在Sora之前發(fā)布的明星文生視頻模型的長處。

從能力上看它相當(dāng)能打，可以生成高質(zhì)量的 1080p 分辨率視頻，能夠超過一分鐘，涵蓋廣泛的電影和視覺風(fēng)格。

從示例視頻上看，Veo生成的畫面相當(dāng)一致且連貫：人物、動物和物體在鏡頭中移動的很真實。

谷歌還表示，Veo 具有對自然語言和視覺語義的高級理解能力，能夠生成與用戶創(chuàng)意愿景緊密匹配的視頻——準(zhǔn)確呈現(xiàn)詳細(xì)的長提示并捕捉情感。Veo甚至還能理解電影術(shù)語，如“延時”或“航拍鏡頭”。

從質(zhì)量上講，谷歌的Veo和Sora足有一戰(zhàn)之力。但是不得不說谷歌真的不太會演示。整個演示過程中，他們就放了一段汽車追逐的長生成視頻，還不是全屏，看不清細(xì)節(jié)。其他的都是小片段，小畫幅，細(xì)節(jié)模糊。震撼力大打折扣。

然而，和Sora一樣，Veo 只會將作為 VideoFX 內(nèi)的私人預(yù)覽版提供給少量創(chuàng)作者，一般用戶可以報名加入候補隊列。不過這也說明，靠著VEo，現(xiàn)在谷歌和OpenAI已經(jīng)進入了誰能首先壓縮成本，把這一技術(shù)推向toC領(lǐng)域的同一場競賽了。

AI搜索：多模態(tài)最強，但創(chuàng)新有限

AI搜索可以說是谷歌的必爭之地。面對著來勢洶洶，號稱要取代谷歌搜索的新秀Perplexity們，谷歌就算不用AI，也得留著后者。

從去年一年來看，新興的AI搜索雖然獲得了不少用戶，但基本上沒有動搖到谷歌搜索的根基。所以谷歌也是一副不緊不慢的樣子：它的AI搜索服務(wù)ESG從去年五月到現(xiàn)在，整整公布一年時間后總算從今天起向公眾開放使用了。這個更強的AI搜索引擎被谷歌命名為AI Overview，但僅限美國，其他國家還得排隊等著開。

從Demo展示來看，谷歌搜索在功能上的創(chuàng)新不算多，主要集中在多模態(tài)。

首先，用戶將能夠通過簡化語言或更詳細(xì)地分解來調(diào)整 AI 搜索結(jié)果概述。這個功能并不新，現(xiàn)在主流的AI搜索產(chǎn)品也會區(qū)分快捷回復(fù)和更深入的研究模式。

其次，借助 Gemini 的多步推理能力，AI 搜索可以一次性處理復(fù)雜的多步，乃至多問題。比如說，當(dāng)用戶尋找一個新的瑜伽或普拉提工作室，用戶希望找到受當(dāng)?shù)厝藲g迎，方便用戶的通勤，并且還提供新會員折扣的選項。通過谷歌AI搜索，用戶將能夠通過一次搜索詢問類似“查找波士頓最好的瑜伽或普拉提工作室，并顯示其入門優(yōu)惠和從 Beacon Hill 步行時間的詳細(xì)信息”的問題得到最佳答案。

這也是其他AI搜索產(chǎn)品現(xiàn)在在努力攻破的一個方向。谷歌在這方面憑借著模型優(yōu)勢很可能會處理的更好。

同樣構(gòu)建在多步推理能力之上的是AI搜索的計劃能力。通過AI搜索中的計劃功能，你可以直接在搜索里獲得一個完整的計劃。比如搜索類似“為一群人創(chuàng)建一個易于準(zhǔn)備的三天餐飲計劃”，您將獲得一個起點，包含來自網(wǎng)絡(luò)各處的各種食譜。這是其他搜索軟件暫時還沒有專精的能力。但是對于可聯(lián)網(wǎng)的ChatGPT來說，這應(yīng)該不是難事。當(dāng)然谷歌搜索組織的更漂亮，還可以直接連接，用戶體驗更優(yōu)。

GPT-4o生成的版本

谷歌生成的版本

最后是靈感延展功能，就是AI搜索在創(chuàng)建一個 AI 組織的結(jié)果頁面，使您更容易探索。在問了一個問題后，谷歌搜索將會延展到其他可能你感興趣的結(jié)果，按獨特的 AI 生成標(biāo)題分類，展示廣泛的視角和內(nèi)容類型。這種聯(lián)想搜索能力也已經(jīng)是AI搜索的某種標(biāo)配了，但谷歌對這個功能做了更好的結(jié)構(gòu)化。

以上的功能，其他的AI搜索都能做，但谷歌的結(jié)構(gòu)化和界面做的最好。也僅此而已。

最后其他AI搜索暫時做不到的是多模態(tài)搜索。

靠Gemini的多模態(tài)功能，谷歌可以做到利用聲音搜歌曲，利用圖片搜產(chǎn)品。甚至可以用Circle to Secarch 功能圈出圖片中的一部分去搜索。

AI還能結(jié)合視頻進行搜索。谷歌舉了個范例，比如用戶在舊貨店買了一臺唱片機，但打開時無法工作，帶有針頭的金屬部件在意外漂移。用視頻搜索能節(jié)省了用戶找到合適詞語來描述這個問題的時間和麻煩。

但Perplexity們，總有用上多模態(tài)模型的那一天。而且看到他們用看圖視花做例子介紹谷歌搜索的多模態(tài)功能時，我第一個想到的是微信掃一掃，不就能干嗎（雖然原理并不相同）？

模型產(chǎn)品升級：谷歌版GPTs上線，生態(tài)剛追及

模型產(chǎn)品可以說是最讓人失望的環(huán)節(jié)。新意全無，還多少讓人看出谷歌的保守態(tài)勢。

首先登場的是結(jié)合Gemini的Wrokspace。

你可以通過 Side Panel（一個能喚起Gemini的側(cè)邊欄）功能總結(jié)一系列郵件，可以總結(jié)你的賬單，形成一個Sheet。OK，去年看過了。自動回復(fù)郵件。去年看過了。

每個都進行了小的升級，比如回復(fù)郵件可以從確認(rèn)，回絕，擱置三種可能中選了。但……現(xiàn)場都掌聲寥寥。

其他的更新，包括在聊天軟件里的虛擬員工Chip，能力基本沒超過前幾個月我們在國內(nèi)看到的各種辦公軟件Agent的演示。

整體看下來，就是去年I/O大會上谷歌展示的可能性下個月就能實現(xiàn)了。因為Side Panel這個產(chǎn)品下個月才公眾開放。

模型產(chǎn)品里最重要的更新就是Gmini Live。這是一個移動對話助理性產(chǎn)品，通過 Gemini Live，用戶可以與 Gemini 對話，并選擇它可以用來回應(yīng)的各種自然聲音。用戶甚至可以按照自己的節(jié)奏說話或在回答中途打斷以提出澄清問題，就像您在任何對話中一樣。而且今年晚些時候，用戶將能夠在上線時使用攝像頭，而開啟關(guān)于周圍所見內(nèi)容的對話。

好的，又一次GPT-4o的即視感。

剩下其余幾個產(chǎn)品升級都純屬是追趕性質(zhì)。

Gems登場的時候真的有點尷尬，全場鴉雀無聲，因為大家一聽介紹就明白了這就是谷歌的GPTs，還是慢了半年的版本。用戶可以創(chuàng)建一個定制化Geminni。通過描述希望 Gem 做什么以及希望它如何回應(yīng)，例如“你是我的跑步教練，給我一個每日跑步計劃，并保持積極、樂觀和激勵的態(tài)度。”，Gemini 將根據(jù)這些指示進行增強，以創(chuàng)建一個符合您特定需求的 Gem。

所以只能通過Prompt制定，沒有外接工具，沒有工作流。

這屬于發(fā)布晚了半年，功能還不如GPTs的Agent產(chǎn)品。

去年上線的API擴展功能將再次擴大，例如正在推出的 YouTube Music 擴展、Google Calendar、Tasks 和 Keep。全是谷歌自家的服務(wù)。說實話，在這次擴展之前，谷歌的插件庫就這么五個插件，完全是少的可憐。就算加上這些新拓展，和其他Agent產(chǎn)品支持的API庫也完全無法同日而語。

（發(fā)布會之前，只有這幾個拓展可用）

就從這一點上看，谷歌固步自封在自己的生態(tài)里的沙文心態(tài)一眼可見。

Andriod + AI：風(fēng)光被GPT桌面版占盡

除了 Cricle in Search這個聚焦具體圖片局部的多模態(tài)搜索外，本次Android AI重點是介紹了Gemini的手機應(yīng)用，可以和手機上正在展示的內(nèi)容進行互動。比如閱讀打開的PDF，從你正在看的YouTube頻道反饋問題。

挺好的，GPT-4o的桌面版昨天都做到了，而且比起這里Android實際上是讀取打開的文件，GPT-4o的版本更像是和你一起在看著桌面上發(fā)生的一切。另外，它還有美妙的語音。

硬件：TPU穩(wěn)步升級

在這次發(fā)布會上，所有的AI模型都是由谷歌最新的TPU——Trillium TPU訓(xùn)練的。相較于前代，它的進步還是非常明顯的。Trillium實現(xiàn)了每芯片峰值計算性能的 4.7 倍提升，比 TPU v5e 提高了一倍。高帶寬內(nèi)存（HBM）的容量和帶寬和芯片間互連（ICI）的帶寬也比v5e翻了一番。

此外，Trillium 配備了第三代 SparseCore，這是一種專門用于處理超大嵌入的加速器，常見于先進的排序和推薦工作負(fù)載中。Trillium TPU 使訓(xùn)練下一波基礎(chǔ)模型更快，并以更低的延遲和更低的成本服務(wù)這些模型。Trillium 可以擴展到一個包含 256 個 TPU 的單個高帶寬低延遲 Pod。

另外，能耗上Trillium TPU 比 TPU v5e 的能源效率提高了 67% 以上，省電能力一流。

結(jié)語

這場發(fā)布會，看的人挺折磨的。

我們想看新的、有競爭力的產(chǎn)品，谷歌卻在不停的播片。從創(chuàng)作者感受，到體驗演示，就是沒有產(chǎn)品細(xì)部的表現(xiàn)。

我們想看現(xiàn)場演示，但演示內(nèi)容平淡無奇。

甚至在很多地方是重復(fù)的，很多產(chǎn)品在不同位置被多次提到并展示。

因此這兩個小時的時間顯得無比冗長，枯燥。

因為沒有驚喜，我甚至都很少被調(diào)動起好奇的情緒。

這當(dāng)然有OpenAI截胡的原因，但昨天25分鐘，三個產(chǎn)品（其中一個UI還基本沒說）的發(fā)布會，就足夠破壞谷歌這兩個小時里的十多個產(chǎn)品發(fā)布更新所帶來的所有驚喜。

這說明了什么問題？

毫無疑問，谷歌的技術(shù)力還在，那些模型都很能打。但那些讓人贊嘆的技術(shù)突破，讓人興奮的產(chǎn)品演示，都沒有了。

有的只是可預(yù)期的表現(xiàn)，難超同行的功能。