首頁 > 科技要聞 > 科技> 正文

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

量子位 整合編輯:龔震 發(fā)布于:2024-05-15 16:23

OpenAI出手再次驚艷世界,谷歌果然坐不住了。

GPT-4o掀起的一片“AGI已至”的驚呼聲中,剛剛,Google DeepMind首席執(zhí)行官哈薩比斯親自攜谷歌版《Her》登場:

同樣能聽會看還能說,不僅能幾乎沒有延遲地和人類流暢交流,通過攝像頭,這個名為Project Astra的AI助手甚至能直接幫忙讀代碼:

谷歌還祭出了自己的硬件優(yōu)勢,帶來一波AR和大模型的夢幻聯(lián)動。

一邊擼狗一邊玩轉(zhuǎn)大模型已經(jīng)成為現(xiàn)實(手動狗頭)。

這一波操作下來,戰(zhàn)果如何尚未可知,網(wǎng)友們反正是興奮了起來:

而正面硬剛GPT-4o,還只是谷歌鉚足了勁,在I/O大會上釋出的冰山一角。

兩個小時的主題演講里,AI被提及了121次,CEO劈柴哥還猶嫌不足。

于是,對標(biāo)Sora能生成一分鐘長視頻的視頻生成模型Veo來了

Gemini 1.5 Pro不僅面向所有人開放,上下文窗口還從100萬token直接一步邁向200萬,一口氣能讀1500頁PDF。

連Android,現(xiàn)在也緊緊跟谷歌大模型Gemini綁定,搖身一變成為以AI為內(nèi)核的操作系統(tǒng)。

總之,信息量多到爆炸,相比之下,OpenAI不到半個小時的發(fā)布真的很隨性了。

谷歌版《Her》登場

第一時間引發(fā)最多討論的,當(dāng)然是谷歌版《Her》——Project Astra

Project Astra基于Gemini系列模型打造,谷歌表示,研究人員們希望這樣的智能助手,能真正在人們的日常生活中提供幫助。

有意思的是,OpenAI總裁哥Brockman昨天在場外補(bǔ)充了有關(guān)GPT-4o多模態(tài)能力的更詳細(xì)視頻,而谷歌這邊,哈薩比斯也是第一時間在X上更新了與這樣一個智能助手的互動。

幫忙搞點文藝創(chuàng)作,解答一下專業(yè)書上看不懂的內(nèi)容,也都是信手拈來。

不少網(wǎng)友都認(rèn)為,這是谷歌對OpenAI的GPT-4o的正面回應(yīng)。

不過嘛,網(wǎng)友們也關(guān)注到了不少問題,比如,Project Astra的延遲似乎還是比GPT-4o長,谷歌的演示中也沒有體現(xiàn)是否能打斷智能助手說話。

值得關(guān)注的是,Project Astra背后,是Gemini系列模型的進(jìn)一步升級迭代。

比如,Gemini 1.5 Pro的上下文窗口來到了驚人的200萬token。

谷歌還最新推出了Gemini 1.5 Flash這一輕量級模型,并開源了27B的Gemma 2和視覺語言模型PailGemma。

60秒長視頻生成

你可能已經(jīng)默默在心里比較了一番Project Astra和GPT-4o的高下。

但橋豆麻袋,說起來,谷歌被OpenAI突然狙擊,可不止這一回。

還記得在春節(jié)期間搶盡谷歌風(fēng)頭的Sora嗎?

谷歌的回應(yīng),雖遲但到——

谷歌最強(qiáng)視頻生成模型Veo來了。

Veo可以生成1080p的高質(zhì)量視頻,生成視頻的長度也看齊Sora:最長超過1分鐘。

谷歌還強(qiáng)調(diào),Veo生成的畫面一致性出色,并且可以hold住各種風(fēng)格。比如“延時拍攝”和“航拍”這種術(shù)語,直接寫在提示詞里,Veo都能get。

目前,谷歌已經(jīng)和電影制作者展開了合作,在電影項目中探索Veo的應(yīng)用。

與此同時,谷歌的圖片生成模型Imagen也迎來更新,Imagen 3發(fā)布。

官方提到,與此前的模型相比,Imagen 3的視覺偽影更少,生成的圖像細(xì)節(jié)拉滿,并且在生成文字方面效果也很好。

提示詞:一張莊嚴(yán)的圖書館入口的照片,刻有“中央圖書館”字樣

另外,谷歌此次還推出了音樂生成模型Lyria。

Gemini進(jìn)入全線產(chǎn)品

在這些跟OpenAI叫板的“肌肉”展示之外,谷歌對大模型應(yīng)用的看重,也在此次I/O大會中盡顯。

英偉達(dá)科學(xué)家Jim Fan就他的I/O觀后感中表示:

谷歌做對的一件事是:他們終于開始努力把AI集成到搜索框中。

還不止是搜索,這一次,谷歌可以說是把Gemini塞進(jìn)了全線產(chǎn)品中,包括谷歌搜索、Android,以及谷歌郵箱、谷歌Photos等。下面我們劃劃重點。

1、谷歌搜索

基于Gemini,谷歌搜索推出AI概述(AI Overview)新功能,徹底化身AI搜索。

用戶在搜索框輸入問題,馬上就能得到一個AI總結(jié)的答案,包括相關(guān)鏈接。

而且是超長問題都能處理的那種,比如:

查找波士頓最好的瑜伽或普拉提工作室,并提供他們的入門優(yōu)惠詳情以及從燈塔山步行所需時間。

AI Overview秒秒鐘就會列出五星好評且距離燈塔山近的店,并附帶課程標(biāo)價,連店在地圖上的位置都標(biāo)記了出來:

對于這種復(fù)雜問題的搜索,谷歌表示采用了多步推理技術(shù),可以將復(fù)雜問題拆解成一個個小問題,然后自動對問題進(jìn)行排序回答。

多步推理加持下,AI Overview已經(jīng)脫離了純粹的搜索——把制定計劃一并搬進(jìn)了搜索引擎里。

比如直接讓它為一個團(tuán)體制定一個為期三天的易于執(zhí)行的餐飲計劃。

AI Overview一鍵給出了方案,每個方案都可以點擊修改,下方還可以一鍵將食材加入購物車:

還沒完,當(dāng)你沒有想法、問的問題比較籠統(tǒng)時,谷歌搜索還會AI自動將搜索結(jié)果整理成一個個“群組”,為你提供建議。

比如問:在達(dá)拉斯找一個餐廳慶祝周年紀(jì)念日。

搜索出的結(jié)果會按照音樂餐廳、具有歷史魅力的餐廳等一鍵分組。再往下翻,頁面會從餐飲逐漸擴(kuò)展到電影、酒店、購物等。

此外,谷歌搜索還支持視頻搜索了。

演示中,唱片機(jī)出故障,只需一邊錄制視頻一邊說出疑問,谷歌AI Overview就會立刻分析故障原因,并給出處理建議。

谷歌搜索AI Overview功能將在本周開始在美國推出,后面將陸續(xù)推至其他國家。

2、Android 15

谷歌把Gemini也帶到了安卓系統(tǒng)中。

憑借直接內(nèi)置的Circle to Search功能,用戶使用簡單的手勢“圈”一下手機(jī)上看到的任何內(nèi)容,就能進(jìn)行搜索。

比如圈出練習(xí)題,就能一鍵獲取答案。

目前這一功能,已在Pixel和三星的部分設(shè)備上使用。

此外,還可以在一個應(yīng)用之上隨時調(diào)出Gemini助手層,隨時使用。你還可以將Gemini生成的圖片直接拖到Gmail等應(yīng)用中,直接詢問某個視頻中的具體信息,不用滑動翻文檔詢問某個PDF中的信息……

甚至連電話反詐,都用上Gemini了:聽到關(guān)鍵字“把錢轉(zhuǎn)到安全賬號”,馬上就能給出警報。

總之,官方強(qiáng)調(diào),現(xiàn)在,Gemini在手機(jī)上現(xiàn)在不止是一個App,更是安卓體驗的基礎(chǔ)。

3、谷歌Photos

谷歌Photos基于Gemini也推出了新功能——Ask Photos,可以一鍵從圖庫中幫你找到想要的照片和視頻。

比如你想知道自己的baby是什么時候?qū)W會游泳的,Ask Photos會從你在谷歌Photos中存儲的成百上千張照片中查找出含游泳、游泳證書等相關(guān)圖片,最后總結(jié)給出回復(fù):

Ask Photos這一功能將在今年夏天推出。

4、谷歌Workspace

Gemini也接入到了谷歌Workspace提供的一套生產(chǎn)力和協(xié)作工具中,包括谷歌郵箱、谷歌Docs、谷歌Calendar等。

這使得在這些工具間進(jìn)行跨應(yīng)用工作變得更加容易。

例如在谷歌郵箱中自動分析郵件以及附件,識別整理好收據(jù),然后一鍵在Drive和Sheets中處理。

5、NotebookLM

谷歌AI筆記應(yīng)用NotebookLM也大升級。

如下圖所示,當(dāng)你提出一個問題后,背后的Gemini模型就會結(jié)合NotebookLM中的筆記內(nèi)容,進(jìn)行多模態(tài)的語音對話式回答。

也就是說,所有筆記都可以變成交互式教材。

第六代TPU

最后,在硬件部分,谷歌也帶來了新消息:

第六代TPU Trillium將在今年向云客戶提供。

與TPU v5e,Trillium的峰值計算性能提高4.7倍,HBM和帶寬增加了1倍,芯片間互聯(lián)(ICI)帶寬也增加了1倍。另外,Trillium的能效比TPU v5e高出了67%以上。

有關(guān)谷歌I/O的更多細(xì)節(jié),可以戳:

https://blog.google/technology/developers/google-io-2024-collection/

那么今日份的發(fā)布會筆記,就先做到這里了。

你覺得谷歌這波表現(xiàn)如何?

從美股盤后的情況來看,似乎有點emmm……

文章來源:量子位

OpenAI    GPT-4o    Gemini
量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部