OpenAI出手再次驚艷世界,谷歌果然坐不住了。 GPT-4o掀起的一片“AGI已至”的驚呼聲中,剛剛,Google DeepMind首席執(zhí)行官哈薩比斯親自攜谷歌版《Her》登場: 同樣能聽會看還能說,不僅能幾乎沒有延遲地和人類流暢交流,通過攝像頭,這個名為Project Astra的AI助手甚至能直接幫忙讀代碼: 谷歌還祭出了自己的硬件優(yōu)勢,帶來一波AR和大模型的夢幻聯(lián)動。 一邊擼狗一邊玩轉(zhuǎn)大模型已經(jīng)成為現(xiàn)實(手動狗頭)。 這一波操作下來,戰(zhàn)果如何尚未可知,網(wǎng)友們反正是興奮了起來: 而正面硬剛GPT-4o,還只是谷歌鉚足了勁,在I/O大會上釋出的冰山一角。 兩個小時的主題演講里,AI被提及了121次,CEO劈柴哥還猶嫌不足。 于是,對標(biāo)Sora能生成一分鐘長視頻的視頻生成模型Veo來了 Gemini 1.5 Pro不僅面向所有人開放,上下文窗口還從100萬token直接一步邁向200萬,一口氣能讀1500頁PDF。 連Android,現(xiàn)在也緊緊跟谷歌大模型Gemini綁定,搖身一變成為以AI為內(nèi)核的操作系統(tǒng)。 總之,信息量多到爆炸,相比之下,OpenAI不到半個小時的發(fā)布真的很隨性了。 谷歌版《Her》登場 第一時間引發(fā)最多討論的,當(dāng)然是谷歌版《Her》——Project Astra。 Project Astra基于Gemini系列模型打造,谷歌表示,研究人員們希望這樣的智能助手,能真正在人們的日常生活中提供幫助。 有意思的是,OpenAI總裁哥Brockman昨天在場外補(bǔ)充了有關(guān)GPT-4o多模態(tài)能力的更詳細(xì)視頻,而谷歌這邊,哈薩比斯也是第一時間在X上更新了與這樣一個智能助手的互動。 幫忙搞點文藝創(chuàng)作,解答一下專業(yè)書上看不懂的內(nèi)容,也都是信手拈來。 不少網(wǎng)友都認(rèn)為,這是谷歌對OpenAI的GPT-4o的正面回應(yīng)。 不過嘛,網(wǎng)友們也關(guān)注到了不少問題,比如,Project Astra的延遲似乎還是比GPT-4o長,谷歌的演示中也沒有體現(xiàn)是否能打斷智能助手說話。 值得關(guān)注的是,Project Astra背后,是Gemini系列模型的進(jìn)一步升級迭代。 比如,Gemini 1.5 Pro的上下文窗口來到了驚人的200萬token。 谷歌還最新推出了Gemini 1.5 Flash這一輕量級模型,并開源了27B的Gemma 2和視覺語言模型PailGemma。 60秒長視頻生成 你可能已經(jīng)默默在心里比較了一番Project Astra和GPT-4o的高下。 但橋豆麻袋,說起來,谷歌被OpenAI突然狙擊,可不止這一回。 還記得在春節(jié)期間搶盡谷歌風(fēng)頭的Sora嗎? 谷歌的回應(yīng),雖遲但到—— 谷歌最強(qiáng)視頻生成模型Veo來了。 Veo可以生成1080p的高質(zhì)量視頻,生成視頻的長度也看齊Sora:最長超過1分鐘。 谷歌還強(qiáng)調(diào),Veo生成的畫面一致性出色,并且可以hold住各種風(fēng)格。比如“延時拍攝”和“航拍”這種術(shù)語,直接寫在提示詞里,Veo都能get。 目前,谷歌已經(jīng)和電影制作者展開了合作,在電影項目中探索Veo的應(yīng)用。 與此同時,谷歌的圖片生成模型Imagen也迎來更新,Imagen 3發(fā)布。 官方提到,與此前的模型相比,Imagen 3的視覺偽影更少,生成的圖像細(xì)節(jié)拉滿,并且在生成文字方面效果也很好。 △提示詞:一張莊嚴(yán)的圖書館入口的照片,刻有“中央圖書館”字樣 另外,谷歌此次還推出了音樂生成模型Lyria。 Gemini進(jìn)入全線產(chǎn)品 在這些跟OpenAI叫板的“肌肉”展示之外,谷歌對大模型應(yīng)用的看重,也在此次I/O大會中盡顯。 英偉達(dá)科學(xué)家Jim Fan就他的I/O觀后感中表示: 谷歌做對的一件事是:他們終于開始努力把AI集成到搜索框中。 還不止是搜索,這一次,谷歌可以說是把Gemini塞進(jìn)了全線產(chǎn)品中,包括谷歌搜索、Android,以及谷歌郵箱、谷歌Photos等。下面我們劃劃重點。 1、谷歌搜索 基于Gemini,谷歌搜索推出AI概述(AI Overview)新功能,徹底化身AI搜索。 用戶在搜索框輸入問題,馬上就能得到一個AI總結(jié)的答案,包括相關(guān)鏈接。 而且是超長問題都能處理的那種,比如: 查找波士頓最好的瑜伽或普拉提工作室,并提供他們的入門優(yōu)惠詳情以及從燈塔山步行所需時間。 AI Overview秒秒鐘就會列出五星好評且距離燈塔山近的店,并附帶課程標(biāo)價,連店在地圖上的位置都標(biāo)記了出來: 對于這種復(fù)雜問題的搜索,谷歌表示采用了多步推理技術(shù),可以將復(fù)雜問題拆解成一個個小問題,然后自動對問題進(jìn)行排序回答。 多步推理加持下,AI Overview已經(jīng)脫離了純粹的搜索——把制定計劃一并搬進(jìn)了搜索引擎里。 比如直接讓它為一個團(tuán)體制定一個為期三天的易于執(zhí)行的餐飲計劃。 AI Overview一鍵給出了方案,每個方案都可以點擊修改,下方還可以一鍵將食材加入購物車: 還沒完,當(dāng)你沒有想法、問的問題比較籠統(tǒng)時,谷歌搜索還會AI自動將搜索結(jié)果整理成一個個“群組”,為你提供建議。 比如問:在達(dá)拉斯找一個餐廳慶祝周年紀(jì)念日。 搜索出的結(jié)果會按照音樂餐廳、具有歷史魅力的餐廳等一鍵分組。再往下翻,頁面會從餐飲逐漸擴(kuò)展到電影、酒店、購物等。 此外,谷歌搜索還支持視頻搜索了。 演示中,唱片機(jī)出故障,只需一邊錄制視頻一邊說出疑問,谷歌AI Overview就會立刻分析故障原因,并給出處理建議。 谷歌搜索AI Overview功能將在本周開始在美國推出,后面將陸續(xù)推至其他國家。 2、Android 15 谷歌把Gemini也帶到了安卓系統(tǒng)中。 憑借直接內(nèi)置的Circle to Search功能,用戶使用簡單的手勢“圈”一下手機(jī)上看到的任何內(nèi)容,就能進(jìn)行搜索。 比如圈出練習(xí)題,就能一鍵獲取答案。 目前這一功能,已在Pixel和三星的部分設(shè)備上使用。 此外,還可以在一個應(yīng)用之上隨時調(diào)出Gemini助手層,隨時使用。你還可以將Gemini生成的圖片直接拖到Gmail等應(yīng)用中,直接詢問某個視頻中的具體信息,不用滑動翻文檔詢問某個PDF中的信息…… 甚至連電話反詐,都用上Gemini了:聽到關(guān)鍵字“把錢轉(zhuǎn)到安全賬號”,馬上就能給出警報。 總之,官方強(qiáng)調(diào),現(xiàn)在,Gemini在手機(jī)上現(xiàn)在不止是一個App,更是安卓體驗的基礎(chǔ)。 3、谷歌Photos 谷歌Photos基于Gemini也推出了新功能——Ask Photos,可以一鍵從圖庫中幫你找到想要的照片和視頻。 比如你想知道自己的baby是什么時候?qū)W會游泳的,Ask Photos會從你在谷歌Photos中存儲的成百上千張照片中查找出含游泳、游泳證書等相關(guān)圖片,最后總結(jié)給出回復(fù): Ask Photos這一功能將在今年夏天推出。 4、谷歌Workspace Gemini也接入到了谷歌Workspace提供的一套生產(chǎn)力和協(xié)作工具中,包括谷歌郵箱、谷歌Docs、谷歌Calendar等。 這使得在這些工具間進(jìn)行跨應(yīng)用工作變得更加容易。 例如在谷歌郵箱中自動分析郵件以及附件,識別整理好收據(jù),然后一鍵在Drive和Sheets中處理。 5、NotebookLM 谷歌AI筆記應(yīng)用NotebookLM也大升級。 如下圖所示,當(dāng)你提出一個問題后,背后的Gemini模型就會結(jié)合NotebookLM中的筆記內(nèi)容,進(jìn)行多模態(tài)的語音對話式回答。 也就是說,所有筆記都可以變成交互式教材。 第六代TPU 最后,在硬件部分,谷歌也帶來了新消息: 第六代TPU Trillium將在今年向云客戶提供。 與TPU v5e,Trillium的峰值計算性能提高4.7倍,HBM和帶寬增加了1倍,芯片間互聯(lián)(ICI)帶寬也增加了1倍。另外,Trillium的能效比TPU v5e高出了67%以上。 有關(guān)谷歌I/O的更多細(xì)節(jié),可以戳: https://blog.google/technology/developers/google-io-2024-collection/ 那么今日份的發(fā)布會筆記,就先做到這里了。 你覺得谷歌這波表現(xiàn)如何? 從美股盤后的情況來看,似乎有點emmm…… 文章來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選