太平洋科技要聞

OpenAI為什么總要故意砸場，谷歌今天又給出了什么回應？

新浪科技整合編輯：龔震發(fā)布于：2024-05-15 09:38

OpenAI又一次加塞砸場

這已經(jīng)不是第一次了。OpenAI擺明了是要加塞，故意在谷歌發(fā)布會前一天發(fā)布自己的產(chǎn)品，砸直接競爭對手的場子，搶占媒體報道風頭。因為是創(chuàng)業(yè)公司，OpenAI總能比谷歌更快作出反應，安排活動。

他們上次這么做還是是2月份，谷歌發(fā)布了多模態(tài)大模型Gemini 1.5 Pro，直接將性能拉到支持百萬Token的業(yè)界新高。但這并沒有成為那天的焦點，因為OpenAI在同一天發(fā)布了文生視頻工具Sora，諸多栩栩如生又極具想象力的AI視頻隨即成為了社交媒體上的爆款，搶盡了谷歌Gemini的幾乎所有風頭。

這一次OpenAI又搞突然襲擊。谷歌I/O大會的日期是提前數(shù)月就宣布的，但OpenAI上周突然宣布在谷歌大會前一天召開發(fā)布會，在昨天發(fā)布了最新大模型GPT-4o（o代表著Omnimodel全能模型），提前引爆了AI大模型的關注熱度，再次打亂了谷歌即將發(fā)布AI新品的傳播節(jié)奏。

GPT-4o不僅是完全免費的，而且覆蓋了桌面與移動App，不僅性能大幅提升，而且可以綜合處理文本、圖片和音頻，人機交互更加自然簡單。舉例來說，可以讓GPT-4o加入網(wǎng)絡會議，給用戶記錄發(fā)言總結概要。

GPT-4o具體有什么用？用戶可以讓GPT-4o處理眼前的問題，極大提升生產(chǎn)力，可以與AI實時語音對話，就像是與真人聊天一樣自然流暢，AI處理反應已經(jīng)達到人類的速度，甚至還可以理解用戶的情緒，以相應的情感作出回應。

面對OpenAI的故意撞車和搶占風頭，谷歌在今天的I/O大會上又拿出了怎樣的AI產(chǎn)品，是否帶來了足夠的震撼與新意？

谷歌I/O開發(fā)者大會今年已經(jīng)進入了第16個年頭，AI早已成為I/O大會的絕對乃至唯一的主角。谷歌CEO皮查伊更是在結束時宣布，整場發(fā)布會一共說了121次AI，引發(fā)了全場大笑。(這個梗是因為去年媒體統(tǒng)計谷歌在I/O上一共說了143次AI，今年谷歌干脆自己公布統(tǒng)計數(shù)字)。

Gemini 1.5 Pro支持兩百萬Token

雖然整場發(fā)布會都沒有提及競爭對手，但谷歌CEO皮查伊從主題演講一開始就開始秀谷歌的AI實力，宣布谷歌已經(jīng)全面進入Gemini時代。他強調(diào)谷歌已經(jīng)在AI領域投入了十多年時間，貫穿了AI的每一層：研究、產(chǎn)品、基礎設施。

雖然AI新貴OpenAI在產(chǎn)品發(fā)布方面搶占了先發(fā)優(yōu)勢，但谷歌在研究論文、用戶規(guī)模、產(chǎn)品數(shù)量以及算力方面都占據(jù)著壓倒性優(yōu)勢，這也是OpenAI必須與微軟結盟的直接原因，因為兩家公司都不可能單獨與谷歌掰手腕。

皮查伊還宣布，Gemini大模型已經(jīng)覆蓋了谷歌全平臺的20億用戶產(chǎn)品，僅僅三個月時間就有100多萬用戶注冊使用。而兩個月前發(fā)布的原生多模型Gemini 1.5 Pro已經(jīng)得到超過150萬開發(fā)者的使用。

在性能方面，谷歌就是AI業(yè)界的滅霸。Gemini 1.5 Pro此前直接將Token(上下文處理)性能提升到了百萬級別，全面壓倒了受困于性能變慢的GPT-4.0 Turbo。三個月后，谷歌在今天宣布改進版的Gemini 1.5 Pro全面開放給Gemini Advanced的用戶，并且支持35種語言。

更為殘暴的是，谷歌還將Gemini 1.5 Pro的上下文窗口處理性能直接翻倍到了200萬(暫時只面向開發(fā)者提供)，在這方面OpenAI只能望塵莫及。皮查伊宣布，這是朝著無限上下文的最終目標邁出的重要一步。

Gemini 1.5 Pro可以給用戶帶來怎樣的實際體驗？谷歌用Workspace辦公組件展示了AI給生產(chǎn)力帶來的巨大變化。舉例來說，如果是通過Google Meets進行遠程會議，哪怕用戶無法參會，也可以讓Gemini為自己錄音并列出會議紀要。

有了Gemini，Gmail郵箱就有了靈魂。代寫郵件已經(jīng)是基本操作了。用戶可以讓Gemini幫助自己整理和總結Gmail的海量郵件，根據(jù)最近的收據(jù)和信用卡賬單郵件整理歸納出用戶的消費支出，給出一份專業(yè)又具體的財務支出清單。

在電商時代，Gemini還能扮演智能管家的角色。用戶甚至可以讓Gemini自動在郵件中找到收據(jù)郵件，并進入商家平臺申請退貨，還能讓快遞上門取貨。這一切都只需要用戶向Gemini下達指令。Gemini 1.5 Pro從今天開始全面入駐Workspace Labs。

輕量AI模型Flash

Gemini模型家族的新品還不僅于此。谷歌DeepMind CEO哈撒比斯(Demis Hassabis)在主題演講中介紹了Gemini的新成員：輕量、迅捷、高效的模型1.5 Flash，以及未來AI助手Project Astra。

去年12月，谷歌發(fā)布了第一代原生多模型Gemini 1.0，包括了Ultra、Pro以及Nano三個版本。三個月后谷歌發(fā)布了百萬Token處理能力的Gemini 1.5 Pro。今天谷歌將Gemini 1.5 Pro處理能力提升到200萬級別之外，還推出了輕量模型Gemini 1.5 Flash。

雖然Gemini 1.5 Flash的上下文處理能力同樣達到了百萬級別，但卻比1.5 Pro更為輕便迅速，針對低延遲和專注成本的任務進行了優(yōu)化，更適合規(guī)�；瘶嫿�。Gemini 1.5 Flash今天就會在通過谷歌AI Studio和Vertex AI兩大平臺向開發(fā)者提供。

Project Astra是谷歌DeepMind打造的未來通用智能AI助手，也是對標OpenAI GPT-4o的產(chǎn)品。Astra不僅具備多模態(tài)處理，可以無縫應對文本圖片視頻等多媒體內(nèi)容，還能以更為智能實時的方式與用戶進行對話。

或許略微遺憾的是，OpenAI已經(jīng)在昨天搶先發(fā)布了GPT-4o的類似功能，晚了一天亮相的Astra少了諸多驚喜和震撼，或許這就是OpenAI突然搶先發(fā)布的主要原因。因為誰先發(fā)布就占據(jù)了媒體報道的焦點。如果OpenAI在谷歌Astra之后發(fā)布GPT-4o，同樣也會失去諸多傳播魅力所在。

搜索更加人性與個性

從搜索到郵件，從地圖到圖片，再到辦公組件，谷歌有著太多上億乃至十億用戶級別的產(chǎn)品可以承載AI落地。橫跨iOS與Android平臺，移動與桌面兩端的20億+的用戶規(guī)模，以及幾乎覆蓋所有領域的產(chǎn)品，更是谷歌AI技術落地的龐大產(chǎn)品軍火庫。

生成式AI在搜索領域的應用顯然是最直接的用戶體驗。即便微軟借助OpenAI試圖彎道超車，但過去一年市場份額也只漲了不到一個百分點(目前3.64%)。而谷歌雖然市場份額減少了兩個百分點，但目前全球市場占有率依然接近91%。

有了Gemini大模型的加持，谷歌搜索得以全面提升，提供一對一的解答。用戶可以隨心所欲的提問，無論是具體知識，還是尋求建議，谷歌搜索的AI Overviews都可以應答如流，不僅給出實際的回答，更提供信息來源。

具體來說，用戶搜索“如何清洗布質(zhì)沙發(fā)”的問題，AI Overviews不僅會提供幾種清洗沙發(fā)的方法，還會帶來答案的信息來源，再附上清洗產(chǎn)品的鏈接(購買谷歌搜索廣告的商家產(chǎn)品)。未來用戶還可以根據(jù)自身需求，對AI Overview的回答進行個性化調(diào)整，提供更為簡明扼要或者細節(jié)詳盡的回答。

實際上，此前已經(jīng)有不少用戶已經(jīng)通過Search Labs的實驗功能體驗到了AI Overviews功能。AI Overviews今天正式在美國市場推出，未來會逐步擴展到其他國家市場。谷歌預計，單是本周時間就會有數(shù)億用戶使用到AI Overviews，今年年底用戶規(guī)�；�?qū)⑼黄?0億級別。

AI功能全面落地手機端

雖然I/O主題演講開始78分鐘之后，谷歌才開始介紹Android平臺的AI新功能，但這并不意味著Android在谷歌AI戰(zhàn)略的重要性降低。實際上，移動端才是用戶體驗谷歌AI功能的最直接平臺。

在今年年初三星手機推出谷歌AI技術加持的畫圈搜索、全屏翻譯等人性功能之后(三星國行版使用百度AI技術)，半年時間全球已經(jīng)有超過1億設備搭載了谷歌畫圈搜索功能。谷歌預計今年年底這一數(shù)字將翻一倍，達到兩億設備。

而且，得益于谷歌LearnLM模型，畫圈搜索功能還有了更多的實際運用。從今天開始，畫圈搜索將幫助學生做家庭作業(yè)，替代家教作用，幫助他們更好了解如何做題，而不僅僅是給出直接答案。這也是昨天OpenAI GPT-4o所展示的使用場景。

Gemini on Android是谷歌為Android平臺推出的一系列人性化功能。有了這一功能，用戶可以用對話的方式，在寫郵件和發(fā)短信的過程中直接生成和發(fā)送個性化圖片，可以在YouTube視頻中直接尋找想要的內(nèi)容，在PDF中迅速找到自己所需的內(nèi)容，而不用再自己費力瀏覽搜索。

在Android設備端上的Gemini Nano模型還帶來了TalkBack和反詐功能，這兩大功能都會在今年晚些時候發(fā)布。有了TalkBack功能，失明或者弱視患者可以通過手機攝像頭，聽AI描述眼前的世界，即便沒有網(wǎng)絡也可以使用。

智能反詐功能則可以根據(jù)聊天中的敏感內(nèi)容(例如騙子要求進行銀行轉賬，詢問個人密碼時)，即使彈出警告窗，提醒用戶這可能是詐騙電話。由于Gemini Nano完全是基于設備端，用戶不用擔心自己的通話內(nèi)容被監(jiān)聽。

AI圖片工具Ask Photos

Google Photos是谷歌在2015年發(fā)布的云相冊服務，iOS和Android用戶可以將自己的所有照片和視頻都存入這個云端相冊，并在任何聯(lián)網(wǎng)設備上接入。目前Google Photos每天上傳的照片與視頻數(shù)量超過了60億。

海量的圖片如何整理和搜索，一直是個用戶體驗難題�，F(xiàn)在谷歌推出了AI工具Ask Photos之后，用戶可以輕松尋找出任何想要的圖片，回憶過去的點滴記憶，再也不擔心找不到或者花很長時間才能找到想要的照片。

舉例來說，用戶想回憶女兒的成長過程，可以向Google Photos提問“女兒是什么時候?qū)W會游泳的？”。谷歌就可以迅速展示小女孩最早開始游泳的照片，讓用戶看到這個溫暖的記憶判斷。

AI甚至還可以幫助用戶進行歸納總結。用戶可以提出更為復雜的問題，“女兒的游泳技能是怎么提升的？”谷歌不僅會搜索相關的女兒游泳照片，還可以提供一段簡單的說法，幫助用戶更好的回憶女兒的游泳技能的提升過程。

文生視頻模型叫板Sora

谷歌DeepMind的文生視頻模型Veo是今天最為驚艷的產(chǎn)品之一。三個月前OpenAI用一波Sora生成視頻搶盡了谷歌Gemini 1.5 Pro的風頭，今天谷歌拿出了自己的產(chǎn)品回擊Sora。

雖然比OpenAI的Sora晚了三個月發(fā)布，但是Veo帶來的視頻卻更為高清流暢自然，看起來更為真實(當然三個月時間，Sora也可能有了重大更新)。Veo可以生成一分鐘以上的1080p分辨率視頻，可以理解“延時攝影”以及“航拍風景”等術語，展示多種電影與視頻風格。

為了展示Veo在電影行業(yè)的潛力，谷歌還邀請了出演過《火星救援》等諸多作品的好萊塢電影人格羅夫(Donald Glover)進行產(chǎn)品試用。此次大會上也展示了格羅夫創(chuàng)意工作室Gilga使用Veo制作的數(shù)個看起來極具大片風格的視頻片段。

谷歌宣布，Veo從今天開始向特定創(chuàng)作者提供內(nèi)測，并在未來整合到YouTube Shorts和其他產(chǎn)品中。無論什么AI功能，蘋果都有海量用戶的產(chǎn)品可以承載。YouTube Shorts是谷歌對標TikTok的短視頻服務，發(fā)布三年時間之后，目前月活用戶已經(jīng)突破了23億(當然這是得益于YouTube的龐大體量)。顯然，一旦Veo進入YouTube Shorts，其用戶規(guī)模將是Sora所無法想象的。

此外，谷歌還展示了DeepMind最新的文生圖片模型Imagen 3，這是對應OpenAI的DALL.E3。谷歌在發(fā)布會上展示了Imagen 3生成的數(shù)張高清圖片，據(jù)稱具有更好的自然語言理解，更好理解文本背后的意圖，帶來更為細節(jié)、更強渲染能力的圖片。

Imagen 3也從今日開始通過谷歌的AI圖片工具ImageFX向特定創(chuàng)作者提供測試，未來會整合到谷歌的機器學習平臺Vertex AI中。

文本：一個短發(fā)胡須男子微笑著看著鏡頭。

背景模糊，可以看到淺影的樹木和建筑。

文本：一只手握著一個泥塑小鳥雕像，另外一只手拿著刻刀。

可以看到雕刻著的圍巾。他的雙手沾滿粘土。

用一張近攝的單反圖片突出紋理和雕刻質(zhì)感。

此外，谷歌還推出了面向音樂愛好者的Music AI Sandbox，用生成式AI音樂模型Lyria，幫助音樂人更為便捷地創(chuàng)作出不同風格的音樂作品。這些功能也會整合進YouTube平臺。

第六代TPU芯片Trillium

谷歌在AI領域的強大優(yōu)勢不僅體現(xiàn)在大模型，還體現(xiàn)在他們在AI處理器領域的實力。過去六年時間，行業(yè)對機器學習運算能力的需求增長了100萬部，而且每年都會增長10倍。而谷歌在這方面則站在了行業(yè)價值鏈的頂端。

早在2016年谷歌就推出了為AI訓練設計的第一代TPU(定制張量處理單元)。Gemini大模型完全是在自己的第四代和第五代TPU上進行訓練與服務的，谷歌甚至還向Anthropic等其他AI公司提供了TPU訓練服務。相比之下，OpenAI目前還只能依靠微軟獲得訓練能力。

今天谷歌在I/O大會上還發(fā)布了第六代TPU處理器Trillum，計劃今年晚些時候向云服務客戶推出，Trillium的每個芯片處理速度比前一代TPU v5e提升了4.7倍。

除了TPU之外，谷歌上個月還發(fā)布了第一代基于ARM架構的AI CPU Axiom，并且通過CPU和GPU來支持AI工作負載。皮查伊表示，明年谷歌云將成為首批搭載英偉達Blackwell GPU的服務商。

自OpenAI在2022年底發(fā)布ChatGPT起，這場AI軍備禁賽已經(jīng)開始了一年多時間，除了OpenAI和谷歌，微軟、Meta、華為等全球主要科技巨頭和Anthropic等創(chuàng)業(yè)公司都已經(jīng)投入到這場未來爭奪戰(zhàn)中。而OpenAI和谷歌則是其中最受矚目的兩大領先者。

雖然OpenAI憑借創(chuàng)業(yè)公司的靈活專注優(yōu)勢，屢屢搶占先發(fā)優(yōu)勢，每次都能領先谷歌一步發(fā)布新品，獲得行業(yè)一片叫好，但谷歌依然有著自己的獨有優(yōu)勢所在。作為最早投入AI研究的科技巨頭，谷歌最大的競爭優(yōu)勢不僅在于產(chǎn)品的研發(fā)，還包括了基礎設施和運算能力，在于龐大的谷歌應用矩陣與數(shù)十億的用戶級別。

在昨天OpenAI再次加塞搶發(fā)GPT-4o之后，今天谷歌全面展示了自己在AI領域的全方位優(yōu)勢，展示了AI給自己全平臺服務與產(chǎn)品帶來的體驗提升。AI滅霸戴上了手套，打了一個響指。

文章來源：新浪科技

OpenAI Gemini 1 GPT-4o

新浪科技

原創(chuàng)欄目