首頁 > 科技要聞 > 科技> 正文

谷歌回?fù)鬙penAI:發(fā)布AI全家桶,搜索大變身,Project Astra劍指GPT-4o

網(wǎng)易科技 整合編輯:龔震 發(fā)布于:2024-05-15 09:38

眼看著OpenAI各種搶鏡,喊了十年“AI為先”的老大哥Google再也坐不住了。   

想要蓋過谷歌風(fēng)頭,OpenAI的GPT-4o有沒有如愿,我們找找答案。

谷歌和Alphabet首席執(zhí)行官桑達爾·皮查伊公布,有超過 150 萬開發(fā)人員在使用 Gemini 模型,有20億用戶在使用Gemini,在短短三個月內(nèi),已有超過 100 萬人注冊試用。

他振臂高呼,我們正處于雙子座(Gemini)時代,人工智能為先的戰(zhàn)略正在開花結(jié)果,然后花了長達兩個多小時,手把手教開發(fā)者使用Gemini。

谷歌說我們使命是讓AI對每個人都有幫助,基于這個目標(biāo),再圍繞Gemini,剛剛過去的這個凌晨,從搜索到照片應(yīng)用、智能體、Android,他們逐一展開。   

谷歌的雙子座(Gemini)時代

一年前,谷歌首次發(fā)布Gemini,定義為原生多模態(tài)模型,可以跨文本、圖像、視頻、代碼等進行推理。這次終于正式開放訂閱Gemini 1.5 Pro,且?guī)砣律墶?/span>

此前的Gemini 1.5版本上下文長度為100萬token,新版本長度刷新,達到200萬token,基于此,發(fā)布上新的輕量化模型Gemini 1.5 flash這是一個針對端側(cè)的模型,同樣有100萬和200萬token的版本,速度更快、成本低至0.35美元每百萬tokens。

與此同時,通過數(shù)據(jù)和算法改進,Gemini 1.5 Pro增強了模型的代碼生成、邏輯推理和規(guī)劃、多輪對話以及音頻和圖像理解能力。

升級后的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多項公共基準(zhǔn)測試中取得了顯著改進,在多項圖像和視頻理解基準(zhǔn)測試中也實現(xiàn)了最先進性能。

換句話說,“我們已經(jīng)妥妥吊打GPT4了。”

現(xiàn)在,用戶可以通過 Gemini Advanced 訂閱服務(wù)體驗最新的Gemini 1.5 Pro,目前支持超過150個國家的35種語言。

谷歌還預(yù)告,即將推出下一代 Gemma 型號 Gemma 2。Gemma 2適用于廣泛的 AI 開發(fā)人員,并采用全新的架構(gòu),旨在實現(xiàn)突破性的性能和效率。

AI助手的未來 谷歌“智能體”Project Astra 

基于谷歌對于智能體的理解,Google DeepMind開發(fā)了Project Astra ,類似GPT-4o的語音交互,Project Astra是主動的、可教的和個性化的,用戶可以自然地與它交談,沒有滯后或延遲。

在演示中,Project Astra 所見即所得,回應(yīng)一切,沒有任何延遲,它可以識別物體,進行分析并且給出自己的反應(yīng),對此,有網(wǎng)友評論:對于盲人和低視力用戶來說,這將是天賜之物!

不僅如此,大家的關(guān)注點還在于,谷歌眼鏡項目是不是要復(fù)活了?什么時候發(fā)布?這才是Project Astra絕佳的應(yīng)用場景。

搜索引擎,依舊是谷歌AI的戰(zhàn)略要塞          

搜索一直是谷歌的命門,而搜索這個“古老”的動作似乎正在悄然發(fā)生變化。

在OpenAI GPT-4o發(fā)布之前,就有大量呼聲說會不會有OpenAI 搜索的到來,不過有驚無險,谷歌在自己的主陣地,依舊高歌猛進。

桑達爾·皮查伊表示,在過去的一年里,作為搜索生成體驗的一部分,已經(jīng)回答了數(shù)十億個查詢。人們正在使用它以全新的方式搜索,并提出新的問題類型——更長和更復(fù)雜的查詢,甚至使用照片進行搜索。

從今天開始,美國用戶將體驗到重大搜索交互界面的更新,搜索框下方會顯示AI生成的概覽,谷歌方面表示:“我們一直在實驗室之外測試這種體驗。令我們欣慰的是,不僅搜索使用量有所增加,用戶滿意度也有所提高。”

谷歌版Sora,視頻生成模型 Veo 和 Imagen 3

今天,谷歌還帶來最新、最先進的視頻生成模型 Veo 和迄今為止質(zhì)量最高的文本到圖像模型 Imagen 3。

 

Veo能夠生成超過一分鐘的高質(zhì)量1080p視頻,涵蓋多種電影和視覺風(fēng)格。據(jù)谷歌介紹,Veo具備高級的自然語言和視覺語義理解能力,能準(zhǔn)確呈現(xiàn)細(xì)節(jié)并捕捉情感基調(diào)。

本著“打不過就加入”的原則,很多藝術(shù)家已經(jīng)加入嘗試了這個項目。

現(xiàn)在,谷歌展示了與電影制片人唐納德·格洛弗(Donald Glover)及其創(chuàng)意工作室吉爾加(Gilga)的一些合作,以及藝術(shù)家Wyclef Jean,Marc Rebillet和詞曲作者Justin Tranter在音樂AI沙盒的幫助下發(fā)布的新演示錄音。  

從今天開始,Veo可以通過加入候補名單在 VideoFX 的個人預(yù)覽版中使用,未來,谷歌計劃把Veo的一些功能引入 YouTube Shorts 和其他產(chǎn)品。

與之相結(jié)合的是Imagen 3,Google最高質(zhì)量的文本到圖像生成模型,Imagen 3 可以更好地理解自然語言、提示背后的意圖,并結(jié)合較長提示中的小細(xì)節(jié)。

從今天開始,Imagen 3可供 ImageFX 中的個人預(yù)覽版和加入谷歌候補名單的創(chuàng)作者使用。

與此同時,Imagen 3宣布即將登陸 Vertex AI——Vertex AI 是 Google Cloud 的完全托管的統(tǒng)一開發(fā)平臺,用于大規(guī)模利用模型,提供 150 多種第一方、開放和第三方基礎(chǔ)模型,用于 使用企業(yè)級調(diào)優(yōu)、接地、監(jiān)控和部署功能自定義模型,以及構(gòu)建 AI 代理。

Google相冊“詢問照片”再也不怕照片難翻找

Google相冊是谷歌首批以AI為中心的產(chǎn)品之一,現(xiàn)在,谷歌正在通過功能最強大的 AI 模型 Gemini 對 Google 相冊進行重大升級。

一直以來,大家使用相冊有這樣的痛點,我們希望以自然交互的方式找到自己的照片,但是隨著人們照片數(shù)量的累積,找到需要的東西可能會需要滾動瀏覽照片和視頻頁面,耗時巨大。

谷歌透露,每天有超過 60 億張照片上傳到 Google 相冊,現(xiàn)在,通過“詢問照片”,你可以以一種自然的方式詢問你要找的東西,比如:“給我看我去過的每個國家公園的最佳照片。

谷歌還談及對用戶隱私的保護,承諾 Google 相冊中的個人數(shù)據(jù)絕不會用于廣告,也不會在“問答”中查看用戶的對話和數(shù)據(jù),而且,谷歌不會使用這些個人數(shù)據(jù)訓(xùn)練 Google 相冊以外的任何生成式 AI 產(chǎn)品,包括其他 Gemini 型號和產(chǎn)品。   

重構(gòu)交互體驗 Android進入Gemini 時代

谷歌表示,隨著 Google AI 成為 Android 操作系統(tǒng)的核心,數(shù)十億使用 Android 的人現(xiàn)在可以以全新的方式與他們的設(shè)備進行交互。

比如,從今天開始,Circle to Search可以幫助學(xué)生完成家庭作業(yè),當(dāng)學(xué)生圈出他們的提示時,他們會得到分步說明,以解決一系列物理和數(shù)學(xué)問題、單詞問題,而無需離開他們的數(shù)字信息表或教學(xué)大綱。

與此同時,Circle to Search在稍后的更新中,將能夠幫助解決涉及符號公式、圖表、圖形等的更復(fù)雜的問題。谷歌披露,Circle to Search 已經(jīng)在超過 1 億臺設(shè)備上可用。

另外,谷歌在Android 上發(fā)布 Gemini 新型助手,它使用生成式 AI 來幫助用戶提高創(chuàng)造力和生產(chǎn)力。這種體驗已集成到 Android 中,在理解屏幕上的內(nèi)容和用戶正在使用的應(yīng)用程序的上下文方面變得越來越好。   

 

不僅如此,Android基于AI帶來一系列更新,Gemini Nano的多模態(tài)功能將登陸 TalkBack,幫助失明或視力低下的人更豐富、更清晰地描述圖像中發(fā)生的事情。

從今年晚些時候的 Pixel 開始,谷歌還推出最新型號 Gemini Nano with Multimodality,這意味著手機不僅能夠處理文本輸入,還可以在視覺、聲音和口語等上下文中理解更多信息。

第六代TPU Trillium 迄今為止性能最高的TPU 

十多年來,谷歌一直在開發(fā)定制的AI專用硬件、張量處理單元(TPU),以推動規(guī)模和效率的前沿發(fā)展。

今天,迄今為止性能最高、能效最優(yōu)的第六代TPU Trillium正式發(fā)布,該硬件支持今天在 Google I/O大會上宣布的包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新型號。所有這些型號的模型都經(jīng)過了TPU的訓(xùn)練,并使用TPU提供服務(wù)。

與 TPU v5e 相比,Trillium TPU 的每芯片峰值計算性能提高了 4.7 倍。與 TPU v5e 相比,Trillium TPU將高帶寬存儲器 (HBM) 容量和帶寬提高了一倍,并將芯片間互連 (ICI) 帶寬提高了一倍。

此外,Trillium 還配備了第三代 SparseCore,這是一種專用加速器,用于處理高級排名和推薦工作負(fù)載中常見的超大型嵌入。與此同時,rillium 可以在單個高帶寬、低延遲的 pod 中擴展到 256 個 TPU。

作為硬件產(chǎn)品,谷歌還介紹了客戶案例,谷歌表示,Trillium TPU 將為下一波 AI 模型和代理提供動力,期待通過這些先進功能幫助我們的客戶。例如,自動駕駛汽車公司 Nuro 致力于通過機器人技術(shù)創(chuàng)造更美好的日常生活,方法是使用 Cloud TPU 訓(xùn)練他們的模型。

谷歌宣布,作為十年結(jié)晶,第六代TPU Trillium將于今年晚些時候上市。

文章來源:網(wǎng)易科技

網(wǎng)易科技

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部