太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

谷歌回?fù)鬙penAI：發(fā)布AI全家桶，搜索大變身，Project Astra劍指GPT-4o

網(wǎng)易科技整合編輯：龔震發(fā)布于：2024-05-15 09:38

眼看著OpenAI各種搶鏡，喊了十年“AI為先”的老大哥Google再也坐不住了。

想要蓋過谷歌風(fēng)頭，OpenAI的GPT-4o有沒有如愿，我們找找答案。

谷歌和Alphabet首席執(zhí)行官桑達爾·皮查伊公布，有超過 150 萬開發(fā)人員在使用 Gemini 模型，有20億用戶在使用Gemini，在短短三個月內(nèi)，已有超過 100 萬人注冊試用。

他振臂高呼，我們正處于雙子座（Gemini）時代，人工智能為先的戰(zhàn)略正在開花結(jié)果，然后花了長達兩個多小時，手把手教開發(fā)者使用Gemini。

谷歌說我們使命是讓AI對每個人都有幫助，基于這個目標(biāo)，再圍繞Gemini，剛剛過去的這個凌晨，從搜索到照片應(yīng)用、智能體、Android，他們逐一展開。

谷歌的雙子座（Gemini）時代

一年前，谷歌首次發(fā)布Gemini，定義為原生多模態(tài)模型，可以跨文本、圖像、視頻、代碼等進行推理。這次終于正式開放訂閱Gemini 1.5 Pro，且?guī)砣律墶?/span>

此前的Gemini 1.5版本上下文長度為100萬token，新版本長度刷新，達到200萬token，基于此，發(fā)布上新的輕量化模型Gemini 1.5 flash這是一個針對端側(cè)的模型，同樣有100萬和200萬token的版本，速度更快、成本低至0.35美元每百萬tokens。

與此同時，通過數(shù)據(jù)和算法改進，Gemini 1.5 Pro增強了模型的代碼生成、邏輯推理和規(guī)劃、多輪對話以及音頻和圖像理解能力。

升級后的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多項公共基準(zhǔn)測試中取得了顯著改進，在多項圖像和視頻理解基準(zhǔn)測試中也實現(xiàn)了最先進性能。

換句話說，“我們已經(jīng)妥妥吊打GPT4了。”

現(xiàn)在，用戶可以通過 Gemini Advanced 訂閱服務(wù)體驗最新的Gemini 1.5 Pro，目前支持超過150個國家的35種語言。

谷歌還預(yù)告，即將推出下一代 Gemma 型號 Gemma 2。Gemma 2適用于廣泛的 AI 開發(fā)人員，并采用全新的架構(gòu)，旨在實現(xiàn)突破性的性能和效率。

AI助手的未來 谷歌“智能體”Project Astra

基于谷歌對于智能體的理解，Google DeepMind開發(fā)了Project Astra ，類似GPT-4o的語音交互，Project Astra是主動的、可教的和個性化的，用戶可以自然地與它交談，沒有滯后或延遲。

在演示中，Project Astra 所見即所得，回應(yīng)一切，沒有任何延遲，它可以識別物體，進行分析并且給出自己的反應(yīng)，對此，有網(wǎng)友評論：對于盲人和低視力用戶來說，這將是天賜之物！

不僅如此，大家的關(guān)注點還在于，谷歌眼鏡項目是不是要復(fù)活了？什么時候發(fā)布？這才是Project Astra絕佳的應(yīng)用場景。

搜索引擎，依舊是谷歌AI的戰(zhàn)略要塞

搜索一直是谷歌的命門，而搜索這個“古老”的動作似乎正在悄然發(fā)生變化。

在OpenAI GPT-4o發(fā)布之前，就有大量呼聲說會不會有OpenAI 搜索的到來，不過有驚無險，谷歌在自己的主陣地，依舊高歌猛進。

桑達爾·皮查伊表示，在過去的一年里，作為搜索生成體驗的一部分，已經(jīng)回答了數(shù)十億個查詢。人們正在使用它以全新的方式搜索，并提出新的問題類型——更長和更復(fù)雜的查詢，甚至使用照片進行搜索。

從今天開始，美國用戶將體驗到重大搜索交互界面的更新，搜索框下方會顯示AI生成的概覽，谷歌方面表示：“我們一直在實驗室之外測試這種體驗。令我們欣慰的是，不僅搜索使用量有所增加，用戶滿意度也有所提高。”

谷歌版Sora，視頻生成模型 Veo 和 Imagen 3

今天，谷歌還帶來最新、最先進的視頻生成模型 Veo 和迄今為止質(zhì)量最高的文本到圖像模型 Imagen 3。

Veo能夠生成超過一分鐘的高質(zhì)量1080p視頻，涵蓋多種電影和視覺風(fēng)格。據(jù)谷歌介紹，Veo具備高級的自然語言和視覺語義理解能力，能準(zhǔn)確呈現(xiàn)細(xì)節(jié)并捕捉情感基調(diào)。

本著“打不過就加入”的原則，很多藝術(shù)家已經(jīng)加入嘗試了這個項目。

現(xiàn)在，谷歌展示了與電影制片人唐納德·格洛弗（Donald Glover）及其創(chuàng)意工作室吉爾加（Gilga）的一些合作，以及藝術(shù)家Wyclef Jean，Marc Rebillet和詞曲作者Justin Tranter在音樂AI沙盒的幫助下發(fā)布的新演示錄音。

從今天開始，Veo可以通過加入候補名單在 VideoFX 的個人預(yù)覽版中使用，未來，谷歌計劃把Veo的一些功能引入 YouTube Shorts 和其他產(chǎn)品。

與之相結(jié)合的是Imagen 3，Google最高質(zhì)量的文本到圖像生成模型，Imagen 3 可以更好地理解自然語言、提示背后的意圖，并結(jié)合較長提示中的小細(xì)節(jié)。

從今天開始，Imagen 3可供 ImageFX 中的個人預(yù)覽版和加入谷歌候補名單的創(chuàng)作者使用。

與此同時，Imagen 3宣布即將登陸 Vertex AI——Vertex AI 是 Google Cloud 的完全托管的統(tǒng)一開發(fā)平臺，用于大規(guī)模利用模型，提供 150 多種第一方、開放和第三方基礎(chǔ)模型，用于使用企業(yè)級調(diào)優(yōu)、接地、監(jiān)控和部署功能自定義模型，以及構(gòu)建 AI 代理。

Google相冊“詢問照片”再也不怕照片難翻找

Google相冊是谷歌首批以AI為中心的產(chǎn)品之一，現(xiàn)在，谷歌正在通過功能最強大的 AI 模型 Gemini 對 Google 相冊進行重大升級。

一直以來，大家使用相冊有這樣的痛點，我們希望以自然交互的方式找到自己的照片，但是隨著人們照片數(shù)量的累積，找到需要的東西可能會需要滾動瀏覽照片和視頻頁面，耗時巨大。

谷歌透露，每天有超過 60 億張照片上傳到 Google 相冊，現(xiàn)在，通過“詢問照片”，你可以以一種自然的方式詢問你要找的東西，比如：“給我看我去過的每個國家公園的最佳照片。

谷歌還談及對用戶隱私的保護，承諾 Google 相冊中的個人數(shù)據(jù)絕不會用于廣告，也不會在“問答”中查看用戶的對話和數(shù)據(jù)，而且，谷歌不會使用這些個人數(shù)據(jù)訓(xùn)練 Google 相冊以外的任何生成式 AI 產(chǎn)品，包括其他 Gemini 型號和產(chǎn)品。

重構(gòu)交互體驗 Android進入Gemini 時代

谷歌表示，隨著 Google AI 成為 Android 操作系統(tǒng)的核心，數(shù)十億使用 Android 的人現(xiàn)在可以以全新的方式與他們的設(shè)備進行交互。

比如，從今天開始，Circle to Search可以幫助學(xué)生完成家庭作業(yè)，當(dāng)學(xué)生圈出他們的提示時，他們會得到分步說明，以解決一系列物理和數(shù)學(xué)問題、單詞問題，而無需離開他們的數(shù)字信息表或教學(xué)大綱。

與此同時，Circle to Search在稍后的更新中，將能夠幫助解決涉及符號公式、圖表、圖形等的更復(fù)雜的問題。谷歌披露，Circle to Search 已經(jīng)在超過 1 億臺設(shè)備上可用。

另外，谷歌在Android 上發(fā)布 Gemini 新型助手，它使用生成式 AI 來幫助用戶提高創(chuàng)造力和生產(chǎn)力。這種體驗已集成到 Android 中，在理解屏幕上的內(nèi)容和用戶正在使用的應(yīng)用程序的上下文方面變得越來越好。

不僅如此，Android基于AI帶來一系列更新，Gemini Nano的多模態(tài)功能將登陸 TalkBack，幫助失明或視力低下的人更豐富、更清晰地描述圖像中發(fā)生的事情。

從今年晚些時候的 Pixel 開始，谷歌還推出最新型號 Gemini Nano with Multimodality，這意味著手機不僅能夠處理文本輸入，還可以在視覺、聲音和口語等上下文中理解更多信息。

第六代TPU Trillium 迄今為止性能最高的TPU

十多年來，谷歌一直在開發(fā)定制的AI專用硬件、張量處理單元（TPU），以推動規(guī)模和效率的前沿發(fā)展。

今天，迄今為止性能最高、能效最優(yōu)的第六代TPU Trillium正式發(fā)布，該硬件支持今天在 Google I/O大會上宣布的包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新型號。所有這些型號的模型都經(jīng)過了TPU的訓(xùn)練，并使用TPU提供服務(wù)。

與 TPU v5e 相比，Trillium TPU 的每芯片峰值計算性能提高了 4.7 倍。與 TPU v5e 相比，Trillium TPU將高帶寬存儲器（HBM）容量和帶寬提高了一倍，并將芯片間互連（ICI）帶寬提高了一倍。

此外，Trillium 還配備了第三代 SparseCore，這是一種專用加速器，用于處理高級排名和推薦工作負(fù)載中常見的超大型嵌入。與此同時，rillium 可以在單個高帶寬、低延遲的 pod 中擴展到 256 個 TPU。

作為硬件產(chǎn)品，谷歌還介紹了客戶案例，谷歌表示，Trillium TPU 將為下一波 AI 模型和代理提供動力，期待通過這些先進功能幫助我們的客戶。例如，自動駕駛汽車公司 Nuro 致力于通過機器人技術(shù)創(chuàng)造更美好的日常生活，方法是使用 Cloud TPU 訓(xùn)練他們的模型。

谷歌宣布，作為十年結(jié)晶，第六代TPU Trillium將于今年晚些時候上市。

文章來源：網(wǎng)易科技

谷歌 Gemini AI助手

網(wǎng)易科技

原創(chuàng)欄目