首頁 > 科技要聞 > 科技> 正文

老黃一口氣解密三代GPU!粉碎摩爾定律打造AI帝國(guó),量產(chǎn)Blackwell解決ChatGPT全球耗電難題

新智元 整合編輯:太平洋科技 發(fā)布于:2024-06-04 16:54

6月2日,老黃手持Blackwell向全世界展示的那一刻,全場(chǎng)的觀眾沸騰了。

它,是迄今為止世界最大的芯片!

眼前的這塊產(chǎn)品,凝聚著數(shù)量驚人的技術(shù)

如果用老黃的話說,它就是「全世界迄今為止制造出來的最復(fù)雜、性能最高的計(jì)算機(jī)!

8年內(nèi),1.8萬億參數(shù)GPT-4的訓(xùn)練能耗,直接瘋狂降到1/350;而推理能耗則直接降到1/45000

英偉達(dá)產(chǎn)品的迭代速度,已經(jīng)徹底無視摩爾定律。

就如網(wǎng)友所言,無所謂,老黃有自己的摩爾定律。

一手硬件,一手CUDA,老黃胸有成竹地穿過「計(jì)算通貨膨脹」,放出豪言預(yù)測(cè)道——在不久的將來,每一個(gè)處理密集型應(yīng)用都將被加速,每一個(gè)數(shù)據(jù)中心也肯定會(huì)被加速。

同時(shí)公開的Blackwell后三代路線圖:Blackwell Ultra(2025年),Rubin(2026年),Rubin Ultra(2027年)

「買得越多,省得越多」的黃式數(shù)學(xué)公式,也再次亮相。

全新計(jì)算時(shí)代開啟

演講開篇,老黃最先放出了一個(gè)Omniverse模擬世界中的演示。

他表示,「英偉達(dá)正處于計(jì)算機(jī)圖形模擬和人工智能的交叉點(diǎn)上。這是我們的『靈魂』」。

這一切都是物理世界中的模擬,它的實(shí)現(xiàn),得益于兩項(xiàng)基本的技術(shù)——加速計(jì)算和人工智能,將重塑計(jì)算機(jī)產(chǎn)業(yè)。

到目前為止,計(jì)算機(jī)行業(yè)已有60多年的歷史,而現(xiàn)在,一個(gè)全新的計(jì)算時(shí)代已然開始。

1964年,IBM的System 360首次引入了CPU,通用計(jì)算通過操作系統(tǒng)將硬件和軟件分離。架構(gòu)兼容性、向后兼容性等等,所有我們今天所了解的技術(shù),都是從這個(gè)時(shí)間點(diǎn)而來。

直到1995年,PC革命開啟讓計(jì)算走進(jìn)千家萬戶,更加民主化。2007年,iPhone推出直接把「電腦」裝進(jìn)了口袋,并實(shí)現(xiàn)了云端鏈接。

可以看出,過去60年里,我們見證了2-3個(gè)推動(dòng)計(jì)算行業(yè)轉(zhuǎn)變的重要技術(shù)節(jié)點(diǎn)。

加速計(jì)算:一手GPU,一手CUDA

而如今,我們將再一次見證歷史。老黃表示,「有兩個(gè)最基礎(chǔ)的事情正發(fā)生」。

首先是處理器,性能擴(kuò)展已經(jīng)大大放緩,而我們所需的計(jì)算量、需要處理的數(shù)據(jù)都在呈指數(shù)級(jí)增長(zhǎng)。

按老黃的話來說,我們正經(jīng)歷著「計(jì)算通貨膨脹」。

過去的20年里,英偉達(dá)一直在研究加速計(jì)算。比如,CUDA的出現(xiàn)加速了CPU負(fù)載。事實(shí)上,專用的GPU效果會(huì)更好。

當(dāng)我們運(yùn)行一個(gè)應(yīng)用程序,不希望是一個(gè)運(yùn)行100秒,甚至是100個(gè)小時(shí)的APP。

因此,英偉達(dá)首創(chuàng)了異構(gòu)計(jì)算,讓CPU和GPU并行運(yùn)行,將過去的100個(gè)時(shí)間單位,加速到僅需要1個(gè)時(shí)間單位。

可見,它已經(jīng)實(shí)現(xiàn)了100倍速率提升,而功耗僅增加的3倍,成本僅為原來的1.5倍。

英偉達(dá)同時(shí)為價(jià)值十億美元的數(shù)據(jù)中心,配備了5億美元的GPU,讓其變成了「AI工廠」。

有了加速計(jì)算,世界上許多公司可以節(jié)省數(shù)億美元在云端處理數(shù)據(jù)。這也印證了老黃的「數(shù)學(xué)公式」,買得越多,省得越多。

除了GPU,英偉達(dá)還做了業(yè)界難以企及的事,那就是重寫軟件,以加速硬件的運(yùn)行。

如下圖所示,從深度學(xué)習(xí)cuDNN、物理Modulus、通信Aerial RAN、基因序列Parabricks,到QC模擬cuQUANTUM、數(shù)據(jù)處理cuDF等領(lǐng)域,都有專用的CUDA軟件。

也就是說,沒有CUDA,就等同于計(jì)算機(jī)圖形處理沒有OpenGL,數(shù)據(jù)處理沒有SQL。

而現(xiàn)在,采用CUDA的生態(tài)遍布世界各地。就在上周,谷歌宣布將cuDF加入谷歌云中,并加速世界上受歡迎的數(shù)據(jù)科學(xué)庫(kù)Pandas。

而現(xiàn)在,只需要點(diǎn)擊一下,就可以在CoLab中使用Pandas。就看這數(shù)據(jù)處理速度,簡(jiǎn)直快到令人難以置信。

老黃表示,要推行一個(gè)全新的平臺(tái)是「蛋和雞」的困境,開發(fā)者和用戶,缺一不可。

但是經(jīng)過20年的發(fā)展,CUDA已經(jīng)打破了這個(gè)困境,通過全球500萬開發(fā)者和無數(shù)領(lǐng)域的用戶實(shí)現(xiàn)了良性循環(huán)。

有越多人安裝CUDA,運(yùn)行的計(jì)算量越大,他們就越能據(jù)此改進(jìn)性能,迭代出更高效、更節(jié)能的CUDA。

「AI工廠」全棧重塑

2012年,神經(jīng)網(wǎng)絡(luò)AlexNet的誕生,將英偉達(dá)第一次與AI聯(lián)系起來。我們都知道,AI教父Hinton和高徒當(dāng)時(shí)在2個(gè)英偉達(dá)GPU上完成AlexNet的訓(xùn)練。

深度學(xué)習(xí)就此開啟,并以超乎想像的速度,擴(kuò)展幾十年前發(fā)明的算法。

但由于,神經(jīng)網(wǎng)絡(luò)架構(gòu)不斷scaling,對(duì)數(shù)據(jù)、計(jì)算量「胃口」愈加龐大,這就不得不需要英偉達(dá)重新發(fā)明一切。

2012年之后,英偉達(dá)改變了Tensor Core,并發(fā)明了NvLink,還有TensorRT、Triton推理服務(wù)器等等,以及DGX超算。

當(dāng)時(shí),英偉達(dá)的做法沒有人理解,更沒人愿意為之買單。

由此,2016年,老黃親自將英偉達(dá)首個(gè)DGX超算送給了位于舊金山的一家「小公司」OpenAI。

從那之后,英偉達(dá)在不斷擴(kuò)展,從一臺(tái)超算、到一個(gè)超大型數(shù)據(jù)中心。

直到,2017年Transformer架構(gòu)誕生,需要更大的數(shù)據(jù)訓(xùn)練LLM,以識(shí)別和學(xué)習(xí)一段時(shí)間內(nèi)連續(xù)發(fā)生的模式。

之后,英偉達(dá)建造了更大的超算。2022年11月,在英偉達(dá)數(shù)萬個(gè)GPU上完成訓(xùn)練的ChatGPT橫空出世,能夠像人類一樣交互。

這是世界第一次看到了生成式AI。它會(huì)一次輸出一個(gè)token,可以是圖像、語音、文字、視頻,甚至是天氣token,全部都是關(guān)于生成。

老黃表示,「我們可以學(xué)習(xí)的一切,現(xiàn)在都可以生成。我們現(xiàn)在已經(jīng)進(jìn)入了一個(gè)全新的生成式AI時(shí)代」。

當(dāng)初,那個(gè)作為超算出現(xiàn)的計(jì)算機(jī),已經(jīng)變成了數(shù)據(jù)中心。它可以輸出token,搖身一變成為了「AI工廠」。

而這個(gè)「AI工廠」,正在創(chuàng)造和生產(chǎn)巨大價(jià)值的東西。

19世紀(jì)90年代末,尼古拉·特斯拉發(fā)明了AC Generator,而現(xiàn)在,英偉達(dá)正創(chuàng)造可以輸出token的AI Generator。

英偉達(dá)給世界帶來的是,加速計(jì)算正引領(lǐng)新一輪產(chǎn)業(yè)革命。

人類首次實(shí)現(xiàn)了,僅靠3萬億美元的IT產(chǎn)業(yè),創(chuàng)造出能夠直接服務(wù)于100萬億美元產(chǎn)業(yè)的一切東西。

傳統(tǒng)的軟件工廠,到如今AI工廠的轉(zhuǎn)變,實(shí)現(xiàn)了CPU到GPU,檢索到生成,指令到大模型,工具到技能的升級(jí)。

可見,生成式AI推動(dòng)了全棧的重塑。

從Blackwell GPU到超級(jí)「AI工廠」

接下來就讓我們看看,英偉達(dá)是如何將一顆顆地表最強(qiáng)的Blackwell芯片,變成一座座超級(jí)「AI工廠」的。

注意看,下面這塊是搭載了Blackwell GPU的量產(chǎn)級(jí)主板。

老黃手指的這里是Grace CPU。

而在這里,我們可以清晰地看到,兩個(gè)連在一起的Blackwell芯片。

在8年里,每一代英偉達(dá)芯片的Flops,都增長(zhǎng)了1000倍。

與此同時(shí),摩爾定律在這8年里,卻似乎逐漸失效了。

即使和摩爾定律最好的時(shí)刻相比,Blackwell算力的提升也是驚人的。

這將直接導(dǎo)致的結(jié)果,就是成本的顯著下降。

比如,訓(xùn)練一個(gè)1.8萬億參數(shù)、8萬億token的GPT-4所用的能耗,直接降至1/350!

Pascal需要消耗的,是1000吉瓦時(shí),這就意味著,它需要一個(gè)1000吉瓦的數(shù)據(jù)中心。(1吉瓦=1000兆瓦)

而且如果這樣的數(shù)據(jù)中心真的存在的話,訓(xùn)練也GPT-4也需要整整一個(gè)月的時(shí)間。

而100兆瓦的數(shù)據(jù)中心,大概需要一年。

這也就是為什么,ChatGPT這樣的LLM, 在八年前是根本不可能存在的。

如今有了Blackwell,過去的1000吉瓦時(shí)直接可以降到3吉瓦時(shí)。

可以說,Blackwell就是為了推理,為了生成token而生的。它直接將每token的能量降低了45000倍。

在以前,用Pascal產(chǎn)生1個(gè)token的消耗,相當(dāng)于兩個(gè)200瓦的燈泡運(yùn)行2天。讓GPT-4生成一個(gè)單詞,大概需要3個(gè)token。這根本不可能讓我們得到如今和GPT-4聊天的體驗(yàn)。

而現(xiàn)在,我們每個(gè)token可以只使用0.4焦耳,用很少的能量,就能產(chǎn)生驚人的token。

它誕生的背景,正是運(yùn)算模型規(guī)模的指數(shù)級(jí)增長(zhǎng)。

每一次指數(shù)級(jí)增長(zhǎng),都進(jìn)入一種嶄新的階段。

當(dāng)我們從DGX擴(kuò)展到大型AI超算,Transformer可以在大規(guī)模數(shù)據(jù)集上訓(xùn)練。

而下一代AI,則需要理解物理世界。然而如今大多數(shù)AI并不理解物理規(guī)律。其中一種解決辦法,是讓AI學(xué)習(xí)視頻資料,另一種,則是合成數(shù)據(jù)。

第三種,則是讓計(jì)算機(jī)互相學(xué)習(xí)!本質(zhì)上就和AlphaGo的原理一樣。

巨量的計(jì)算需求涌來,如何解決?目前的辦法就是——我們需要更大的GPU。

而Blackwell,正是為此而生。

Blackwell中,有幾項(xiàng)重要的技術(shù)創(chuàng)新。

第一項(xiàng),就是芯片的尺寸。

英偉達(dá)將兩塊目前能造出來的最大尺寸的芯片,用一條10TB/s的鏈路鏈接起來;然后再把它們放到同一個(gè)計(jì)算節(jié)點(diǎn)上,和一塊Grace CPU相連。

在訓(xùn)練時(shí),它被用于快速檢查點(diǎn);而在推理和生成的場(chǎng)景,它可以用于儲(chǔ)存上下文內(nèi)存。

而且,這種第二代GPU還有高度的安全性,我們?cè)谑褂脮r(shí)完全可以要求服務(wù)器保護(hù)AI不受偷竊或篡改。

并且,Blackwell中采用的是第5代NVLink。

而且,它是第一代可信賴、可使用的引擎,

通過該系統(tǒng),我們可以測(cè)試每一個(gè)晶體管、觸發(fā)器、片上內(nèi)存和片外內(nèi)存,因此我們可以當(dāng)場(chǎng)確定某個(gè)芯片是否出現(xiàn)故障。

基于此,英偉達(dá)將擁有十萬個(gè)GPU超算的故障間隔時(shí)間,縮短到了以分鐘為單位。

因此,如果我們不發(fā)明技術(shù)來提高超算的可靠性,那么它就不可能長(zhǎng)期運(yùn)行,也不可能訓(xùn)練出可以運(yùn)行數(shù)月的模型。

如果提高可靠性,就會(huì)提高模型正常的運(yùn)行時(shí)間,而后者顯然會(huì)直接影響成本。

最后,老黃表示,解壓縮引擎的數(shù)據(jù)處理,也是英偉達(dá)必須做的最重要的事之一。

通過增加數(shù)據(jù)壓縮引擎、解壓縮引擎,就能以20倍的速度從存儲(chǔ)中提取數(shù)據(jù),比現(xiàn)在的速度要快得多。

超強(qiáng)風(fēng)冷DGX & 全新液冷MGX

Blackwell是一個(gè)重大的躍進(jìn),但對(duì)老黃來說,這還不夠大。

英偉達(dá)不僅要做芯片,還要制造搭載最先進(jìn)芯片的服務(wù)器。擁有Blackwell的DGX超算,在各方面都實(shí)現(xiàn)了能力躍升。

集成了Blackwell芯片的最新DGX,能耗僅比上一代Hopper提升了10倍,但FLOPS量級(jí)卻提升了45倍。

下面這個(gè)風(fēng)冷的DGX Blackwell,里面有8個(gè)GPU。

而對(duì)應(yīng)散熱器的尺寸也很驚人,達(dá)到了15kW,并且是完全的風(fēng)冷。

如果你喜歡部署液冷系統(tǒng)呢?英偉達(dá)也有新型號(hào)MGX。

單個(gè)MGX同時(shí)集成72個(gè)Blackwell GPU,且有最新的第五代NVLink每秒130TB的傳輸速度。

NVLink將這些單獨(dú)的GPU彼此連接起來,因此我們就得到了72個(gè)GPU的MGX

介紹完芯片,老黃特意提到了英偉達(dá)研發(fā)的NVLink技術(shù),這也是英偉達(dá)的主板可以越做越大的重要原因。

由于LLM參數(shù)越來越多、越來越消耗內(nèi)存,想要把模型塞進(jìn)單個(gè)GPU已經(jīng)幾乎是不可能的事情,必需搭建集群。其中,GPU通信技術(shù)的重要性不亞于計(jì)算能力。

英偉達(dá)的NVLink,是世界上最先進(jìn)的GPU互連技術(shù),數(shù)據(jù)傳輸速率可以堪稱瘋狂!

因?yàn)槿缃竦腄GX擁有72個(gè)GPU,而上一代只有8個(gè),讓GPU數(shù)直接增加了9倍。而帶寬量,則直接增加了18倍,AI FLops增加了45倍,但功率僅僅增加了10倍,也即100千瓦。

下面這個(gè)NVLink芯片,也堪稱是奇跡。

人們之所以意識(shí)到它的重要性,是因?yàn)樗鼘⑺羞@些不同的GPU連接在一起,從而能夠讓十萬億參數(shù)的LLM運(yùn)行起來。

500億個(gè)晶體管,74個(gè)端口,每個(gè)端口400GB,7.2TB每秒的橫截面帶寬,這本身就是個(gè)奇跡。

而更重要的是,NVLink內(nèi)部還具有數(shù)學(xué)功能,可以實(shí)現(xiàn)歸約。對(duì)于芯片上的深度學(xué)習(xí),這尤其重要。

有趣的是,NVLink技術(shù),大大拓寬了我們對(duì)于GPU的想象。

比如在傳統(tǒng)的概念中,GPU應(yīng)該長(zhǎng)成這樣。

但有了NVLink,GPU也可以變成這么大。

支撐著72個(gè)GPU的骨架,就是NVLink的5000根電纜,能夠在傳輸方面節(jié)省20kw的功耗用于芯片計(jì)算。

老黃拿在手里的,是一個(gè)NVLink的主干,用老黃的原話說,它是一個(gè)「電氣機(jī)械奇跡」

NVLink做到的僅僅是將不同GPU芯片連接在一起,于是老黃又說了一句「這還不夠宏大」。

要連接超算中心內(nèi)不同的主機(jī),最先進(jìn)的技術(shù)是「無限帶寬」(InfiniBand)。

但很多數(shù)據(jù)中心的基礎(chǔ)設(shè)施和生態(tài),都是基于曾經(jīng)使用的以太網(wǎng)構(gòu)建的,推倒重來的成本過高。

因此,為了幫助更多的數(shù)據(jù)中心順利邁進(jìn)AI時(shí)代,英偉達(dá)研發(fā)了一系列與AI超算適配的以太交換機(jī)。

網(wǎng)絡(luò)級(jí)RDMA、阻塞控制、適應(yīng)性路由、噪聲隔離,英偉達(dá)利用自己在這四項(xiàng)技術(shù)上的頂尖地位,將以太網(wǎng)改造成了適合GPU之間點(diǎn)對(duì)點(diǎn)通信的網(wǎng)絡(luò)。

由此也意味著,數(shù)百萬GPU數(shù)據(jù)中心的時(shí)代,即將到來。

全球2800萬開發(fā)者,即時(shí)部署LLM

在英偉達(dá)的AI工廠中,運(yùn)行著可以加速計(jì)算推理的新型軟件——NIM。

老黃表示,「我們創(chuàng)建的是容器里的AI」。

這個(gè)容器里有大量的軟件,其中包括用于推理服務(wù)的Triton推理服務(wù)器、優(yōu)化的AI模型、云原生堆棧等等。

現(xiàn)場(chǎng),老黃再一次展示了全能AI模型——可以實(shí)現(xiàn)全模態(tài)互通。有了NIM,這一切都不是問題。

它可以提供一種簡(jiǎn)單、標(biāo)準(zhǔn)化的方式,將生成式AI添加到應(yīng)用程序中,大大提高開發(fā)者的生產(chǎn)力。

現(xiàn)在,全球2800萬開發(fā)者都可以下載NIM到自己的數(shù)據(jù)中心,托管使用。

未來,不再耗費(fèi)數(shù)周的時(shí)間,開發(fā)者們可以在幾分鐘內(nèi),輕松構(gòu)建生成式AI應(yīng)用程序。

與此同時(shí),NIM還支持Meta Llama 3-8B,可以在加速基礎(chǔ)設(shè)施上生成多達(dá)3倍的token。

這樣一來,企業(yè)可以使用相同的計(jì)算資源,生成更多的響應(yīng)。

而基于NIM打造的各類應(yīng)用,也將迸發(fā)涌現(xiàn),包括數(shù)字人、智能體、數(shù)字孿生等等。

老黃表示,「NVIDIA NIM集成到各個(gè)平臺(tái)中,開發(fā)人員可以隨處訪問,隨處運(yùn)行 —— 正在幫助技術(shù)行業(yè)使生成式 AI 觸手可及」。

智能體組隊(duì),萬億美元市場(chǎng)

而智能體,是未來最重要的應(yīng)用。

老黃稱,幾乎每個(gè)行業(yè)都需要客服智能體,有著萬億美元的市場(chǎng)前景。

可以看到,在NIM容器之上,大多數(shù)智能體負(fù)責(zé)推理,去弄清任務(wù)并將其分解成多個(gè)子任務(wù)。還有一些,它們負(fù)責(zé)檢索信息、搜索,甚至是使用工具等。

所有智能體,組成了一個(gè)team。

未來,每家公司都將有大量的NIM智能體,通過連接起來組成一個(gè)團(tuán)隊(duì),完成不可能的任務(wù)。

GPT-4o軀殼,老黃做出來了

在人機(jī)交互這方面,老黃和Sam Altman可以說是想到一起了。

他表示,雖然可以使用文字或語音形式的prompt給AI下達(dá)指令,但很多應(yīng)用中,我們還是需要更自然的、更類人的交互方式。

這指向了老黃的一個(gè)愿景——數(shù)字人。相比現(xiàn)在的LLM,它們可以更吸引人,更有同理心。

GPT-4o雖是實(shí)現(xiàn)了無法比擬的類人交互,但缺少的是一個(gè)「軀體」。

而這次,老黃都幫OpenAI想好了。

未來,品牌大使也不一定是「真人」,AI完全可以勝任。

從客戶服務(wù),到廣告、游戲等各行各業(yè),數(shù)字人帶來的可能將是無限的。

連接Gen AI的CG技術(shù),還可以實(shí)時(shí)渲染出逼真的人類面部。

低延遲的數(shù)字人處理,遍及全球超過100個(gè)地區(qū)。

這是由英偉達(dá)ACE提供的魔力,能夠?yàn)閯?chuàng)建栩栩如生的數(shù)字人,提供相應(yīng)的AI工具。

現(xiàn)在,英偉達(dá)計(jì)劃在1億臺(tái)RTX AI個(gè)人電腦和筆記本電腦上,部署ACE PC NIM微服務(wù)。

這其中包括英偉達(dá)首個(gè)小語言模型——Nemotron-3 4.5B,專為在設(shè)備上運(yùn)行而設(shè)計(jì),具備與云端LLM相似的精度和準(zhǔn)確性。

此外,ACE數(shù)字人類AI新套件還包括基于音軌生成身體手勢(shì)——NVIDIA Audio2Gesture,即將推出。

老黃表示,「數(shù)字人類將徹底改變各個(gè)行業(yè),ACE提供的多模態(tài)LLM和神經(jīng)圖形學(xué)的突破,使我們更接近意圖驅(qū)動(dòng)計(jì)算的未來,與計(jì)算機(jī)的交互將如同與人類的交互一樣自然」。

預(yù)告下一代芯片Rubin

Hopper和Blackwell系列的推出,標(biāo)志著英偉達(dá)逐漸搭建起完整的AI超算技術(shù)棧,包括CPU、GPU芯片,NVLink的GPU通信技術(shù),以及NIC和交換機(jī)組成的服務(wù)器網(wǎng)絡(luò)。

如果你愿意的話,可以讓整個(gè)數(shù)據(jù)中心都使用英偉達(dá)的技術(shù)。

這足夠大、足夠全棧了吧。但是老黃表示,我們的迭代速度還要加快,才能跟上GenAI的更新速度。

今天的演講中,老黃再次實(shí)錘官宣GPU年更。但是他又緊跟著疊了個(gè)甲,說自己可能會(huì)后悔。

無論如何,我們現(xiàn)在知道了,英偉達(dá)不久后就會(huì)推出Blackwell Ultra,以及明年的下一代的Rubin系列。

從孿生地球,到具身AI機(jī)器人

除了芯片和超算服務(wù)器,老黃還發(fā)布了一個(gè)所有人都沒有想到的項(xiàng)目——數(shù)字孿生地球「Earth-2」。

這也許是世界范圍內(nèi)最有雄心的項(xiàng)目(甚至沒有之一)。

而且根據(jù)老黃的口吻推測(cè),Earth-2已經(jīng)推進(jìn)了數(shù)年,今年取得的重大突破才讓他覺得,是時(shí)候亮出來了。

為什么要為建造整個(gè)地球的數(shù)字孿生?是要像小扎的元宇宙那樣,把社交和互動(dòng)都搬到線上平臺(tái)嗎?

不,老黃的愿景更宏偉一些。

他希望在Earth-2的模擬,可以預(yù)測(cè)整個(gè)星球的未來,從而幫我們更好地應(yīng)對(duì)氣候變化和各種極端天氣,比如可以預(yù)測(cè)臺(tái)風(fēng)的登陸點(diǎn)。

Earth-2結(jié)合了生成式AI模型CorrDiff,基于WRF數(shù)值模擬進(jìn)行訓(xùn)練,能以12倍更高的解析度生成天氣模型,從25公里范圍提高到2公里。

不僅解析度更高,而且相比物理模擬的運(yùn)行速度提高了1000倍,能源效率提高了3000倍,因此可以在服務(wù)器上持續(xù)運(yùn)行、實(shí)時(shí)預(yù)測(cè)。

而且,Earth-2的下一步還要將預(yù)測(cè)精度從2公里提升到數(shù)十米,同時(shí)考慮城市內(nèi)的基礎(chǔ)設(shè)施,甚至可以預(yù)測(cè)到街道上什么時(shí)候會(huì)刮來強(qiáng)風(fēng)。

而且,英偉達(dá)想數(shù)字孿生的,不止是地球,還有整個(gè)物理世界。

對(duì)于這個(gè)狂飆突進(jìn)的AI時(shí)代,老黃大膽預(yù)測(cè)了下一波浪潮——物理AI,或者說是具身AI。

它們不僅需要有超高的認(rèn)知能力,可以理解人類、理解物理世界,還要有極致的行動(dòng)力,完成各種現(xiàn)實(shí)任務(wù)。

想象一下這個(gè)賽博朋克的未來:一群機(jī)器人在一起,像人類一樣交流、協(xié)作,在工廠里創(chuàng)造出更多的機(jī)器人。

而且,不僅僅是機(jī)器人。一切能移動(dòng)的物體都會(huì)是自主的!

在多模態(tài)AI的驅(qū)動(dòng)下,它們可以學(xué)習(xí)、感知世界,理解人類指令,并進(jìn)化出計(jì)劃、導(dǎo)航以及動(dòng)作技能,完成各種復(fù)雜任務(wù)。

那要怎樣訓(xùn)練這些機(jī)器人呢?如果讓他們?cè)诂F(xiàn)實(shí)世界橫沖直撞,代價(jià)要比訓(xùn)練LLM大得多。

這時(shí),數(shù)字孿生世界就大有用武之地了。

正像LLM可以通過RLHF進(jìn)行價(jià)值觀對(duì)齊一樣,機(jī)器人也可以在遵循物理規(guī)律的數(shù)字孿生世界中不斷試錯(cuò)、學(xué)習(xí),模仿人類行為,最終達(dá)到通用智能。

Nvidia的Omniverse可以作為構(gòu)建數(shù)字孿生的平臺(tái),集成Gen AI模型、物理模擬以及動(dòng)態(tài)實(shí)時(shí)的渲染技術(shù),成為「機(jī)器人健身房」。

志在做全棧的英偉達(dá)也不僅僅滿足于操作系統(tǒng)。他們還會(huì)提供用于訓(xùn)練模型的超算,以及用于運(yùn)行模型的Jetson Thor和Orin。

為了適應(yīng)不同應(yīng)用場(chǎng)景下的機(jī)器人系統(tǒng),英偉達(dá)的Omniverse將逐步擴(kuò)展為Warehouse生態(tài)系統(tǒng)。

這個(gè)生態(tài)將無所不包,從搭配應(yīng)用程序的SDK和API,到運(yùn)行邊緣AI計(jì)算的接口,再到最底層的可定制芯片。

在全棧產(chǎn)品方面,英偉達(dá)就是想要做自己的「全家桶」,讓別人無路可走。

為了讓這個(gè)AI 機(jī)器人時(shí)代看起來更真實(shí),演示的最后,9個(gè)和老黃有同樣身高的機(jī)器人一同登場(chǎng)。

正如老黃所說的,「這不是未來,這一切都正在發(fā)生」。

參考資料:

https://www.nvidia.cn/events/computex/?ncid=so-wech-642406

本文來源:新智元

 
新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部