首頁 > 科技要聞 > 科技> 正文

一張頂20張H100!首款大模型專用ASIC挑戰(zhàn)英偉達,哈佛輟學(xué)華人參與創(chuàng)辦

量子位 整合編輯:太平洋科技 發(fā)布于:2024-06-26 15:03

首款大模型推理專用ASIC芯片問世,一上來就要挑戰(zhàn)英偉達——

一張頂20張H100

700億參數(shù)Llama 3吞吐量達到每秒500000(五十萬)tokens

比英偉達下一代芯片GB200快一個數(shù)量級,還更便宜

Sohu芯片,來自初創(chuàng)公司Etched,一經(jīng)推出就引起業(yè)界墻裂關(guān)注。

作為專用集成電路ASIC,與通用計算的GPU不同,它只支持Transformer一種算法,無法運行同為神經(jīng)網(wǎng)絡(luò)的CNN、LSTM、以及Mamba等狀態(tài)空間模型。

Etched公司也剛剛完成1.2億美元A輪融資(約8.7億元人民幣),Peter Thiel、GitHub現(xiàn)任CEO Thomas Dohmke等重量級天使投資人參與。公司還透露,已有某客戶預(yù)定了價值數(shù)千萬美元的硬件產(chǎn)品。

今天的每個SOTA模型都基于Transformer,ChatGPT、Sora、Gemini、Stable Diffusion 3等。

假如有一天Transformer被SSM、RWKV或任何新架構(gòu)取代,我們的芯片將毫無價值。

但如果我們是對的,Sohu將改變世界。

對此,Mamba作者Tri Dao也感嘆:

這是一場豪賭,不過大模型推理需求正盛,所以可能是正確的入場時機。

有網(wǎng)友一算,人平均每天說1.8萬個單詞,那Sohu芯片一秒內(nèi)就能生成21個人一天說的所有話,感覺太虛幻了。

(但實際上每秒500000tokens吞吐量包含輸入和輸出,不是純生成這么多)

那么Sohu能威脅到英偉達的地位么?

考慮到Sohu更適合推理而不是訓(xùn)練,對于其他注重AI推理的芯片如和更是一種挑戰(zhàn),而不是威脅英偉達。

實在不行,老黃也可以使用鈔能力把整個Etched買下來嘛(手動狗頭)。

把Transformer燒錄到芯片里

ASIC全稱是應(yīng)用專用集成電路(Application-Specific Integrated Circuit),相當(dāng)于把某種特定的程序“硬件化”。并且只為一種任務(wù)優(yōu)化,去掉不必要的功能,以達到比通用芯片更快并且功耗更低的目的。

如比特幣后期,礦工們就拋棄了GPU,使用挖礦專用ASIC芯片能帶來更多的利潤。又或者手機里的視頻解碼芯片,通常也是一種ASIC。

具體到Sohu,就相當(dāng)于把Transformer網(wǎng)絡(luò)架構(gòu)“燒錄”到芯片里,公司名稱Etched也是取自“蝕刻”的意思。

Sohu由臺積電4nm工藝制造,只有1個核心,每張芯片配有144GB HBM3E高帶寬內(nèi)存。

一張芯片最高能支持100萬億參數(shù)大模型(現(xiàn)在根本還沒有這么大的),支持MoE架構(gòu)和各種Transformer變體,支持束搜索和蒙特卡洛樹搜索解碼。

基本上今天主流大模型需要的支持都考慮到了。

在Etched自己給出的測試結(jié)果中,Sohu比推理Llama-3 70B比H100快20倍以上,

具體設(shè)置如下:

FP8精度的Llama-3 70B,無稀疏性,8倍模型并行,2048輸入長度/128輸出長度

使用TensorRT-LLM 0.10.08(最新版本)評估H100性能,B200的數(shù)字是估計的

Etched團隊表示,H100有800億個晶體管,卻只有3.3%用于矩陣乘法,這種大模型推理時最常見的運算。

只支持Tranformer的Sohu芯片F(xiàn)LOPS有效利用率超過90%(GPU大約是30%),無需用低精度量化或稀疏性等降低推理成本,同時也在一定程度上削弱模型能力的方法了。

讓AI模型快了20倍、同時更便宜,能帶來哪些改變?

Etched團隊列舉了今天SOTA模型的幾個痛點:

Gemini需要60秒才能回答與視頻有關(guān)的問題

編程智能體的成本還高于人類軟件工程師

視頻生成模型每秒約生成一幀

同時它們也給出了3個應(yīng)用場景參考:

實時語音客服,幾毫秒理解幾千字并給出回復(fù)。

具體場景是飯店顧客問還需要等多長時間才有座位,AI查詢系統(tǒng)中每桌預(yù)定情況數(shù)據(jù)后,計算出還要等45分鐘,并引導(dǎo)用戶預(yù)定位置。

代碼場景,使用樹搜索算法并行比較幾百個方案,選擇最好的。

文本生成,也能更好地利用投機解碼提高生成的質(zhì)量和速度。

目前Sohu開發(fā)者云已開啟搶先體驗申請,在實際場景中能取得什么樣的效果,量子位將持續(xù)關(guān)注。

兩哈佛輟學(xué)生創(chuàng)辦

Etched公司成立僅兩年,由兩位哈佛輟學(xué)生Gavin UbertiChris Zhu創(chuàng)辦。

兩人聲稱在2022年就賭Transformer將改變世界。領(lǐng)英資料也顯示公司創(chuàng)立時間在2022年10月,比ChatGPT問世還早一個月。

Etched剛剛完成1.2億美元的A輪融資,由Primary Venture Partners和Positive Sum Ventures共同領(lǐng)投,主要投資人還包括Peter Thiel、GitHub首席執(zhí)行官Thomas Dohmke、Cruise聯(lián)合創(chuàng)始人Kyle Vogt和Quora聯(lián)合創(chuàng)始人Charlie Cheever。

除了這些大咖之外,我們發(fā)現(xiàn)也有不少AI初創(chuàng)公司創(chuàng)始人投資了Etched后激情“曬單”。


投資者中的不少人都認(rèn)同Transformer專用芯片是不可避免的新趨勢。

四年間,GPU并沒有變得更好

Etched提出,GPU在過去四年間效率并沒有變得更好,只是變得更大了:芯片每平方毫米的的TFLOPS幾乎持平。

事實上老黃本人也在今年GTC大會上提出:

在Etched看來,隨著摩爾定律放緩,同時在性能和效率上取得突破的方法只剩下專用化。

不過對Etched和Sohu芯片,業(yè)界也有人提出質(zhì)疑。

曾撰寫爆火教程的華盛頓大學(xué)博士生Tim Dettmers指出,Etched官方的測試數(shù)據(jù)中GPU的性能可能并不是當(dāng)前SOTA方法。

創(chuàng)始人Uberti解釋H100的數(shù)據(jù)取自英偉達官方測試。

也有人不看好的原因是,Transformer之后還是會有下一個重大架構(gòu)突破。

曾有投資人透露,至少有6家公司正在秘密開發(fā)Transformer專用ASIC芯片,現(xiàn)在看來Etched只是浮出水面的第一家。

你看好Transformer專用芯片嗎?歡迎在評論區(qū)留下你的看法。

參考鏈接:
[1]https://www.etched.com/announcing-etched
[2]https://x.com/Etched/status/1805625693113663834
[3]https://x.com/Object_Zero_/status/1769673722057662821

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部