首頁 > 科技要聞 > 科技> 正文

趕超 GPT-4o,最強(qiáng)大模型 Llama 3.1 405B 一夜封神,扎克伯格:開源引領(lǐng)新時(shí)代

appso 整合編輯:太平洋科技 發(fā)布于:2024-07-24 09:43

就在剛剛,Meta 如期發(fā)布了 Llama 3.1 模型。

簡單來說,超大杯 Llama 3.1 405B 是 Meta 迄今為止最強(qiáng)大的模型,也是全球目前最強(qiáng)大的開源大模型,更是全球最強(qiáng)的大模型。

從今天起,不需要再爭論開源大模型與閉源大模型的孰優(yōu)孰劣,因?yàn)?Llama 3.1 405B 用無可辯駁的實(shí)力證明路線之爭并不影響最終的技術(shù)實(shí)力。

先給大家總結(jié)一下 Llama 3.1 模型的特點(diǎn):

包含 8B、70B 和 405B 三個尺寸,最大上下文提升到了128K,支持多語言,代碼生成性能優(yōu)秀,具有復(fù)雜的推理能力

從基準(zhǔn)測試結(jié)果來看,Llama 3.1 超過了 GPT-4 0125,與 GPT-4o、Claude 3.5 互有勝負(fù)

提供開放/免費(fèi)的模型權(quán)重和代碼,許可證允許用戶進(jìn)行微調(diào),將模型蒸餾到其他形式,并支持在任何地方部署

提供 Llama Stack API,便于集成使用,支持協(xié)調(diào)多個組件,包括調(diào)用外部工具

超大杯登頂全球最強(qiáng)大模型,中杯大杯藏驚喜

本次發(fā)布的 Llama 3.1 共有 8B、70B 和 405B 三個尺寸版本。

從基準(zhǔn)測試結(jié)果來看,超大杯 Llama 3.1 405B 全方位碾壓了 GPT-3.5 Turbo、大部分基準(zhǔn)測試得分超過了 GPT-4 0125。

而面對 OpenAI 此前發(fā)布的最強(qiáng)閉源大模型 GPT-4o 和第一梯隊(duì)的 Claude 3.5 Sonnet,超大杯依然有著一戰(zhàn)之力,甚至僅從紙面參數(shù)上看,Llama 3.1 405B 標(biāo)志開源大模型首次追上了閉源大模型。

細(xì)分到基準(zhǔn)測試結(jié)果,Llama 3.1 405B 在 NIH/Multi-needle 基準(zhǔn)測試的得分為 98.1,雖然仍舊比不上 GPT-4o,但也表明其在處理復(fù)雜信息的能力上堪稱完美。

并且 405B 版本在 ZeroSCROLLS/QuALITY 基準(zhǔn)測試的得分為 95.2,意味著其具有整合海量文本信息的能力,對于關(guān)注 LLM 在 RAG 方面性能的 AI 應(yīng)用開發(fā)者來說,可謂是相當(dāng)友好。

尤為關(guān)注的是,Human-Eval 主要是負(fù)責(zé)測試模型在理解和生成代碼、解決抽象邏輯能力的基準(zhǔn)測試,而 Llama 3.1 405B 在與其他大模型的比拼中也是稍占上風(fēng)。

除了主菜 Llama 3.1 405B,雖為配菜的 Llama 3.1 8B 和 Llama 3.1 70B 也上演了一出「以小勝大」的好戲。

就基準(zhǔn)測試結(jié)果來看,Llama 3.1 8B 幾乎碾壓了 Gemma 2 9B 1T,以及 Mistral 7B Instruct,整體性能也比 Llama 3 8B 有了顯著提升。Llama 3.1 70B 則越級戰(zhàn)勝了 GPT-3.5 Turbo。

據(jù)官方介紹,針對這次發(fā)布的版本,Llama 研究團(tuán)隊(duì)在 150 多個涵蓋多種語言的基準(zhǔn)數(shù)據(jù)集上對模型性能進(jìn)行了評估,以及進(jìn)行了大量的人工評估。

官方最終得出的結(jié)論是:

我們的旗艦?zāi)P驮诙喾N任務(wù)上與頂尖的基礎(chǔ)模型,如 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等,具有競爭力。

同時(shí),我們的小型模型在與參數(shù)數(shù)量相近的封閉和開放模型相比時(shí),也展現(xiàn)出了競爭力。

Llama 3.1 405B 是如何煉成的

那 Llama 3.1 405B 是怎么訓(xùn)練的呢?

據(jù)介紹,作為 Meta 迄今為止最大的模型,Llama 3.1 405B 使用了超過 15 萬億個 token 進(jìn)行訓(xùn)練。

為了實(shí)現(xiàn)這種規(guī)模的訓(xùn)練并在短時(shí)間內(nèi)達(dá)到預(yù)期的效果,研究團(tuán)隊(duì)優(yōu)化了整個訓(xùn)練堆棧,在超過 16000 個 H100 GPU 上進(jìn)行訓(xùn)練,這也是第一個在如此大規(guī)模上訓(xùn)練的 Llama 模型。

團(tuán)隊(duì)也在訓(xùn)練過程中做了一些優(yōu)化,重點(diǎn)是保持模型開發(fā)過程的可擴(kuò)展性和簡單性:

選擇了僅進(jìn)行少量調(diào)整的標(biāo)準(zhǔn)解碼器 Transformer 模型架構(gòu),而不是混合專家模型,以最大限度地提高訓(xùn)練穩(wěn)定性。

采用了一種迭代后訓(xùn)練程序,每一輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使得研究團(tuán)隊(duì)能夠?yàn)槊枯唲?chuàng)建最高質(zhì)量的合成數(shù)據(jù),并提升每項(xiàng)功能的性能。

相較于舊版 Llama 模型,研究團(tuán)隊(duì)改進(jìn)了用于預(yù)訓(xùn)練和后訓(xùn)練的數(shù)據(jù)數(shù)量和質(zhì)量,包括為預(yù)訓(xùn)練數(shù)據(jù)開發(fā)更預(yù)處理和管理管道,為后訓(xùn)練數(shù)據(jù)開發(fā)更嚴(yán)格的質(zhì)量保證與過濾方法。

Meta 官方表示,在 Scaling Law 的影響之下,新的旗艦?zāi)P驮谛阅苌铣^了使用相同方法訓(xùn)練的小型模型。

研究團(tuán)隊(duì)還利用了 405B 參數(shù)模型來提升小型模型的訓(xùn)練后質(zhì)量。

為了支持 405B 規(guī)模模型的大規(guī)模生產(chǎn)推理,研究團(tuán)隊(duì)將模型從 16 位(BF16)精度量化到 8 位(FP8)精度,這樣做有效減少了所需的計(jì)算資源,并使得模型能夠在單個服務(wù)器節(jié)點(diǎn)內(nèi)運(yùn)行。

Llama 3.1 405B 還有一些值得發(fā)掘的細(xì)節(jié),比如在設(shè)計(jì)上注重實(shí)用性和安全性,使其能夠更好地理解和執(zhí)行用戶的指令。

通過監(jiān)督微調(diào)、拒絕采樣和直接偏好優(yōu)化等方法,在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行多輪對齊,構(gòu)建聊天模型,Llama 3.1 405B 也能夠更精確地適應(yīng)特定的使用場景和用戶需求,提高實(shí)際應(yīng)用的表現(xiàn)。

值得一提的是,Llama 研究團(tuán)隊(duì)使用合成數(shù)據(jù)生成來產(chǎn)生絕大多數(shù) SFT 示例,這意味著他們并不全然依賴真實(shí)世界的數(shù)據(jù),而是通過算法生成的數(shù)據(jù)來訓(xùn)練模型。

此外,研究團(tuán)隊(duì)團(tuán)隊(duì)通過多次迭代過程,不斷改進(jìn)合成數(shù)據(jù)的質(zhì)量。為了確保合成數(shù)據(jù)的高質(zhì)量,研究團(tuán)隊(duì)采用了多種數(shù)據(jù)處理技術(shù)進(jìn)行數(shù)據(jù)過濾和優(yōu)化。

通過這些技術(shù),團(tuán)隊(duì)能夠擴(kuò)展微調(diào)數(shù)據(jù)量,使其不僅適用于單一功能,而且可以跨多個功能使用,增加了模型的適用性和靈活性。

簡單來說,這種合成數(shù)據(jù)的生成和處理技術(shù)的應(yīng)用,其作用在于創(chuàng)建大量高質(zhì)量的訓(xùn)練數(shù)據(jù),從而有助于提升模型的泛化能力和準(zhǔn)確性。

作為開源模型路線的擁躉,Meta 也在 Llama 模型的「配套設(shè)施」上給足了誠意。

Llama 模型作為 AI 系統(tǒng)的一部分,支持協(xié)調(diào)多個組件,包括調(diào)用外部工具。

發(fā)布參考系統(tǒng)和開源示例應(yīng)用程序,鼓勵社區(qū)參與和合作,定義組件接口。

通過「Llama Stack」標(biāo)準(zhǔn)化接口,促進(jìn)工具鏈組件和智能體應(yīng)用程序的互操作性。

模型發(fā)布后,所有高級功能對開發(fā)者開放,包括合成數(shù)據(jù)生成等高級工作流。

Llama 3.1 405B 內(nèi)置工具大禮包,包含關(guān)鍵項(xiàng)目,簡化從開發(fā)到部署的流程。

值得注意的是,新開源協(xié)議里,Meta 也不再禁止用 Llama 3 來改進(jìn)其他模型了,其中也包括最強(qiáng)的 405B 尺寸,真·開源大善人。

一個由開源引領(lǐng)的新時(shí)代

網(wǎng)友 @ZHOZHO672070 也火速在 Hugging Chat 上測試了一下 Llama 3.1 405B Instruct FP8 對兩個經(jīng)典問題的回答情況。

遺憾的的是, Llama 3.1 405B 在解決「9.11 和 9.9 誰更大」的難題上遭遇翻車,不過再次嘗試之下,它又給出了正確答案。

而在「我一把把把住了」的拼音標(biāo)注上,其表現(xiàn)也尚可。

網(wǎng)友只用了不到 10 分鐘的時(shí)間,就借助 Llama 3.1 模型快速構(gòu)建和部署了一個聊天機(jī)器人。

另外,Llama 內(nèi)部科學(xué)家 @astonzhangAZ 也在 X 上透露,其研究團(tuán)隊(duì)目前正在考慮將圖像、視頻和語音功能集成到 Llama 3 系列模型之中。

開源和閉源之爭,在大模型時(shí)代依然延續(xù)著,但今天 Meta Llama 3.1 新模型的發(fā)布為這場辯論畫上了句號。

Meta 官方表示,「到目前為止,開源大型語言模型在功能和性能方面大多落后于封閉式模型,F(xiàn)在,我們正迎來一個由開源引領(lǐng)的新時(shí)代!

Llama 3.1 405B 的誕生證明了一件事情,模型的能力不在于開或閉,而在于資源投入、在于人和團(tuán)隊(duì)等因素,Meta 選擇開源或許出于很多因素,但總會有人扛起這面大旗。

只不過,作為第一個吃螃蟹的巨頭,Meta 也因此收獲了首個超越最強(qiáng)閉源大模型的 SOTA 稱號。

Meta CEO 扎克伯格在今天發(fā)布的長文《Open Source AI Is the Path Forward》中寫道:

「從明年開始,我們預(yù)計(jì)未來的 Llama 將成為業(yè)內(nèi)最先進(jìn)的。但在此之前,Llama 已經(jīng)在開源性、可修改性和成本效率方面領(lǐng)先!

開源 AI 模型志不在超越閉源,或出于技術(shù)平權(quán),不會讓其成為少數(shù)人牟利的手段,或出于眾人拾柴火焰高,推動 AI 生態(tài)的繁榮發(fā)展。

正如扎克伯格在其長文末尾所描述的愿景那樣:

我相信 Llama 3.1 版本將成為行業(yè)的一個轉(zhuǎn)折點(diǎn),大多數(shù)開發(fā)人員將開始轉(zhuǎn)向主要使用開源技術(shù),我期待這一趨勢從現(xiàn)在開始持續(xù)發(fā)展……共同致力于將 AI 的福祉帶給全球的每一個人。

本文來源:Appso

Llama 3   1    開源大模型    Meta
appso

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部