首頁 > 科技要聞 > 科技> 正文

字節(jié)跳動大模型首次全員亮相:一口氣9個,價格低99%,沒有參數(shù)規(guī)模和榜單分?jǐn)?shù)

量子位 整合編輯:龔震 發(fā)布于:2024-05-16 18:04

字節(jié)跳動,終于摘下了自家大模型的神秘面紗。

就在剛剛,旗下的火山引擎第一次正式亮相了豆包大模型家族:一口氣直接祭出了9個成員。

其中,大模型家族中最為核心的便是豆包通用模型,分為兩個尺寸:

大杯:豆包通用模型pro,窗口尺寸最大可達128K,全系列可精調(diào)。

小杯:豆包通用模型lite,有較快的響應(yīng)速度。

令人非常意外的是,作為大模型亮相的發(fā)布會,火山引擎與其他大模型廠商的“路數(shù)”截然不同——

沒有榜單分?jǐn)?shù),沒有參數(shù)規(guī)模!

而且價格,更是成了讓現(xiàn)場觀眾“哇聲一片”的大亮點,和其它大模型相比:

小于32K窗口尺寸:豆包通用模型pro,只要0.0008元/千tokens,比行業(yè)價格低99.3%

128K窗口尺寸:豆包通用模型pro,只要0.005元/千tokens,比行業(yè)價格低95.8%

做個簡單的換算,就是1元=1250000tokens!

主打的就是落地效果,讓人人都能用起來才是硬道理。

為何會如此?縱觀整場發(fā)布會,可以總結(jié)火山引擎此舉背后的邏輯為:

只有最大的使用量,才能打磨出最好的大模型。

據(jù)了解,豆包大模型自去年8月份上線以來,其每天平均處理的token數(shù)量高達1200億,相當(dāng)于1800億的漢字;每天生成圖片的數(shù)量為3000萬張。

不僅如此,豆包大模型家族還會在包括抖音、今日頭條等在內(nèi)的50多個場景中進行實踐和驗證。

因此,我們可以把火山引擎在大模型性能上的路數(shù),視為用“左手使用量,右手多場景”的方式反復(fù)打磨而來。

一言蔽之,大模型好不好,用一下就知道了。

例如此前各家大模型都在卷的超長上下文窗口這件事上,其實豆包通用模型這次所發(fā)布的128K,在數(shù)據(jù)上并沒有很驚艷。

但這個量級對于日常的使用來說是已經(jīng)足夠的,所以字節(jié)跳動便將更多的精力放到了“如何用好”,也就是此次提到的精調(diào)。

例如我們在一篇20萬字文章的隨機一個位置,插入與原文無關(guān)的句子:

高端的獵人,往往以獵物的形式出現(xiàn)。

然后將文檔上傳給豆包,讓它基于這篇文章來回答“高端的獵人會以什么姿勢出現(xiàn)”,它就能精準(zhǔn)的根據(jù)我們插入那句話來作答。

由此可見,在128K長上下文窗口+精調(diào)加持下的豆包通用模型,已經(jīng)是可以精準(zhǔn)應(yīng)對超長文本的任務(wù)了。

不過這也僅僅是此次火山引擎大模型能力的一隅,我們繼續(xù)往下看。

更像人,也更懂人

除了文本對話之外,語音,也是豆包大模型家族中重要的組成部分,與之相關(guān)的成員就有三位:

*語音合成模型

*聲音復(fù)刻模型

*語音識別模型

例如在語音合成這件事上,豆包的大模型現(xiàn)在主打的就是一個超級自然、更像人;

AI合成的說話效果已經(jīng)是逼近真人的水平,不再是以往冷冰冰的“一聽就是AI”。

而且它還能根據(jù)上下文來把控說話過程中的停頓感和情緒等等;多種語言切換也不在話下。

據(jù)了解,火山引擎依托大模型構(gòu)建的音色矩陣,還能表現(xiàn)出哭腔等更加復(fù)雜的人類情緒;若是讓這樣的AI給你“念書”聽,那妥妥就是沉浸式的了:

克隆聲音方面,豆包聲音復(fù)刻模型背后的MegaTTS技術(shù)這次也有了新升級——

在音色相似度、聲音自然度和多語種表現(xiàn)力上都有了大幅的能力提升。

更重要的是,無論是克隆多么怪異或多樣的原聲,僅需5秒!并且現(xiàn)在在豆包APP上就可以實現(xiàn):

由此一來,以后若是在工作上遇到需要用自己的聲音“出鏡”的事情,即便不會說外語也是不用怕了。

語音識別方面,在升級的豆包大模型能力加持下,即便是在嘈雜的環(huán)境之下,也可以根據(jù)上下文進行絲滑的對話。

據(jù)了解,豆包語音識別模型相比小模型,識別錯誤率已經(jīng)降低了30%;在音樂、科技、教育、醫(yī)療等垂直領(lǐng)域識別錯誤率更是降低50%以上。

但如果只是上述這樣簡單的對話交流,或許有些過于單調(diào)、莫得感情。

而豆包大模型家族中的另一位成員——角色扮演模型,恰好解決了這個問題。

具體而言,這個功能是豆包APP中的智能體,使用的是升級后的豆包角色扮演模型,加強了它更個性化的人設(shè)遵循、更自然的聊天和更好的共情能力。

而諸如此類的智能體,豆包APP里可謂是數(shù)不勝數(shù),比如霸道校草、狠辣世家獨女、知心姐姐、財神……嗯,有點意思。

總而言之,現(xiàn)在跟豆包交流起來的整體感覺,就是越來越像人了。

除此之外,豆包大模型在文生圖等能力上也做了升級;這個功能可以在對話窗口直接輸入prompt,也可以在智能體廣場中選擇自己喜歡的類型。

同樣的,升級后的效果如何,我們還是直接上測試的生成結(jié)果:

當(dāng)然,如果沒有自己喜歡的智能體,豆包APP中也支持DIY,只需簡單幾個步驟就能創(chuàng)建的那種。

而對于在學(xué)習(xí)和工作中更為實用、功能更加復(fù)雜的AI應(yīng)用,此次火山引擎也公布了一站式AI應(yīng)用開發(fā)平臺扣子(coze)背后的大模型:

*Function Call模型:擅長使用插件和工具,支持扣子的主力模型。

*向量化模型:訓(xùn)練了大量文本,涵蓋不同行業(yè),泛化能力強,支持中英雙語語料混合檢索。

在使用方面,依舊是主打一個簡單、高效:無論你有沒有編程背景,都是“一句話+點點點”的事情。

不論你有什么樣的需求,似乎總有一款扣子bot能夠滿足你。

例如想快速在arXiv上找到想要搜索的論文,那么我們只需在創(chuàng)建智能體的時候填寫需求即可:

即使后續(xù)過程中不會優(yōu)化prompt也沒有關(guān)系,扣子平臺會一鍵自動幫你生成:

如果想讓AI智能體的能力更加彪悍,我們還可以在海量插件中選擇適合自己需求的一個或多個插件:

在插件之外,扣子平臺也從更多的維度提供了優(yōu)化的方案,例如工作流、觸發(fā)器、變量、數(shù)據(jù)庫、長期記憶等等,讓AI應(yīng)用可以變得更加個性化和本地化。

而上述的整個過程,也僅僅是幾分鐘的事情而已。

不難發(fā)現(xiàn)火山引擎已經(jīng)在To C的大模型應(yīng)用上做到了高效且方方面面,但與此同時,在To B上,火山引擎亦有大動作。

面向產(chǎn)業(yè):升級火山方舟

火山引擎于去年6月份發(fā)布的大模型服務(wù)(MaaS)平臺——火山方舟,今天正式步入2.0時代。

特點上同樣是沿襲高效、多樣、簡易和安全的特點,主打的就是讓企業(yè)通過一站式的方式讓大模型應(yīng)用快速落地。

從整體功能和流程上來看,企業(yè)使用火山方舟可以分為四步。

第一步:挑選模型

企業(yè)首先要做的就是根據(jù)自己的業(yè)務(wù)需求,在模型廣場中的眾多“頂流”大模型里pick適合自己的那款。

第二步:體驗?zāi)P?/strong>

適不適合自己的業(yè)務(wù),還是得上手體驗才能知曉。

因此火山方舟平臺也給企業(yè)發(fā)放“體驗卡”,可以快速體驗各個模型的實際表現(xiàn)效果,探索它們在語言、圖像等方面的能力。

第三步:加工模型

企業(yè)在體驗完心儀的大模型之后,火山方舟還提供“加工處理”的服務(wù)。

具體而言,就是通過專業(yè)的訓(xùn)練、推理、評測與精調(diào)功能,快速構(gòu)建并使用專屬大模型服務(wù)。

第四步:模型上崗

在一切工作準(zhǔn)備就緒之后,就可以真正地讓心儀的大模型去“上崗”了。

整個過程看下來,火山方舟就宛如一個大模型工廠,不僅提供原料,還包攬了加工和售后的工作。

而深入到具體的操作上,基于火山方舟的升級,火山引擎還正式發(fā)布了扣子專業(yè)版,是一個企業(yè)級的AI應(yīng)用開發(fā)平臺。

它的一大特點便是在扣子可視化靈活編程智能體的能力基礎(chǔ)之上,還提供了企業(yè)級SLA和多種高級特性。

這么做的目的還是讓AI應(yīng)用的落地變得更加簡單,也有助于企業(yè)將精力更多地聚焦在創(chuàng)新。

那么最后一個問題是:畢竟要面向的是產(chǎn)業(yè),火山方舟,它夠靠譜嗎?

對此,火山引擎也給出了它在穩(wěn)定性和安全性等方面的解法。

首先是在算力層面,火山方舟依托火山引擎的海量GPU資源池和訓(xùn)推一體潮汐調(diào)度能力,通過軟硬一體的系統(tǒng)優(yōu)化,可在2分鐘內(nèi),完成一千張GPU卡從訓(xùn)練狀態(tài)到推理serving狀態(tài)的彈性調(diào)度,可以有效支撐突發(fā)流量和業(yè)務(wù)高峰,并為企業(yè)降低成本。

其次在算法層面,火山方舟支持豆包大模型同款的SFT訓(xùn)練引擎,精調(diào)完成的模型,3秒鐘即可調(diào)度為可serving狀態(tài),精調(diào)后模型在TPM支撐能力、推理延遲和價格等方面,和基礎(chǔ)模型沒有差別,極大地方便您進行后續(xù)效果評估、線上業(yè)務(wù)serving灰度和逐步放量,提升大模型精調(diào)算法的迭代效率。

最后在安全層面上,火山方舟主打的就是一個公開透明,通過自研安全沙箱將prompt數(shù)據(jù)端到端地加密保護起來,防止在訓(xùn)練和推理階段的惡意攻擊和數(shù)據(jù)泄露,并且提供透明審計中心,實現(xiàn)數(shù)據(jù)流的可控和可審計。

當(dāng)然,每個企業(yè)用戶定然希望自己的大模型服務(wù)是獨一無二的,火山引擎的三大插件正是可以提供差異化的關(guān)鍵點:

*聯(lián)網(wǎng)插件:提供頭條抖音同款搜索能力,實時連接海量優(yōu)質(zhì)互聯(lián)網(wǎng)數(shù)據(jù),不斷從新的數(shù)據(jù)和信息中學(xué)習(xí),從而提高其性能和適應(yīng)性,同時使用文本、圖像、語音等多模態(tài)交互方式。

*內(nèi)容插件:提供頭條抖音同源海量內(nèi)容,支持多模態(tài)交互,提供基于意圖的垂類內(nèi)容信息檢索,內(nèi)容時效檢索更強,幫助大模型深入理解、檢索和生成內(nèi)容。

*RAG知識庫插件:提供毫秒級百億規(guī)模的高性能檢索,秒級流式知識庫索引更新,內(nèi)嵌豆包向量化模型,提高搜索的相關(guān)性和準(zhǔn)確性。

總而言之,火山引擎此次不論是發(fā)布的豆包大模型家族,還是升級的火山方舟,甚至是正常發(fā)布會的基調(diào),所劍指的目標(biāo)都非常的明確和清晰。

用起來,才是硬道理

沒錯,就是“用起來,才是硬道理”。

而這也正是火山引擎與眾多大模型玩家在戰(zhàn)略上最明顯的差異所在——

大多數(shù)玩家都是將大模型和應(yīng)用產(chǎn)品一道發(fā)布;而火山引擎則是恰恰相反,用起來了之后再做正式的全面發(fā)布。

究其原因,也正是我們最開始提到的那句話:

只有最大的使用量,才能打磨出最好模型。

至于為什么不放出測評榜單和參數(shù)規(guī)模等業(yè)界似乎早已習(xí)慣做比較的指標(biāo),在量子位與火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪的交流過程中,他給出了一個非常直給的解釋:

我們更希望跟昨天的自己做比較。

我們更看重的是用戶使用的體驗和效果好不好;而不是那些優(yōu)秀的分?jǐn)?shù)。

客戶自己就能判斷出什么是最合適的模型。

回答很簡單,很自信,但這種底氣又是從何而來?

一是場景。

大模型需要用戶的反饋來優(yōu)化已經(jīng)是業(yè)界達成的共識,在這方面,火山引擎依靠字節(jié)跳動有著天然的優(yōu)勢。

據(jù)了解,豆包大模型是通過字節(jié)跳動內(nèi)部50+業(yè)務(wù)、多場景實踐驗證而持續(xù)做著迭代和優(yōu)化,可以說是舉整個公司的場景All in到大模型里面了。

二是技術(shù)。

字節(jié)跳動的推薦算法也是業(yè)界公認(rèn)的強者,而火山引擎目前的核心算法服務(wù)團隊(由火山引擎大模型算法服務(wù)負(fù)責(zé)人王科帶隊),正是打下字節(jié)跳動起家的技術(shù)的原班人馬。

其技術(shù)實力,可見一斑。

三是市場。

據(jù)了解,豆包APP累計下載量已經(jīng)超過了1億,受用戶歡迎程度可見一斑。

在To B方面,火山引擎也與智能終端、汽車、金融、消費等行業(yè)的眾多企業(yè)已經(jīng)展開了合作,包括OPPO、vivo、小米、榮耀、三星、華碩、招行、捷途、吉利、北汽、智己、廣汽、東風(fēng)本田、海底撈、飛鶴等。

并且火山引擎在以使用量來優(yōu)化大模型這條路上并不是僅依靠自身龐大的業(yè)務(wù)場景,而是與上述合作伙伴們一道共同來打磨,形成了一個閉環(huán)的過程。

那么最后,我們又該如何評價火山引擎的大模型?

或許就是:更大用量、更低價格、更多場景、更懂人、更聰明。

而這場發(fā)布會的主旋律也再次印證了當(dāng)下大模型時代“應(yīng)用為王”的趨勢——

誰能用得更好,誰就能笑到最后。

文章來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部