太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

字節(jié)跳動大模型首次全員亮相：一口氣9個，價格低99%，沒有參數(shù)規(guī)模和榜單分?jǐn)?shù)

量子位整合編輯：龔震發(fā)布于：2024-05-16 18:04

字節(jié)跳動，終于摘下了自家大模型的神秘面紗。

就在剛剛，旗下的火山引擎第一次正式亮相了豆包大模型家族：一口氣直接祭出了9個成員。

其中，大模型家族中最為核心的便是豆包通用模型，分為兩個尺寸：

大杯：豆包通用模型pro，窗口尺寸最大可達128K，全系列可精調(diào)。

小杯：豆包通用模型lite，有較快的響應(yīng)速度。

令人非常意外的是，作為大模型亮相的發(fā)布會，火山引擎與其他大模型廠商的“路數(shù)”截然不同——

沒有榜單分?jǐn)?shù)，沒有參數(shù)規(guī)模！

而且價格，更是成了讓現(xiàn)場觀眾“哇聲一片”的大亮點，和其它大模型相比：

小于32K窗口尺寸：豆包通用模型pro，只要0.0008元/千tokens，比行業(yè)價格低99.3%

128K窗口尺寸：豆包通用模型pro，只要0.005元/千tokens，比行業(yè)價格低95.8%

做個簡單的換算，就是1元=1250000tokens！

主打的就是落地效果，讓人人都能用起來才是硬道理。

為何會如此？縱觀整場發(fā)布會，可以總結(jié)火山引擎此舉背后的邏輯為：

只有最大的使用量，才能打磨出最好的大模型。

據(jù)了解，豆包大模型自去年8月份上線以來，其每天平均處理的token數(shù)量高達1200億，相當(dāng)于1800億的漢字；每天生成圖片的數(shù)量為3000萬張。

不僅如此，豆包大模型家族還會在包括抖音、今日頭條等在內(nèi)的50多個場景中進行實踐和驗證。

因此，我們可以把火山引擎在大模型性能上的路數(shù)，視為用“左手使用量，右手多場景”的方式反復(fù)打磨而來。

一言蔽之，大模型好不好，用一下就知道了。

例如此前各家大模型都在卷的超長上下文窗口這件事上，其實豆包通用模型這次所發(fā)布的128K，在數(shù)據(jù)上并沒有很驚艷。

但這個量級對于日常的使用來說是已經(jīng)足夠的，所以字節(jié)跳動便將更多的精力放到了“如何用好”，也就是此次提到的精調(diào)。

例如我們在一篇20萬字文章的隨機一個位置，插入與原文無關(guān)的句子：

高端的獵人，往往以獵物的形式出現(xiàn)。

然后將文檔上傳給豆包，讓它基于這篇文章來回答“高端的獵人會以什么姿勢出現(xiàn)”，它就能精準(zhǔn)的根據(jù)我們插入那句話來作答。

由此可見，在128K長上下文窗口+精調(diào)加持下的豆包通用模型，已經(jīng)是可以精準(zhǔn)應(yīng)對超長文本的任務(wù)了。

不過這也僅僅是此次火山引擎大模型能力的一隅，我們繼續(xù)往下看。

更像人，也更懂人

除了文本對話之外，語音，也是豆包大模型家族中重要的組成部分，與之相關(guān)的成員就有三位：

*語音合成模型

*聲音復(fù)刻模型

*語音識別模型

例如在語音合成這件事上，豆包的大模型現(xiàn)在主打的就是一個超級自然、更像人；

AI合成的說話效果已經(jīng)是逼近真人的水平，不再是以往冷冰冰的“一聽就是AI”。

而且它還能根據(jù)上下文來把控說話過程中的停頓感和情緒等等；多種語言切換也不在話下。

據(jù)了解，火山引擎依托大模型構(gòu)建的音色矩陣，還能表現(xiàn)出哭腔等更加復(fù)雜的人類情緒；若是讓這樣的AI給你“念書”聽，那妥妥就是沉浸式的了：

在克隆聲音方面，豆包聲音復(fù)刻模型背后的MegaTTS技術(shù)這次也有了新升級——

在音色相似度、聲音自然度和多語種表現(xiàn)力上都有了大幅的能力提升。

更重要的是，無論是克隆多么怪異或多樣的原聲，僅需5秒！并且現(xiàn)在在豆包APP上就可以實現(xiàn)：

由此一來，以后若是在工作上遇到需要用自己的聲音“出鏡”的事情，即便不會說外語也是不用怕了。

在語音識別方面，在升級的豆包大模型能力加持下，即便是在嘈雜的環(huán)境之下，也可以根據(jù)上下文進行絲滑的對話。

據(jù)了解，豆包語音識別模型相比小模型，識別錯誤率已經(jīng)降低了30%；在音樂、科技、教育、醫(yī)療等垂直領(lǐng)域識別錯誤率更是降低50%以上。

但如果只是上述這樣簡單的對話交流，或許有些過于單調(diào)、莫得感情。

而豆包大模型家族中的另一位成員——角色扮演模型，恰好解決了這個問題。

具體而言，這個功能是豆包APP中的智能體，使用的是升級后的豆包角色扮演模型，加強了它更個性化的人設(shè)遵循、更自然的聊天和更好的共情能力。

而諸如此類的智能體，豆包APP里可謂是數(shù)不勝數(shù)，比如霸道校草、狠辣世家獨女、知心姐姐、財神……嗯，有點意思。

總而言之，現(xiàn)在跟豆包交流起來的整體感覺，就是越來越像人了。

除此之外，豆包大模型在文生圖等能力上也做了升級；這個功能可以在對話窗口直接輸入prompt，也可以在智能體廣場中選擇自己喜歡的類型。

同樣的，升級后的效果如何，我們還是直接上測試的生成結(jié)果：

當(dāng)然，如果沒有自己喜歡的智能體，豆包APP中也支持DIY，只需簡單幾個步驟就能創(chuàng)建的那種。

而對于在學(xué)習(xí)和工作中更為實用、功能更加復(fù)雜的AI應(yīng)用，此次火山引擎也公布了一站式AI應(yīng)用開發(fā)平臺扣子（coze）背后的大模型：

*Function Call模型：擅長使用插件和工具，支持扣子的主力模型。

*向量化模型：訓(xùn)練了大量文本，涵蓋不同行業(yè)，泛化能力強，支持中英雙語語料混合檢索。

在使用方面，依舊是主打一個簡單、高效：無論你有沒有編程背景，都是“一句話+點點點”的事情。

不論你有什么樣的需求，似乎總有一款扣子bot能夠滿足你。

例如想快速在arXiv上找到想要搜索的論文，那么我們只需在創(chuàng)建智能體的時候填寫需求即可：

即使后續(xù)過程中不會優(yōu)化prompt也沒有關(guān)系，扣子平臺會一鍵自動幫你生成：

如果想讓AI智能體的能力更加彪悍，我們還可以在海量插件中選擇適合自己需求的一個或多個插件：

在插件之外，扣子平臺也從更多的維度提供了優(yōu)化的方案，例如工作流、觸發(fā)器、變量、數(shù)據(jù)庫、長期記憶等等，讓AI應(yīng)用可以變得更加個性化和本地化。

而上述的整個過程，也僅僅是幾分鐘的事情而已。

不難發(fā)現(xiàn)火山引擎已經(jīng)在To C的大模型應(yīng)用上做到了高效且方方面面，但與此同時，在To B上，火山引擎亦有大動作。

面向產(chǎn)業(yè)：升級火山方舟

火山引擎于去年6月份發(fā)布的大模型服務(wù)（MaaS）平臺——火山方舟，今天正式步入2.0時代。

特點上同樣是沿襲高效、多樣、簡易和安全的特點，主打的就是讓企業(yè)通過一站式的方式讓大模型應(yīng)用快速落地。

從整體功能和流程上來看，企業(yè)使用火山方舟可以分為四步。

第一步：挑選模型

企業(yè)首先要做的就是根據(jù)自己的業(yè)務(wù)需求，在模型廣場中的眾多“頂流”大模型里pick適合自己的那款。

第二步：體驗?zāi)Ｐ?/strong>

適不適合自己的業(yè)務(wù)，還是得上手體驗才能知曉。

因此火山方舟平臺也給企業(yè)發(fā)放“體驗卡”，可以快速體驗各個模型的實際表現(xiàn)效果，探索它們在語言、圖像等方面的能力。

第三步：加工模型

企業(yè)在體驗完心儀的大模型之后，火山方舟還提供“加工處理”的服務(wù)。

具體而言，就是通過專業(yè)的訓(xùn)練、推理、評測與精調(diào)功能，快速構(gòu)建并使用專屬大模型服務(wù)。

第四步：模型上崗

在一切工作準(zhǔn)備就緒之后，就可以真正地讓心儀的大模型去“上崗”了。

整個過程看下來，火山方舟就宛如一個大模型工廠，不僅提供原料，還包攬了加工和售后的工作。

而深入到具體的操作上，基于火山方舟的升級，火山引擎還正式發(fā)布了扣子專業(yè)版，是一個企業(yè)級的AI應(yīng)用開發(fā)平臺。

它的一大特點便是在扣子可視化靈活編程智能體的能力基礎(chǔ)之上，還提供了企業(yè)級SLA和多種高級特性。

這么做的目的還是讓AI應(yīng)用的落地變得更加簡單，也有助于企業(yè)將精力更多地聚焦在創(chuàng)新。

那么最后一個問題是：畢竟要面向的是產(chǎn)業(yè)，火山方舟，它夠靠譜嗎？

對此，火山引擎也給出了它在穩(wěn)定性和安全性等方面的解法。

首先是在算力層面，火山方舟依托火山引擎的海量GPU資源池和訓(xùn)推一體潮汐調(diào)度能力，通過軟硬一體的系統(tǒng)優(yōu)化，可在2分鐘內(nèi)，完成一千張GPU卡從訓(xùn)練狀態(tài)到推理serving狀態(tài)的彈性調(diào)度，可以有效支撐突發(fā)流量和業(yè)務(wù)高峰，并為企業(yè)降低成本。

其次在算法層面，火山方舟支持豆包大模型同款的SFT訓(xùn)練引擎，精調(diào)完成的模型，3秒鐘即可調(diào)度為可serving狀態(tài)，精調(diào)后模型在TPM支撐能力、推理延遲和價格等方面，和基礎(chǔ)模型沒有差別，極大地方便您進行后續(xù)效果評估、線上業(yè)務(wù)serving灰度和逐步放量，提升大模型精調(diào)算法的迭代效率。

最后在安全層面上，火山方舟主打的就是一個公開透明，通過自研安全沙箱將prompt數(shù)據(jù)端到端地加密保護起來，防止在訓(xùn)練和推理階段的惡意攻擊和數(shù)據(jù)泄露，并且提供透明審計中心，實現(xiàn)數(shù)據(jù)流的可控和可審計。

當(dāng)然，每個企業(yè)用戶定然希望自己的大模型服務(wù)是獨一無二的，火山引擎的三大插件正是可以提供差異化的關(guān)鍵點：

*聯(lián)網(wǎng)插件：提供頭條抖音同款搜索能力，實時連接海量優(yōu)質(zhì)互聯(lián)網(wǎng)數(shù)據(jù)，不斷從新的數(shù)據(jù)和信息中學(xué)習(xí)，從而提高其性能和適應(yīng)性，同時使用文本、圖像、語音等多模態(tài)交互方式。

*內(nèi)容插件：提供頭條抖音同源海量內(nèi)容，支持多模態(tài)交互，提供基于意圖的垂類內(nèi)容信息檢索，內(nèi)容時效檢索更強，幫助大模型深入理解、檢索和生成內(nèi)容。

*RAG知識庫插件：提供毫秒級百億規(guī)模的高性能檢索，秒級流式知識庫索引更新，內(nèi)嵌豆包向量化模型，提高搜索的相關(guān)性和準(zhǔn)確性。

總而言之，火山引擎此次不論是發(fā)布的豆包大模型家族，還是升級的火山方舟，甚至是正常發(fā)布會的基調(diào)，所劍指的目標(biāo)都非常的明確和清晰。

用起來，才是硬道理

沒錯，就是“用起來，才是硬道理”。

而這也正是火山引擎與眾多大模型玩家在戰(zhàn)略上最明顯的差異所在——

大多數(shù)玩家都是將大模型和應(yīng)用產(chǎn)品一道發(fā)布；而火山引擎則是恰恰相反，用起來了之后再做正式的全面發(fā)布。

究其原因，也正是我們最開始提到的那句話：

只有最大的使用量，才能打磨出最好模型。

至于為什么不放出測評榜單和參數(shù)規(guī)模等業(yè)界似乎早已習(xí)慣做比較的指標(biāo)，在量子位與火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪的交流過程中，他給出了一個非常直給的解釋：

我們更希望跟昨天的自己做比較。

我們更看重的是用戶使用的體驗和效果好不好；而不是那些優(yōu)秀的分?jǐn)?shù)。