首頁 > 科技要聞 > 科技> 正文

鵝廠革新大模型工具全鏈條!5分鐘開發(fā)AI助手,河南學(xué)生已經(jīng)用上了

量子位 整合編輯:龔震 發(fā)布于:2024-05-21 15:26

大模型的風(fēng),吹進(jìn)中小學(xué)了。

在河南,十幾所中小學(xué)的學(xué)生老師,都已經(jīng)用上專用大模型輔助學(xué)習(xí)和教課。

而且是熟讀新課標(biāo)教材的那種,解答習(xí)題正確率達(dá)到95%

但開發(fā)難度并不高,無需拿著海量數(shù)據(jù)從頭訓(xùn)練一個(gè)模型,甚至都不一定需要懂編程,大幅降低大模型應(yīng)用落地門檻。

這就是騰訊云剛剛公開的大模型商業(yè)化新進(jìn)展。

在騰訊云生成式AI產(chǎn)業(yè)應(yīng)用峰會(huì)上,鵝廠一口氣發(fā)布騰訊混元大模型最新進(jìn)展、三大引擎工具、以及全面升級(jí)的騰訊云TI平臺(tái)等。

他們共同將大模型應(yīng)用落地全流程鏈條進(jìn)行大幅革新。

比如開頭提到的教育行業(yè)落地案例,就是基于騰訊云最新發(fā)布的大模型知識(shí)引擎實(shí)現(xiàn)。僅需5分鐘,該引擎即可幫助用戶生成“企業(yè)級(jí)”的AI問答應(yīng)用。

透過如上實(shí)際落地案例,騰訊云究竟如何理解生成式AI產(chǎn)業(yè)應(yīng)用?有了更明確解答。

5分鐘,做一個(gè)大模型問答應(yīng)用

騰訊云提出的知識(shí)引擎是一個(gè)基于LLM+RAG模式的知識(shí)應(yīng)用構(gòu)建平臺(tái)。

它整合了騰訊混元大模型以及行業(yè)特定大模型能力,并結(jié)合文檔技術(shù),可以向用戶提供大模型企業(yè)只是服務(wù)應(yīng)用模板,以及文檔解析、向量檢索、多輪改寫等原子能力。

在河南中小學(xué)實(shí)際落地的豫教大模型就是在混元的基礎(chǔ)上,通過知識(shí)引擎構(gòu)建、引入海量教育領(lǐng)域數(shù)據(jù),微調(diào)之后的行業(yè)大模型。

從技術(shù)架構(gòu)來看,知識(shí)引擎分為3層:

大模型底座層

平臺(tái)層

應(yīng)用層

 

其中,大模型底座是基礎(chǔ)設(shè)施,關(guān)鍵組件為大模型推理與解析引擎,它通過高度優(yōu)化的模型推理能力處理復(fù)雜數(shù)據(jù)解析和理解任務(wù),確保信息提取的精確性和效率。

平臺(tái)層涵蓋知識(shí)問答系統(tǒng)(含任務(wù)導(dǎo)向型應(yīng)用)。中間層負(fù)責(zé)整合大模型底座能力,提供問答、信息檢索等服務(wù),通過標(biāo)準(zhǔn)化接口實(shí)現(xiàn)與不同業(yè)務(wù)場景靈活對(duì)接。

應(yīng)用層包括控制臺(tái)界面和開放API接口,面向終端用戶和開發(fā)者,能夠讓大模型能力輕松被嵌入到各類外部系統(tǒng)中。

為了能夠達(dá)到更好的應(yīng)用效果,騰訊云知識(shí)引擎在底層算法方面進(jìn)行了一系列創(chuàng)新:

自研TRAG技術(shù)架構(gòu)

集成OCR解析大模型和多模態(tài)閱讀理解大模型

業(yè)內(nèi)首個(gè)基于語義判斷的知識(shí)切分模型

多元檢索和增強(qiáng)型檢索

 

首先,知識(shí)引擎使用騰訊自研的TRAG技術(shù),不局限于向量化和檢索增強(qiáng),對(duì)全流程每個(gè)環(huán)節(jié)進(jìn)行優(yōu)化,包括文檔處理、檢索、理解和生成等。

其次,OCR解析大模型能夠直接端到端分析各種復(fù)雜文檔,比如文檔元素多樣(包括段落、圖、表、子圖等)排版復(fù)雜(如橫縱向多欄、圖/圖注群組等)的Word。通過將復(fù)雜文檔圖片表格轉(zhuǎn)換成可編輯的Markdown文本,它可以準(zhǔn)確識(shí)別圖表等關(guān)鍵元素,并且按照人類閱讀順序理解文檔,整體準(zhǔn)確率提升25%。處理復(fù)雜圖文PDF、PPT方面,騰訊云知識(shí)引擎還開發(fā)了混合圖文的多模態(tài)閱讀理解大模型。

然后,RAG能夠精確檢索的前提是做好知識(shí)切分,如何保證整個(gè)信息塊的語義完整一直是業(yè)內(nèi)難題。騰訊云采用了一種“暴力解法”,提出業(yè)內(nèi)首個(gè)基于語義判斷的知識(shí)切分模型,用大模型的方式直接對(duì)每個(gè)文本做語義級(jí)別的切分,然后對(duì)多個(gè)段落去做更準(zhǔn)確拆分,確保每個(gè)切片在長度可控的情況下語義是最完整的,沒有缺字、斷章取義的情況。

最后在檢索方面,騰訊云智慧引擎通過長文檔embedding模型,將檢索最大長度提升至4k字符,遠(yuǎn)高于業(yè)內(nèi)平均水平(通常512字),并采用混合檢索、text2sql表格檢索等策略,進(jìn)一步提高復(fù)雜知識(shí)的檢索精度,可以處理上萬行超大表格的精確篩選。

在提升平臺(tái)專業(yè)性的同時(shí),騰訊云知識(shí)引擎還保障了易用性。

它提供開箱可用的應(yīng)用模板和可被集成的原子能力API,低代碼/無代碼即可快速創(chuàng)建大模型應(yīng)用。并構(gòu)建了完善工具鏈,支持用戶自定義模型選擇、角色設(shè)定、提示詞自動(dòng)優(yōu)化、知識(shí)庫管理及維護(hù)等,同時(shí)支持對(duì)話測試-修正-發(fā)布-反饋增強(qiáng)的一站式處理。

實(shí)際應(yīng)用流程只需4步,短至5分鐘即可搞定。

第一步,一鍵導(dǎo)入企業(yè)專屬知識(shí)。

第二步,填寫基礎(chǔ)配置。也就是你想要一個(gè)怎樣的大模型助手,比如汽車售后專家、保險(xiǎn)銷售、理財(cái)顧問等。

然后選擇相應(yīng)的底層模型。

第三步,測試發(fā)布。

第四步就能接入應(yīng)用了。

通過API調(diào)用,快速接入智能客服、內(nèi)部只是問答、數(shù)字人等產(chǎn)品,一個(gè)企業(yè)級(jí)的知識(shí)問答應(yīng)用就答應(yīng)好了。

此外,基于騰訊自研的高性能向量數(shù)據(jù)庫(可支持百萬級(jí)QPS及毫秒級(jí)查詢延遲)以及相關(guān)加速技術(shù),騰訊云知識(shí)引擎能在保障精度的前提下進(jìn)一步提升模型推理性能。實(shí)際演示中,每次回答完成基本耗時(shí)在5秒左右。

總結(jié)一下,騰訊云知識(shí)引擎集成更先進(jìn)的技術(shù),同時(shí)還降低使用門檻,主要面向編程小白o(hù)r非專業(yè)人士,能推進(jìn)大模型應(yīng)用更快走向千行百業(yè)。

這不僅給當(dāng)下RAG需求市場提供了一個(gè)新選擇,同時(shí)也是生成式AI應(yīng)用落地的一個(gè)范式參考。

而這還只是騰訊云生成式AI產(chǎn)業(yè)應(yīng)用峰會(huì)新發(fā)布內(nèi)容的冰山一角。

一同亮相的,還有騰訊混元最新進(jìn)展和騰訊云TI平臺(tái)全面升級(jí)

0門檻應(yīng)用開發(fā)、定制化大模型全覆蓋

最新發(fā)布中,騰訊全面升級(jí)混元大模型能力。

提供萬億參數(shù)hunyuan-pro、千億參數(shù)hunyuan-standard、百億參數(shù)hunyuan-lite等多種尺寸模型,通過騰訊云面向企業(yè)、開發(fā)者全量開放。其中hunyuan-standard支持256K上下文,具備單次處理超過38萬字符的超長文本能力。

升級(jí)后的騰訊混元,模型總體性能相比上一代提升50%,部分中文能力已追平GPT-4。在多模態(tài)能力方面,支持生圖、生視頻、生3D,比如視頻方面,支持 16s 視頻生成。

基于最新混元大模型底座,這一次騰訊面向AIGC應(yīng)用落地趨勢、面向產(chǎn)業(yè)帶來的,可以說是一波全方位無死角的更新。

除了知識(shí)引擎以外,騰訊云大模型圖像創(chuàng)作引擎具備高質(zhì)量AI圖像生成和編輯能力,可提供AI寫真、線稿生圖、圖像風(fēng)格化等能力;騰訊云大模型視頻創(chuàng)作引擎可生成、編輯高質(zhì)量視頻,提供視頻轉(zhuǎn)譯、視頻風(fēng)格化、畫布拓展等功能。

它們更多面向有應(yīng)用場景,欠缺開發(fā)能力的B端用戶,提供大模型應(yīng)用浪潮下的低門檻工具鏈。

但這還不夠,騰訊云還發(fā)布“騰訊元器”,進(jìn)一步拓寬了大模型應(yīng)用的落地范圍——

即使是缺少數(shù)據(jù)、工程能力的普通人,也可以一句話打造專屬智能體,讓創(chuàng)意這個(gè)大模型時(shí)代的重要資源分分鐘“變現(xiàn)”。

具體來說,通過提示詞、插件、工作流、AI輔助等創(chuàng)作能力,用戶能低門檻在該平臺(tái)上創(chuàng)建AI智能體。

更關(guān)鍵的是,還能將這些智能體發(fā)布到QQ、微信等騰訊App上,享受騰訊全域分發(fā)渠道

另一方面,面向更專業(yè)用戶打造行業(yè)大模型的需求,騰訊云TI平臺(tái)也完成了全面升級(jí)。

騰訊云TI平臺(tái)是一個(gè)全棧式人工智能開發(fā)服務(wù)平臺(tái),簡單來說,就是從數(shù)據(jù)獲取、數(shù)據(jù)處理,到算法構(gòu)建、模型訓(xùn)練、模型評(píng)估、模型部署,再到AI應(yīng)用開發(fā)的大模型落地全鏈路,這個(gè)平臺(tái)都能一站式打包搞定。

在自家的混元大模型之外,TI平臺(tái)還內(nèi)置了Llama3、Llama2、Baichuan2、Qwen等一系列主流大模型;赥I平臺(tái),用戶只需要少量算力+領(lǐng)域?qū)I(yè)數(shù)據(jù),就能高效構(gòu)建出專屬行業(yè)大模型。

此番TI平臺(tái)的升級(jí),主要集中在三個(gè)方面,以解決企業(yè)實(shí)際遇到的應(yīng)用難題:

大規(guī)模數(shù)據(jù)處理耗時(shí)長

工程化迭代大模型算力利用率低、訓(xùn)練周期長

從模型到應(yīng)用落地難度高

首先,是發(fā)布了全新數(shù)據(jù)處理鏈,并且是全開源、易擴(kuò)展、開箱即用的那種。

具體來說,騰訊云TI平臺(tái)提供了三大類數(shù)據(jù)處理pipeline,包括100多種任務(wù)類型的精調(diào)配比數(shù)據(jù),支持知識(shí)問答、有監(jiān)督的多輪和單輪問答以及無監(jiān)督的預(yù)訓(xùn)練等。

此外,還提供原始數(shù)據(jù)分析、數(shù)據(jù)清洗、數(shù)據(jù)去重等功能,并擁有超過100萬條的預(yù)置配比數(shù)據(jù)。

通過Prompt優(yōu)化和訓(xùn)練格式生成,TI平臺(tái)能夠根據(jù)精調(diào)任務(wù)類型智能分配配比數(shù)據(jù),無需額外配置就能自動(dòng)加載配比數(shù)據(jù),快速開始精調(diào)任務(wù),并且在Notebook中提供了預(yù)置的數(shù)據(jù)處理鏈代碼,方便用戶快速上手。

其次,是上新了大模型精調(diào)工具鏈。

該工具鏈支持任務(wù)排隊(duì)以提升并發(fā)處理能力,采用自研的Angel大模型計(jì)算和并行優(yōu)化方案以提高效率,同時(shí)具備故障隔離和自動(dòng)恢復(fù)功能以增強(qiáng)穩(wěn)定性。

值得一提的是,該工具鏈支持國產(chǎn)化硬件,比如昇騰系列芯片。

最后,TI平臺(tái)通過與知識(shí)引擎的強(qiáng)強(qiáng)聯(lián)合,提供了一種邊迭代邊測評(píng)的機(jī)制,使用戶能夠及時(shí)了解并優(yōu)化大模型的業(yè)務(wù)效果。

平臺(tái)支持客觀和主觀兩種測評(píng)方式,可以結(jié)合業(yè)務(wù)中的實(shí)際難題和知識(shí)庫,進(jìn)行端到端效果評(píng)測。

精調(diào)前后對(duì)比

目前,廣東工業(yè)大學(xué)、騰訊云和中國大熊貓保護(hù)研究中心已經(jīng)基于TI平臺(tái)+知識(shí)引擎展開了AI大熊貓保護(hù)的探索。

項(xiàng)目組在一階段打造了全球首個(gè)大熊貓智能行為識(shí)別模型及智慧系統(tǒng),能識(shí)別大熊貓進(jìn)食、喝水、睡覺等日常行為,準(zhǔn)確率超過80%。

有意思的是,就在騰訊云生成式AI產(chǎn)業(yè)應(yīng)用峰會(huì)現(xiàn)場,Gartner還聯(lián)合騰訊發(fā)布了一份《生成式AI產(chǎn)業(yè)落地路徑研究報(bào)告》。

其中提到,目前生成式AI的落地路線主要分為三種:

標(biāo)準(zhǔn)軟件路線,即直接采購基于大模型能力的成熟應(yīng)用

標(biāo)準(zhǔn)模型能力增強(qiáng)路線,即調(diào)用大模型API或通過提示工程對(duì)模型能力進(jìn)行增強(qiáng)

定制化模型精調(diào)訓(xùn)練路線,即結(jié)合企業(yè)專屬數(shù)據(jù)定制大模型

結(jié)果上看,騰訊云的這一波生成式AI重磅更新,可以說是全面覆蓋了這三條路線。

生成式AI邁入產(chǎn)業(yè)落地階段

伴隨著2024而來,業(yè)界越來越強(qiáng)烈的共識(shí)是,大模型的最新關(guān)鍵詞之一,就是“應(yīng)用”。

無論是Sora掀起的科技圈新風(fēng)暴,還是OpenAI、谷歌在多模態(tài)智能助手方面輪番上演肌肉秀,背后指向的趨勢都是:

生成式AI進(jìn)入第二階段,場上玩家們正在從卷基礎(chǔ)模型的研發(fā),邁入到應(yīng)用落地探索的新階段。

在這一浪潮之中,其實(shí)不僅僅是AIGC產(chǎn)品的開發(fā)廠商,越來越多的傳統(tǒng)企業(yè)也已經(jīng)被卷入實(shí)踐的第一線。

值此之時(shí),如何結(jié)合自身AIGC場景,選擇合適的落地路線,將成為越來越多企業(yè)需要思考的問題。

騰訊云此番交卷,其實(shí)也在釋放一種信號(hào):

對(duì)于平臺(tái)廠商而言,如何與產(chǎn)業(yè)相結(jié)合,真正把大模型應(yīng)用的門檻全方位降到更低,已成為新階段的競爭關(guān)鍵。

作為旁觀者,值得期待的是,這些具體實(shí)際的落地腳步,或許就是趨勢變革連點(diǎn)成線的關(guān)鍵。

文章來源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部