首頁 > 科技要聞 > 科技> 正文

大模型卷爆數(shù)字人:一句話5分鐘實(shí)現(xiàn)定制,跳舞主持帶貨都能hold住

量子位 整合編輯:龔震 發(fā)布于:2024-05-08 17:55

最快5分鐘,打造一個(gè)直接上崗工作的3D數(shù)字人。

這是大模型給數(shù)字人領(lǐng)域帶來的最新震撼。

就像這樣,一句話描述需求:

生成的數(shù)字人直接就能進(jìn)駐直播間當(dāng)主播。

跳起女團(tuán)舞也不在話下。

整個(gè)制作過程中,想到什么說什么就行,大模型都能自動拆解需求,瞬間get設(shè)計(jì)、修改思路。

2倍速

再也不怕老板/甲方的想法太新奇。

這樣的文生數(shù)字人技術(shù),來自百度智能云最新發(fā)布。該說不說,是要把數(shù)字人的使用門檻一口氣砍沒的節(jié)奏了。

聽聞如此神器,我們照例第一時(shí)間爭取到了內(nèi)測資格,更多細(xì)節(jié),一起先睹為快~

一句話5分鐘,3D數(shù)字人直接上崗

從Chatbot到文生圖片,再到文生視頻,大模型帶來的交互方式的變革,已經(jīng)無需贅言。

現(xiàn)在,在百度智能云曦靈平臺上,基于文心一言4.0,數(shù)字人定制這件事,同樣能通過自然語言對話的形式實(shí)現(xiàn)。

舉個(gè)例子,生成一個(gè)品牌代言人,需要幾步?

首先,輸入“生成一個(gè)百度智能云品牌代言人”這樣的提示詞,同時(shí)上傳logo圖片。

大模型就會自動從臉型、發(fā)型、妝容、服裝、配飾等多個(gè)維度,開始一步一步思考:

自動打造出符合要求的數(shù)字人。

8倍速

如果需要調(diào)整細(xì)節(jié),一樣“說話”就能完成。

也就5-10分鐘,一個(gè)360°無死角的高質(zhì)量數(shù)字人就基本成型了。

捏臉完畢,下一步就是給數(shù)字人綁上表情,讓Ta能動起來。同樣只需要一鍵操作,等待1-2分鐘。

相比于過去高精度3D數(shù)字人好幾天、甚至好幾個(gè)月的定制周期,這個(gè)分鐘級的效率,確實(shí)稱得上是“顛覆”了。

值得一提的是,效率如此大幅提升的前提下,這樣的文生數(shù)字人細(xì)節(jié)質(zhì)量依然保持著高水準(zhǔn)。

表情細(xì)節(jié):

動作質(zhì)量:

結(jié)合百度智能云在數(shù)字人領(lǐng)域的長期積累,上崗播新聞、直播帶貨都不在話下。

數(shù)字人技術(shù)全面AI化

效率和落地能力的直觀提升之外,此次百度智能云推出的文生數(shù)字人方案背后,不少技術(shù)細(xì)節(jié)也值得好好說道說道。

正如前文所說,其技術(shù)基座,正是文心一言4.0.

而起到關(guān)鍵作用的大模型能力包括:

-自動拆解要做的任務(wù)和子任務(wù)

-顯示思考過程,做到有理有據(jù),讓整個(gè)生成過程“白盒化”

-實(shí)現(xiàn)了基于內(nèi)容提煉的短期記憶,可以通過對話持續(xù)調(diào)整數(shù)字人形象

這樣一來,大模型就成了一個(gè)能懂人類甲方心理的數(shù)字人造型助理,可以模仿人類思路,去摳數(shù)字人定制的每一個(gè)細(xì)節(jié),并且做到過程可控。

同時(shí),大模型還在背后施展出了調(diào)用工具的能力。

比如,調(diào)用涵蓋6000+維度的臉型及五官細(xì)節(jié)“知識庫”,整體調(diào)整數(shù)字人面容。

大模型技術(shù)之外,百度智能云還在曦靈平臺中加入了新的AI渲染技術(shù),支持AI驅(qū)動、AI布料模擬,讓數(shù)字人的表情肢體動作更自然,服裝面料質(zhì)感更真實(shí)。包括:

-動態(tài)褶皺貼圖,讓紋理更加真實(shí)。

-分鐘級4D自動綁定,讓眼睛、嘴唇等部位能夠完美閉合,并支持表情風(fēng)格切換。

-肢體肌肉擠壓、碰撞實(shí)時(shí)模擬。

……

官方還透露,接下來,百度智能云計(jì)劃實(shí)現(xiàn)角色、行為、場景、燈光、鏡頭要素的全面AI化。

數(shù)字人,步入大模型時(shí)代應(yīng)用新范式

如果說去年大家還在熱火朝天地討論基礎(chǔ)模型,那么今年以來由Sora而起,大模型帶來的應(yīng)用范式的變革,已經(jīng)成為科技圈新的熱議焦點(diǎn)。

在交互方式的改變之上,核心受到關(guān)注的,其實(shí)還是效率提升

輸出創(chuàng)意,生成所需,大模型正在讓越來越多本來需要消耗大量時(shí)間、人力、金錢的工作,變得簡單、高效、人人可用。

現(xiàn)在,百度智能云在3D數(shù)字人領(lǐng)域的最新技術(shù)進(jìn)展,就是這種可能性在人們更為熟知的圖像、視頻領(lǐng)域之外,拓展開來的一個(gè)代表。

可以預(yù)見的是,過去更多在大企業(yè)、大機(jī)構(gòu)中被使用的數(shù)字人員工,在新范式的驅(qū)動之下,步入“尋常百姓家”正在成為可能。

此前,清華大學(xué)《虛擬數(shù)字人研究報(bào)告2.0版》數(shù)據(jù)顯示,從頭部企業(yè)的布局來看,面向B端的數(shù)字人產(chǎn)品服務(wù)是市場的主要組成部分,占比達(dá)到79%。

而隨著大模型技術(shù)對數(shù)字人應(yīng)用模式的顛覆,不僅中小企業(yè)不用再對6位數(shù)的3D高精度數(shù)字人望而卻步,C端的應(yīng)用也將得以拓展。

這也就意味著,數(shù)字人的應(yīng)用和商業(yè)化,已經(jīng)翻開新的一頁。

文章來源:量子位

 

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部