首頁 > 科技要聞 > 科技> 正文

可靈制作短片驚艷馬斯克,所以最好用的AI視頻工具究竟是誰?

頭號AI玩家 整合編輯:太平洋科技 發(fā)布于:2024-08-22 15:54

這兩天,國產(chǎn)3A游戲《黑神話·悟空》引爆全網(wǎng),火到了海外,而在AI視頻領域,快手可靈也在海外大殺特殺,連馬斯克也忍不住上線稱贊。

8月20日,馬斯克在創(chuàng)作者“dvorahfr”的評論區(qū)留言:“AI娛樂產(chǎn)業(yè)正在加速變革”,盛贊了一條用Grok和可靈AI制作的短片。

過去半年,AI視頻圈的熱度可以說從未停止,不少國內(nèi)外網(wǎng)友都想著借AI顛覆好萊塢。各種經(jīng)典畫面在網(wǎng)上一通發(fā)酵,掀起了一陣陣AI生成短視頻的熱潮。

比如,有網(wǎng)友借助Grok 2的生圖能力,和可靈、DreamMachine等相結合,生成了各種令人瞠目結舌的場景:

Grok 2+可靈

Grok+DreamMachine

與此同時,已經(jīng)推出視頻模型的廠商們也在馬不停蹄地迭代產(chǎn)品。

8月19日,Luma AI更新了v1.5版本,有大神就利用它的文生視頻功能,制作起了電影特效:

8月18日,Runway發(fā)布了Gen-3 Alpha Turbo圖像轉視頻模型,生成速度提升了7倍。

再往前,引起病毒式傳播的“Ted演講者”也是由AI直接視頻化的:

大半年過去,AI給視頻生產(chǎn)和交互體驗帶了什么樣的改變?爆火出圈的產(chǎn)品哪個性價比最高?本文進行了一波綜合盤點。

AI生成視頻進化到哪了?評價標準是什么

年初OpenAI的虛晃一槍,讓國內(nèi)外不少企業(yè)“卷”起了視頻生成,今年上半年AI視頻生成工具有關話題幾度迎來熱度高峰。

早已被大家熟知的Runway帶來了新一代模型“Gen-3”,將可生成時長拉長至10秒。

Pika在AI視頻基礎上,不斷推出諸如一鍵添加音效、延長視頻、對口型等新功能。

甚至有AI創(chuàng)企Luma從3D模型領域轉型AI視頻,發(fā)布Dream Machine。

國內(nèi),字節(jié)和快手相繼推出即夢、可靈AI,一經(jīng)發(fā)布就吸引了全球網(wǎng)友的青睞。

智象未來、愛詩科技等專注視覺大模型的AI企業(yè),接連上線了HiDream、PixVerse等可用的AI視頻工具。

前兩周,大模型廠商智譜AI也發(fā)布了旗下的AI視頻工具“清影”,并將模型“CogVideoX”開源。

今年7月,生數(shù)科技旗下的視頻模型Vidu面向公眾開放,還大大縮短了生成AI視頻所需要的時間。

這些視頻工具不同于此前剪映推出的數(shù)字人、AI一鍵成片等功能,更像是AI靠自己的知識儲備,“無中生有”般生成的視頻內(nèi)容。

AI既要理解用戶的指令,還要生成的內(nèi)容之間前后銜接、內(nèi)容連貫。

據(jù)我們了解,當前,AI從業(yè)者普遍認可的AI視頻生成的評估標準,至少有3個方面:語義理解、畫面美觀度以及可控性。

語義理解通常在于文生視頻領域,主要看AI能否理解用戶表達的指令,簡單來說,比如讓AI生成一個女孩,它得往年輕、活潑的形象上塑造,不能是一位老太太,否則就是語義理解能力不夠。

畫面美觀度,通常包含視頻的畫面元素合理性、畫質是否精細、是否有掉幀閃爍等問題,而可控性則是動作幅度加大的同時,能否保證畫面不出現(xiàn)畸變。

現(xiàn)在的主流視頻模型都在往這三大方向進行優(yōu)化。生數(shù)科技CEO唐家渝此前接受媒體采訪時提出,未來會持續(xù)在模型層面改進,提升AI視頻的語義理解、可控性等方面的效果。

除此之外,和模型的交互也是重要的維度之一。谷歌VideoPoet模型作者于力軍曾公開表示,視頻生成交互是極簡和動態(tài)的,文字表達宏觀的信息,圖片提供細節(jié)指引,通過任意的輸入和編輯,模型會自己理解和生成。

這也對應了產(chǎn)品的易用程度如何。過去,我們可能需要在復雜的操作界面上進行編輯修改,才能實現(xiàn)預期效果,現(xiàn)在可能只需要打打字,就能獲得初版預覽視頻。

橫測10款熱門AI生成視頻工具,都有哪些優(yōu)缺點

那么,從一年多前慘不忍睹的威爾史密斯吃面,到現(xiàn)在動輒生成10秒以上的AI視頻,我們離電影級別的AI視頻生成還有多遠?

上述提到的幾項評價標準,近日“AI新榜”集中實測了目前最熱門的10個AI生成視頻工具,嘗試分析這些問題。

超強語義理解能力,文生視頻躍升新臺階

文生視頻,最關鍵的其實就是投喂給AI的提示詞要怎么寫。我們結合主流AI視頻工具發(fā)布的提示詞文檔,總結了一個相對普適的提示詞公式:

提示詞:主體+運動方式+場景+鏡頭語言(可選)+氛圍(可選)

根據(jù)這個公式,我們列了一組包含了人物、動作、環(huán)境以及鏡頭語言的提示詞,盡可能覆蓋測試到AI視頻生成的不同維度,比如涉及了人物、細節(jié)把握、鏡頭語言以及數(shù)字?纯从袥]有符合預期的視頻。

提示詞:一位戴著黑框眼鏡的女孩靜靜地坐在咖啡店里,手中捧著印有數(shù)字6的咖啡杯,周圍是溫馨輕松的氛圍。鏡頭采用室內(nèi)中景,聚焦于女孩和她手中的咖啡杯。

Prompt:A girl wearing black-framed glasses sits quietly in a coffee shop, holding a coffee cup with the number 6 printed on it, surrounded by a warm and relaxed atmosphere. The camera captures a medium shot taken indoors, focusing on the girl with her glasses and her coffee cup.

需要注意的是,本文涉及到的測試都只選取了首次生成的視頻效果,生成等待時間也參考了免費版本所花時間。

可以看到,Vidu在人物生成上表現(xiàn)出了較高的穩(wěn)定性,動作變化也較為自然。

眼鏡、數(shù)字、鏡頭語言都一一拿捏,除了畫面中出現(xiàn)了2個人物外,稱得上合格的生成視頻。

Vidu生成視頻

和Vidu一樣,可靈生成的畫面也非常流暢,背景營造出人頭攢動的咖啡店場景。

遺憾的是,可靈在數(shù)字生成上仍存在短板,無法一次精準獲得數(shù)字效果。

可靈生成視頻

PixVerse對語義理解較為精準,提示詞中的要素都一一呈現(xiàn),生成的人物動作幅度也很明顯。但也因此出現(xiàn)了“手指異常”,以及眼睛歪斜等技術瑕疵。

PixVerse生成視頻

即夢最初的生成效果尚可,但視頻穩(wěn)定性上有所欠缺,到后期“數(shù)字6”搖身一變成為了咖啡拉花,女孩的五官也變得不再可控。

即夢生成視頻

清影生成的咖啡熱氣細節(jié)相當細節(jié),特寫鏡頭感拉滿。但遺憾的是,主體運動上并沒有符合我們提示詞所寫的內(nèi)容。

清影生成視頻

HiDream生成的人物面部控制到位,但無法正確理解提示詞中“女孩捧著咖啡杯”,出現(xiàn)了多余的畫面元素。

HiDream生成視頻

Luma更新v1.5后,整體畫面呈現(xiàn)的內(nèi)容更豐富,不僅僅只有“女孩”一個主角,動作幅度也更大,在光影、構圖上也比較自然。只不過,仔細看人物的手部、牙齒還是有AI的痕跡。

Luma DreamMachine生成視頻

由于Pika模型本身在動畫效果上更勝一籌,所以生成的女孩也逃不開動畫的影子。整體畫面也只是眨眨眼的微動,也無法識別出精確的數(shù)字。

Pika生成視頻

Stable Video生成的視覺效果較好,人物外貌、場景、手指細節(jié)都沒有出現(xiàn)崩壞,但整體運動更像圖片平移。

值得一提的是,Stable Video的視頻生成邏輯和其他家都不同。

或許是因為Stable Video本身在文生圖上具有一定的技術優(yōu)勢,所以它是先生成4張圖片,用戶從中挑選1張后,再根據(jù)這張圖生成動態(tài)視頻。

Stable Video生成視頻

在人物類鏡頭上,Runway Gen-3依舊是最能打的。

整個畫面運動非常符合邏輯,也沒有明顯的畫面瑕疵,除了缺少“數(shù)字6”這樣的細節(jié)外,Gen-3這輪表現(xiàn)還是相當出色。

Runway Gen-3生成視頻

總的來說,在文生視頻這一環(huán)節(jié),Vidu、可靈、Runway在語義理解、人物生成、畫面可控上表現(xiàn)更為穩(wěn)定,生成視頻的可用度較高,可以大大減少新手抽卡次數(shù)。相比之下,其他幾家的盲抽概率更大。

另外,在生成等待時間上,Vidu和可靈所花時間最少,生成1個4-5秒的視頻,大約只需要等待2-5分鐘。Luma DreamMachine生成等待時間最長,不幸的話需要等待10多個小時才能獲得一條5秒的視頻。

從PPT“偽視頻”到動幅明顯,AI擺脫切片式畫面

圖生視頻功能上,我們還是選用了經(jīng)典梗圖作為實測素材。

一方面,“威爾史密斯吃面”在一年前就曾火爆AI圈。另一方面,作為人物類案例,涉及手指、人物外貌、物理世界理解,它可以更直觀地呈現(xiàn)AI視頻生成的幾個維度。

圖片來源:X平臺Will Smith

擅長吃播的快手可靈在這張圖上也有天然優(yōu)勢,在可靈的加持下,感覺盤子里的面看著都更香了。

從畫面來看,吃的動作、手指細節(jié)都沒有太大的問題。

可靈生成視頻

Vidu是另一個讓我驚喜的視頻工具,雖然威爾史密斯的臉部發(fā)生了畸變,但在視頻流暢性、動作幅度上都超出預期。

Vidu生成視頻

清影生成的畫面在畫面一致性上比較好,但動作過于緩慢,有些違背正常吃飯的速度,不夠自然。

清影生成視頻

PixVerse主要還是集中在手部和臉部問題上,手部的細節(jié)到最后糊成了一團,還多了額外的元素。

PixVerse生成視頻

即夢乍一看視頻流暢,畫面過得去,但它的AI一定有個“中國胃”,吃著吃著叉子變成了筷子。

可惜的是,在努力讓畫面元素豐富的同時,即夢并不能保證其穩(wěn)定性。

即夢生成視頻

HiDream和Stable Video這次的翻車有點嚴重,除了面條自行消失外,手部也出現(xiàn)了較為明顯的瑕疵。

HiDream生成視頻

Stable Video生成視頻

乍一看,Luma生成視頻還比較正常,但在結尾的時候突然出現(xiàn)了明顯的動作異常,開始逐漸往“鬼畜”的方向走了。

Luma DreamMachine生成視頻

Runway Gen-3這輪直接上演一個“假吃”,人物面部也和我們上傳的圖片可以說毫無關系。

Runway Gen-3生成視頻

看到這里,各位還記得威爾史密斯長什么樣嗎?

按道理來說,在技術上,圖生視頻應該比文生視頻實現(xiàn)難度更低,畢竟圖生視頻給予AI具體的參考物體。但在人物吃播鏡頭上,上述10款工具表現(xiàn)都不如預期,角色可控性上還是有所欠缺,幾乎都上演了“3秒內(nèi)換臉”的絕技。

但除了人物穩(wěn)定性之外,我們更容易感知的是,可靈、Vidu在手部細節(jié)以及“吃”的真實感上取得了優(yōu)勢,能夠生成動作幅度更大,更理解物理世界的視頻內(nèi)容。

卷時長、拼價格,誰是性價比之王?

當然,即便是以上相對集中的橫向測試,也不能說明全部。AI生成工具能產(chǎn)生的價值還是在于每個人結合實際需求的使用。

無論是文生圖、文生視頻,還是圖生視頻,目前為止應該沒有一個模型能夠完美適用于所有的場景和任務。

換句話說,每個視頻模型都可能針對特定的任務和數(shù)據(jù)類型進行了優(yōu)化。一個模型可能更擅長生成現(xiàn)實風格的視頻,而另一個可能更擅長卡通或抽象風格。

比如,Vidu就有特定的動畫風格,Runway Gen-3更擅長電影鏡頭,可靈在人物表現(xiàn)上有明顯優(yōu)勢等等。

對大部分玩家而言,如果不追求極致的視頻效果,想不斷進行抽卡,目前幾家的免費額度已經(jīng)夠逐一嘗鮮。

其中,即夢提供了較高的積分數(shù)量(505積分)和較低的生成成本(最低3積分),相比之下,用戶可以用較少的積分生成更長的視頻。

但如果追求更優(yōu)質的鏡頭畫面、更快的生成速度,可靈和Vidu綜合訂閱價格以及抽卡概率,會是不錯的選擇。Runway的文生視頻可玩性最高,對于新手來說,極易獲得成就感,但價格上并不占優(yōu)勢。

即使是這樣“上手可用”的狀態(tài)下,很多主流的AI視頻工具也還是有一定的改進空間。

AI視頻的普遍痛點——畫面準確性和可控性,依舊是非常常見的問題。

對此,一些AI企業(yè)會通過“事前控制”的方式,讓視頻可控性得到提升。比如,PixVerse和Runway上線了動態(tài)筆刷,盡量讓人物外貌、背景保持一致的情況下,畫面動起來?伸`、即夢、Dream Machine推出了視頻首尾幀功能,讓生成視頻盡量符合物理規(guī)律。

這些功能背后的技術難度不大,但更難的是現(xiàn)階段阻礙視頻工具發(fā)展的算力、數(shù)據(jù)和算法,同步影響生成視頻的速度、質量和效果。

此前,有新聞報道指出,Runway、蘋果、OpenAI、英偉達等都在互聯(lián)網(wǎng)上收集高質量的視頻資源,其中YouTube網(wǎng)站是其中大部分數(shù)據(jù)來源,很大一部分還是未經(jīng)創(chuàng)作者授權的“非法”獲取。

對于視頻訓練AI來說,需要大量光線、細節(jié)、人物、時長、鏡頭等等都不同的畫面,進一步進行標注后,提升AI生成的精準度。所以優(yōu)質的視頻數(shù)據(jù)遠比文字圖像更難獲得。

縱觀AI視頻生成領域,除了引發(fā)大量模型復刻追趕的Sora尚未發(fā)布,被譽為“國產(chǎn)Sora”“Sora平替”的各種視頻生成工具,都已是“現(xiàn)貨”狀態(tài)。

那么,AI會主導未來的視頻工作流嗎?

要知道,在視頻畫面中,只有鏡頭的來回運動是沒有意義的。從PPT到真正的AI短片,除了不斷優(yōu)化畫面的美觀程度,還有聲音、鏡頭語言、轉場等等。

現(xiàn)階段,我們除了用AI生成需要的畫面之外,剪輯、配樂、畫面轉場都需要人工后期完成。

從Midjourney、Flux生成圖像,再在Runway、可靈上制作視頻,然后到PR、剪映等剪輯軟件上進行升級改造,這樣的工作流并不少見,甚至是目前主流的AI視頻工作流。

未來是否會有一個AI原生視頻編輯平臺,在一個應用間實現(xiàn)跨模態(tài)的內(nèi)容,從文字開始,一鍵生成視頻?

個人開發(fā)者建的AI原生視頻編輯平臺:https://clapper.app/

我們在Github上發(fā)現(xiàn)了這個想法的雛形,有網(wǎng)友將現(xiàn)有的生成式AI技術集合在一個平臺,讓任何人都可以使用AI一站式制作視頻。相信在不遠的將來,AI原生工作流會取代現(xiàn)有的編輯流程,成為創(chuàng)建視頻的新思路。

本文來源:頭號AI玩家

頭號AI玩家

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部