首頁 > 科技要聞 > 科技> 正文

Stable Diffusion 3開源秒翻車,畫人好掉san

量子位 整合編輯:太平洋科技 發(fā)布于:2024-06-17 16:29

沒想到……Stable Diffusion 3開源即出現(xiàn)翻車案例。

生成一個躺在草地上的女孩,結(jié)果長這樣?

而且不是個例,只要是和人(整體)相關(guān)的內(nèi)容,生成結(jié)果都有點掉san。

(前方高能)

但如果是局部,比如只生成人臉,確實很nice。

清晰度、寫字、寫實性等方面都有明顯提升。

對于復(fù)雜長提示詞的理解也很到位,有網(wǎng)友發(fā)現(xiàn)提示越長它畫的越好。


那么問題來了,為啥偏偏畫不好人類?

問題可能在于數(shù)據(jù)集

先來看看SD3開源的具體情況。

本次開源的版本是Stable Diffusion 3 Medium(中杯)。

它的規(guī)模為20億參數(shù),在筆記本上就能跑了。

官方強調(diào)的屬性有5方面,逐一來看:

整體質(zhì)量和寫實性

可生成出色的細節(jié),包括色彩、光線、強寫實等,帶來靈活風格的高質(zhì)量輸出。

通過16通道VAE,成功解決了其他模型的常見缺陷,比如手部和面部的寫實問題。

提示詞理解

可以理解復(fù)雜長提示,包含空間推理、元素組合、動作、風格等。3個文本編碼器可以全部或者組合使用,方便用戶平衡性能和顯存。

有效利用資源

對VRAM占用很低,非常適合在消費級GPU上運行,且性能不降低。

微調(diào)

能夠利用小數(shù)據(jù)集微調(diào),方便定制化。

目前在Hugging Face上已經(jīng)可以下載模型權(quán)重。非商業(yè)用途可免費下載使用,商業(yè)用途需要先拿授權(quán)。

那么為啥升級后還是會翻車?

有人發(fā)現(xiàn),如果細看“躺在草坪上的女孩”這張圖像,會發(fā)現(xiàn)它在局部細節(jié)上確實還可以,甚至很棒。

草地上的影子、衣物上反射的光線、頭發(fā)的質(zhì)地……都遵循了物理規(guī)律。

但人物整體就不敢恭維了。

不少網(wǎng)友都認為,這就是問題的關(guān)鍵。

我認為他們的NSFW過濾器,把所有人類圖像都判定為了NSFW。

這個過濾器全稱是filtering out adult content,作用在于過濾掉不合規(guī)的成人內(nèi)容。

SD2發(fā)布時就出現(xiàn)過類似的問題,研究人員發(fā)現(xiàn)審查這部分內(nèi)容可能影響了模型對人體結(jié)構(gòu)的理解。

后面的SD2.1和SDXL版本有所緩解。

這次SD3的翻車,暴露了一個問題:過于嚴格的數(shù)據(jù)審核,可能誤刪了一些無害的成人圖像,所以現(xiàn)在模型沒法理解人體結(jié)構(gòu)。

有網(wǎng)友就陰陽說,沒多久之前SD還能和Midjourney競爭,現(xiàn)在一比,就像個笑話。

至少我們的數(shù)據(jù)集是安全和合乎道德的。

Reddit上“SD3-2B發(fā)布是個笑話嗎”的帖子,熱度已經(jīng)沖到了800+。

當然,除了技術(shù)以外的原因,還不少人覺得SD3的性能不佳更進一步暴露了Stability AI的內(nèi)部混亂。

我猜他們現(xiàn)在可以安全合規(guī)地破產(chǎn)了。

欠債1億、疑似求賣身

Stability AI的動蕩,從SD3開源的一再延期就能窺見端倪。

2月發(fā)布模型后,一開始,官方說的是搞完RLHF就開源,結(jié)果大家伙等了3個多月,官方放出的還是只有API。直到現(xiàn)在,才開源了一個中杯版本。

與此同時,公司CEO Emad辭職+退出董事會。核心團隊也被曝集體離職。

今年5月,據(jù)The Information消息,這家初創(chuàng)公司已經(jīng)面臨嚴重現(xiàn)金短缺:第一季度收入不到500萬美元,而虧損超過了3000萬美元。同時欠了云廠商和其他企業(yè)近1億美元,“求賣身”的消息不斷傳出。

值得一提的是,消息稱SD3還將開源更多版本,包括4B和8B。

不知道更大版本效果會如何呢?

官網(wǎng)傳送門:https://stability.ai/news/stable-diffusion-3-medium

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部