太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

套殼丑聞讓斯坦福AI Lab主任怒了！抄襲團隊2人甩鍋1人失蹤、前科經(jīng)歷被扒，網(wǎng)友：重新認識中國開源模型

量子位整合編輯：太平洋科技發(fā)布于：2024-06-05 16:00

斯坦福團隊抄襲清華系大模型事件后續(xù)來了——

Llama3-V團隊承認抄襲，其中兩位來自斯坦福的本科生還跟另一位作者切割了。

最新致歉推文，由Siddharth Sharma（悉達多）和Aksh Garg（阿克什）發(fā)出。

不在其中、來自南加利福尼亞大學的Mustafa Aljadery（簡稱老穆）被指是主要過錯方，并且自昨天起人就失蹤了：

我們希望由老穆首發(fā)聲明，但自昨天以來一直無法聯(lián)系到他。

悉達多、我（阿克什）和老穆一起發(fā)布了Llama3-V，老穆為該項目編寫了代碼。

悉達多和我的角色是幫助他在Medium和Twitter上推廣這個模型。我倆查看了最近的論文以驗證工作的創(chuàng)新性，但我們沒有被告知和發(fā)現(xiàn)面壁智能先前的工作。

被指跑路的老穆本人，X主頁目前已經(jīng)開啟保護鎖定狀態(tài)，申請才能關注：

整體來看，這條致歉推文和昨天那條發(fā)出后又急忙刪掉的推文內(nèi)容大差不差，主要是突出了道歉和進一步甩鍋。

畢竟連斯坦福人工智能實驗室主任Christopher Manning都下場開噴：

這是典型的不承認自己錯誤！

他認為團隊在事發(fā)后避重就輕，用“架構相似”、“MiniCPM比我們更快實現(xiàn)”的借口推脫，拒不承認是抄襲。

但全新道歉聲明，并沒有止住網(wǎng)友們的質(zhì)疑。并且最新爆料還指出，這幾位老哥根本就是抄襲慣犯，之前寫的教材也是一整個大抄特抄。

而原作者團隊面壁智能這邊，除CEO李大海昨天回應“也是一種受到國際團隊認可的方式”外，首席科學家劉知遠也已在知乎出面“親自答”：

已經(jīng)比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼。

人工智能的飛速發(fā)展離不開全球算法、數(shù)據(jù)與模型的開源共享，讓人們始終可以站在SOTA的肩上持續(xù)前進。我們這次開源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作為語言模型基座。而開源共享的基石是對開源協(xié)議的遵守，對其他貢獻者的信任，對前人成果的尊重和致敬，Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質(zhì)疑后已在Huggingface刪庫，該團隊三人中的兩位也只是斯坦福大學本科生，未來還有很長的路，如果知錯能改，善莫大焉。

新的證據(jù)

還是先來簡單回顧一下這個大瓜。

一句話總結就是，有網(wǎng)友發(fā)現(xiàn)，最近在開源社區(qū)大火的斯坦福團隊多模態(tài)大模型Llama3-V，架構和代碼與國產(chǎn)MiniCPM-Llama3-V 2.5幾乎一毛一樣，并列舉了諸多證據(jù)直指Llama3-V抄襲。

隨著事件逐漸發(fā)酵，斯坦福AI團隊刪庫跑路，面壁智能團隊也就此事展開了調(diào)查。

面壁智能首席科學家、清華大學長聘副教授劉知遠給出的判斷Llama3-V是MiniCPM-Llama3-V 2.5套殼的一大理由，正是對于清華簡的識別能力。

這是MiniCPM-Llama3-V 2.5的“彩蛋”能力，是他們用了從清華簡逐字掃描并標注的數(shù)據(jù)集訓練的，并未公開。而Llama3-V的表現(xiàn)和MiniCPM-Llama3-V 2.5一模一樣，不僅做對的題一樣，出錯的地方都一樣。

今天，在第一波證據(jù)的基礎之上，又有其他網(wǎng)友扒出了新線索。

有人研究后發(fā)現(xiàn)，Llama3-V幾乎每一層的權重差值都符合均值為0、標準差為1.4e-3的高斯分布。

于是推測，Llama3-V只是直接在MiniCPM的權重上添加了低方差噪聲。

除此之外，那個跑路的大兄弟老穆還被曝之前寫了本關于“計算機網(wǎng)絡設計”的書，也是抄的。

從書中隨便抽出一章，用抄襲檢測器檢測一下就是一堆紅點：

以及，這本書的作者欄里，據(jù)網(wǎng)友爆料也有悉達多的名字。

也有網(wǎng)友認為抄書這事兒是不是真的還有待考究。不過，現(xiàn)在這本書也404了。

說回這次的抄襲，悉達多和阿克什的致歉聲明中也有提到他們之所以和穆哥一起宣傳這個項目，最初也是被這個多模態(tài)模型驚艷到了，特別喜歡穆哥所描述的基于Idefics、SigLip和UHD的架構擴展。

但實際上網(wǎng)友一早扒出Llama3-V在空間模式等很多方面的具體實現(xiàn)都和LLaVA-UHD不同，卻跟MiniCPM-Llama3-V 2.5出奇一致。

根據(jù)MiniCPM-Llama3-V 2.5主頁介紹，MiniCPM-Llama3-V 2.5是面壁智能MiniCPM-V系列的最新開源模型，基于SigLip-400M和Llama3-8B-Instruct構建，總共8B參數(shù)。

從性能上講，MiniCPM-Llama3-V 2.5在OpenCompass上取得了65.1的平均分，性能超過如GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等專有模型，且顯著超越其他基于Llama 3的多模態(tài)語言模型。

此外，MiniCPM-Llama3-V 2.5的OCR能力也很強，在OCRBench上得分700+，超越GPT-4o、GPT-4V-0409、Qwen-VL-Max和Gemini Pro。

基于最新的RLAIF-V方法，MiniCPM-Llama3-V 2.5在Object HalBench上的幻覺率為10.3%，也低于GPT-4V-1106的13.6%。

“中國大模型被忽視了”

盡管甩鍋甩得飛快，但網(wǎng)友們很快又從阿克什和悉達多童鞋的道歉聲明里發(fā)現(xiàn)了華點：

合著你倆啥也沒干，幫著搞搞推廣就算項目作者啦？

宣發(fā)的時候說是你們仨的項目，出事了就把鍋全甩給一個人？

如果是老穆一個人寫了所有代碼，那你倆是干啥的，就發(fā)發(fā)帖嗎？

還有網(wǎng)友挑起了一個更關鍵的話題，進一步引發(fā)熱議——

開源社區(qū)是否忽視了來自中國的大模型成果？

谷歌DeepMind研究員、ViT作者Lucas Beyer就提到，Llama3-V是抄的，但成本低于500美元，效果卻能直追Gemini、GPT-4的開源模型確實存在：

但相比于Llama3-V，MiniCPM得到的關注要少得多，包括我自己也有所忽略。

主要原因似乎是這樣的模型出自中國實驗室，而非常春藤盟校。

抱抱臉平臺和社區(qū)負責人Omar Sanseviero說的更加直接：

社區(qū)一直在忽視中國機器學習生態(tài)系統(tǒng)的工作。他們正在用有趣的大語言模型、視覺大模型、音頻和擴散模型做一些令人驚奇的事情。

包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。

對此，不少網(wǎng)友表示贊同，“他們推出了目前最好的開源VLM”。

從更客觀的大模型競技場的角度看，此言不虛。

在模型一對一PK的視覺大模型競技場中，來自零一萬物的Yi-VL-Plus排名第五，超過了谷歌的Gemini Pro Vision。智譜AI和清華合作的CogVLM也躋身前十。

此外，DeepSeek、通義千問和這次遭到抄襲的MiniCPM系列多模態(tài)模型，也都有不錯的表現(xiàn)。

在更受到廣泛認可的LMSYS Chatbot Arena Leaderboard競技場榜單中，來自中國的大模型也同樣在不斷刷新“最強開源”的新紀錄。

正如劉知遠老師所說：

從橫向來看，我們顯然仍與國際頂尖工作如Sora和GPT-4o有顯著差距；同時，從縱向來看，我們已經(jīng)從十幾年前的nobody，快速成長為人工智能科技創(chuàng)新的關鍵推動者。

此瓜甚巨，吃瓜者眾，或許更重要的是，一些成見正在破壁。你覺得呢？

MiniCPM原論文
https://arxiv.org/abs/2404.06395

參考鏈接：
[1]https://x.com/AkshGarg03/status/1797682238961914370
[2]https://x.com/siddrrsh/status/1797682242145464814
[3]https://x.com/teortaxesTex/status/1797712605286645846
[4]https://x.com/chrmanning/status/1797664513367630101
[5]https://x.com/RylanSchaeffer/status/1797690302167417322
[6]https://x.com/giffmana/status/1797603355919028547
[7]https://x.com/RylanSchaeffer/status/1797690302167417322
[8]https://x.com/osanseviero/status/1797635895610540076
[9]https://huggingface.co/spaces/WildVision/vision-arena

本文來源：量子位

大模型斯坦福團隊

量子位

原創(chuàng)欄目