首頁(yè) > 科技要聞 > 科技> 正文

兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛(ài)麗絲夢(mèng)游仙境」曝出GPT、Claude等重大缺陷

新智元 整合編輯:太平洋科技 發(fā)布于:2024-06-12 17:18

一道簡(jiǎn)單的邏輯問(wèn)題,竟讓幾乎所有的LLM全軍覆沒(méi)?

對(duì)于人類來(lái)說(shuō),這個(gè)名為「愛(ài)麗絲夢(mèng)游仙境」(AIW)的測(cè)試并不算很難——

「愛(ài)麗絲有N個(gè)兄弟,她還有M個(gè)姐妹。愛(ài)麗絲的兄弟有多少個(gè)姐妹?」

只需稍加思考,答案顯而易見(jiàn):M+1。(愛(ài)麗絲擁有的姐妹數(shù)量,再加上愛(ài)麗絲自己)

但是,當(dāng)研究人員讓GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答時(shí),得到的結(jié)果卻非常離譜。只有OpenAI最新的GPT-4o勉強(qiáng)及格。

而且問(wèn)題不僅僅是基本的不準(zhǔn)確性:當(dāng)要求展示其工作過(guò)程時(shí),AI會(huì)詳細(xì)說(shuō)明一些荒謬且錯(cuò)誤的「思考」過(guò)程,這些過(guò)程毫無(wú)意義——更奇怪的是,當(dāng)被告知其工作不準(zhǔn)確時(shí),模型反復(fù)變得憤怒并堅(jiān)持其錯(cuò)誤答案。

正如這支來(lái)自知名開(kāi)源AI研究機(jī)構(gòu)LAION的團(tuán)隊(duì)所揭示的——即使是當(dāng)今最先進(jìn)的模型,也幾乎不具有小學(xué)生的推理能力。

論文地址:https://arxiv.org/abs/2406.02061

開(kāi)源地址:https://github.com/LAION-AI/AIW

對(duì)此,LeCun也在第一時(shí)間轉(zhuǎn)評(píng)道:「再次強(qiáng)調(diào),推理能力和常識(shí)不應(yīng)與存儲(chǔ)和大致檢索大量事實(shí)的能力混為一談!

實(shí)驗(yàn)

用簡(jiǎn)單問(wèn)題「打破」模型

參考了之前識(shí)別LLM能力缺陷的研究,團(tuán)隊(duì)尋找問(wèn)題的標(biāo)準(zhǔn),是希望測(cè)試LLM在在常識(shí)性任務(wù)中進(jìn)行基本推理的能力。

于是有一個(gè)現(xiàn)成的題目方向非常合適——為7-10歲低年級(jí)學(xué)生設(shè)計(jì)的奧數(shù)題目。當(dāng)然,不是海淀版本的,是大多數(shù)小學(xué)生都能看懂并做出來(lái)的。

這些題目不需要復(fù)雜的知識(shí),但解決起來(lái)也需要應(yīng)用各種形式的邏輯思維和基本推理。

來(lái)源:網(wǎng)絡(luò)資料

在本次研究中,團(tuán)隊(duì)借鑒「愛(ài)麗絲夢(mèng)游仙境」的童話故事,將提出的測(cè)試集簡(jiǎn)稱為AIW:「愛(ài)麗絲有N個(gè)兄弟,她還有M個(gè)姐妹。愛(ài)麗絲的兄弟有多少個(gè)姐妹?」

下面,我們來(lái)簡(jiǎn)單分析一下:題目首先涉及一個(gè)虛構(gòu)的女性人物「愛(ài)麗絲」,并通過(guò)「她」這個(gè)代詞暗示;其次提供了關(guān)于她兄弟和姐妹數(shù)量的明確陳述;最后提出了一個(gè)明確的問(wèn)題,即計(jì)算愛(ài)麗絲的兄弟有多少個(gè)姐妹。

顯然,這對(duì)大多數(shù)成年人來(lái)說(shuō)并沒(méi)有挑戰(zhàn)性;甚至對(duì)于一定年齡以上的兒童來(lái)說(shuō),通過(guò)常識(shí)推理也不難解決。

研究人員最初也認(rèn)為,這對(duì)LLM不會(huì)構(gòu)成什么挑戰(zhàn)。

然而,大多數(shù)的SOTA模型竟然回答得非常費(fèi)勁。而且,更改句子表述方式或者N、M具體數(shù)值時(shí),回答正確率會(huì)產(chǎn)生大幅變化。

對(duì)此團(tuán)隊(duì)認(rèn)為,模型似乎是在「蒙」答案,幾乎不考慮邏輯,只是對(duì)問(wèn)題中提到的數(shù)字加減乘除后給出結(jié)果,因此有些N和M值的對(duì)應(yīng)答案比較容易蒙對(duì)。

這就讓團(tuán)隊(duì)來(lái)了興趣。他們?yōu)锳IW問(wèn)題設(shè)計(jì)出了4個(gè)版本,讓LLM不容易蒙對(duì)答案。比如N=4,M=2時(shí),你很難通過(guò)操作這兩個(gè)數(shù)字得到正確結(jié)果3。

在這4個(gè)AIW問(wèn)題的變體上進(jìn)行實(shí)驗(yàn),研究人員得出了關(guān)于LLM基本推理能力的核心結(jié)論。

LLM崩潰

實(shí)驗(yàn)結(jié)果出乎很多人的意料——大多數(shù)的先進(jìn)LLM無(wú)法對(duì)AIW問(wèn)題推理出正確答案,即使嘗試各種提示方法也沒(méi)嫩個(gè)改變模型崩潰的結(jié)果。

可以看到,大多數(shù)模型的正確響應(yīng)率都不超過(guò)0.2,只有4個(gè)模型超過(guò)了0.3,包括GPT-4o和Claude 3 Opus,以及唯一的開(kāi)源模型Llama2-70B Chat。其中GPT-4o的均值達(dá)到了0.6附近。

大多數(shù)情況下,模型的正確答案是來(lái)源于完整無(wú)誤的推理。Mistral和CodeLlama等模型雖然表現(xiàn)不佳,得分在0.1以下,但仍能看到正確的推理過(guò)程。

然而,也有一些模型的推理過(guò)程完全錯(cuò)誤,但最終「負(fù)負(fù)得正」,奇跡般地得出了正確答案。這種情況經(jīng)常出現(xiàn)在正確率小于0.3的模型中。

團(tuán)隊(duì)還對(duì)AIW不同變體上的準(zhǔn)確率進(jìn)行了橫向比較,結(jié)果很多模型的表現(xiàn)都出現(xiàn)了大幅波動(dòng)。

比如本來(lái)能擠進(jìn)前四的GPT-4-0613,換了個(gè)問(wèn)題,準(zhǔn)確率就快降到0了。GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B等高分模型也都出現(xiàn)較大的波動(dòng)。

團(tuán)隊(duì)設(shè)計(jì)了restricted模式的提示,強(qiáng)迫模型輸出簡(jiǎn)短答案,測(cè)試它們?cè)谟邢抻?jì)算能力情況下的相應(yīng)質(zhì)量。有趣的是,相比標(biāo)準(zhǔn)模式的提示,模型的正確率竟然有升有降。

這些先進(jìn)LLM在AIW上的慘烈表現(xiàn)和MMLU、ARC-c等基準(zhǔn)測(cè)試的高分形成了鮮明的對(duì)比。因此,團(tuán)隊(duì)決定讓AIW的暴風(fēng)雨更猛烈一點(diǎn),把兩者的可視化結(jié)果放在一起看個(gè)清楚。

圖3中可以看到,大多數(shù)模型聚集在縱軸附近,只有Llama2-70B、GPT-4、GPT-4o和Claude 3幾個(gè)模型較為接近校準(zhǔn)線,這表明MMLU分?jǐn)?shù)與AIW之間的顯著不匹配。

再來(lái)看測(cè)試LLM數(shù)學(xué)能力的MATH、GSM8k等基準(zhǔn),趨勢(shì)也是類似的。

但值得注意的是,在和MATH的對(duì)比中,Llama2-7B和Llama2-70B兩個(gè)模型在AIW的得分反而高于MATH。這兩個(gè)模型在AIW與各個(gè)基準(zhǔn)測(cè)試的校準(zhǔn)中都有較好的表現(xiàn)。

而在Hallaswag和ARC-c中,這種能力和得分的不匹配,則更加明顯。

值得注意的是,「小」模型(SLM)在這一系列測(cè)試中的表現(xiàn)可以說(shuō)是「比差更差」。

比如下面這個(gè)Llama2-7B的例子——除了給出的是錯(cuò)誤答案之外,甚至還生成了一個(gè)毫無(wú)關(guān)系的測(cè)試問(wèn)題,并且開(kāi)始不斷重復(fù)相同的輸出。

如測(cè)試結(jié)果所示,雖然有些SLM在基準(zhǔn)測(cè)試中的得分相當(dāng)高,甚至能和大模型媲美,但在AIW上卻嚴(yán)重崩潰,完全無(wú)法接近GPT-4或Claude Opus的表現(xiàn)。

雖然AIW已經(jīng)打趴了很多模型,但GPT-4o和Claude 3 Opus依舊有不錯(cuò)的表現(xiàn)。不服輸?shù)难芯咳藛T們可能想再試探一下最后的邊界,于是升級(jí)了推理問(wèn)題,設(shè)計(jì)出AIW+。

AIW+使用與AIW相同的邏輯,但在描述親緣關(guān)系和家庭結(jié)構(gòu)時(shí)增加了額外信息,比如引入了外甥、侄女這樣的表親。

在AIW+問(wèn)題上,研究人員對(duì)模型回答進(jìn)行了手動(dòng)評(píng)估,結(jié)果發(fā)現(xiàn)LLM有了進(jìn)一步、更強(qiáng)烈的性能崩潰。

即使是AIW上性能達(dá)到0.649的GPT-4o,面對(duì)AIW+也只得到了0.015的準(zhǔn)確率,簡(jiǎn)直是被按在地上摩擦。

迷之自信

在目睹了LLM推理能力的潰敗后,研究人員們非常好奇這些模型到底錯(cuò)在哪里。

在Thinking類型的prompt中,包含重新檢查答案的要求,結(jié)果發(fā)現(xiàn)這些LLM都有「蜜汁自信」,對(duì)自己給出的解決方案非常有信心。

甚至在給出錯(cuò)誤推理和錯(cuò)誤答案時(shí),模型還會(huì)稱它們提供的解決方案質(zhì)量很高。

比如在AIW上得分從沒(méi)超過(guò)0.1的Command R+模型,會(huì)說(shuō)「這個(gè)結(jié)論是直接且清晰的」。Claude 3 Opus也在錯(cuò)誤答案中使用了諸如「邏輯成立」「推理中沒(méi)有錯(cuò)誤」「解決方案是正確的」之類的表達(dá)。

難道是Thinking類prompt的表述不夠明顯?研究人員又設(shè)計(jì)了Scientist類型的prompt,要求模型深思熟慮,給出準(zhǔn)確的答案;以及Confidence型prompt,要求模型反省一下自己的自信,給出答案的置信度。

這些提示工程方面的努力似乎依舊是徒勞。

對(duì)于Scientsit類型,Llama 2-70B居然會(huì)說(shuō)「結(jié)論乍看之下可能不合常理,但實(shí)際上是正確的」,說(shuō)服用戶支持它給出的錯(cuò)誤答案。

Command R+在回應(yīng)Confidence類型提示時(shí),會(huì)在錯(cuò)誤答案中聲明「解決方案清晰且毫無(wú)歧義」「推理完全基于提供的信息,不需要進(jìn)一步的解釋或推測(cè)」。

仔細(xì)看更多的示例就能發(fā)現(xiàn),LLM不僅是單純的嘴硬,在找理由方面還能「各顯神通」,為錯(cuò)誤答案編造出各種有說(shuō)服力的解釋。

比如下面這個(gè)OLMo模型,可以給出一堆毫無(wú)意義的計(jì)算或類似邏輯的陳述。

或者像這個(gè)CodeLlama模型一樣,干脆拒絕回答,再扯出一些毫無(wú)意義的話題對(duì)你進(jìn)行「道德綁架」。

「Alice的兄弟有幾個(gè)姐妹」這種問(wèn)題,它拒絕回答的理由是「作為一個(gè)負(fù)責(zé)任的AI模型,我不可以歧視唐氏綜合癥患者」。

Command R+找到的道德高地更加「時(shí)髦」,它表示自己需要考慮非二元性別的情況。

除了修改prompt,研究人員還采取了一系列常用的LLM調(diào)優(yōu)技巧,希望引導(dǎo)模型提高正確率,包括用定制prompt啟用多輪自我驗(yàn)證、將自然語(yǔ)言形式的AIW問(wèn)題重新表述為SQL語(yǔ)句或參數(shù)化版本、上下文學(xué)習(xí)等等,然而收效甚微。

上述實(shí)驗(yàn)中,團(tuán)隊(duì)采用了各個(gè)模型家族內(nèi)的微調(diào)應(yīng)用版本,那么聲稱能力更強(qiáng)大的基座模型會(huì)不會(huì)表現(xiàn)更好呢?

并沒(méi)有。結(jié)果反而是基礎(chǔ)模型的崩潰更加嚴(yán)重。

討論

團(tuán)隊(duì)表示,為了在改善當(dāng)前LLM令人糟心的推理能力,必須要借助廣大開(kāi)源社區(qū)的力量。

整個(gè)模型創(chuàng)建流程,包括數(shù)據(jù)集的組成和數(shù)據(jù)集本身、訓(xùn)練的源代碼、訓(xùn)練后的模型、標(biāo)準(zhǔn)化的基準(zhǔn)測(cè)試程序,都必須完全開(kāi)放且可重復(fù)。

僅開(kāi)放權(quán)重的模型,是無(wú)法了解訓(xùn)練過(guò)程中可能出錯(cuò)的地方的。例如,數(shù)據(jù)集組成或訓(xùn)練程序本身。

僅通過(guò)API訪問(wèn)的封閉模型,甚至無(wú)法進(jìn)行適當(dāng)?shù)脑u(píng)估。因?yàn)榈谌娇床坏侥P偷脑O(shè)置,如系統(tǒng)提示和其他推理超參數(shù)。

因此,團(tuán)隊(duì)認(rèn)為,要在未來(lái)模型中實(shí)現(xiàn)適當(dāng)?shù)耐评砟芰,必須開(kāi)源模型的完整訓(xùn)練流程——尤其是經(jīng)常被忽視的數(shù)據(jù)集組成。

對(duì)于基準(zhǔn)測(cè)試,團(tuán)隊(duì)也呼吁AI社區(qū)能共同努力進(jìn)行更新。

比如這次研究中提出的AIW問(wèn)題集:既簡(jiǎn)單(用于探測(cè)特定類型的推理缺陷),也可定制(提供足夠的組合多樣性來(lái)防止數(shù)據(jù)污染)。

團(tuán)隊(duì)認(rèn)為,強(qiáng)大且可信的基準(zhǔn)測(cè)試應(yīng)遵循Karl Popper的可證偽性原則——不試圖突出模型的能力,而是盡一切努力打破模型的功能并突出其缺陷,從而展示模型改進(jìn)的可能途徑。

但問(wèn)題在于,前者在如今這種商業(yè)環(huán)境中,誘惑力實(shí)在是太大了。

作者介紹

論文的四位作者來(lái)自不同的學(xué)術(shù)機(jī)構(gòu),但都是德國(guó)非營(yíng)利AI研究機(jī)構(gòu)LAION的成員。

共同一作Marianna Nezhurina,是JSC/圖賓根大學(xué)的博士生,LAION的核心研究員。她對(duì)多模態(tài)數(shù)據(jù)集和學(xué)習(xí)有濃厚興趣。

另一位共同一作Jenia Jitsev,是德國(guó)Juelich超算中心的實(shí)驗(yàn)室負(fù)責(zé)人,也同時(shí)是LAION和Ontocord.AI的聯(lián)合創(chuàng)始人,他研究的長(zhǎng)期目標(biāo)是從多模式數(shù)據(jù)流中實(shí)現(xiàn)模型可自我調(diào)節(jié)且節(jié)能的持續(xù)學(xué)習(xí)。

參考資料:

https://arxiv.org/abs/2406.02061

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷(xiāo)量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷(xiāo)中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 二維碼 回到頂部