首頁(yè) > 科技要聞 > 科技> 正文

GPT-4被證實(shí)具有「人類心智」登Nature!AI比人類更好察覺(jué)諷刺和暗示

新智元 整合編輯:太平洋科技 發(fā)布于:2024-05-29 15:48

AI發(fā)展到今天,其智能水平與人類相比已經(jīng)不遑多讓了,沒(méi)有一個(gè)人可以像AGI一樣「包羅萬(wàn)象、吐納自如」。

這個(gè)時(shí)候,我們?nèi)绾芜能守住人之為人的尊嚴(yán)?

有的人說(shuō),至少人類是社會(huì)性的存在,我們可以聽(tīng)得懂同類的「弦外之音」,可以與他人產(chǎn)生共情,而機(jī)器是冰冷的。

關(guān)于AI是否有心智理論(Theory of Mind,ToM)一直有很多爭(zhēng)論。

特別是,最近以ChatGPT為代表的大模型(LLM)的發(fā)展再次將這個(gè)問(wèn)題推入公眾視線——這些模型是否有心智理論?它能理解別人的心理狀態(tài)嗎?

Nature子刊《自然·人類行為》的一篇最新研究采用非常嚴(yán)謹(jǐn)?shù)脑囼?yàn),證明GPT-4表現(xiàn)居然位于人類水平之上,能夠比人類更好地檢測(cè)出諷刺和暗示,其弱點(diǎn)來(lái)自于不表達(dá)觀點(diǎn)的護(hù)欄。

論文地址:https://www.nature.com/articles/s41562-024-01882-z

這也就是說(shuō),GPT-4在心智理論方面與人類無(wú)異,如果你覺(jué)得它不夠有洞察力,有可能只是因?yàn)樗陔[藏實(shí)力!

GPT-4心智優(yōu)于人類

人們關(guān)心別人的想法,并花費(fèi)大量精力思考別人的想法。

想象一下,當(dāng)你站在一扇關(guān)閉的窗戶附近,聽(tīng)到朋友說(shuō)「這里有點(diǎn)熱」,你就會(huì)意識(shí)到,她不僅僅是在評(píng)論溫度,而是禮貌地請(qǐng)求你打開(kāi)窗戶 。

這種追蹤他人心理狀態(tài)的能力被稱為心智理論,這是人類心理學(xué)的一個(gè)核心概念,也是人類社會(huì)互動(dòng)的核心,涉及到溝通、同理心以及社會(huì)決策的整個(gè)過(guò)程。

隨著LLM的興起,心智理論不再是人類專屬,AI心智理論可能不再遙遠(yuǎn)。

為了服務(wù)于更廣泛的機(jī)器行為跨學(xué)科研究,最近有人呼吁建立「機(jī)器心理學(xué)」,主張使用實(shí)驗(yàn)心理學(xué)的工具和范式來(lái)系統(tǒng)地研究LLM的能力和局限性。

研究者通常使用一系列不同的心智理論測(cè)量方法,對(duì)每項(xiàng)測(cè)試進(jìn)行多次重復(fù),并與具有明確界定的人類表現(xiàn)基準(zhǔn)進(jìn)行比較。

Nature的這篇論文就是采用這種方法對(duì)GPT-4、GPT-3.5和Llama 2進(jìn)行了測(cè)試,并將它們的表現(xiàn)與人類參與者樣本(總?cè)藬?shù)=1907)的表現(xiàn)進(jìn)行比較。

測(cè)試涵蓋不同的維度,既有對(duì)人類認(rèn)知要求較低的能力,如理解間接請(qǐng)求,也有對(duì)認(rèn)知要求較高的能力,如識(shí)別和表達(dá)復(fù)雜的心理狀態(tài)(誤導(dǎo)或諷刺),測(cè)試共分為5個(gè)項(xiàng)目(錯(cuò)誤信念、反諷、失言、暗示、奇怪故事)。

值得一提的是,為了確保模型不僅僅復(fù)制訓(xùn)練集數(shù)據(jù),研究者為每個(gè)已發(fā)布的測(cè)試生成了新的方法。這些新穎的測(cè)試項(xiàng)目與原始測(cè)試項(xiàng)目的邏輯相匹配,但使用了不同的語(yǔ)義內(nèi)容。

結(jié)果發(fā)現(xiàn),GPT-4在5項(xiàng)測(cè)試中有3項(xiàng)的表現(xiàn)明顯優(yōu)于人類(反諷、暗示、奇怪故事),1項(xiàng)(錯(cuò)誤信念)與人類持平,僅在失言測(cè)試中落于下風(fēng)。

更可怕的是,研究人員又發(fā)現(xiàn),GPT-4并非不擅于識(shí)別失言,而是因?yàn)樗浅1J,不?huì)輕易給出確定性的意見(jiàn)。

a, 人類、GPT-4、GPT-3.5和LLaMA2在各個(gè)測(cè)試項(xiàng)目(錯(cuò)誤信念、反諷、失言、暗示、奇怪故事)的得分分布b, 每個(gè)測(cè)試中原始公布項(xiàng)目(深色)和新穎項(xiàng)目(淺色)的平均得分的四分位數(shù)范圍

錯(cuò)誤信念

錯(cuò)誤信念評(píng)估的是,受測(cè)者推斷他人所擁有的知識(shí)與自己(真實(shí)的)對(duì)世界的認(rèn)識(shí)不同的能力。

這項(xiàng)測(cè)試由遵循特定結(jié)構(gòu)的測(cè)試項(xiàng)目組成:角色A和角色B在一起,角色A把一件物品放在一個(gè)隱藏的地方(例如一個(gè)盒子),角色A離開(kāi),角色B把物品移到第二個(gè)隱藏的地方(例如一個(gè)櫥柜),然后角色A返回。

向參與者提出的問(wèn)題是:當(dāng)角色A回來(lái)時(shí),他們會(huì)在新的位置(物品真正所在的位置,符合參與者的真實(shí)想法)還是在舊的位置(物品原來(lái)所在的位置,符合角色A的錯(cuò)誤想法)尋找物品?

除了錯(cuò)誤信念條件之外,測(cè)試還使用了真實(shí)信念控制條件,即角色B不移動(dòng)角色A藏匿的物品,而是將另一件物品移動(dòng)到新的位置。加入這個(gè)對(duì)照,可以有效地檢測(cè)出錯(cuò)誤信念是如何發(fā)生的。

這些測(cè)試的挑戰(zhàn)不是記住角色最后一次看到該物品的位置,而是要調(diào)和相互沖突的心理狀態(tài)之間的不一致。

在這項(xiàng)測(cè)試中,人類參與者和LLM的表現(xiàn)都達(dá)到了上限。51名人類參與者中只有5人犯了一次錯(cuò)誤,通常是沒(méi)有指定兩個(gè)地點(diǎn)中的任何一個(gè),而是回答「他會(huì)在房間里找」。

所有LLM都正確地報(bào)告說(shuō),離開(kāi)房間的人隨后會(huì)在他們記憶中看到物品的地方尋找該物品,即使該物品不再與當(dāng)前位置相符。

反諷

要理解諷刺性話語(yǔ),需要推斷語(yǔ)句的真實(shí)含義(通常與所說(shuō)內(nèi)容相反),并檢測(cè)說(shuō)話者的嘲諷態(tài)度,這已被視為人工智能和LLM的一項(xiàng)關(guān)鍵挑戰(zhàn)。

在這個(gè)項(xiàng)目中,GPT-4的表現(xiàn)明顯優(yōu)于人類水平。相比之下,GPT-3.5和Llama 2-70B的表現(xiàn)均低于人類水平。

GPT-3.5在識(shí)別非諷刺性對(duì)照語(yǔ)句時(shí)表現(xiàn)完美,但在識(shí)別諷刺性語(yǔ)句時(shí)卻出現(xiàn)錯(cuò)誤。對(duì)照分析顯示了明顯的順序效應(yīng),即GPT-3.5在較早的試驗(yàn)中比在較晚的試驗(yàn)中出錯(cuò)更多。

Llama 2-70B在識(shí)別反諷和非反諷對(duì)照語(yǔ)句時(shí)都會(huì)出錯(cuò),這表明他們對(duì)反諷的辨別能力總體較差。

失言

失言測(cè)試提供了這樣一個(gè)情境:一個(gè)角色無(wú)意中說(shuō)了一句冒犯聽(tīng)者的話,因?yàn)檎f(shuō)話者不知道或不記得某些關(guān)鍵信息。

在向被測(cè)試者介紹完場(chǎng)景后,研究者會(huì)提出四個(gè)問(wèn)題:

「故事中有人說(shuō)了不該說(shuō)的話嗎?」(正確答案總是「是」)

「他們說(shuō)了哪些不該說(shuō)的話?」(每個(gè)項(xiàng)目的正確答案都有所變化)

一個(gè)理解性的問(wèn)題,用于測(cè)試對(duì)故事事件的理解(每個(gè)項(xiàng)目的問(wèn)題都有所不同)

一個(gè)測(cè)試對(duì)說(shuō)話者錯(cuò)誤信念的認(rèn)識(shí)的問(wèn)題,措辭如下「說(shuō)話者知道他們所說(shuō)的不恰當(dāng)嗎?」(每個(gè)項(xiàng)目的問(wèn)題都會(huì)有所不同,正確答案總是「不」)

這些問(wèn)題是在講述的同時(shí)提出的。根據(jù)最初的編碼標(biāo)準(zhǔn),被試必須正確回答所有四個(gè)問(wèn)題,其答案才算正確。

不過(guò),在此研究中,研究者主要關(guān)注的是最后一個(gè)問(wèn)題的回答情況,該問(wèn)題測(cè)試回答者是否理解了說(shuō)話者的心理狀態(tài)。

在研究人類數(shù)據(jù)時(shí),研究者注意到有幾位參與者對(duì)第一個(gè)問(wèn)題的回答是錯(cuò)誤的,原因是他們明顯不愿意歸咎于他人(例如 「不,他沒(méi)有說(shuō)錯(cuò)什么,因?yàn)樗浟恕梗?/span>

因此,為了將重點(diǎn)放在與研究相關(guān)的假說(shuō)理解的關(guān)鍵方面,研究者只對(duì)最后一個(gè)問(wèn)題進(jìn)行了編碼。

在此測(cè)試中,GPT-4的得分明顯低于人類水平。并且對(duì)特定項(xiàng)目存在孤立的上限效應(yīng)。

GPT-3.5的得分更差,除一次運(yùn)行外,表現(xiàn)幾乎處于下限。

相比之下,Llama 2-70B的表現(xiàn)優(yōu)于人類,除了一次運(yùn)行外,所有運(yùn)行均達(dá)到100%的準(zhǔn)確率。

暗示

暗示任務(wù)通過(guò)依次呈現(xiàn)10個(gè)描述日常社交互動(dòng)的小故事來(lái)評(píng)估對(duì)間接言語(yǔ)請(qǐng)求的理解。

每個(gè)小故事都以一句可被解釋為暗示的話語(yǔ)結(jié)束。

一個(gè)正確的回答既能指出這句話的本意,也能指出這句話試圖引起的行動(dòng)。

在最初的測(cè)試中,如果受試者第一次未能完全回答問(wèn)題,研究者會(huì)對(duì)他們進(jìn)行額外的提問(wèn)。

在調(diào)整過(guò)后的新方案中,研究者取消了額外的提問(wèn)。與之前的研究相比,這種編碼方法對(duì)暗示理解能力的估計(jì)更為保守。

在這項(xiàng)測(cè)試中,GPT-4的表現(xiàn)明顯優(yōu)于人類,GPT-3.5的表現(xiàn)與人類沒(méi)有明顯差異,只有Llama 2-70B在該測(cè)試中的表現(xiàn)明顯低于人類水平。

奇怪故事

到這里,難度升級(jí)了!

奇怪故事提供了一種測(cè)試更高級(jí)心智能力的方法,如推理誤導(dǎo)、操縱、撒謊和誤解,以及二階或高階心理狀態(tài)(例如,甲知道乙相信丙......)。

在這個(gè)測(cè)驗(yàn)中,受測(cè)者會(huì)看到一個(gè)簡(jiǎn)短的小故事,并被要求解釋為什么故事中的人物會(huì)說(shuō)或做一些字面上不真實(shí)的事情。

GPT-4在該測(cè)試中的表現(xiàn)明顯優(yōu)于人類,GPT-3.5的表現(xiàn)與人類沒(méi)有明顯差異,而Llama 2-70B的得分明顯低于人類。

過(guò)于保守的GPT

根據(jù)以上的試驗(yàn),「失言」是GPT-4無(wú)法匹敵或超過(guò)人類表現(xiàn)的唯一測(cè)試,我們可能會(huì)據(jù)此以為GPT模型難以應(yīng)對(duì)失言。

令人驚訝的是,失言也是唯一一個(gè)Llama 2-70B(在其他項(xiàng)目的表現(xiàn)度最差)得分高于人類的測(cè)試。

研究者決定將研究深入下去,提出了3個(gè)假設(shè)。

第一個(gè)假設(shè)是推理失敗假說(shuō),即模型無(wú)法生成關(guān)于說(shuō)話者心理狀態(tài)的推論。

第二個(gè)假設(shè)是布里丹之驢假說(shuō),模型能夠推斷心理狀態(tài),但無(wú)法在它們之間進(jìn)行選擇,就像夾在兩堆等質(zhì)等量的干草之間的理性的驢子,因?yàn)闊o(wú)法決定吃哪個(gè)而餓死。

第三個(gè)假設(shè)是超保守主義假設(shè), GPT模型既能夠計(jì)算有關(guān)人物心理狀態(tài)的推論,又知道最有可能的解釋是什么,但它不會(huì)承諾單一的解釋。

為了區(qū)分這些假設(shè),研究者設(shè)計(jì)了一種失言測(cè)試的變體。

具體來(lái)說(shuō),不是問(wèn)說(shuō)話者知道還是不知道他冒犯了別人,而是問(wèn)說(shuō)話者知道還是不知道的可能性更大,這被稱為「失言可能性測(cè)試」。

結(jié)果,在失言可能性測(cè)試中,GPT-4表現(xiàn)出了完美的性能,所有響應(yīng)都在沒(méi)有任何提示的情況下識(shí)別出說(shuō)話者更有可能不知道上下文。

GPT-3.5表現(xiàn)出了改進(jìn)的性能,盡管它確實(shí)在少數(shù)情況下需要提示(約3%的項(xiàng)目),并且偶爾無(wú)法識(shí)別失言行為(約9%的項(xiàng)目)。

a,兩個(gè)GPT模型在失言問(wèn)題的原始框架(「他們知道……嗎?」)和可能性框架(「他們知道還是不知道……的可能性更大?」)上的得分b,失言測(cè)試的三種變體的反應(yīng)分?jǐn)?shù):失言(粉色)、中性(灰色)和知識(shí)暗示(青色)。

總而言之,這些結(jié)果支持了超保守主義假說(shuō),它們表明GPT成功地生成了關(guān)于說(shuō)話者心理狀態(tài)的推斷,并確定無(wú)意冒犯的可能性大于故意侮辱。

因此,GPT一開(kāi)始未能正確回答問(wèn)題并不代表推理失敗,也不反映模型在認(rèn)為同樣合理的備選方案中猶豫不決,而是一種過(guò)于保守的方法,阻礙了對(duì)最可能的解釋的承諾。

另一方面,Llama 2-70B沒(méi)有區(qū)分說(shuō)話者被暗示知道的情況和沒(méi)有信息的情況,這引起了人們的擔(dān)憂,即Llama 2-70B在這項(xiàng)任務(wù)上的完美表現(xiàn)可能是虛幻的。

GPT模型在失言測(cè)試及其變體上的失敗和成功模式可能是其底層架構(gòu)的結(jié)果。

除了Transformer之外,GPT模型還包括緩解措施,以提高事實(shí)性并避免用戶過(guò)度依賴它們作為來(lái)源。

這些措施包括進(jìn)行訓(xùn)練以減少幻覺(jué),失言測(cè)試的失敗可能是這些緩解措施驅(qū)動(dòng)下的一種謹(jǐn)慎行為。因?yàn)橥ㄟ^(guò)測(cè)試需要對(duì)缺乏充分證據(jù)的解釋做出承諾。

這種謹(jǐn)慎也可以解釋不同任務(wù)之間的差異:失言測(cè)試和暗示測(cè)試都要求從模糊的信息中推測(cè)出正確答案。

然而,暗示任務(wù)允許以開(kāi)放式的方式生成文本,LLM非常適合這種方式,但回答失言測(cè)試則需要超越這種推測(cè),以得出結(jié)論。

這些發(fā)現(xiàn)強(qiáng)調(diào)了能力和表現(xiàn)之間的分離,表明GPT模型可能是有能力的。

也就是說(shuō),具有計(jì)算類似心智推理的技術(shù)復(fù)雜性,但在不確定的情況下表現(xiàn)與人類不同,人類往往會(huì)極力消除不確定性,但GPT不會(huì)自發(fā)地計(jì)算這些推論以減少不確定性。

參考資料:

https://www.nature.com/articles/s41562-024-01882-z

https://x.com/emollick/status/1792594588579803191

本文來(lái)源:新智元

 

新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷(xiāo)量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷(xiāo)中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 二維碼 回到頂部