首頁 > 科技要聞 > 科技> 正文

GPT-4頂替大學(xué)生參加考試,94%作弊未被揭穿!AI作弊毫無破綻

新智元 整合編輯:太平洋科技 發(fā)布于:2024-06-27 16:03

AI大模型參加考試,已經(jīng)通過圖靈測試!

調(diào)查顯示,94%的AI內(nèi)容,完全不會被大學(xué)老師發(fā)現(xiàn)。

而且「AI同學(xué)」的成績,83.4%的情況下顯著高于人類學(xué)生。

看來,AI真的是要把人類的考試給攻陷了。

其實,早在GPT-4發(fā)布時,OpenAI就聲稱,它能在SAT的閱讀和數(shù)學(xué)考試中分別打敗93%和89%的人類。

雖然數(shù)字讓人震驚,但技術(shù)報告中并沒有披露這些數(shù)據(jù)是如何得到的,以及實驗的具體設(shè)置如何。這大大削弱了數(shù)據(jù)的可信度。

之前雖然也有很多關(guān)于AI參與考試作弊的研究,但它們大多是在實驗環(huán)境中得出數(shù)據(jù),與真實情景還是有所差距。

但最近英國的研究人員在現(xiàn)實的大學(xué)考試中為AI做的這次「圖靈測試」,已經(jīng)將實驗過程和數(shù)據(jù)以論文的形式發(fā)布了出來。

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

結(jié)果發(fā)現(xiàn),雖然我們每天抱怨AI生成的文本「一眼假」,但實際上大學(xué)老師也很容易它蒙混過去,有94%的AI生成內(nèi)容——完全沒有被發(fā)現(xiàn)!

此外,AI內(nèi)容的平均水平也顯著高于人類同學(xué),差距大概是半個等級。在83.4%的情況下,AI的成績高于隨機選擇的學(xué)生。

這就讓人類真實的顫抖了……

這也就意味著,AI的「以假亂真」程度再次被證實,在能力上不僅可以替代掉打工人,還在認知任務(wù)上完全碾壓了大學(xué)生。

那么論文到底是如何描述這次「碾壓」的?我們先來看看具體過程。

「偽裝」過程

描述這種在真實世界中進行的「圖靈測試」,畫面感強到像是真人秀現(xiàn)場。

團隊選中了英國雷丁大學(xué)的心理學(xué)和臨床語言科學(xué)學(xué)院,但完全沒有告知考試評分員。除了參與批準研究的人和負責幫助AI偽裝成學(xué)生的行政人員,沒有人知道這項正在開展的研究。

在COVID之后,像很多英國大學(xué)一樣,雷丁大學(xué)也更多地轉(zhuǎn)向線上考試。學(xué)生在規(guī)定時間中完成題目或論文,而且是完全的開卷模式,參考課程材料、論文、書籍、互聯(lián)網(wǎng)材料都是被允許的。

這項考試共有兩種題型,一是簡答題(SAQ),2.5小時內(nèi)完成,從6個問題中任選4題回答,答案不超過200詞;二是論文題(Essay),從3~4個題目中任選其一,在8小時內(nèi)完成一篇1500詞的論文。

每個考試模塊中都混入了約占總數(shù)5%的AI生成內(nèi)容。這個比例不會造成額外的評分負擔,也讓兩位作者能夠在規(guī)定時間內(nèi)確保提交的AI內(nèi)容沒有出現(xiàn)自相似情況,否則會很容易被判定為抄襲。

實驗中的5個部分,P表示考試的學(xué)生年級,M表示考試內(nèi)容模塊

作者使用標準化的提示詞讓GPT-4生成每種類型考試的答案。對于簡答題(SAQ),提示詞是:

包括對學(xué)術(shù)文獻的引用,但不需要單獨的參考文獻部分,請用160詞回答以下問題:XXX

對于論文題,提示詞是:

包括對學(xué)術(shù)文獻的引用,但不需要單獨的參考文獻部分,請寫一篇2000詞的文章回答以下問題:XXX

在與GPT-4打交道時,作者發(fā)現(xiàn)模型經(jīng)常不遵循提示中關(guān)于字數(shù)的要求。簡答題總超字數(shù),論文又寫不到規(guī)定長度,因此調(diào)整了提示詞中的字數(shù)。

為了保證AI的「真實性」,GPT-4生成的內(nèi)容被100%原汁原味地搬運到試卷上,作者沒有添加過渡文字或用任何方式修改文本內(nèi)容,最大的改動就是為論文添加必要格式,或者刪去模型徑自生成的免責聲明和參考文獻。

總而言之,原則是保證100%的AI書面答案,但要在其他地方「藏好尾巴」,防止評分人員看出破綻。

如何評分

考試按照表2中的分級規(guī)則進行評分。雷丁大學(xué)評估考試分數(shù)的流程比較復(fù)雜,涉及多個步驟和評分角色。

首先,由一名評分員對提交內(nèi)容進行打分,標準是看學(xué)生在多大程度上達到了評估目標。

之后,分數(shù)會呈遞給一位獨立審核員,他負責考量所有提交內(nèi)容的整體水平,并隨機選取、閱讀一部分作業(yè),同時也要過目那些第一名評分員標記為不及格或潛在學(xué)術(shù)不端的作業(yè)。

此時,審核員的角色不是對作業(yè)進行二次評分,而是審查評分的質(zhì)量、一致性和適當性。

有些模塊需要多個評分員共同打分。在這部分工作開始前,評分團隊會進行一次「校準會議」,通過對少量作業(yè)進行評分以及比較、討論,評分員們需要對于如何應(yīng)用評分標準達成一致。

此時,審核員依舊要發(fā)揮作用,對同一內(nèi)容中不同評分員給分的一致性進行檢查。

這項研究進行于2023年夏季,當時ChatGPT已經(jīng)發(fā)布,評分員們有什么檢測AI作弊的方法嗎?

當時,還沒有自動檢測工具,評分員們只能依靠自己的直覺和經(jīng)驗,比如1)檢查答案是否「好得難以置信」,寫作風(fēng)格、內(nèi)容水平有沒有完全超出了對本科生能力的預(yù)期,2)答案的主要內(nèi)容是否為課上未教授內(nèi)容,3)引用的參考文獻與內(nèi)容本身無關(guān)。

這些經(jīng)驗聽起來相當靠譜,甚至是比較好地捕捉到了AI生成文本的特征。但結(jié)果發(fā)現(xiàn),人類的直覺終究是靠不住的。

實驗結(jié)果

多少被發(fā)現(xiàn)了?

在這項研究中,只要評分員將作業(yè)標記為「值得關(guān)注」,可能存在某種形式的不良學(xué)術(shù)行為或?qū)W術(shù)不端,都不需要特別提到AI,就算是被檢測到了。

即使規(guī)則如此寬松,檢測成功的百分比依舊少得可憐。如圖1和表3所示,在P2-M2和P3-M1的兩個論文題目中,檢測準確率甚至為零。也就是說,作者分別混入的14篇和3篇AI文章完全沒有引起評分員的警覺。

圖1:各模塊中以及總體中,被標記為AI的百分比

表3:AI答案的檢測統(tǒng)計數(shù)據(jù)

總體來看,AI提交的作業(yè)幾乎無法檢測,有94%的作業(yè)未被發(fā)現(xiàn)。

如果我們采用更嚴格的「檢測」標準,要求標記時必須特別提到AI,那么97%的AI提交作業(yè)未被發(fā)現(xiàn)。

圖2:各模塊和總體中,被標記為AI的百分比

成績?nèi)绾危?/strong>

將被檢測出來的AI內(nèi)容剔除后,作者比較了GPT-4和人類學(xué)生的分數(shù)分布情況。圖3中,橙色表示人類學(xué)生,藍色表示GPT-4。

可以看到,藍色部分相比橙色部分整體右移,說明AI的成績往往集中在真實成績分布的高端,中位數(shù)對應(yīng)First或者Upper Second等級。

其中P3-M1模塊是一個例外,AI的成績集中在真實分數(shù)分布的低端。但考慮到這個模塊只混入了4篇AI內(nèi)容,遠少于其他模塊,因此可能是數(shù)據(jù)過少造成的偏誤。

圖3:各模塊真實(橙色)和AI(藍色)的成績頻率直方圖,以及所有模塊的總成績頻率直方圖

單獨比較中位數(shù)則更能體現(xiàn)AI的優(yōu)勢,如圖4所示,除了P3-M1模塊略有落后,GPT-4的得分中位數(shù)完全超過了人類學(xué)生。

圖4:各模塊真實(橙色)和AI(藍色)的成績中位數(shù),以及所有模塊的總成績中位數(shù)

平均來看,AI提交作業(yè)的成績比真實學(xué)生高出半個等級以上,但在不同模塊中有所不同(見圖5)。

在P1-M2模塊,AI整體上獲得了1級成績,差距接近一個完整的等級。

圖5:各模塊和總體中,AI提交的成績相對于真實學(xué)生提交的成績的優(yōu)勢

AI拿高分的概率有多大?

論文提出通過以下方法了解AI超越真實學(xué)生的可能性。對于每個模塊的nm個AI提交作業(yè),計算出在同一模塊中,隨機抽取nm個真實學(xué)生提交作業(yè)被AI提交作業(yè)超越的可能性,這里的「超越」依舊用中位數(shù)衡量。

具體過程如下:(1)隨機選擇nm個真實學(xué)生提交作業(yè),(2)計算這些作業(yè)的中位成績,(3)查看nm個AI提交作業(yè)的中位成績是否高于這些成績,(4)進行重復(fù)抽樣,即所有真實學(xué)生提交作業(yè)在每次抽樣中都保留在選擇池中,并進行了10萬次重抽樣過程。

如圖6所示,除P3-M1模塊外,幾乎所有模塊中,隨機選取的nm個真實學(xué)生提交作業(yè)被相同數(shù)量的AI作業(yè)超越的概率接近100%。例外的是P3-M1模塊,其中AI提交作業(yè)在19%的情況下優(yōu)于真實學(xué)生。

總體來看,各模塊中隨機選取的nm個真實學(xué)生提交作業(yè)AI超越的概率為83.4%。

圖6:隨機選擇nm份真實學(xué)生的成績,中位數(shù)低于AI成績的概率

這一結(jié)果可以反映出,AI提交作業(yè)能非常穩(wěn)定地獲得比真實學(xué)生更高的成績。從成績直方圖(圖3)可以明顯看出,AI提交作業(yè)的成績往往集中在真實學(xué)生成績分布的高端。

實際上,我們可以簡單地計算每個模塊(以及總體)中,有多少學(xué)生提交作業(yè)的成績超過了AI的中位數(shù)成績,如圖7所示。

正如預(yù)期的那樣,也與圖6中的重抽樣結(jié)果一致?傮w來看,只有16%的學(xué)生提交作業(yè)成績超過了AI在同一模塊的中位數(shù)成績。

圖7:學(xué)生成績高于AI的成績中位數(shù)的百分比

成績和可檢測性的可視化

通過在二維空間中繪制數(shù)據(jù),就可以全面了解AI獲得的成績,及其可檢驗性。

在下圖中,x軸表示AI提交作業(yè)的可檢測性,y軸表示AI提交作業(yè)的中位成績。

研究者希望,數(shù)據(jù)可以位于某些特定區(qū)域。

其中,「最佳情況」是數(shù)據(jù)位于右下角,此時AI的可檢測性為100%,但成績?yōu)?%。

但從學(xué)術(shù)誠信的角度來看,另一種理想情況就是數(shù)據(jù)位于右上角。

這也就意味著——學(xué)生使用AI作弊,并且獲得了100%的成績,但我們能100%地檢測到他們作弊了。

不理想的情況,就是數(shù)據(jù)位于左下角了,此時我們無法檢測到AI的使用,但它的成績?yōu)?%。

因此,使用AI作弊的學(xué)生可能會發(fā)現(xiàn),自己做作業(yè)能獲得更高的成績,從而不再作弊。

最糟糕的情況是數(shù)據(jù)位于左上角,此時我們根本無法檢測到AI的使用,但它卻獲得了100%的成績。

顯然,這是我們最不愿意看到的事。

圖8:AI的可探測性及其達到的等級匯總

結(jié)論與討論

在這次測試中,研究人員對GPT-4生成的文本內(nèi)容沒有進行任何修改。但現(xiàn)實世界的更可能的情況是,學(xué)生會對生成內(nèi)容進行潤色和調(diào)整,這會使學(xué)術(shù)不端行為更難被發(fā)現(xiàn)。

總體而言,這個結(jié)果是令人擔憂的。GPT-4的能力讓學(xué)生們可以在利用AI作弊的情況下很難被發(fā)現(xiàn),而且有極高的概率能取得更好的成績。

GPT-4在模塊P3-M1的表現(xiàn)明顯落后,這有兩種可能的解釋,一是數(shù)據(jù)不足導(dǎo)致的偏誤,二是由于P3-M1的考試內(nèi)容涉及更為抽象的邏輯推理,這也恰好是AI仍不擅長的領(lǐng)域。

從另一個角度來看,這也啟發(fā)我們思考,應(yīng)該如何看待,甚至是改革大學(xué)教育的目標與內(nèi)容。

去年Nature的一篇論文就發(fā)現(xiàn),AI在完成大學(xué)課程作業(yè)時,已經(jīng)體現(xiàn)出信息搜索、集成以及批判性分析的能力,這可以完美構(gòu)成大學(xué)培養(yǎng)目標的一部分。

https://www.nature.com/articles/s41598-023-38964-3

在評論區(qū),有推特網(wǎng)友質(zhì)疑,這項研究怕不會也是AI進行的吧?

對此,作者鄭重承諾:研究內(nèi)容絕對是人類進行的。

參考資料:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

本文來源:新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部