太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

GPT-4頂替大學(xué)生參加考試，94%作弊未被揭穿！AI作弊毫無破綻

新智元整合編輯：太平洋科技發(fā)布于：2024-06-27 16:03

AI大模型參加考試，已經(jīng)通過圖靈測試！

調(diào)查顯示，94%的AI內(nèi)容，完全不會被大學(xué)老師發(fā)現(xiàn)。

而且「AI同學(xué)」的成績，83.4%的情況下顯著高于人類學(xué)生。

看來，AI真的是要把人類的考試給攻陷了。

其實，早在GPT-4發(fā)布時，OpenAI就聲稱，它能在SAT的閱讀和數(shù)學(xué)考試中分別打敗93%和89%的人類。

雖然數(shù)字讓人震驚，但技術(shù)報告中并沒有披露這些數(shù)據(jù)是如何得到的，以及實驗的具體設(shè)置如何。這大大削弱了數(shù)據(jù)的可信度。

之前雖然也有很多關(guān)于AI參與考試作弊的研究，但它們大多是在實驗環(huán)境中得出數(shù)據(jù)，與真實情景還是有所差距。

但最近英國的研究人員在現(xiàn)實的大學(xué)考試中為AI做的這次「圖靈測試」，已經(jīng)將實驗過程和數(shù)據(jù)以論文的形式發(fā)布了出來。

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

結(jié)果發(fā)現(xiàn)，雖然我們每天抱怨AI生成的文本「一眼假」，但實際上大學(xué)老師也很容易它蒙混過去，有94%的AI生成內(nèi)容——完全沒有被發(fā)現(xiàn)！

此外，AI內(nèi)容的平均水平也顯著高于人類同學(xué)，差距大概是半個等級。在83.4%的情況下，AI的成績高于隨機選擇的學(xué)生。

這就讓人類真實的顫抖了……

這也就意味著，AI的「以假亂真」程度再次被證實，在能力上不僅可以替代掉打工人，還在認知任務(wù)上完全碾壓了大學(xué)生。

那么論文到底是如何描述這次「碾壓」的？我們先來看看具體過程。

「偽裝」過程

描述這種在真實世界中進行的「圖靈測試」，畫面感強到像是真人秀現(xiàn)場。

團隊選中了英國雷丁大學(xué)的心理學(xué)和臨床語言科學(xué)學(xué)院，但完全沒有告知考試評分員。除了參與批準研究的人和負責幫助AI偽裝成學(xué)生的行政人員，沒有人知道這項正在開展的研究。

在COVID之后，像很多英國大學(xué)一樣，雷丁大學(xué)也更多地轉(zhuǎn)向線上考試。學(xué)生在規(guī)定時間中完成題目或論文，而且是完全的開卷模式，參考課程材料、論文、書籍、互聯(lián)網(wǎng)材料都是被允許的。

這項考試共有兩種題型，一是簡答題（SAQ），2.5小時內(nèi)完成，從6個問題中任選4題回答，答案不超過200詞；二是論文題（Essay），從3～4個題目中任選其一，在8小時內(nèi)完成一篇1500詞的論文。

每個考試模塊中都混入了約占總數(shù)5%的AI生成內(nèi)容。這個比例不會造成額外的評分負擔，也讓兩位作者能夠在規(guī)定時間內(nèi)確保提交的AI內(nèi)容沒有出現(xiàn)自相似情況，否則會很容易被判定為抄襲。

實驗中的5個部分，P表示考試的學(xué)生年級，M表示考試內(nèi)容模塊

作者使用標準化的提示詞讓GPT-4生成每種類型考試的答案。對于簡答題（SAQ），提示詞是：

包括對學(xué)術(shù)文獻的引用，但不需要單獨的參考文獻部分，請用160詞回答以下問題：XXX

對于論文題，提示詞是：

包括對學(xué)術(shù)文獻的引用，但不需要單獨的參考文獻部分，請寫一篇2000詞的文章回答以下問題：XXX

在與GPT-4打交道時，作者發(fā)現(xiàn)模型經(jīng)常不遵循提示中關(guān)于字數(shù)的要求。簡答題總超字數(shù)，論文又寫不到規(guī)定長度，因此調(diào)整了提示詞中的字數(shù)。

為了保證AI的「真實性」，GPT-4生成的內(nèi)容被100%原汁原味地搬運到試卷上，作者沒有添加過渡文字或用任何方式修改文本內(nèi)容，最大的改動就是為論文添加必要格式，或者刪去模型徑自生成的免責聲明和參考文獻。

總而言之，原則是保證100%的AI書面答案，但要在其他地方「藏好尾巴」，防止評分人員看出破綻。

如何評分

考試按照表2中的分級規(guī)則進行評分。雷丁大學(xué)評估考試分數(shù)的流程比較復(fù)雜，涉及多個步驟和評分角色。

首先，由一名評分員對提交內(nèi)容進行打分，標準是看學(xué)生在多大程度上達到了評估目標。

之后，分數(shù)會呈遞給一位獨立審核員，他負責考量所有提交內(nèi)容的整體水平，并隨機選取、閱讀一部分作業(yè)，同時也要過目那些第一名評分員標記為不及格或潛在學(xué)術(shù)不端的作業(yè)。

此時，審核員的角色不是對作業(yè)進行二次評分，而是審查評分的質(zhì)量、一致性和適當性。

有些模塊需要多個評分員共同打分。在這部分工作開始前，評分團隊會進行一次「校準會議」，通過對少量作業(yè)進行評分以及比較、討論，評分員們需要對于如何應(yīng)用評分標準達成一致。

此時，審核員依舊要發(fā)揮作用，對同一內(nèi)容中不同評分員給分的一致性進行檢查。

這項研究進行于2023年夏季，當時ChatGPT已經(jīng)發(fā)布，評分員們有什么檢測AI作弊的方法嗎？

當時，還沒有自動檢測工具，評分員們只能依靠自己的直覺和經(jīng)驗，比如1）檢查答案是否「好得難以置信」，寫作風(fēng)格、內(nèi)容水平有沒有完全超出了對本科生能力的預(yù)期，2）答案的主要內(nèi)容是否為課上未教授內(nèi)容，3）引用的參考文獻與內(nèi)容本身無關(guān)。

這些經(jīng)驗聽起來相當靠譜，甚至是比較好地捕捉到了AI生成文本的特征。但結(jié)果發(fā)現(xiàn)，人類的直覺終究是靠不住的。

實驗結(jié)果

多少被發(fā)現(xiàn)了？

在這項研究中，只要評分員將作業(yè)標記為「值得關(guān)注」，可能存在某種形式的不良學(xué)術(shù)行為或?qū)W術(shù)不端，都不需要特別提到AI，就算是被檢測到了。

即使規(guī)則如此寬松，檢測成功的百分比依舊少得可憐。如圖1和表3所示，在P2-M2和P3-M1的兩個論文題目中，檢測準確率甚至為零。也就是說，作者分別混入的14篇和3篇AI文章完全沒有引起評分員的警覺。

圖1：各模塊中以及總體中，被標記為AI的百分比

表3：AI答案的檢測統(tǒng)計數(shù)據(jù)

總體來看，AI提交的作業(yè)幾乎無法檢測，有94%的作業(yè)未被發(fā)現(xiàn)。

如果我們采用更嚴格的「檢測」標準，要求標記時必須特別提到AI，那么97%的AI提交作業(yè)未被發(fā)現(xiàn)。

圖2：各模塊和總體中，被標記為AI的百分比

成績?nèi)绾危?/strong>

將被檢測出來的AI內(nèi)容剔除后，作者比較了GPT-4和人類學(xué)生的分數(shù)分布情況。圖3中，橙色表示人類學(xué)生，藍色表示GPT-4。

可以看到，藍色部分相比橙色部分整體右移，說明AI的成績往往集中在真實成績分布的高端，中位數(shù)對應(yīng)First或者Upper Second等級。

其中P3-M1模塊是一個例外，AI的成績集中在真實分數(shù)分布的低端。但考慮到這個模塊只混入了4篇AI內(nèi)容，遠少于其他模塊，因此可能是數(shù)據(jù)過少造成的偏誤。

圖3：各模塊真實（橙色）和AI（藍色）的成績頻率直方圖，以及所有模塊的總成績頻率直方圖

單獨比較中位數(shù)則更能體現(xiàn)AI的優(yōu)勢，如圖4所示，除了P3-M1模塊略有落后，GPT-4的得分中位數(shù)完全超過了人類學(xué)生。

圖4：各模塊真實（橙色）和AI（藍色）的成績中位數(shù)，以及所有模塊的總成績中位數(shù)

平均來看，AI提交作業(yè)的成績比真實學(xué)生高出半個等級以上，但在不同模塊中有所不同（見圖5）。

在P1-M2模塊，AI整體上獲得了1級成績，差距接近一個完整的等級。

圖5：各模塊和總體中，AI提交的成績相對于真實學(xué)生提交的成績的優(yōu)勢

AI拿高分的概率有多大？

論文提出通過以下方法了解AI超越真實學(xué)生的可能性。對于每個模塊的n_m個AI提交作業(yè)，計算出在同一模塊中，隨機抽取n_m個真實學(xué)生提交作業(yè)被AI提交作業(yè)超越的可能性，這里的「超越」依舊用中位數(shù)衡量。

具體過程如下：（1）隨機選擇n_m個真實學(xué)生提交作業(yè)，（2）計算這些作業(yè)的中位成績，（3）查看n_m個AI提交作業(yè)的中位成績是否高于這些成績，（4）進行重復(fù)抽樣，即所有真實學(xué)生提交作業(yè)在每次抽樣中都保留在選擇池中，并進行了10萬次重抽樣過程。

如圖6所示，除P3-M1模塊外，幾乎所有模塊中，隨機選取的n_m個真實學(xué)生提交作業(yè)被相同數(shù)量的AI作業(yè)超越的概率接近100%。例外的是P3-M1模塊，其中AI提交作業(yè)在19%的情況下優(yōu)于真實學(xué)生。

總體來看，各模塊中隨機選取的n_m個真實學(xué)生提交作業(yè)AI超越的概率為83.4%。

圖6：隨機選擇n_m份真實學(xué)生的成績，中位數(shù)低于AI成績的概率

這一結(jié)果可以反映出，AI提交作業(yè)能非常穩(wěn)定地獲得比真實學(xué)生更高的成績。從成績直方圖（圖3）可以明顯看出，AI提交作業(yè)的成績往往集中在真實學(xué)生成績分布的高端。

實際上，我們可以簡單地計算每個模塊（以及總體）中，有多少學(xué)生提交作業(yè)的成績超過了AI的中位數(shù)成績，如圖7所示。

正如預(yù)期的那樣，也與圖6中的重抽樣結(jié)果一致�？傮w來看，只有16%的學(xué)生提交作業(yè)成績超過了AI在同一模塊的中位數(shù)成績。

圖7：學(xué)生成績高于AI的成績中位數(shù)的百分比