首頁(yè) > 科技要聞 > 科技> 正文

AI 跑團(tuán)就在今天?實(shí)測(cè)讓 100 萬(wàn)詞元的 Gemini 當(dāng)守秘人,我發(fā)現(xiàn)收獲了這些驚喜

appso 整合編輯:太平洋科技 發(fā)布于:2024-06-24 15:03

就在大家還在驚嘆于 GPT-4o 模型所帶來(lái)的自然語(yǔ)言的震撼,被 GPT-4o「背刺」的 Gemini 被提及的聲量就顯得小了很多。不過(guò),值得關(guān)注的驚喜還是有的,比如,宣布了 Gemini 1.5 擁有一百萬(wàn)詞元(token)的語(yǔ)境尺寸。

目前,除了 Kimi 和 Google 之外,鮮有其他 LLM 廠商嘗試擴(kuò)展語(yǔ)境尺寸。

包括為 ChatGPT 背書(shū)的 GPT-4o 模型,由 ChatGPT 自己宣稱(chēng)的語(yǔ)境尺寸在 8192 詞元。其他 LLM 可接受的最大語(yǔ)境尺寸也大多在 1000~10000 詞元的范圍中移動(dòng)。

這也很好理解:更大的語(yǔ)境尺寸會(huì)明顯地帶來(lái)的額外算力壓力;同時(shí),要在長(zhǎng)語(yǔ)境下快速做出響應(yīng),也是令調(diào)參工程師十分頭疼的問(wèn)題。

如果單純測(cè)試實(shí)際環(huán)境下的性能,找一篇帶有一百多頁(yè)的 PDF 格式論文可能足以勝任 benchmark 任務(wù)。

不過(guò),我突然還是有那么一點(diǎn)對(duì)「他們是怎么做到力大磚飛的百萬(wàn)尺寸上下文的」這個(gè)問(wèn)題感到好奇。于是,我就開(kāi)始萌生了給這些大語(yǔ)言模型使點(diǎn)絆子的想法——

來(lái)當(dāng)守秘人,一起跑個(gè)單人 CoC 團(tuán)吧!

考驗(yàn)語(yǔ)境尺寸,更考驗(yàn)?zāi)P途C合素質(zhì)

如果你還不是 TRPG 的玩家,可能對(duì)「模組」、「跑團(tuán)」這些詞匯十分陌生,我們先來(lái)快速過(guò)一遍基礎(chǔ)概念。(TRPG 分有許多分支,這里我們簡(jiǎn)單介紹《克蘇魯?shù)恼賳?[CoC]》分支的規(guī)則。)

在 TRPG 的世界里,可以簡(jiǎn)單地將「模組」類(lèi)比成網(wǎng)絡(luò)游戲中的「副本」,即多位玩家在一段預(yù)設(shè)的故事中展開(kāi)冒險(xiǎn)、尋找真相。游戲中玩家被分為兩組,分別是由一名玩家組成的守秘人(keeper,通常被簡(jiǎn)稱(chēng)為「kp」)和至少一名玩家的調(diào)查員組成。

守秘人在整個(gè)故事中的角色是,控制 NPC 的行動(dòng),并引導(dǎo)調(diào)查員在故事中的行為。如果調(diào)查員的行為觸發(fā)了故事的某些機(jī)制或者設(shè)定,守秘人需要向調(diào)查員要求投擲骰子,判斷調(diào)查員行為是否成功、并根據(jù)骰點(diǎn)結(jié)果續(xù)寫(xiě)故事,等等。

從上面的描述中,我們大概可以猜到,做 kp 對(duì)于大語(yǔ)言模型而言,是一個(gè)極其考驗(yàn)其綜合能力的任務(wù)。例如,模型需要理解模組中許多細(xì)致的要求,比如調(diào)查員在其中可以做什么、不可以做什么;當(dāng)調(diào)查員做了不符合設(shè)定或劇情上不允許的事情,應(yīng)該如何及時(shí)引導(dǎo)而不至于影響游戲體驗(yàn)。

調(diào)查員的回復(fù)中,如果有許多很細(xì)致的動(dòng)作,模型是否能夠準(zhǔn)確無(wú)誤地將它們抽象出來(lái);以及在調(diào)查員執(zhí)行特定行為的時(shí)候,確定是否需要 roll 點(diǎn)、「成功」與「失敗」的規(guī)則是什么,也是衡量 kp 素質(zhì)的十分重要的指標(biāo)。

這些事情,一個(gè)人類(lèi)新手 kp 可能都未必做得十分優(yōu)秀,對(duì)于大語(yǔ)言模型,正好也可以成為一種綜合素質(zhì)的考驗(yàn)。

第一小時(shí)的完美

在跑團(tuán)之前,我特地向 Gemini 確認(rèn)了一下它的模型尺寸。

很好!正兒八經(jīng)地是一百萬(wàn)詞元,開(kāi)啟 AI 跑團(tuán)之旅的基礎(chǔ)條件有了。接下來(lái),我在網(wǎng)上挑選了一個(gè)由輝質(zhì)撰寫(xiě)的評(píng)分較高的模組《[我的色彩](https://www.dicecho.com/module/6007fcc8bb660b024e5112f1)》,直接發(fā)給 Gemini 讓它讀取。

接下來(lái),再花點(diǎn)時(shí)間車(chē)張卡(創(chuàng)建角色卡,填寫(xiě)數(shù)值、人設(shè)等,用于投擲判定和故事發(fā)展等),然后也發(fā)給 Gemini,一切順利!可以開(kāi)始跑團(tuán)了。

(本文之后的內(nèi)容會(huì)有該模組的劇透。我們盡可能地減少劇透量,但不可能完全做到零劇透,敬請(qǐng)注意。)

單從調(diào)查員玩家的角色看來(lái),整個(gè)冒險(xiǎn)的第一小時(shí),Gemini 的表現(xiàn)堪稱(chēng)完美。

Gemini 不僅很好地營(yíng)造出了模組中要求的雪山的氛圍,而且很順利地在不同 NPC 角色之間切換,還在開(kāi)幕的時(shí)候順利地要求我進(jìn)行投擲和 SanCheck,可以說(shuō)沉浸感十足。

唯一的美中不足,就是 Gemini 目前尚不支持第三方插件,不然我高低也得給它整一個(gè) roll 點(diǎn)工具。

之后的落差

就在那么一瞬間,我突然就有了「AI 跑團(tuán)就在今天」的想法,心想著「一百萬(wàn)上下文果然就是不一樣」!可正當(dāng)我興高采烈地和 Gemini 玩得有來(lái)有回的時(shí)候,我開(kāi)始發(fā)現(xiàn)了許多不對(duì)勁的現(xiàn)象。

首先是,Gemini 很難十分完善地處理跑團(tuán)這種「馬拉松對(duì)話(huà)」,對(duì)話(huà)過(guò)程越長(zhǎng),質(zhì)量下降得越明顯,放在跑團(tuán)這個(gè)情境里,就是「更容易出戲」。

具體表現(xiàn)是,Gemini 會(huì)不斷地重復(fù)之前進(jìn)行過(guò)的對(duì)話(huà),然后反芻到現(xiàn)在的回復(fù)中。如果反芻情況太嚴(yán)重,它還會(huì)出現(xiàn)故事線(xiàn)錯(cuò)亂的情況,將它當(dāng)作「現(xiàn)在的劇情」。

例如,我作為調(diào)查員,已經(jīng)決定從醫(yī)院出院后一個(gè)人上山而沒(méi)有要求警官跟隨。過(guò)了很久,Gemini 突然在回復(fù)中認(rèn)為我是和警官一起上山的。我試圖糾正,結(jié)果 Gemini 把我從出院的劇情全部反芻了一遍。

類(lèi)似的情況在整個(gè)過(guò)程中比比皆是,也讓我有些好奇為何會(huì)出現(xiàn)這樣的情況——因?yàn)楹苊黠@,Gemini 對(duì)我們之前的劇情還有印象(否則不可能定位到我決定一個(gè)人從醫(yī)院出來(lái)的劇情),但反復(fù)反芻之前的劇情進(jìn)展也讓我十分疑惑。

我的一個(gè)猜想是,Gemini 1.5 可能使用了一種十分獨(dú)特的「分包壓縮」和「解壓縮」的方法。

比如,Gemini 可能將歷史的聊天記錄以不同分幕的方式進(jìn)行切片,并單獨(dú)將它們「壓縮」成一個(gè)總結(jié)「壓縮包」。

當(dāng) Gemini 認(rèn)為需要向我回復(fù)的內(nèi)容需要獲知其中一個(gè)或幾個(gè)「壓縮包」的內(nèi)容,就將其「解壓」出來(lái),再把它反芻到當(dāng)前會(huì)話(huà)中(因?yàn)檎{(diào)用過(guò)這個(gè)記錄,所以默認(rèn)認(rèn)為你之后一段時(shí)間里也會(huì)使用這段內(nèi)容),以避免重復(fù)進(jìn)行解壓縮。

這可能也解釋了之后一個(gè)十分奇怪的情況。在第一小時(shí)里的游戲體驗(yàn)中,Gemini 比較積極地讓我進(jìn)行 roll 點(diǎn);但到了劇情后期,Gemini 好像完全忘記了自己作為 kp 的職責(zé),反而跟我玩起了「故事接龍」游戲。

雖然對(duì)話(huà)進(jìn)行過(guò)程中,Gemini 反復(fù)地提示它正在看模組文件和我的任務(wù)卡,但 Gemini 完全無(wú)法判斷究竟該在什么時(shí)候讓我執(zhí)行 SanCheck。按照剛才的理論推斷,Gemini 很可能將早期的聊天記錄直接壓縮了,然后忘記了我們其實(shí)正在跑團(tuán)、變成了玩故事接龍。

戰(zhàn)斗?想都別想了。盡管模組文件里對(duì)于 NPC 的數(shù)值、以及在哪里能遇到什么怪物這些寫(xiě)得十分詳細(xì),但 Gemini 一點(diǎn)都沒(méi)有動(dòng)過(guò)想讓我戰(zhàn)斗的心思。

另外,LLM 對(duì)于情景和行為的交互邏輯判斷上還有待加強(qiáng)。例如,情景是我和 A、B 兩個(gè) NPC 在一起,我對(duì) A 說(shuō)話(huà)的時(shí)候,顧慮說(shuō)話(huà)對(duì) B 的影響,這種十分細(xì)微的心理活動(dòng)會(huì)被 Gemini 當(dāng)成是在對(duì) B 說(shuō)話(huà),然后被 Gemini 關(guān)聯(lián)到十分古早的劇情。

例如,「我只記得,我遇到了一個(gè)……」這時(shí)候我望向 B,我不想讓她知道這個(gè)人就是她的哥哥,然后接著對(duì) A 說(shuō),「……很奇怪的人。他像是在那里欣賞森林里的雪景一般。你知道的,正常人不可能在這種時(shí)候還在欣賞風(fēng)景!

如果是人類(lèi) kp,其實(shí)能很清楚地理解這個(gè)心理活動(dòng)和互動(dòng)邏輯。但是對(duì)于 Gemini 這種 LLM 而言,還是十分容易被理解成「轉(zhuǎn)向?qū)?B 說(shuō)話(huà)」。

如果說(shuō)單純只是玩故事接龍,其實(shí)還是有可能玩到「截團(tuán)」的?上У氖牵瑢(duì)話(huà)越長(zhǎng),Gemini 反芻的情況越嚴(yán)重,最終,連接龍都沒(méi)辦法接,這個(gè)團(tuán)也沒(méi)有辦法完整進(jìn)行下去。

跑團(tuán)可以用,但當(dāng) kp 還是不太稱(chēng)職

為了保證我的體驗(yàn)比較接近真實(shí)玩家的體驗(yàn),在和 Gemini 游玩整個(gè)模組之前,我實(shí)際上沒(méi)有仔細(xì)閱讀這個(gè)模組文件。但讀過(guò)模組之后,可以發(fā)現(xiàn)其中 Gemini 還是因?yàn)椤富糜X(jué)」現(xiàn)象或是其他原因而「放飛自我」。

比如,Gemini 版本的第一幕直接把我「扔」到了雪山之中,而模組文件要求第一幕是在醫(yī)院。另外,從雪山到醫(yī)院的過(guò)渡,也不是瞬間完成的,而是有一個(gè)人為的過(guò)渡。檢查過(guò)模組文件之后,可以發(fā)現(xiàn)幾乎 40% 的劇情量,Gemini 基本上是自己發(fā)揮、沒(méi)有跟隨模組的要求撰寫(xiě)的。

另外,游戲中的「不可名狀之物」本身的出現(xiàn)應(yīng)該是整個(gè)劇情中的最高潮部分,Gemini 直接在半山腰(字面意義的半山腰)給我來(lái)個(gè)「大劇透」,讓我以為這玩意兒就是個(gè)普通 boss。

當(dāng)然,模組作者在模組的開(kāi)頭寫(xiě)清楚了,這個(gè)模組其實(shí)帶有許多復(fù)雜的交互和融合關(guān)系。光是清晰地組織各種 NPC 與調(diào)查員之間的身份就已經(jīng)比其他模組更困難,所以這個(gè)模組并不適合新手 kp 來(lái)帶團(tuán)跑(也就是說(shuō),其實(shí)我在無(wú)意間讓 Gemini 帶了一個(gè)地獄難度級(jí)別的模組)。

但不可否認(rèn)的是,Gemini 在「編故事」這一環(huán),至少在第一小時(shí),讓我有了十分身臨其境而令人難忘的回憶,仿佛真的身處雪崩現(xiàn)場(chǎng)一般。十分驚喜的是,它還弄清楚了「根據(jù)玩家的角色卡條件不同,NPC 可能也有差異」這一點(diǎn)并體現(xiàn)到了故事當(dāng)中。

也許目前,一個(gè)新手 kp 想要在跑團(tuán)中確保自己的故事可以被潤(rùn)色一遍,使用 LLM 可能會(huì)收獲意外的效果——它可能會(huì)幫你在塑造故事這一方面變得更出色,并為新手 kp 提供許多劇情撰寫(xiě)的幫助。但如果想要讓 LLM 們精通 TRPG、做一個(gè)稱(chēng)職的 kp,看上去要教給它們的東西還有很多。

本文來(lái)源:Appso

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部