太平洋科技要聞

AI 跑團(tuán)就在今天？實(shí)測(cè)讓 100 萬(wàn)詞元的 Gemini 當(dāng)守秘人，我發(fā)現(xiàn)收獲了這些驚喜

appso 整合編輯：太平洋科技發(fā)布于：2024-06-24 15:03

就在大家還在驚嘆于 GPT-4o 模型所帶來(lái)的自然語(yǔ)言的震撼，被 GPT-4o「背刺」的 Gemini 被提及的聲量就顯得小了很多。不過(guò)，值得關(guān)注的驚喜還是有的，比如，宣布了 Gemini 1.5 擁有一百萬(wàn)詞元（token）的語(yǔ)境尺寸。

目前，除了 Kimi 和 Google 之外，鮮有其他 LLM 廠商嘗試擴(kuò)展語(yǔ)境尺寸。

包括為 ChatGPT 背書(shū)的 GPT-4o 模型，由 ChatGPT 自己宣稱(chēng)的語(yǔ)境尺寸在 8192 詞元。其他 LLM 可接受的最大語(yǔ)境尺寸也大多在 1000～10000 詞元的范圍中移動(dòng)。

這也很好理解：更大的語(yǔ)境尺寸會(huì)明顯地帶來(lái)的額外算力壓力；同時(shí)，要在長(zhǎng)語(yǔ)境下快速做出響應(yīng)，也是令調(diào)參工程師十分頭疼的問(wèn)題。

如果單純測(cè)試實(shí)際環(huán)境下的性能，找一篇帶有一百多頁(yè)的 PDF 格式論文可能足以勝任 benchmark 任務(wù)。

不過(guò)，我突然還是有那么一點(diǎn)對(duì)「他們是怎么做到力大磚飛的百萬(wàn)尺寸上下文的」這個(gè)問(wèn)題感到好奇。于是，我就開(kāi)始萌生了給這些大語(yǔ)言模型使點(diǎn)絆子的想法——

來(lái)當(dāng)守秘人，一起跑個(gè)單人 CoC 團(tuán)吧！

考驗(yàn)語(yǔ)境尺寸，更考驗(yàn)?zāi)Ｐ途C合素質(zhì)

如果你還不是 TRPG 的玩家，可能對(duì)「模組」、「跑團(tuán)」這些詞匯十分陌生，我們先來(lái)快速過(guò)一遍基礎(chǔ)概念。（TRPG 分有許多分支，這里我們簡(jiǎn)單介紹《克蘇魯?shù)恼賳?[CoC]》分支的規(guī)則。）

在 TRPG 的世界里，可以簡(jiǎn)單地將「模組」類(lèi)比成網(wǎng)絡(luò)游戲中的「副本」，即多位玩家在一段預(yù)設(shè)的故事中展開(kāi)冒險(xiǎn)、尋找真相。游戲中玩家被分為兩組，分別是由一名玩家組成的守秘人（keeper，通常被簡(jiǎn)稱(chēng)為「kp」）和至少一名玩家的調(diào)查員組成。

守秘人在整個(gè)故事中的角色是，控制 NPC 的行動(dòng)，并引導(dǎo)調(diào)查員在故事中的行為。如果調(diào)查員的行為觸發(fā)了故事的某些機(jī)制或者設(shè)定，守秘人需要向調(diào)查員要求投擲骰子，判斷調(diào)查員行為是否成功、并根據(jù)骰點(diǎn)結(jié)果續(xù)寫(xiě)故事，等等。

從上面的描述中，我們大概可以猜到，做 kp 對(duì)于大語(yǔ)言模型而言，是一個(gè)極其考驗(yàn)其綜合能力的任務(wù)。例如，模型需要理解模組中許多細(xì)致的要求，比如調(diào)查員在其中可以做什么、不可以做什么；當(dāng)調(diào)查員做了不符合設(shè)定或劇情上不允許的事情，應(yīng)該如何及時(shí)引導(dǎo)而不至于影響游戲體驗(yàn)。

調(diào)查員的回復(fù)中，如果有許多很細(xì)致的動(dòng)作，模型是否能夠準(zhǔn)確無(wú)誤地將它們抽象出來(lái)；以及在調(diào)查員執(zhí)行特定行為的時(shí)候，確定是否需要 roll 點(diǎn)、「成功」與「失敗」的規(guī)則是什么，也是衡量 kp 素質(zhì)的十分重要的指標(biāo)。

這些事情，一個(gè)人類(lèi)新手 kp 可能都未必做得十分優(yōu)秀，對(duì)于大語(yǔ)言模型，正好也可以成為一種綜合素質(zhì)的考驗(yàn)。

第一小時(shí)的完美

在跑團(tuán)之前，我特地向 Gemini 確認(rèn)了一下它的模型尺寸。

很好！正兒八經(jīng)地是一百萬(wàn)詞元，開(kāi)啟 AI 跑團(tuán)之旅的基礎(chǔ)條件有了。接下來(lái)，我在網(wǎng)上挑選了一個(gè)由輝質(zhì)撰寫(xiě)的評(píng)分較高的模組《[我的色彩](https://www.dicecho.com/module/6007fcc8bb660b024e5112f1)》，直接發(fā)給 Gemini 讓它讀取。

接下來(lái)，再花點(diǎn)時(shí)間車(chē)張卡（創(chuàng)建角色卡，填寫(xiě)數(shù)值、人設(shè)等，用于投擲判定和故事發(fā)展等），然后也發(fā)給 Gemini，一切順利！可以開(kāi)始跑團(tuán)了。

（本文之后的內(nèi)容會(huì)有該模組的劇透。我們盡可能地減少劇透量，但不可能完全做到零劇透，敬請(qǐng)注意。）

單從調(diào)查員玩家的角色看來(lái)，整個(gè)冒險(xiǎn)的第一小時(shí)，Gemini 的表現(xiàn)堪稱(chēng)完美。

Gemini 不僅很好地營(yíng)造出了模組中要求的雪山的氛圍，而且很順利地在不同 NPC 角色之間切換，還在開(kāi)幕的時(shí)候順利地要求我進(jìn)行投擲和 SanCheck，可以說(shuō)沉浸感十足。

唯一的美中不足，就是 Gemini 目前尚不支持第三方插件，不然我高低也得給它整一個(gè) roll 點(diǎn)工具。

之后的落差

就在那么一瞬間，我突然就有了「AI 跑團(tuán)就在今天」的想法，心想著「一百萬(wàn)上下文果然就是不一樣」！可正當(dāng)我興高采烈地和 Gemini 玩得有來(lái)有回的時(shí)候，我開(kāi)始發(fā)現(xiàn)了許多不對(duì)勁的現(xiàn)象。

首先是，Gemini 很難十分完善地處理跑團(tuán)這種「馬拉松對(duì)話(huà)」，對(duì)話(huà)過(guò)程越長(zhǎng)，質(zhì)量下降得越明顯，放在跑團(tuán)這個(gè)情境里，就是「更容易出戲」。

具體表現(xiàn)是，Gemini 會(huì)不斷地重復(fù)之前進(jìn)行過(guò)的對(duì)話(huà)，然后反芻到現(xiàn)在的回復(fù)中。如果反芻情況太嚴(yán)重，它還會(huì)出現(xiàn)故事線(xiàn)錯(cuò)亂的情況，將它當(dāng)作「現(xiàn)在的劇情」。

例如，我作為調(diào)查員，已經(jīng)決定從醫(yī)院出院后一個(gè)人上山而沒(méi)有要求警官跟隨。過(guò)了很久，Gemini 突然在回復(fù)中認(rèn)為我是和警官一起上山的。我試圖糾正，結(jié)果 Gemini 把我從出院的劇情全部反芻了一遍。

類(lèi)似的情況在整個(gè)過(guò)程中比比皆是，也讓我有些好奇為何會(huì)出現(xiàn)這樣的情況——因?yàn)楹苊黠@，Gemini 對(duì)我們之前的劇情還有印象（否則不可能定位到我決定一個(gè)人從醫(yī)院出來(lái)的劇情），但反復(fù)反芻之前的劇情進(jìn)展也讓我十分疑惑。

我的一個(gè)猜想是，Gemini 1.5 可能使用了一種十分獨(dú)特的「分包壓縮」和「解壓縮」的方法。

比如，Gemini 可能將歷史的聊天記錄以不同分幕的方式進(jìn)行切片，并單獨(dú)將它們「壓縮」成一個(gè)總結(jié)「壓縮包」。

當(dāng) Gemini 認(rèn)為需要向我回復(fù)的內(nèi)容需要獲知其中一個(gè)或幾個(gè)「壓縮包」的內(nèi)容，就將其「解壓」出來(lái)，再把它反芻到當(dāng)前會(huì)話(huà)中（因?yàn)檎{(diào)用過(guò)這個(gè)記錄，所以默認(rèn)認(rèn)為你之后一段時(shí)間里也會(huì)使用這段內(nèi)容），以避免重復(fù)進(jìn)行解壓縮。

這可能也解釋了之后一個(gè)十分奇怪的情況。在第一小時(shí)里的游戲體驗(yàn)中，Gemini 比較積極地讓我進(jìn)行 roll 點(diǎn)；但到了劇情后期，Gemini 好像完全忘記了自己作為 kp 的職責(zé)，反而跟我玩起了「故事接龍」游戲。

雖然對(duì)話(huà)進(jìn)行過(guò)程中，Gemini 反復(fù)地提示它正在看模組文件和我的任務(wù)卡，但 Gemini 完全無(wú)法判斷究竟該在什么時(shí)候讓我執(zhí)行 SanCheck。按照剛才的理論推斷，Gemini 很可能將早期的聊天記錄直接壓縮了，然后忘記了我們其實(shí)正在跑團(tuán)、變成了玩故事接龍。

戰(zhàn)斗？想都別想了。盡管模組文件里對(duì)于 NPC 的數(shù)值、以及在哪里能遇到什么怪物這些寫(xiě)得十分詳細(xì)，但 Gemini 一點(diǎn)都沒(méi)有動(dòng)過(guò)想讓我戰(zhàn)斗的心思。

另外，LLM 對(duì)于情景和行為的交互邏輯判斷上還有待加強(qiáng)。例如，情景是我和 A、B 兩個(gè) NPC 在一起，我對(duì) A 說(shuō)話(huà)的時(shí)候，顧慮說(shuō)話(huà)對(duì) B 的影響，這種十分細(xì)微的心理活動(dòng)會(huì)被 Gemini 當(dāng)成是在對(duì) B 說(shuō)話(huà)，然后被 Gemini 關(guān)聯(lián)到十分古早的劇情。

例如，「我只記得，我遇到了一個(gè)……」這時(shí)候我望向 B，我不想讓她知道這個(gè)人就是她的哥哥，然后接著對(duì) A 說(shuō)，「……很奇怪的人。他像是在那里欣賞森林里的雪景一般。你知道的，正常人不可能在這種時(shí)候還在欣賞風(fēng)景�！�

如果是人類(lèi) kp，其實(shí)能很清楚地理解這個(gè)心理活動(dòng)和互動(dòng)邏輯。但是對(duì)于 Gemini 這種 LLM 而言，還是十分容易被理解成「轉(zhuǎn)向?qū)?B 說(shuō)話(huà)」。

如果說(shuō)單純只是玩故事接龍，其實(shí)還是有可能玩到「截團(tuán)」的�？上У氖牵瑢�(duì)話(huà)越長(zhǎng)，Gemini 反芻的情況越嚴(yán)重，最終，連接龍都沒(méi)辦法接，這個(gè)團(tuán)也沒(méi)有辦法完整進(jìn)行下去。

跑團(tuán)可以用，但當(dāng) kp 還是不太稱(chēng)職

為了保證我的體驗(yàn)比較接近真實(shí)玩家的體驗(yàn)，在和 Gemini 游玩整個(gè)模組之前，我實(shí)際上沒(méi)有仔細(xì)閱讀這個(gè)模組文件。但讀過(guò)模組之后，可以發(fā)現(xiàn)其中 Gemini 還是因?yàn)椤富糜X(jué)」現(xiàn)象或是其他原因而「放飛自我」。

比如，Gemini 版本的第一幕直接把我「扔」到了雪山之中，而模組文件要求第一幕是在醫(yī)院。另外，從雪山到醫(yī)院的過(guò)渡，也不是瞬間完成的，而是有一個(gè)人為的過(guò)渡。檢查過(guò)模組文件之后，可以發(fā)現(xiàn)幾乎 40% 的劇情量，Gemini 基本上是自己發(fā)揮、沒(méi)有跟隨模組的要求撰寫(xiě)的。

另外，游戲中的「不可名狀之物」本身的出現(xiàn)應(yīng)該是整個(gè)劇情中的最高潮部分，Gemini 直接在半山腰（字面意義的半山腰）給我來(lái)個(gè)「大劇透」，讓我以為這玩意兒就是個(gè)普通 boss。

當(dāng)然，模組作者在模組的開(kāi)頭寫(xiě)清楚了，這個(gè)模組其實(shí)帶有許多復(fù)雜的交互和融合關(guān)系。光是清晰地組織各種 NPC 與調(diào)查員之間的身份就已經(jīng)比其他模組更困難，所以這個(gè)模組并不適合新手 kp 來(lái)帶團(tuán)跑（也就是說(shuō)，其實(shí)我在無(wú)意間讓 Gemini 帶了一個(gè)地獄難度級(jí)別的模組）。

但不可否認(rèn)的是，Gemini 在「編故事」這一環(huán)，至少在第一小時(shí)，讓我有了十分身臨其境而令人難忘的回憶，仿佛真的身處雪崩現(xiàn)場(chǎng)一般。十分驚喜的是，它還弄清楚了「根據(jù)玩家的角色卡條件不同，NPC 可能也有差異」這一點(diǎn)并體現(xiàn)到了故事當(dāng)中。

也許目前，一個(gè)新手 kp 想要在跑團(tuán)中確保自己的故事可以被潤(rùn)色一遍，使用 LLM 可能會(huì)收獲意外的效果——它可能會(huì)幫你在塑造故事這一方面變得更出色，并為新手 kp 提供許多劇情撰寫(xiě)的幫助。但如果想要讓 LLM 們精通 TRPG、做一個(gè)稱(chēng)職的 kp，看上去要教給它們的東西還有很多。

本文來(lái)源：Appso

Gemini 語(yǔ)境尺寸大語(yǔ)言模型

appso

原創(chuàng)欄目