太平洋科技要聞

OpenAI 的絕密項(xiàng)目「草莓」，對(duì)我們到底意味著什么？

appso 整合編輯：太平洋科技發(fā)布于：2024-07-17 16:54

憑借一顆「草莓」，OpenAI 在周末搶下不少版面，成了一件不算新鮮的新鮮事。

新鮮體現(xiàn)在，這是一個(gè)高級(jí)別的保密項(xiàng)目，目標(biāo)是「自主瀏覽互聯(lián)網(wǎng)，執(zhí)行深度研究」，不過，路透社沒能挖到更多技術(shù)細(xì)節(jié)，只提到采取了「后訓(xùn)練」的方式——這就不算新鮮了。

兩個(gè)月前，OpenAI 創(chuàng)始人之一 John Schulman 在播客 Dwarkensh 上，就表示過，GPT-4 的進(jìn)步，很大程度上要?dú)w功于后訓(xùn)練技術(shù)。

「通過后訓(xùn)練，去創(chuàng)造一個(gè)能夠具備人們所關(guān)心的功能的模型，是非常復(fù)雜的」John Schulman說，「這需要大量的投入，是大量研發(fā)工作的積累，在一定程度上就形成了壁壘。」

如果「Strawberry」的確是 OpenAI 的重點(diǎn)項(xiàng)目，那么可以想見，GPT-4 的確讓他們嘗到了甜頭。而厚實(shí)的家底又給了 OpenAI 底氣，進(jìn)一步加高技術(shù)壁壘。

沿著一條已經(jīng)略有成果的技術(shù)路線，繼續(xù)迭代，并不新鮮，到底為什么又成了大新聞呢？

一層一層，切開「草莓」

「Strawberry」的前身是「Q*」，一個(gè)在去年年底，就引起過軒然大波的神秘存在。

去年十一月，Sam Altman 毫無征兆地被踢出了董事會(huì)，他自己甚至是在會(huì)議當(dāng)時(shí)被通知的，震驚了全公司，也震驚了行業(yè)上下。

董事會(huì)當(dāng)時(shí)給出的理由是，他和團(tuán)隊(duì)在安全和風(fēng)險(xiǎn)管理方面，無法達(dá)成一致。而這個(gè)風(fēng)險(xiǎn)，就跟當(dāng)時(shí)的絕密項(xiàng)目「Q*」有關(guān)。

這個(gè)項(xiàng)目原先由 Ilya Sutskever 帶領(lǐng)，現(xiàn)在他已經(jīng)離開 OpenAI 創(chuàng)業(yè)，做的就是AI 安全相關(guān)的業(yè)務(wù)。再聯(lián)想到，馬斯克曾經(jīng)表示，這個(gè)項(xiàng)目「對(duì)人類構(gòu)成了威脅」，很難不讓人好奇這里頭究竟有什么。

The Information 和路透社想辦法獲得內(nèi)部消息，最后也只能確認(rèn)，數(shù)學(xué)運(yùn)算能力是「Q*」的重點(diǎn)。

圖片來自：路透社

大模型擅「文」，能嫻熟地處理語言文字，已經(jīng)基本上跟人類打個(gè)平手了。但是數(shù)學(xué)運(yùn)算卻一直不太行。即便「Q*」曾經(jīng)引發(fā) OpenAI 的巨變，據(jù)路透社透露，當(dāng)時(shí)它的表現(xiàn)大概是小學(xué)生的計(jì)算水平。

根據(jù)最新爆出的信息，OpenAI 內(nèi)部已經(jīng)有項(xiàng)目能在數(shù)學(xué)運(yùn)算方面，達(dá)到 90% 的準(zhǔn)確，進(jìn)步驚人。

圖片來自：路透社

強(qiáng)調(diào)一下：現(xiàn)在無法確認(rèn)「Strawberry」究竟做到哪一步了。只能說，如果「Strawberry」作為「Q*」的升級(jí)版，大概率，它是一個(gè)繼續(xù)在數(shù)學(xué)和計(jì)算方面尋求突破的項(xiàng)目。

「數(shù)學(xué)計(jì)算」和「推理」之間的關(guān)系，并不能直接劃等號(hào)，但卻透露著OpenAI的野心。

老說推理，究竟在說什么

那么，「推理」到底是什么？

這兩個(gè)字在現(xiàn)實(shí)里，顯然有著非常廣闊的定義。今年年初，香港中文大學(xué)領(lǐng)銜的團(tuán)隊(duì)做過一個(gè)基于模型推理能力的全面整理�！竿评怼棺罡镜亩x有三重：

認(rèn)知推理：在不完整、不一致的知識(shí)中，得出有意義結(jié)論的能力

這種推理最常見的是拼拼圖，每一個(gè)小片都是巨大圖畫里的一角，隨便就抓兩片，肯定是對(duì)不上的。

你只能舉著這些小碎片，拼拼湊湊，慢慢組成一幅完成的圖。這個(gè)過程中，沒有說明書和步驟圖，經(jīng)常是要憑手感、憑直覺。

邏輯推理：根據(jù)前提，以及這些前提間的關(guān)系，有條理地得出結(jié)論，且結(jié)論在邏輯上有隱含關(guān)系或成立

數(shù)學(xué)解題就是典型邏輯推理，有已知條件，有待求的問題，根據(jù)這些，你就能一步步推算出結(jié)果。邏輯推理是目前大模型研發(fā)里「最硬的一塊骨頭」。

自然語言推理：這是一個(gè)整合多種知識(shí)的過程，可以是顯性知識(shí)或者隱性知識(shí)，從而得出對(duì)于世界的新結(jié)論

喜歡看探案故事、推理小說的朋友，應(yīng)該很容易理解。這種推理，就像是碰上了一樁兇殺案故事，書里隱隱約約有一些暗示，一些不太明確的信息，必須結(jié)合各種不同的線索，推測(cè)出誰是兇手，犯罪過程是什么。

如果只是看路透社所獲得的 OpenAI 內(nèi)部文件，「Strawberry」的目標(biāo)是，規(guī)劃、訪問互聯(lián)網(wǎng)，以及執(zhí)行深度研究。

這些看上去都更像是最后一種自然語言推理，無非是更強(qiáng)化了一下，算不算得上是推理能力的進(jìn)步都不好說。

可是，OpenAI 對(duì)于「推理」并不那么拘泥，而是有一套更宏大的愿景。

John Schulman 心中，對(duì)「推理」的定義是這樣的：

「推理意味著需要一些計(jì)算，或者是需要一些演繹。從這個(gè)定義來看，要能夠在處理任務(wù)的當(dāng)時(shí)進(jìn)行計(jì)算和逐步計(jì)算。」

可以看到，在他的定義里，推理和計(jì)算行為高度綁定，而且希望機(jī)器的推理是實(shí)時(shí)進(jìn)行——就像人類一樣，接收信息的同時(shí)，就能做分析、判讀。

但是，一個(gè)人即便數(shù)學(xué)不好，也不妨礙ta有邏輯地想事情，照樣能完成各種類型的推理。為什么機(jī)器的數(shù)學(xué)能力，就如此重要？

可以這樣理解：數(shù)學(xué)從來都不只是做運(yùn)算，它本身也是一種對(duì)信息的表達(dá)方式。

數(shù)學(xué)是一種更依賴于符號(hào)形式和意義精確性的語言，1 就是 1，0 就是 0。

當(dāng)使用計(jì)算符號(hào)和算式，去呈現(xiàn)信息時(shí)，其實(shí)比自然語言更低維。

換句話說，大模型之所以「能文」，就是建立在「會(huì)算」的基礎(chǔ)上，將自然語言轉(zhuǎn)換成了計(jì)算機(jī)語言。

這一點(diǎn)，早在 19 世界，就已經(jīng)被歷史最重要的數(shù)學(xué)家之一，喬治·布爾（就是創(chuàng)造了布爾變量的那個(gè)布爾），奠定了基礎(chǔ)。

George Boole

布爾是一個(gè)有虔誠宗教信仰的人，他甚至想通過數(shù)學(xué)推理，來解釋上帝的存在。

先不管他最后的結(jié)論是什么吧，他最終留給世界的財(cái)富，也就是《思維規(guī)律的探究》一書里，開篇便闡釋了他宏大的目標(biāo)：用微積分的符號(hào)語言，來表達(dá)推理這一思維活動(dòng)的基本規(guī)律。

這也解釋了為什么，一旦談及 AI 在數(shù)學(xué)運(yùn)算上的表現(xiàn)，人們期待的眼光里就多了幾分緊張：

攻破了數(shù)學(xué)語言，或許真的就離破解思維活動(dòng)不遠(yuǎn)了。

AI 推理，怎么就了不起？

現(xiàn)在距離AI理解思維活動(dòng)，到底有多近？

這次路透社認(rèn)為，「Strawberry」的理論先驅(qū)，應(yīng)該是兩年前，斯坦福大學(xué)團(tuán)隊(duì)發(fā)表的 STaR 技術(shù)。

STaR 的開發(fā)者之一、斯坦福大學(xué)教授 Noah Goodman 接受路透社采訪，表示他跟「Strawberry」沒關(guān)系，但如果真的追平人類的推理能力，那是讓人既興奮、又恐懼的事。

Noah Goodman

STaR 的特點(diǎn)是：具備特定條件下的推理能力。先拿一個(gè)已經(jīng)訓(xùn)練過的模型，再準(zhǔn)備一個(gè)小的數(shù)據(jù)集（里面包括推理步驟），喂進(jìn)去訓(xùn)練。

有了這些，再讓模型去生成解決問題的推理過程。如果出來是正確的、符合答案的，那么這次推理就判定為有效。

接著不斷微調(diào)不斷微調(diào)，不斷讓它自我學(xué)習(xí)。最后測(cè)試的結(jié)果是，這樣的方式的確能夠提升模型在數(shù)學(xué)運(yùn)算方面的表現(xiàn)。

換句話說，特定條件和訓(xùn)練方式下，的確可以讓模型效仿推理過程，從而實(shí)現(xiàn)具備一定的推理能力。

這樣辛苦地挖掘和塑造 AI 的推理能力，對(duì)日常使用而言有什么意義？

路透社的線人說，OpenAI 特別希望能夠達(dá)成「CUA」，computer-using agent。模型能夠根據(jù)文檔和其他材料提供的信息，自主采取行動(dòng)。

而這是 OpenAI 所提出的「五階評(píng)級(jí)」中的第三階：代行者，能夠采取行動(dòng)的系統(tǒng)。

圖片來自：彭博社

現(xiàn)在的對(duì)話 chatbot 只是第一階，「Strawberry」據(jù)稱已經(jīng)接近第二階。

可以想見，推理能力是第三階段的必要前提。只有具備了推理能力，通過各種信息，推演出用戶意圖，才有可能絲滑地完成服務(wù)調(diào)度，采取行動(dòng)。

以鴻蒙的 Harmony Intelligence 為例，這是鴻蒙首次將 AI 能力融入系統(tǒng)。除了提供了基于生成式 AI 的圖像、聲音修復(fù)技術(shù)，還有驚艷的「控件 AI 化」，各種第三方應(yīng)用可以調(diào)用系統(tǒng)空間處理請(qǐng)求，打破應(yīng)用與應(yīng)用之間的壁壘。

再比如，很快也要亮相的 Apple Intelligence，也是旨在為用戶創(chuàng)造更一體化、無縫銜接的體驗(yàn)。

我們就提到了 AI 不應(yīng)該只作為一種服務(wù)，而是要能糅合進(jìn)操作系統(tǒng)里，共同存在。這恰恰也是來自于 OpenAI 創(chuàng)始人之一，Andrej Karpathy 的設(shè)想。

這就是 AI 推理能力備受矚目的原因之一，只要你擁有一臺(tái)智能手機(jī)，就不妨?xí)诚胍环N可能的未來，「 AI 作為智能手機(jī)新的操作系統(tǒng)，而大模型就是智能操作系統(tǒng)的核心」

本文來源：Appso

OpenAI Strawberry 推理能力

appso

原創(chuàng)欄目