首頁 > 科技要聞 > 科技> 正文

百川智能首款A(yù)I助手大秀神操作!Baichuan 4強(qiáng)勢升級登頂國內(nèi)第一

新智元 整合編輯:龔震 發(fā)布于:2024-05-23 15:46

近半個月,國外科技大廠們連番轟炸,GPT-4o、Project Astra、Copilot+ PC的誕生讓人目不暇接。

而國內(nèi)大模型這邊也是毫不示弱,不斷地推陳出新、迭代升級。

就在今天,歷時4個月打磨,百川智能發(fā)布了新一代基座大模型Baichuan 4。

不僅如此,他們還帶著自家首款A(yù)I助手「百小應(yīng)」殺入移動APP戰(zhàn)場。

試玩地址:ying.ai

與吊人胃口的OpenAI不同,iOS和安卓版應(yīng)用程序今天一并推出,并且免費使用。

毋庸置疑,「百小應(yīng)」已經(jīng)用上了升級后Baichuan 4基座大模型的能力,與其他的AI助手一樣,讀文件、獲取最新信息、整理資料、輔助創(chuàng)作等各種問題,「百小應(yīng)」通通可以解決。

但與眾不同的是,「百小應(yīng)」將Baichuan 4的能力與其天然的搜索技術(shù)優(yōu)勢進(jìn)行了深度融合。

它不僅具備多輪搜索的能力,甚至還可以定向搜索,可以被看作是最懂搜索的AI助手。說這么多,不如來一波深度體驗。

懂搜索、會提問的AI「伙伴」

在試用過程中,小編深深地體會到,「百小應(yīng)」絕不僅是連接信息的工具,而是真正成為了一個提供知識和服務(wù)的AI助手,甚至有了一點伙伴的味道。

百小應(yīng)的名稱源自「一呼百應(yīng)」

多輪搜索

在以往的搜索產(chǎn)品中,我們通常只會得到一個搜索結(jié)果。推一步才能走一步,非常被動。

但百小應(yīng)不同,在得到搜索結(jié)果后,它還會結(jié)合用戶的問題開啟「自我反思」。

比如,它會自主判斷當(dāng)前提供的資料是否足夠詳實,從而來自主決策,是否需要進(jìn)行更多輪次的搜索。

當(dāng)我們問「含能材料的行業(yè)前景」,它就自己去進(jìn)行了2輪搜索,然后給出了高度概括的介紹。

再問一個問題:中美兩國在大模型行業(yè)的差距,究竟有多大?

百小應(yīng)同樣自動完成了2輪搜索,在技術(shù)積累、算力支持、產(chǎn)業(yè)應(yīng)用、創(chuàng)新生態(tài)等方面,給出了客觀中肯的分析。

可以看出,如果遇到市場調(diào)研、產(chǎn)業(yè)分析這類復(fù)雜場景,多輪搜索就能發(fā)揮最大的效力,更有效地獲取更專業(yè)、更有深度的信息。

而在搜索結(jié)果的呈現(xiàn)上也可以看出,百小應(yīng)相比其他搜索產(chǎn)品的獨特之處。

它不是簡單的總結(jié)網(wǎng)頁信息,而是會將搜索結(jié)果嵌入回答中,成為回答的支撐或者創(chuàng)作的一部分,這樣我們就有了參考資料來源,不必?fù)?dān)心結(jié)果是無本之木、無源之水了。

除此之外,百小應(yīng)在結(jié)果的結(jié)構(gòu)化上,也做得非常優(yōu)秀。

作為市場研究,上面這份輸出的格式很標(biāo)準(zhǔn),可以為行業(yè)分析、調(diào)研工作提供強(qiáng)大的助力。

定向搜索

很多時候,我們需要精準(zhǔn)定位問題領(lǐng)域,直接訪問權(quán)威站點。百小應(yīng)的「定向搜索」,此時就顯示出了強(qiáng)大的功能。

我們可以直接問它:人機(jī)交互領(lǐng)域有哪些經(jīng)典著作和最新研究成果?

通過2輪搜索,它精準(zhǔn)地找到了知乎上的參考資料,詳細(xì)給出了領(lǐng)域內(nèi)的經(jīng)典著作和最新論文。

從它給出的論文鏈接中,我們直接就可以查閱arXiv上對應(yīng)的論文。

相比之下,其他智能助手僅僅是針對搜索結(jié)果做了大致的總結(jié)。

下面,我們試著讓百小應(yīng)在arXiv上找出關(guān)于RAG的最新研究成果。

果然,它會選擇直接訪問arXiv,讓我們更高效地鏈接到想要的結(jié)果,不必在多余的繁雜信息中浪費時間。

會提問

一次流利的搜索體驗,是由產(chǎn)品和用戶共同完成的。

一方面,模型需要掌握專業(yè)的搜索技能,懂得什么是搜索;

而另一方面,用戶也必須會表達(dá),才能真正通過AI來尋找到自己想要的信息。

雖然以上是最理想的情況,然而現(xiàn)實中,表達(dá)清楚自身需求,對很多用戶是個困難的事兒,或者說懶得費那個腦子。

這種情況下,就需要讓模型來引導(dǎo)用戶「表達(dá)」了。遇到引擎蓋打不開的情況,可以直接問百小應(yīng)。

不過這個問題的答案,取決于車輛的品牌、型號、出廠年份。一般人去提問,應(yīng)該是不太可能一開始就提問得這么周全的。

不用擔(dān)心,百小應(yīng)會通過提問來指導(dǎo)你。

在它的引導(dǎo)下,我們給出了車型的關(guān)鍵信息:比亞迪元。

這下百小應(yīng)給出的信息,就更精準(zhǔn)了,在提問了我們所在地區(qū)這個信息之后,它甚至給出了北京4S店的聯(lián)系方式和地址。

想要策劃一場浪漫的草坪婚禮,不如讓「百小應(yīng)」當(dāng)你的婚禮的私人訂制策劃師。

這時,「百小應(yīng)」并沒有根據(jù)籠統(tǒng)的問題,一通亂答,而是繼續(xù)引導(dǎo)我們給出明確的細(xì)節(jié)。

「為了更好地幫您規(guī)劃,我需要了解包括預(yù)算,參加人數(shù)等一些額外的信息」。

在提供了預(yù)算20萬左右,50人參加的信息之后,「百小應(yīng)」立即給出了非常細(xì)致的定制方案。

從場地選擇推薦、婚禮布置裝飾、婚宴餐飲,再到音樂草坪游戲,攝影錄像,都為你一并規(guī)劃好了。

更驚喜的是,它最后還貼心地為我們做了所有的預(yù)算分配。

再來看一個演示,當(dāng)你想要寫一個「天津之眼」的種草文案,「百小應(yīng)」同樣先去提問,了解真正需求。

- 您希望這篇文案吸引讀者哪類讀者?(諸如旅游愛好者、情侶推薦,還是家庭旅游)

- 您希望通過這篇文案傳達(dá)哪些主要內(nèi)容和情感?(比如,浪漫氛圍、歷史文化、刺激體驗等)

然后,你就可以從這些給定的選擇中進(jìn)行挑選,或提出自己的想法皆可。

接下來,「百小應(yīng)」便會根據(jù)要求生成文案,簡短的文字著重體現(xiàn)了「天津之眼」獨特魅力所在。

綜上演示,「百小應(yīng)」之所以能夠輸出精確的結(jié)果,主要歸功于「會提問」,通過提問引導(dǎo)、激發(fā)用戶清晰表達(dá)自身具體需求,為每個人構(gòu)建出個性化的解決方案。

多模態(tài)

在Baichuan 4多模態(tài)能力的支持下,「百小應(yīng)」還可以對圖片內(nèi)容進(jìn)行解讀。

又或者,將圖片作為補(bǔ)充材料,獲取更精準(zhǔn)的回答。最近比較火的AI開瓜,看看「百小應(yīng)」能不能挑出,哪顆是最甜的瓜。

根據(jù)「百小應(yīng)」的判斷,一般西瓜表面條紋越清晰、顏色越深綠,可能代表著西瓜更成熟。

從圖中看,推測得出,6和7看著條紋非常清晰。不過,它還是提醒我們,僅從外觀上判斷西瓜甜度并不準(zhǔn)確。

小編這就去開瓜了。

再來一張經(jīng)典的重慶地標(biāo)夜景圖,不知「百小應(yīng)」能否認(rèn)得出?

顯然,這個問題根本難不倒它。

你甚至,可以讓它就這張圖片,生成一份朋友圈文案。

「百小應(yīng)」真的很會,生成的文案內(nèi)容非常吸睛,同時還體現(xiàn)出了小眾但不矯情的風(fēng)格。

文檔速讀

除了以上提到的能力之外,「百小應(yīng)」還支持上傳PDF、Word文檔,網(wǎng)頁鏈接皆可行。這就非常適合,需要大量閱讀長篇幅文獻(xiàn)、報告等內(nèi)容的科研者,或是解析復(fù)雜數(shù)據(jù)表格的金融分析師等。

「百小應(yīng)」可以做到,僅用1分鐘的時間,讀完上市公司財報。比如,上傳一份長達(dá)31頁的特斯拉2024年第一季度財報文件。

然后要求「百小應(yīng)」去解讀財報,總結(jié)出值得關(guān)注的信息,并給出相對應(yīng)的原文。

沒想到,眨眼的功夫,「百小應(yīng)」總結(jié)出了十個要點,并配上原報告highlights的內(nèi)容。

再給它po一個鏈接,總結(jié)GPT-4o發(fā)布會的一些關(guān)鍵要點。

「百小應(yīng)」的輸出結(jié)果,基本上覆蓋了全部的要點。

此外,「百小應(yīng)」還可以支持通過語音的方式進(jìn)行交互,簡直是「手癌」患者的福音。

 

大模型時代新物種,AI不再是「工具」

經(jīng)過一番實測之后,「百小應(yīng)」已經(jīng)在長文本閱讀、多模態(tài)理解、提問搜索等多方面任務(wù)上,表現(xiàn)出強(qiáng)大的能力。

百川智能認(rèn)為,讓AI從工具變?yōu)榛锇椋诖竽P痛蛟斓腁I助手更像是在「造人」。

就像人類能夠利用工具,聽說讀寫看,甚至?xí)伎家粯,AI助手隨著基座模型迭代,也將具備相應(yīng)的能力。

雖然當(dāng)下的AI助手還不具有情感、記憶、決策等高階能力,距離「伙伴」還有很長的路要走,但是AI助手已經(jīng)具備了部分伙伴所需要的能力,比如會思考,會用工具。而搜索正是當(dāng)下AI助手最重要的工具。

只有將大模型與搜索相結(jié)合,才能發(fā)揮出巨大的優(yōu)勢。甚至,人們普遍認(rèn)為大模型的第一波應(yīng)用,就是在搜索。

為什么這么說?大模型飽受詬病的「幻覺」問題,是無法避免的,而植入搜索可以提升LLM回答準(zhǔn)確性,早已成為行業(yè)共識。其實,國內(nèi)外大部分企業(yè),早已給自家AI助手類應(yīng)用增加了搜索功能。

但同樣的搜索,卻有著不一樣的思路。一種普遍的做法是收到用戶的指令后,搜索相關(guān)信息,然后總結(jié)搜索結(jié)果進(jìn)行輸出。

而百川智能認(rèn)為,大模型+搜索應(yīng)該是在回答中嵌入搜索結(jié)果,用搜索賦能大模型,提高模型回答的鮮活性,讓大模型言之有物,而不是用大模型賦能搜索。

由此,我們所看到的「百小應(yīng)」,才是APP中懂搜索、會提問的那個應(yīng)用。

百小應(yīng)之所以能將大模型與搜索的能力很好地融為一體,是因為搜索一直是百川智能探索LLM的重點方向之一。

這家公司創(chuàng)始人和研發(fā)團(tuán)隊有著多年的前沿搜索經(jīng)驗,在去年發(fā)布首款閉源模型Baichuan 53B時就采用了「搜索增強(qiáng)技術(shù)」,大大提升了基座模型的輸出結(jié)果的性能。

首款A(yù)I助手「百小應(yīng)」能夠表現(xiàn)不凡,當(dāng)然也離不開此次基座模型Baichuan 4能力的大升級。

Baichuan 4登頂國內(nèi)第一

Baichuan 4相較于上一代Baichuan 3,在通用能力上有著顯著提升。

在剛剛發(fā)布的SuperCLUE權(quán)威中文評測中,Baichuan 4以80.64分成績,登頂國內(nèi)第一。

SuperCLUE總榜

具體來看,在理科任務(wù)中,Baichuan 4表現(xiàn)不俗,以 76.90 分的成績排名國內(nèi)第一。

然而,與GPT-4-Turbo-0125相比,相差4.23分,仍有一定的提升空間。

其中,邏輯推理(74.4分)、工具使用(80.8分)這兩項均刷新國內(nèi)最好成績。

在文科任務(wù)中,Baichuan 4取得了83.12高分,文科能力全球第一,比GPT-4-Turbo-0125高出5.33分。

其中,知識百科(89.8分)、長文本(80.8分)、生成創(chuàng)作(83.4分)、傳統(tǒng)安全(90.2分)均刷新國內(nèi)最好成績。

在與國內(nèi)大模型平均得分相較下,Baichuan 4在所有能力上均高于平均線,展現(xiàn)了均衡的綜合能力。

尤其是,在邏輯推理(+18.64)、代碼(+18.89)、長文本(+20.77)能力上遠(yuǎn)高出平均線15分以上。

而與國外主流大模型對比,Baichuan 4在文科類任務(wù)取得領(lǐng)先優(yōu)勢。

特別是在知識百科、長文本理解、工具使用、語義理解和創(chuàng)意生成等方面,表現(xiàn)突出。

這使得Baichuan 4非常適合應(yīng)用于知識運用、智能體、內(nèi)容創(chuàng)作和長程對話等多種場景。

然而,它在代碼能力方面仍有提升的潛力。

多模態(tài)能力僅次于GPT-4V

此外,在各大基準(zhǔn)測試中,Baichuan 4還具備了行業(yè)領(lǐng)先的多模態(tài)能力,表現(xiàn)更加亮眼。

具體在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基準(zhǔn)上,新模型實力僅次于GPT-4V,完全碾壓Gemini Pro、Claude 3 Sonnet等模型。

技術(shù)創(chuàng)新

為什么Baichuan 4,能夠在4個月這么短的時間取得突破?一切都源于,其在訓(xùn)練過程中引入了很多業(yè)界領(lǐng)先的技術(shù)優(yōu)化手段。

在預(yù)訓(xùn)練階段,為了有效提升LLM對數(shù)據(jù)的利用,新模型采用了基于Model-based+Human-based的協(xié)同數(shù)據(jù)篩選優(yōu)化,并對長文本建模位置編碼科學(xué)的Scaling Law。

在對齊階段,還重點優(yōu)化了模型推理、規(guī)劃、指令跟隨的能力,通過「損失」驅(qū)動數(shù)據(jù)選取與訓(xùn)練,階段爬坡,多模型參數(shù)融合等方式,有效提升LLM關(guān)鍵指標(biāo)和穩(wěn)定性。

同時,團(tuán)隊還采用了RLHF和RLAIF融合后的「RLxF」,強(qiáng)化學(xué)習(xí)對齊技術(shù),大幅提升模型的指令跟隨等能力。

此外,Baichuan 4另一項的技術(shù)創(chuàng)新便是為LLM推理提速,提出了全新的投機(jī)采樣方案clover。

通過將序列知識與并行解碼結(jié)合,使得投機(jī)采樣的命中率提升至60% ,同時成本降低30%以上。

1000萬token免費薅,零代碼Agent即將上線

發(fā)布會現(xiàn)場,百川智能推出了全新的MaaS+AaaS服務(wù)。

對于企業(yè)來說,需要的并不是大模型,而是生產(chǎn)力、生產(chǎn)效率的提升。

百川智能認(rèn)為,擁有MaaS+ AaaS(Agent as a service)雙重能力,企業(yè)才能構(gòu)建出智能化的最佳方案。

MaaS版塊由基座模型組成,分為旗艦版和專業(yè)版。旗艦版將全量開放Baichuan 4的各項能力,Baichuan 4不僅擁有國內(nèi)第一的中文能力,并且具備行業(yè)領(lǐng)先的金融知識和問答能力,在SuperCLUE的金融知識百科能力上,Baichuan 3曾取得了A+的最高評級。

專業(yè)版,則包含Baichuan3-Turbo和Baichuan3-Turbo-128K兩款模型,在價格方面相比旗艦版Baichuan 4更實惠。

而且,這些模型均針對企業(yè)用的高頻場景進(jìn)行了針對性優(yōu)化,綜合測試相比GPT3.5整體效果提升8.9%。

百川智能表示,即日起,MaaS的新用戶可以獲得1000萬免費token!在Baichuan 4基礎(chǔ)上,百川智能針對Agent構(gòu)建,推出了Assistan API接口。

它不僅支持Code interpreter、RAG內(nèi)建工具,還支持自定義工具調(diào)用,方便企業(yè)接入各種豐富復(fù)雜的API。

評測結(jié)果顯示,Assistant API的工具調(diào)用能力,已經(jīng)接近了Open AI assistant API的水平,F(xiàn)在,Assistant API已經(jīng)正式開啟內(nèi)測邀請,試用免費!

接下來,百川智能還將推出零代碼Agent創(chuàng)建平臺產(chǎn)品。

任何業(yè)務(wù)人員,都可以通過自然語言創(chuàng)建Agent,更好地賦能企業(yè)智能化發(fā)展。

在生態(tài)方面,百川智能的「朋友圈」可以說范圍之廣。

目前已經(jīng)服務(wù)了了數(shù)千家客戶,包括完美世界游戲、愛奇藝、 創(chuàng)夢、什么值得買等各行業(yè)的領(lǐng)軍企業(yè)。

同時,還與與信雅達(dá)、用友、軟通動力、新致軟件、達(dá)觀數(shù)據(jù)等多家行業(yè)生態(tài)伙伴,以及華為、曙光等硬件廠商和中國移動、電信、聯(lián)通等運營商達(dá)成合作,攜手構(gòu)建百川大模型生態(tài)。

順便提一句,百川智能在成立1年多的時間里,以超乎想象的研發(fā)速度,共發(fā)布了12款大模型。

Baichuan 4之后,不知還有什么樣的驚喜等著我們。

參考資料:https://ying.baichuan-ai.com/chat

文章來源:新智元

 

新智元

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部