太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

百川智能首款A(yù)I助手大秀神操作！Baichuan 4強(qiáng)勢升級登頂國內(nèi)第一

新智元整合編輯：龔震發(fā)布于：2024-05-23 15:46

近半個月，國外科技大廠們連番轟炸，GPT-4o、Project Astra、Copilot+ PC的誕生讓人目不暇接。

而國內(nèi)大模型這邊也是毫不示弱，不斷地推陳出新、迭代升級。

就在今天，歷時4個月打磨，百川智能發(fā)布了新一代基座大模型Baichuan 4。

不僅如此，他們還帶著自家首款A(yù)I助手「百小應(yīng)」殺入移動APP戰(zhàn)場。

試玩地址：ying.ai

與吊人胃口的OpenAI不同，iOS和安卓版應(yīng)用程序今天一并推出，并且免費使用。

毋庸置疑，「百小應(yīng)」已經(jīng)用上了升級后Baichuan 4基座大模型的能力，與其他的AI助手一樣，讀文件、獲取最新信息、整理資料、輔助創(chuàng)作等各種問題，「百小應(yīng)」通通可以解決。

但與眾不同的是，「百小應(yīng)」將Baichuan 4的能力與其天然的搜索技術(shù)優(yōu)勢進(jìn)行了深度融合。

它不僅具備多輪搜索的能力，甚至還可以定向搜索，可以被看作是最懂搜索的AI助手。說這么多，不如來一波深度體驗。

懂搜索、會提問的AI「伙伴」

在試用過程中，小編深深地體會到，「百小應(yīng)」絕不僅是連接信息的工具，而是真正成為了一個提供知識和服務(wù)的AI助手，甚至有了一點伙伴的味道。

百小應(yīng)的名稱源自「一呼百應(yīng)」

多輪搜索

在以往的搜索產(chǎn)品中，我們通常只會得到一個搜索結(jié)果。推一步才能走一步，非常被動。

但百小應(yīng)不同，在得到搜索結(jié)果后，它還會結(jié)合用戶的問題開啟「自我反思」。

比如，它會自主判斷當(dāng)前提供的資料是否足夠詳實，從而來自主決策，是否需要進(jìn)行更多輪次的搜索。

當(dāng)我們問「含能材料的行業(yè)前景」，它就自己去進(jìn)行了2輪搜索，然后給出了高度概括的介紹。

再問一個問題：中美兩國在大模型行業(yè)的差距，究竟有多大？

百小應(yīng)同樣自動完成了2輪搜索，在技術(shù)積累、算力支持、產(chǎn)業(yè)應(yīng)用、創(chuàng)新生態(tài)等方面，給出了客觀中肯的分析。

可以看出，如果遇到市場調(diào)研、產(chǎn)業(yè)分析這類復(fù)雜場景，多輪搜索就能發(fā)揮最大的效力，更有效地獲取更專業(yè)、更有深度的信息。

而在搜索結(jié)果的呈現(xiàn)上也可以看出，百小應(yīng)相比其他搜索產(chǎn)品的獨特之處。

它不是簡單的總結(jié)網(wǎng)頁信息，而是會將搜索結(jié)果嵌入回答中，成為回答的支撐或者創(chuàng)作的一部分，這樣我們就有了參考資料來源，不必?fù)?dān)心結(jié)果是無本之木、無源之水了。

除此之外，百小應(yīng)在結(jié)果的結(jié)構(gòu)化上，也做得非常優(yōu)秀。

作為市場研究，上面這份輸出的格式很標(biāo)準(zhǔn)，可以為行業(yè)分析、調(diào)研工作提供強(qiáng)大的助力。

定向搜索

很多時候，我們需要精準(zhǔn)定位問題領(lǐng)域，直接訪問權(quán)威站點。百小應(yīng)的「定向搜索」，此時就顯示出了強(qiáng)大的功能。

我們可以直接問它：人機(jī)交互領(lǐng)域有哪些經(jīng)典著作和最新研究成果？

通過2輪搜索，它精準(zhǔn)地找到了知乎上的參考資料，詳細(xì)給出了領(lǐng)域內(nèi)的經(jīng)典著作和最新論文。

從它給出的論文鏈接中，我們直接就可以查閱arXiv上對應(yīng)的論文。

相比之下，其他智能助手僅僅是針對搜索結(jié)果做了大致的總結(jié)。

下面，我們試著讓百小應(yīng)在arXiv上找出關(guān)于RAG的最新研究成果。

果然，它會選擇直接訪問arXiv，讓我們更高效地鏈接到想要的結(jié)果，不必在多余的繁雜信息中浪費時間。

會提問

一次流利的搜索體驗，是由產(chǎn)品和用戶共同完成的。

一方面，模型需要掌握專業(yè)的搜索技能，懂得什么是搜索；

而另一方面，用戶也必須會表達(dá)，才能真正通過AI來尋找到自己想要的信息。

雖然以上是最理想的情況，然而現(xiàn)實中，表達(dá)清楚自身需求，對很多用戶是個困難的事兒，或者說懶得費那個腦子。

這種情況下，就需要讓模型來引導(dǎo)用戶「表達(dá)」了。遇到引擎蓋打不開的情況，可以直接問百小應(yīng)。

不過這個問題的答案，取決于車輛的品牌、型號、出廠年份。一般人去提問，應(yīng)該是不太可能一開始就提問得這么周全的。

不用擔(dān)心，百小應(yīng)會通過提問來指導(dǎo)你。

在它的引導(dǎo)下，我們給出了車型的關(guān)鍵信息：比亞迪元。

這下百小應(yīng)給出的信息，就更精準(zhǔn)了，在提問了我們所在地區(qū)這個信息之后，它甚至給出了北京4S店的聯(lián)系方式和地址。

想要策劃一場浪漫的草坪婚禮，不如讓「百小應(yīng)」當(dāng)你的婚禮的私人訂制策劃師。

這時，「百小應(yīng)」并沒有根據(jù)籠統(tǒng)的問題，一通亂答，而是繼續(xù)引導(dǎo)我們給出明確的細(xì)節(jié)。

「為了更好地幫您規(guī)劃，我需要了解包括預(yù)算，參加人數(shù)等一些額外的信息」。

在提供了預(yù)算20萬左右，50人參加的信息之后，「百小應(yīng)」立即給出了非常細(xì)致的定制方案。

從場地選擇推薦、婚禮布置裝飾、婚宴餐飲，再到音樂草坪游戲，攝影錄像，都為你一并規(guī)劃好了。

更驚喜的是，它最后還貼心地為我們做了所有的預(yù)算分配。

再來看一個演示，當(dāng)你想要寫一個「天津之眼」的種草文案，「百小應(yīng)」同樣先去提問，了解真正需求。

- 您希望這篇文案吸引讀者哪類讀者？（諸如旅游愛好者、情侶推薦，還是家庭旅游）

- 您希望通過這篇文案傳達(dá)哪些主要內(nèi)容和情感？（比如，浪漫氛圍、歷史文化、刺激體驗等）

然后，你就可以從這些給定的選擇中進(jìn)行挑選，或提出自己的想法皆可。

接下來，「百小應(yīng)」便會根據(jù)要求生成文案，簡短的文字著重體現(xiàn)了「天津之眼」獨特魅力所在。

綜上演示，「百小應(yīng)」之所以能夠輸出精確的結(jié)果，主要歸功于「會提問」，通過提問引導(dǎo)、激發(fā)用戶清晰表達(dá)自身具體需求，為每個人構(gòu)建出個性化的解決方案。

多模態(tài)

在Baichuan 4多模態(tài)能力的支持下，「百小應(yīng)」還可以對圖片內(nèi)容進(jìn)行解讀。

又或者，將圖片作為補(bǔ)充材料，獲取更精準(zhǔn)的回答。最近比較火的AI開瓜，看看「百小應(yīng)」能不能挑出，哪顆是最甜的瓜。

根據(jù)「百小應(yīng)」的判斷，一般西瓜表面條紋越清晰、顏色越深綠，可能代表著西瓜更成熟。

從圖中看，推測得出，6和7看著條紋非常清晰。不過，它還是提醒我們，僅從外觀上判斷西瓜甜度并不準(zhǔn)確。

小編這就去開瓜了。

再來一張經(jīng)典的重慶地標(biāo)夜景圖，不知「百小應(yīng)」能否認(rèn)得出？

顯然，這個問題根本難不倒它。

你甚至，可以讓它就這張圖片，生成一份朋友圈文案。

「百小應(yīng)」真的很會，生成的文案內(nèi)容非常吸睛，同時還體現(xiàn)出了小眾但不矯情的風(fēng)格。

文檔速讀

除了以上提到的能力之外，「百小應(yīng)」還支持上傳PDF、Word文檔，網(wǎng)頁鏈接皆可行。這就非常適合，需要大量閱讀長篇幅文獻(xiàn)、報告等內(nèi)容的科研者，或是解析復(fù)雜數(shù)據(jù)表格的金融分析師等。

「百小應(yīng)」可以做到，僅用1分鐘的時間，讀完上市公司財報。比如，上傳一份長達(dá)31頁的特斯拉2024年第一季度財報文件。

然后要求「百小應(yīng)」去解讀財報，總結(jié)出值得關(guān)注的信息，并給出相對應(yīng)的原文。

沒想到，眨眼的功夫，「百小應(yīng)」總結(jié)出了十個要點，并配上原報告highlights的內(nèi)容。

再給它po一個鏈接，總結(jié)GPT-4o發(fā)布會的一些關(guān)鍵要點。

「百小應(yīng)」的輸出結(jié)果，基本上覆蓋了全部的要點。

此外，「百小應(yīng)」還可以支持通過語音的方式進(jìn)行交互，簡直是「手癌」患者的福音。

大模型時代新物種，AI不再是「工具」

經(jīng)過一番實測之后，「百小應(yīng)」已經(jīng)在長文本閱讀、多模態(tài)理解、提問搜索等多方面任務(wù)上，表現(xiàn)出強(qiáng)大的能力。

百川智能認(rèn)為，讓AI從工具變?yōu)榛锇椋诖竽Ｐ痛蛟斓腁I助手更像是在「造人」。

就像人類能夠利用工具，聽說讀寫看，甚至?xí)伎家粯�，AI助手隨著基座模型迭代，也將具備相應(yīng)的能力。

雖然當(dāng)下的AI助手還不具有情感、記憶、決策等高階能力，距離「伙伴」還有很長的路要走，但是AI助手已經(jīng)具備了部分伙伴所需要的能力，比如會思考，會用工具。而搜索正是當(dāng)下AI助手最重要的工具。

只有將大模型與搜索相結(jié)合，才能發(fā)揮出巨大的優(yōu)勢。甚至，人們普遍認(rèn)為大模型的第一波應(yīng)用，就是在搜索。

為什么這么說？大模型飽受詬病的「幻覺」問題，是無法避免的，而植入搜索可以提升LLM回答準(zhǔn)確性，早已成為行業(yè)共識。其實，國內(nèi)外大部分企業(yè)，早已給自家AI助手類應(yīng)用增加了搜索功能。

但同樣的搜索，卻有著不一樣的思路。一種普遍的做法是收到用戶的指令后，搜索相關(guān)信息，然后總結(jié)搜索結(jié)果進(jìn)行輸出。

而百川智能認(rèn)為，大模型+搜索應(yīng)該是在回答中嵌入搜索結(jié)果，用搜索賦能大模型，提高模型回答的鮮活性，讓大模型言之有物，而不是用大模型賦能搜索。

由此，我們所看到的「百小應(yīng)」，才是APP中懂搜索、會提問的那個應(yīng)用。

百小應(yīng)之所以能將大模型與搜索的能力很好地融為一體，是因為搜索一直是百川智能探索LLM的重點方向之一。

這家公司創(chuàng)始人和研發(fā)團(tuán)隊有著多年的前沿搜索經(jīng)驗，在去年發(fā)布首款閉源模型Baichuan 53B時就采用了「搜索增強(qiáng)技術(shù)」，大大提升了基座模型的輸出結(jié)果的性能。

首款A(yù)I助手「百小應(yīng)」能夠表現(xiàn)不凡，當(dāng)然也離不開此次基座模型Baichuan 4能力的大升級。

Baichuan 4登頂國內(nèi)第一

Baichuan 4相較于上一代Baichuan 3，在通用能力上有著顯著提升。

在剛剛發(fā)布的SuperCLUE權(quán)威中文評測中，Baichuan 4以80.64分成績，登頂國內(nèi)第一。

SuperCLUE總榜

具體來看，在理科任務(wù)中，Baichuan 4表現(xiàn)不俗，以 76.90 分的成績排名國內(nèi)第一。

然而，與GPT-4-Turbo-0125相比，相差4.23分，仍有一定的提升空間。

其中，邏輯推理（74.4分）、工具使用（80.8分）這兩項均刷新國內(nèi)最好成績。

在文科任務(wù)中，Baichuan 4取得了83.12高分，文科能力全球第一，比GPT-4-Turbo-0125高出5.33分。

其中，知識百科（89.8分）、長文本（80.8分）、生成創(chuàng)作（83.4分）、傳統(tǒng)安全（90.2分）均刷新國內(nèi)最好成績。

在與國內(nèi)大模型平均得分相較下，Baichuan 4在所有能力上均高于平均線，展現(xiàn)了均衡的綜合能力。

尤其是，在邏輯推理（+18.64）、代碼（+18.89）、長文本（+20.77）能力上遠(yuǎn)高出平均線15分以上。

而與國外主流大模型對比，Baichuan 4在文科類任務(wù)取得領(lǐng)先優(yōu)勢。

特別是在知識百科、長文本理解、工具使用、語義理解和創(chuàng)意生成等方面，表現(xiàn)突出。

這使得Baichuan 4非常適合應(yīng)用于知識運用、智能體、內(nèi)容創(chuàng)作和長程對話等多種場景。

然而，它在代碼能力方面仍有提升的潛力。

多模態(tài)能力僅次于GPT-4V

此外，在各大基準(zhǔn)測試中，Baichuan 4還具備了行業(yè)領(lǐng)先的多模態(tài)能力，表現(xiàn)更加亮眼。

具體在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基準(zhǔn)上，新模型實力僅次于GPT-4V，完全碾壓Gemini Pro、Claude 3 Sonnet等模型。

技術(shù)創(chuàng)新

為什么Baichuan 4，能夠在4個月這么短的時間取得突破？一切都源于，其在訓(xùn)練過程中引入了很多業(yè)界領(lǐng)先的技術(shù)優(yōu)化手段。

在預(yù)訓(xùn)練階段，為了有效提升LLM對數(shù)據(jù)的利用，新模型采用了基于Model-based+Human-based的協(xié)同數(shù)據(jù)篩選優(yōu)化，并對長文本建模位置編碼科學(xué)的Scaling Law。

在對齊階段，還重點優(yōu)化了模型推理、規(guī)劃、指令跟隨的能力，通過「損失」驅(qū)動數(shù)據(jù)選取與訓(xùn)練，階段爬坡，多模型參數(shù)融合等方式，有效提升LLM關(guān)鍵指標(biāo)和穩(wěn)定性。

同時，團(tuán)隊還采用了RLHF和RLAIF融合后的「RLxF」，強(qiáng)化學(xué)習(xí)對齊技術(shù)，大幅提升模型的指令跟隨等能力。

此外，Baichuan 4另一項的技術(shù)創(chuàng)新便是為LLM推理提速，提出了全新的投機(jī)采樣方案clover。

通過將序列知識與并行解碼結(jié)合，使得投機(jī)采樣的命中率提升至60% ，同時成本降低30%以上。

1000萬token免費薅，零代碼Agent即將上線

發(fā)布會現(xiàn)場，百川智能推出了全新的MaaS+AaaS服務(wù)。

對于企業(yè)來說，需要的并不是大模型，而是生產(chǎn)力、生產(chǎn)效率的提升。

百川智能認(rèn)為，擁有MaaS+ AaaS（Agent as a service）雙重能力，企業(yè)才能構(gòu)建出智能化的最佳方案。

MaaS版塊由基座模型組成，分為旗艦版和專業(yè)版。旗艦版將全量開放Baichuan 4的各項能力，Baichuan 4不僅擁有國內(nèi)第一的中文能力，并且具備行業(yè)領(lǐng)先的金融知識和問答能力，在SuperCLUE的金融知識百科能力上，Baichuan 3曾取得了A+的最高評級。

專業(yè)版，則包含Baichuan3-Turbo和Baichuan3-Turbo-128K兩款模型，在價格方面相比旗艦版Baichuan 4更實惠。

而且，這些模型均針對企業(yè)用的高頻場景進(jìn)行了針對性優(yōu)化，綜合測試相比GPT3.5整體效果提升8.9%。

百川智能表示，即日起，MaaS的新用戶可以獲得1000萬免費token！在Baichuan 4基礎(chǔ)上，百川智能針對Agent構(gòu)建，推出了Assistan API接口。

它不僅支持Code interpreter、RAG內(nèi)建工具，還支持自定義工具調(diào)用，方便企業(yè)接入各種豐富復(fù)雜的API。

評測結(jié)果顯示，Assistant API的工具調(diào)用能力，已經(jīng)接近了Open AI assistant API的水平�，F(xiàn)在，Assistant API已經(jīng)正式開啟內(nèi)測邀請，試用免費！

接下來，百川智能還將推出零代碼Agent創(chuàng)建平臺產(chǎn)品。

任何業(yè)務(wù)人員，都可以通過自然語言創(chuàng)建Agent，更好地賦能企業(yè)智能化發(fā)展。

在生態(tài)方面，百川智能的「朋友圈」可以說范圍之廣。

目前已經(jīng)服務(wù)了了數(shù)千家客戶，包括完美世界游戲、愛奇藝、創(chuàng)夢、什么值得買等各行業(yè)的領(lǐng)軍企業(yè)。

同時，還與與信雅達(dá)、用友、軟通動力、新致軟件、達(dá)觀數(shù)據(jù)等多家行業(yè)生態(tài)伙伴，以及華為、曙光等硬件廠商和中國移動、電信、聯(lián)通等運營商達(dá)成合作，攜手構(gòu)建百川大模型生態(tài)。

順便提一句，百川智能在成立1年多的時間里，以超乎想象的研發(fā)速度，共發(fā)布了12款大模型。

Baichuan 4之后，不知還有什么樣的驚喜等著我們。