首頁(yè) > 科技要聞 > 科技> 正文

Claude團(tuán)隊(duì)引眾怒,為爬數(shù)據(jù)不擇手段,給爬蟲改名字無(wú)視禁止規(guī)則

量子位 整合編輯:太平洋科技 發(fā)布于:2024-08-01 15:59

Claude團(tuán)隊(duì)這次惹了眾怒!

原因:24小時(shí)內(nèi)訪問(wèn)某公司服務(wù)器100萬(wàn)次,以不付費(fèi)形式,爬蟲抓取網(wǎng)站內(nèi)容。

不僅明目張膽無(wú)視了“禁止爬取”的公告,還強(qiáng)行占用了服務(wù)器資源。

這家“受害者”公司其實(shí)盡力防御了,但阻止失敗,內(nèi)容數(shù)據(jù)還是被Claude抓走了。

公司負(fù)責(zé)人氣得吹胡子瞪眼,在x上激情開麥:

嘿,Anthropic,我知道您渴望數(shù)據(jù)。Claude真的很聰明!
但你造嗎,這一點(diǎn)也不!酷!哦!

許多網(wǎng)友為此憤憤不平,有個(gè)搞文案工作的網(wǎng)友留言稱:

我建議用‘偷’,而不是‘不付費(fèi)’來(lái)描述Anthropic的這種行為!

一時(shí)之間,群情激憤!

支持聲討的,要求Claude付費(fèi)的,評(píng)論區(qū)簡(jiǎn)直亂成一鍋粥了。

這是怎么回事

強(qiáng)烈譴責(zé)Anthropic的這家公司叫做iFixit,是一家美國(guó)電子商務(wù)和操作指南網(wǎng)站。

iFixit的業(yè)務(wù)的一部分,是為消費(fèi)電子產(chǎn)品和小工具提供類維基百科的免費(fèi)在線維修指南。

網(wǎng)站內(nèi)有數(shù)百萬(wàn)個(gè)頁(yè)面,包括修理指南、指南的修訂歷史、博客、新聞帖子和研究、論壇、社區(qū)貢獻(xiàn)的修理指南和問(wèn)答部分等。

但,iFixit突然發(fā)現(xiàn),Claude的爬蟲程序ClaudeBot在幾個(gè)小時(shí)內(nèi),每分鐘都有數(shù)千次請(qǐng)求訪問(wèn)。

這約等于一天內(nèi)訪問(wèn)其網(wǎng)站近百萬(wàn)次。

據(jù)統(tǒng)計(jì),它一天內(nèi)訪問(wèn)了10 TB的文件,整個(gè)5月份總計(jì)訪問(wèn)了73 TB。

為此,iFixit的CEO老K(Kyle Wiens)丟下一句話:

未經(jīng)許可,ClaudeBot偷走我們所有的數(shù)據(jù),還把我們的服務(wù)器占滿了……Fine,這也沒什么大不了。
不知道它有沒有爬到我們的許可說(shuō)明??

對(duì)你沒看錯(cuò),「未經(jīng)許可」。

iFixit其實(shí)有寫聲明——

未經(jīng)iFixit明確事先書面許可,嚴(yán)禁因?yàn)槿魏纹渌康?/i>(包括訓(xùn)練機(jī)器學(xué)習(xí)或人工智能模型)復(fù)制、復(fù)制或分發(fā)本網(wǎng)站上的任何內(nèi)容、材料或設(shè)計(jì)元素。

然并卵。

Claude不僅視若無(wú)睹地繼續(xù)瘋狂訪問(wèn)-抓取,還躲避了iFixit的防御。

iFixit其實(shí)成功阻止了兩個(gè)Anthropic的AI抓取機(jī)器人,分別名為“ANTHROPIC-AI”和“CLAUDE-WEB”。

但這倆AI抓取機(jī)器人似乎已經(jīng)是過(guò)去式了,目前的主力爬蟲正是沒被阻止成功的“ClaudeBot”。

逼不得已,老K表示,iFixit本周修改了robots.txt文件,專門用來(lái)阻止Anthropic的爬蟲機(jī)器人。

那,Anthropic那邊有啥反應(yīng)不?

它們倒是沒有閉麥,對(duì)媒體回應(yīng)道:

ANTHROPIC-AI 和 CLAUDE-WEB 這倆確實(shí)是公司使用過(guò)的舊爬蟲,但現(xiàn)在已經(jīng)停止使用了。

當(dāng)然了,Anthropic回避了現(xiàn)在活躍的ClaudeBot是否尊重防爬蟲robots.txt阻止被爬取的問(wèn)題。

AI公司不是第一次干這事兒了

翻看Anthropic的官方網(wǎng)站可以發(fā)現(xiàn),早就掛著一篇名為《Anthropic是否從網(wǎng)絡(luò)上抓取數(shù)據(jù)?網(wǎng)站所有者如何阻止抓取工具?》的文章。

里面提到:

根據(jù)行業(yè)標(biāo)準(zhǔn),Anthropic使用各種數(shù)據(jù)源進(jìn)行模型開發(fā),例如通過(guò)網(wǎng)絡(luò)爬蟲收集的來(lái)自互聯(lián)網(wǎng)的公開數(shù)據(jù)。

我們的爬取不應(yīng)具有侵入性或破壞性。

我們的目標(biāo)是通過(guò)考慮爬取相同域的速度,并在適當(dāng)?shù)那闆r下尊重爬行延遲來(lái)將干擾降到最低。

但一片輿論聲中不難發(fā)現(xiàn),Anthropic顯然不是這么做的。

它,未經(jīng)允許爬取別人數(shù)據(jù),老慣犯了

就說(shuō)今年4月的時(shí)候,Linux Mint論壇就慘遭被爬。

在幾個(gè)小時(shí)中,ClaudeBot多次訪問(wèn)論壇爬取數(shù)據(jù),導(dǎo)致論壇在幾個(gè)小時(shí)內(nèi)處于超低速or崩潰狀態(tài),最終完全崩掉。

有人表示,在同一時(shí)間內(nèi),ClaudeBot占用的流量獨(dú)占鰲頭,是第二名的20倍、第三名的40倍。

在4月事件和本次事件的討論貼中,都有人建議:

既然放禁爬取公告沒有用,那不放在網(wǎng)站中搞一些帶有可追蹤or獨(dú)特信息的虛假信息,以便檢測(cè)是誰(shuí)偷走了數(shù)據(jù)。

iFixit確實(shí)也這么做了。

而且真的有用——發(fā)現(xiàn)自家網(wǎng)站的信息不僅被Claude爬個(gè)底朝天,還被OpenAI也爬走了……

講道理,有什么辦法呢?真的一點(diǎn)辦法也沒有。

因?yàn)槌薈laude和GPT以外,這樣強(qiáng)行偷家的AI挺不少的。

前幾天就有一家名為Tollbit的機(jī)器人檢測(cè)初創(chuàng)公司聲稱Perplexity、Claude、OpenAI會(huì)忽略爬取網(wǎng)站上的robots.txt設(shè)置——當(dāng)時(shí)有人跑去問(wèn)了OpenAI的態(tài)度,OpenAI不予置評(píng)。

再往前看,上個(gè)月也鬧過(guò)一次。

《福布斯》譴責(zé)AI搜索產(chǎn)品Perplexity涉嫌抄襲其新聞文章;一石激起千層浪,更多媒體站出來(lái),指責(zé)Perplexity的爬蟲機(jī)器人PerplexityBot非法抓取自家網(wǎng)站信息。

而Perplexity一直的態(tài)度都是:

尊重出版商不抓取內(nèi)容的要求,并且在合理使用版權(quán)法的范圍內(nèi)運(yùn)營(yíng)。

理論上講,不管是ClaudeBot還是PerplexityBot,在遇到標(biāo)明“禁止抓取”“禁止robot.txt”的文件時(shí),都應(yīng)該遵從協(xié)議,規(guī)避爬取聲明方網(wǎng)站的內(nèi)容。

既然聲明無(wú)效,就有人呼吁創(chuàng)作者把內(nèi)容盡可能轉(zhuǎn)移到付費(fèi)區(qū)域,來(lái)防止無(wú)限制的抓取。

你覺得這樣的辦法會(huì)有效嗎?

本文來(lái)源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部