Claude團(tuán)隊(duì)這次惹了眾怒! 原因:24小時(shí)內(nèi)訪問(wèn)某公司服務(wù)器100萬(wàn)次,以不付費(fèi)形式,爬蟲抓取網(wǎng)站內(nèi)容。 不僅明目張膽無(wú)視了“禁止爬取”的公告,還強(qiáng)行占用了服務(wù)器資源。 這家“受害者”公司其實(shí)盡力防御了,但阻止失敗,內(nèi)容數(shù)據(jù)還是被Claude抓走了。 公司負(fù)責(zé)人氣得吹胡子瞪眼,在x上激情開麥: 嘿,Anthropic,我知道您渴望數(shù)據(jù)。Claude真的很聰明! 許多網(wǎng)友為此憤憤不平,有個(gè)搞文案工作的網(wǎng)友留言稱: “我建議用‘偷’,而不是‘不付費(fèi)’來(lái)描述Anthropic的這種行為! 一時(shí)之間,群情激憤! 支持聲討的,要求Claude付費(fèi)的,評(píng)論區(qū)簡(jiǎn)直亂成一鍋粥了。 這是怎么回事 強(qiáng)烈譴責(zé)Anthropic的這家公司叫做iFixit,是一家美國(guó)電子商務(wù)和操作指南網(wǎng)站。 iFixit的業(yè)務(wù)的一部分,是為消費(fèi)電子產(chǎn)品和小工具提供類維基百科的免費(fèi)在線維修指南。 網(wǎng)站內(nèi)有數(shù)百萬(wàn)個(gè)頁(yè)面,包括修理指南、指南的修訂歷史、博客、新聞帖子和研究、論壇、社區(qū)貢獻(xiàn)的修理指南和問(wèn)答部分等。 但,iFixit突然發(fā)現(xiàn),Claude的爬蟲程序ClaudeBot在幾個(gè)小時(shí)內(nèi),每分鐘都有數(shù)千次請(qǐng)求訪問(wèn)。 這約等于一天內(nèi)訪問(wèn)其網(wǎng)站近百萬(wàn)次。 據(jù)統(tǒng)計(jì),它一天內(nèi)訪問(wèn)了10 TB的文件,整個(gè)5月份總計(jì)訪問(wèn)了73 TB。 為此,iFixit的CEO老K(Kyle Wiens)丟下一句話: 未經(jīng)許可,ClaudeBot偷走我們所有的數(shù)據(jù),還把我們的服務(wù)器占滿了……Fine,這也沒什么大不了。 對(duì)你沒看錯(cuò),「未經(jīng)許可」。 iFixit其實(shí)有寫聲明—— 未經(jīng)iFixit明確事先書面許可,嚴(yán)禁因?yàn)槿魏纹渌康?/i>(包括訓(xùn)練機(jī)器學(xué)習(xí)或人工智能模型)復(fù)制、復(fù)制或分發(fā)本網(wǎng)站上的任何內(nèi)容、材料或設(shè)計(jì)元素。 然并卵。 Claude不僅視若無(wú)睹地繼續(xù)瘋狂訪問(wèn)-抓取,還躲避了iFixit的防御。 iFixit其實(shí)成功阻止了兩個(gè)Anthropic的AI抓取機(jī)器人,分別名為“ANTHROPIC-AI”和“CLAUDE-WEB”。 但這倆AI抓取機(jī)器人似乎已經(jīng)是過(guò)去式了,目前的主力爬蟲正是沒被阻止成功的“ClaudeBot”。 逼不得已,老K表示,iFixit本周修改了robots.txt文件,專門用來(lái)阻止Anthropic的爬蟲機(jī)器人。 那,Anthropic那邊有啥反應(yīng)不? 它們倒是沒有閉麥,對(duì)媒體回應(yīng)道: ANTHROPIC-AI 和 CLAUDE-WEB 這倆確實(shí)是公司使用過(guò)的舊爬蟲,但現(xiàn)在已經(jīng)停止使用了。 當(dāng)然了,Anthropic回避了現(xiàn)在活躍的ClaudeBot是否尊重防爬蟲robots.txt阻止被爬取的問(wèn)題。 AI公司不是第一次干這事兒了 翻看Anthropic的官方網(wǎng)站可以發(fā)現(xiàn),早就掛著一篇名為《Anthropic是否從網(wǎng)絡(luò)上抓取數(shù)據(jù)?網(wǎng)站所有者如何阻止抓取工具?》的文章。 里面提到: 根據(jù)行業(yè)標(biāo)準(zhǔn),Anthropic使用各種數(shù)據(jù)源進(jìn)行模型開發(fā),例如通過(guò)網(wǎng)絡(luò)爬蟲收集的來(lái)自互聯(lián)網(wǎng)的公開數(shù)據(jù)。 我們的爬取不應(yīng)具有侵入性或破壞性。 我們的目標(biāo)是通過(guò)考慮爬取相同域的速度,并在適當(dāng)?shù)那闆r下尊重爬行延遲來(lái)將干擾降到最低。 但一片輿論聲中不難發(fā)現(xiàn),Anthropic顯然不是這么做的。 它,未經(jīng)允許爬取別人數(shù)據(jù),老慣犯了。 就說(shuō)今年4月的時(shí)候,Linux Mint論壇就慘遭被爬。 在幾個(gè)小時(shí)中,ClaudeBot多次訪問(wèn)論壇爬取數(shù)據(jù),導(dǎo)致論壇在幾個(gè)小時(shí)內(nèi)處于超低速or崩潰狀態(tài),最終完全崩掉。 有人表示,在同一時(shí)間內(nèi),ClaudeBot占用的流量獨(dú)占鰲頭,是第二名的20倍、第三名的40倍。 在4月事件和本次事件的討論貼中,都有人建議: 既然放禁爬取公告沒有用,那不放在網(wǎng)站中搞一些帶有可追蹤or獨(dú)特信息的虛假信息,以便檢測(cè)是誰(shuí)偷走了數(shù)據(jù)。 iFixit確實(shí)也這么做了。 而且真的有用——發(fā)現(xiàn)自家網(wǎng)站的信息不僅被Claude爬個(gè)底朝天,還被OpenAI也爬走了…… 講道理,有什么辦法呢?真的一點(diǎn)辦法也沒有。 因?yàn)槌薈laude和GPT以外,這樣強(qiáng)行偷家的AI挺不少的。 前幾天就有一家名為Tollbit的機(jī)器人檢測(cè)初創(chuàng)公司聲稱Perplexity、Claude、OpenAI會(huì)忽略爬取網(wǎng)站上的robots.txt設(shè)置——當(dāng)時(shí)有人跑去問(wèn)了OpenAI的態(tài)度,OpenAI不予置評(píng)。 再往前看,上個(gè)月也鬧過(guò)一次。 《福布斯》譴責(zé)AI搜索產(chǎn)品Perplexity涉嫌抄襲其新聞文章;一石激起千層浪,更多媒體站出來(lái),指責(zé)Perplexity的爬蟲機(jī)器人PerplexityBot非法抓取自家網(wǎng)站信息。 而Perplexity一直的態(tài)度都是: 尊重出版商不抓取內(nèi)容的要求,并且在合理使用版權(quán)法的范圍內(nèi)運(yùn)營(yíng)。 理論上講,不管是ClaudeBot還是PerplexityBot,在遇到標(biāo)明“禁止抓取”“禁止robot.txt”的文件時(shí),都應(yīng)該遵從協(xié)議,規(guī)避爬取聲明方網(wǎng)站的內(nèi)容。 既然聲明無(wú)效,就有人呼吁創(chuàng)作者把內(nèi)容盡可能轉(zhuǎn)移到付費(fèi)區(qū)域,來(lái)防止無(wú)限制的抓取。 你覺得這樣的辦法會(huì)有效嗎? 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選