解決爬蟲作為代理IP被封問題的七種方法。有一個(gè)鄰居的孩子想上學(xué)。因?yàn)橹攸c(diǎn)沒過,成績(jī)也不算太低,他打算去更好的私立高中。家長(zhǎng)們不知道哪所學(xué)校會(huì)有更好的聲譽(yù)和往年的成績(jī)。于是,他請(qǐng)我一個(gè)做數(shù)據(jù)的朋友來(lái)分析數(shù)據(jù),他也學(xué)到了一些經(jīng)驗(yàn)。
一、無(wú)論你想在什么樣的網(wǎng)站上收藏,http代理IP都是必須的,但需要注意的是,你必須使用國(guó)內(nèi)代理IP,可以直接從IP在線代理地址購(gòu)買但一定要靠譜。這樣做的好處是:
首先,程序邏輯變化不大,只需要代理函數(shù)。
第二,可以根據(jù)對(duì)方網(wǎng)站的不同封鎖規(guī)則,購(gòu)買不同的IP代理。
第三,假設(shè)您當(dāng)前使用的代理IP被對(duì)方網(wǎng)站屏蔽,您可以在不改變程序邏輯的情況下更改IP。
二、少數(shù)網(wǎng)站的防范措施比較薄弱。您可以隱藏從代理IP服務(wù)提供商購(gòu)買的IP,并修改X-Forward-for來(lái)繞過它。
大多數(shù)網(wǎng)站,如果要經(jīng)常抓取,通常需要更多的IP,我的首選方案是直接購(gòu)買動(dòng)態(tài)轉(zhuǎn)發(fā)的代理IP。
三、ADSL+腳本,監(jiān)視它是否被阻塞,然后不斷切換IP。
設(shè)置查詢頻率限制。
正統(tǒng)的方式是調(diào)用本網(wǎng)站提供的服務(wù)接口。
四、1用戶代理偽裝和旋轉(zhuǎn)。
2使用代理ip和旋轉(zhuǎn)。
3 Cookie處理,一些網(wǎng)站對(duì)登錄用戶的政策相對(duì)寬松。
友情提醒:考慮在別人的網(wǎng)站上爬行的負(fù)擔(dān),做一個(gè)負(fù)責(zé)任的爬蟲。
五、盡可能地模擬用戶的行為:
1. 用戶代理經(jīng)常更換。
2. 設(shè)置更長(zhǎng)的訪問時(shí)間間隔,并將訪問時(shí)間設(shè)置為隨機(jī)數(shù)。
3. 訪問頁(yè)面的順序也可以是隨機(jī)的。
六、網(wǎng)站關(guān)閉的依據(jù)通常是單位時(shí)間內(nèi)對(duì)特定IP的訪問量。
根據(jù)目標(biāo)站點(diǎn)的IP地址對(duì)收集到的任務(wù)進(jìn)行分組,并控制每IP單位時(shí)間內(nèi)發(fā)送的任務(wù)數(shù),避免被阻塞。當(dāng)然,這個(gè)前提是你收集了很多網(wǎng)站。如果你只收集一個(gè)網(wǎng)站,那只能依靠多個(gè)外部IP來(lái)實(shí)現(xiàn)。
七、1. 爬行動(dòng)物爬行的壓力控制。
2.考慮使用代理訪問目標(biāo)站點(diǎn)。
總結(jié)一下:減少獲取動(dòng)態(tài)IP地址的替換頻率,花費(fèi)更長(zhǎng)的時(shí)間進(jìn)行設(shè)置,并使用隨機(jī)數(shù)進(jìn)行訪問。
頻繁切換用戶代理(模擬瀏覽器訪問)。
多頁(yè)的數(shù)據(jù),隨機(jī)訪問然后抓取數(shù)據(jù)。
不斷更改代理IP。