久久久,被高潮,国精产品一线二线三线av,久久精品一区二区东京热,久久精品国产99国产电影网,久久97精品久久久久久久不卡

爬蟲(chóng)遇到ip被禁的處理方式

有時(shí)候爬蟲(chóng)會(huì)遇到ip被禁的情況,這時(shí)候可以找代理網(wǎng)站,抓取ip,做動(dòng)態(tài)輪詢。也可以使用別人做的第三方ip代理平臺(tái),比如Crawler,就是利用代理IP地址池做分布式下載的第三方平臺(tái),除了scrapy、普通java、php、python等。
 
 
現(xiàn)在我們可以總結(jié)所有步驟:
 
1.使用爬蟲(chóng)腳本每天定時(shí)抓取代理網(wǎng)站上的免費(fèi)ip,或者購(gòu)買一定量的ip,寫(xiě)入MongoDB或其他數(shù)據(jù)庫(kù)。此表用作原始表。

2.在使用它之前,你需要做一個(gè)步驟測(cè)試,即測(cè)試ip是否有效。方法是用curl訪問(wèn)網(wǎng)站檢查返回值,需要新建一個(gè)表,循環(huán)讀取原表并在有效時(shí)插入,驗(yàn)證后從原表中刪除。在驗(yàn)證的同時(shí),您可以使用響應(yīng)時(shí)間來(lái)計(jì)算ip的質(zhì)量和最大使用次數(shù),有一種算法可以參考基于連接代理優(yōu)化管理的多線程網(wǎng)絡(luò)爬蟲(chóng)處理方法。
 
3.將有效ip寫(xiě)入IP模擬器代理的配置文件,并重新加載配置文件。
 
4.讓爬蟲(chóng)程序去指定的服務(wù)ip和端口并抓取它。