久久久,被高潮,国精产品一线二线三线av,久久精品一区二区东京热,久久精品国产99国产电影网,久久97精品久久久久久久不卡

我們?yōu)槭裁匆O(shè)置動態(tài)ip?

我們在使用Python爬蟲爬取一個網(wǎng)站的時候,通常會頻繁訪問該網(wǎng)站。 假設(shè)一個網(wǎng)站可以檢測到某個IP地址在一定時間內(nèi)的訪問次數(shù),如果該IP地址在一定時間內(nèi)持續(xù)被訪問并且訪問次數(shù)遠(yuǎn)遠(yuǎn)超過正常用戶的訪問次數(shù) ,則該網(wǎng)站將禁止該IP地址繼續(xù)訪問。 因此,這時候可以設(shè)置一些代理服務(wù)器來幫助您完成工作。 每次訪問時間過長或者訪問頻率特別高的時候,可以換一個IP代理,這樣就不會因?yàn)樵L問頻繁而被禁止了,訪問現(xiàn)象。  
 
我們在學(xué)習(xí)Python爬蟲的時候,經(jīng)常會遇到想要爬取的網(wǎng)站采用了反爬取技術(shù),導(dǎo)致爬取失敗。 網(wǎng)頁信息的高強(qiáng)度、高效率爬取,往往給網(wǎng)絡(luò)服務(wù)器帶來巨大壓力。 因此,如果同一個IP重復(fù)爬取同一個網(wǎng)頁,極有可能被攔截。 所以下面這篇文章介紹了一個爬蟲技巧,設(shè)置代理IP 
 
這里我們介紹一個代理IP,Rhino代理,只需要使用
 
配置環(huán)境
 
來安裝requests  library
 
安裝bs4庫
 
安裝lxml庫
 
具體代碼
 
不多說,直接上傳代碼
 
 
function get_ip_list(url, headers) 傳入url和headers,最后返回一個IP列表。 列表的元素類似于 122.114.31.177:808 的格式。 這個列表包括國內(nèi)隱藏代理IP網(wǎng)站首頁的所有IP地址和端口 
 
函數(shù) get_random_ip(ip_list) 傳入第一個函數(shù)得到的列表,并返回一個隨機(jī)代理。 這個代理可以傳遞給請求的get方法,這樣每次運(yùn)行都可以使用不同的IP訪問被爬取的網(wǎng)站,有效避免真實(shí)IP被屏蔽的風(fēng)險(xiǎn)
 
代理格式是 一本字典:{'http':'http://122.114.31.177:808'},可以改下面的執(zhí)行也封裝了一個方法
 
為了抓取IP,Xspur代理的服務(wù)器做了反爬蟲處理。 如果頻繁抓取,服務(wù)器會主動返回503錯誤提示block,所以在請求的時候可以先一次保存一個文件讀取這個文件,或者抓取一個ip使用幾分鐘,然后 再爬一次,相當(dāng)于加了一個計(jì)時函數(shù) 
 
使用代理IP 
 
運(yùn)行上面的代碼會得到一個隨機(jī)的代理,可以直接傳入request的get方法 
 
動態(tài)IP模擬器