久久久,被高潮,国精产品一线二线三线av,久久精品一区二区东京热,久久精品国产99国产电影网,久久97精品久久久久久久不卡

突破反爬蟲的利器——開源動(dòng)態(tài)ip池

突破反爬蟲的常用方法是使用代理ip。對(duì)于初學(xué)者或個(gè)人來(lái)說(shuō),購(gòu)買一些代理ip的成本略高。因此,最近編寫了一個(gè)開源項(xiàng)目IPProxys,為個(gè)人提供代理IP。
 
IpProxys原理:通過(guò)抓取各大代理網(wǎng)站提供的免費(fèi)代理ip,進(jìn)行去重,驗(yàn)證ip的可用性,將有效IP存儲(chǔ)在sqlite中,為爬蟲獲取IP提供HTTP接口。
 
IPProxys項(xiàng)目已經(jīng)上傳到github,鏈接是https://github.com/qiyeboy/IPProxys.以下是整個(gè)項(xiàng)目的描述。
 
Api包:主要實(shí)現(xiàn)http服務(wù)器,提供api接口(通過(guò)get請(qǐng)求返回json數(shù)據(jù))。
 
數(shù)據(jù)文件夾:主要指數(shù)據(jù)庫(kù)文件和qqwry.dat的存儲(chǔ)位置(可以查詢ip的地理位置)。
 
Db包:主要封裝一些數(shù)據(jù)庫(kù)操作。
 
蜘蛛包是爬蟲的核心功能,在代理網(wǎng)站上抓取代理ip。
 
測(cè)試包:測(cè)試一些用例,不參與整個(gè)項(xiàng)目的運(yùn)行。
 
Util包:提供一些工具類。其中ipAddress.py查詢IP的地理位置。
 
驗(yàn)證包:用于測(cè)試ip地址是否可用。
 
Config.py:主要是配置信息(包括配置ip地址的解析方法和數(shù)據(jù)庫(kù)的配置)。
 
整個(gè)項(xiàng)目代碼量很小,大家可以根據(jù)自己的需要進(jìn)行修改,也可以提出自己的想法和建議,幫助我完善這個(gè)項(xiàng)目。
 
如何使用IPProxys項(xiàng)目?
 
1.將項(xiàng)目目錄克隆到當(dāng)前文件夾。
 
$ git克隆
 
2.切換項(xiàng)目目錄。
 
$ cd IPProxys
 
3.運(yùn)行腳本。
 
python IPProxys.py
 
窗口運(yùn)行效果如下圖所示:
 
 
項(xiàng)目依賴關(guān)系:
 
需要安裝Sqlite數(shù)據(jù)庫(kù)。
 
安裝請(qǐng)求庫(kù):pip安裝請(qǐng)求。
 
install lxml:apt-get install python-lxml。
 
ipProxys運(yùn)行時(shí),外部爬蟲如何獲取IP?
 
外部爬蟲只需要向IPProxys所在主機(jī)的端口8000發(fā)送GET請(qǐng)求。獲取請(qǐng)求的參數(shù)
 
動(dòng)態(tài)IP模擬器