selenium+python設(shè)置爬蟲代理IP的方法
1.設(shè)置后臺
是使用selenium瀏覽器渲染技術(shù),當(dāng)我們爬取某個網(wǎng)站的信息時 ,一般情況下,速度不是特別快。 另外,需要使用selenium瀏覽器渲染技術(shù)進(jìn)行爬取的網(wǎng)站,反爬蟲響應(yīng)技術(shù)都比較強(qiáng)大,對IP訪問的頻率有很大的限制。 因此,如果要提高selenium爬取數(shù)據(jù)的速度,可以從兩個方面入手:
第一,爬取頻率要提高,出現(xiàn)的驗(yàn)證信息 破解一般是驗(yàn)證碼或者用戶登錄。
第二個方面是使用多線程+代理IP。 這種方法需要電腦有足夠的內(nèi)存和足夠穩(wěn)定的代理IP。
2。 為chrome
動態(tài)IP模擬器設(shè)置代理IP
注意:
一、選擇一個穩(wěn)定固定的代理IP。 不要選擇動態(tài)代理IP。 我們常用的爬蟲IP代理一般都是高度匿名的動態(tài)IP,保密性高,通過撥號動態(tài)生成,時效很短,一般3分鐘左右。 非常適合高并發(fā)不需要登錄的爬蟲,比如scrapy,但是不適合瀏覽器渲染的爬蟲。
二、選擇更快的代理IP。 因?yàn)閟elenium爬蟲使用瀏覽器渲染技術(shù),這種瀏覽器渲染技術(shù)天生就慢。 如果選擇的代理IP較慢,則爬取時間會進(jìn)一步增加。
三、必須有足夠的電腦內(nèi)存。 由于chrome占用大量內(nèi)存,在高并發(fā)的情況下,很容易導(dǎo)致瀏覽器崩潰,即程序崩潰。
四、程序最后調(diào)用browser.quit()清除瀏覽器緩存。
3。 需要用戶名和密碼認(rèn)證的代理