需要一個爬蟲IP代理來收集數(shù)據(jù),由于之前公司項目的需要,我們收集了地圖數(shù)據(jù)和一些大型網(wǎng)站的數(shù)據(jù)。
1. 一個代理IP是必需的,非常正確,ADSL。如果條件允許,您實際上可以向機(jī)房申請外部IP。
2.在具有外部IP的機(jī)器上部署代理服務(wù)器。
3. 您的計劃使用輪轉(zhuǎn)訓(xùn)練而不是代理服務(wù)器來訪問您想要收藏的網(wǎng)站。
好處:
1. 程序邏輯變化不大,只需要代理函數(shù)。
2. 根據(jù)對方網(wǎng)站的不同被封規(guī)則,您只需再添加幾個代理即可。
3. 如果一個特定的IP被封,可以使用代理服務(wù)器登出而不改變程序邏輯。
首先,我想通過代理購買一些代理IP,比如動態(tài)IP模擬器它提供了許多國內(nèi)代理IP服務(wù)器地址,您可以從這里抓取,后來我用的是ADSL。缺點是需要斷開網(wǎng)絡(luò),重新?lián)芴?,在斷開連接的過程中,爬行器在沒有負(fù)載的情況下運(yùn)行。如果您對實時數(shù)據(jù)有特殊要求,則需要規(guī)劃解決方案。