分析爬蟲(chóng)技術(shù)開(kāi)發(fā)者常用的兩種解決方案!如果使用網(wǎng)絡(luò)爬蟲(chóng)抓取信息網(wǎng)絡(luò),往往會(huì)被整體目標(biāo)網(wǎng)站無(wú)故禁止瀏覽??梢运阉饕韵略?第一,當(dāng)你發(fā)現(xiàn)你得到的信息與整體目標(biāo)網(wǎng)站屏幕上顯示的所有正常信息都不一樣,換句話說(shuō),你抓取的信息是空白的。很有可能是你抓取的網(wǎng)站的程序流程在你創(chuàng)建網(wǎng)站頁(yè)面的時(shí)候出現(xiàn)了問(wèn)題。如果抓取頻率過(guò)高,將被禁止。
一般來(lái)說(shuō),ip是網(wǎng)站反黑客系統(tǒng)的基礎(chǔ)。你訪問(wèn)網(wǎng)站,人民網(wǎng)ip會(huì)被記錄,網(wǎng)絡(luò)服務(wù)器會(huì)把你當(dāng)成網(wǎng)絡(luò)爬蟲(chóng)的程序流。所以目前的網(wǎng)絡(luò)ip由于頻繁抓取而無(wú)法使用,所以人們還是要想辦法修改自己機(jī)器的網(wǎng)絡(luò)IP或者目前的網(wǎng)絡(luò)爬蟲(chóng)。因此,爬蟲(chóng)技術(shù)開(kāi)發(fā)者一般需要選擇兩種方式來(lái)解決此類(lèi)問(wèn)題。
一種方式:減緩抓取速度,這樣整體目標(biāo)網(wǎng)站的工作壓力會(huì)相對(duì)減輕,但如果做到了,企業(yè)時(shí)間內(nèi)的抓取量也會(huì)相對(duì)減少。兩種方式:設(shè)置代理IP,突破反網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)進(jìn)行高頻抓取,然后就需要幾個(gè)穩(wěn)定的代理IP。一般來(lái)說(shuō),解決方案是基于ADSL撥號(hào)。
一般如果在整個(gè)抓取過(guò)程中遇到禁止瀏覽的情況,可以重新?lián)艽駻DSL,獲取一個(gè)新的IP,然后重新獲取。但在多地址c#多線程抓取的情況下,如果禁止某個(gè)網(wǎng)站的抓取,也會(huì)傷害到其他網(wǎng)站的抓取,總體來(lái)說(shuō)會(huì)降低獲取率。
另一種解決方案將基于ADSL撥號(hào)。不同的是,必須有兩個(gè)可以撥ADSL的web服務(wù)器,而且這兩個(gè)web服務(wù)器在整個(gè)抓取過(guò)程中要作為代理。假設(shè)有兩個(gè)web服務(wù)許可證A和B可以撥打ADSL,網(wǎng)絡(luò)爬蟲(chóng)運(yùn)行在C web服務(wù)器上,A作為代理瀏覽外部網(wǎng)站。如果在整個(gè)抓取過(guò)程中禁止瀏覽,代理會(huì)立即轉(zhuǎn)換為b。
還有很多問(wèn)題是人們要根據(jù)整個(gè)育肥過(guò)程中的具體問(wèn)題來(lái)具體分析和處理的。總的來(lái)說(shuō),網(wǎng)絡(luò)爬蟲(chóng)抓取是一件非常不方便和困難的工作,所以現(xiàn)在很多手機(jī)軟件都是以產(chǎn)品來(lái)開(kāi)發(fā),來(lái)應(yīng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)的各種問(wèn)題。IP模擬器是很多爬蟲(chóng)工程師使用的非常穩(wěn)定的換IP軟件,安全系數(shù)很高。