根據(jù)系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),網(wǎng)絡(luò)爬蟲(chóng)大致可以分為以下幾種類(lèi)型:通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量網(wǎng)絡(luò)爬蟲(chóng)和深度網(wǎng)絡(luò)爬蟲(chóng)。實(shí)際的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)通常是通過(guò)幾種爬蟲(chóng)技術(shù)的結(jié)合來(lái)實(shí)現(xiàn)的。
一、通用網(wǎng)絡(luò)爬蟲(chóng)
一般的網(wǎng)絡(luò)爬蟲(chóng)稱(chēng)為全網(wǎng)爬蟲(chóng),抓取對(duì)象從一些種子URL擴(kuò)展到全網(wǎng),主要為門(mén)戶(hù)網(wǎng)站搜索引擎和大型Web服務(wù)提供商收集網(wǎng)絡(luò)數(shù)據(jù)。由于商業(yè)服務(wù),他們的技術(shù)細(xì)節(jié)不太公開(kāi)。這類(lèi)網(wǎng)絡(luò)爬蟲(chóng)的爬行類(lèi)別和數(shù)量巨大,對(duì)爬行速度和存儲(chǔ)空間要求較高,爬行順序相對(duì)較低。同時(shí),由于需要刷新的頁(yè)面太多,通常會(huì)并行工作,但是刷新一次頁(yè)面需要很長(zhǎng)時(shí)間。雖然存在一些不足,但通用網(wǎng)絡(luò)爬蟲(chóng)適用于搜索引擎搜索廣泛的主題,具有很強(qiáng)的應(yīng)用價(jià)值。
二、增量式網(wǎng)絡(luò)爬蟲(chóng)
增量式網(wǎng)絡(luò)爬蟲(chóng)是指對(duì)下載的網(wǎng)頁(yè)進(jìn)行增量更新,只抓取新生成或更改的網(wǎng)頁(yè)的爬蟲(chóng)。它可以在一定程度上保證抓取的頁(yè)面盡可能的新。與周期性抓取和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)相比,增量爬蟲(chóng)只在需要時(shí)抓取新生成或更新的網(wǎng)頁(yè),不重新下載不變的網(wǎng)頁(yè),可以有效減少數(shù)據(jù)下載量,及時(shí)更新抓取的網(wǎng)頁(yè),減少時(shí)間和空間消耗,但增加了抓取算法的復(fù)雜度和實(shí)現(xiàn)難度。增量式網(wǎng)絡(luò)爬蟲(chóng)的體系結(jié)構(gòu)包括爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行URL集和本地頁(yè)面URL集等。
三、深度網(wǎng)絡(luò)爬蟲(chóng)
網(wǎng)頁(yè)按照存在方式可以分為表層網(wǎng)頁(yè)和深層網(wǎng)頁(yè)(也稱(chēng)為不可見(jiàn)網(wǎng)頁(yè)或隱藏網(wǎng)頁(yè))。Surface Web頁(yè)面是指?jìng)鹘y(tǒng)搜索引擎可以索引的網(wǎng)頁(yè),主要由超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)組成。Deep Web是一個(gè)大部分內(nèi)容無(wú)法通過(guò)靜態(tài)鏈接獲取的網(wǎng)頁(yè),隱藏在搜索表單的背后,只能通過(guò)用戶(hù)提交一些關(guān)鍵詞來(lái)獲取。例如,那些內(nèi)容只有在用戶(hù)注冊(cè)后才能看到的網(wǎng)頁(yè)屬于深度網(wǎng)絡(luò)。2000年,光明星球指出,深度網(wǎng)的可訪(fǎng)問(wèn)信息容量是表層網(wǎng)的幾百倍,是互聯(lián)網(wǎng)上規(guī)模最大、增長(zhǎng)最快的新信息資源。
IP模擬器代理IP代理,國(guó)內(nèi)最可靠的IP代理,高度匿名代理,API調(diào)用頻率快,并發(fā)請(qǐng)求數(shù)量不限,價(jià)格低,速度快穩(wěn)定,多機(jī)調(diào)用,免費(fèi)試用!