久久久,被高潮,国精产品一线二线三线av,久久精品一区二区东京热,久久精品国产99国产电影网,久久97精品久久久久久久不卡

爬蟲有哪些分類?常見的幾種網(wǎng)絡(luò)爬蟲

雖然爬蟲可以爬取網(wǎng)頁,獲取大量數(shù)據(jù),但并不是所有的爬蟲都能實現(xiàn)這些功能。 爬蟲也有分類。 不同的爬蟲可以實現(xiàn)的功能是不一樣的,那么爬蟲有哪些分類呢? 這些不同的爬蟲能爬取什么? 下面通過IP模擬器代理來了解爬蟲的分類。  
 
根據(jù)授權(quán)情況
 
1。 惡意爬蟲
 
通過自行分析構(gòu)造參數(shù),爬取或提交數(shù)據(jù)到非公共接口,獲取對方不愿意被大量獲取的數(shù)據(jù),可能對性能造成極大損失 對方的服務(wù)器。 爬蟲類和反爬蟲類之間通常會發(fā)生激烈的對抗。  
 
2。 合法爬蟲
 
對行為符合Robots協(xié)議規(guī)范的網(wǎng)頁進行抓取,或抓取互聯(lián)網(wǎng)公共接口,或購買接口授權(quán)進行抓取,均為合法爬蟲。 這類爬蟲通常不考慮反爬蟲等對抗性工作。  
 
 
根據(jù)爬蟲功能
 
1。 接口爬蟲
 
通過準確構(gòu)造特定的API接口數(shù)據(jù)信息,獲取大量的請求數(shù)據(jù)。  
 
2。 網(wǎng)絡(luò)爬蟲
 
主要是搜索引擎爬蟲,根據(jù)網(wǎng)頁上的超鏈接進行遍歷爬取。  
 
 爬蟲分類 
 
根據(jù)爬取的網(wǎng)站數(shù)量 
 
1。增量爬蟲 
 
 增量更新是指更新時,只有 改變的地方更新,不變的地方不更新。 僅抓取內(nèi)容更改的網(wǎng)頁或新生成的網(wǎng)頁。 在一定程度上,它可以保證被爬取的網(wǎng)頁盡可能是新的。  
 
2。 通用爬蟲 
 
 抓取目標資源 在整個互聯(lián)網(wǎng)中,抓取的目標數(shù)據(jù)是巨大的。 爬取性能要求非常高。 用于大型搜索引擎,具有非常高的應(yīng)用價值。  
 
 爬行策略:有深度優(yōu)先爬行策略和廣度優(yōu)先爬行策略。  
 
 基本組成:初始URL采集、URL隊列、頁面爬取模塊、頁面分析模塊、頁面數(shù)據(jù)庫、鏈接過濾模塊等。 
 
3. 深層網(wǎng)絡(luò)爬蟲 
 
 表面網(wǎng)頁:無需提交表單即可使用靜態(tài)鏈接訪問的靜態(tài)網(wǎng)頁。  
 
深層網(wǎng)頁:隱藏在表單后面,無法通過靜態(tài)鏈接直接獲取,是提交特定關(guān)鍵字后才能獲取的網(wǎng)頁。  
 
 深度網(wǎng)絡(luò)爬蟲最重要的部分是表單填寫部分。  
 
 基本組成:URL列表、LVS列表(LVS指標簽/值集合,即填寫表單的數(shù)據(jù)源)爬蟲控制器、解析器、LVS控制器、表單分析器、表單處理器、響應(yīng) 
 
 深度網(wǎng)絡(luò)爬蟲表單填寫有兩種類型: 
 
 基于領(lǐng)域知識的表單填寫(建立填寫表單的關(guān)鍵詞庫,需要時選擇對應(yīng)的 關(guān)鍵根據(jù)語義分析詞填寫)。  
 
 基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫(通常在字段有限的情況下使用,該方法會分析網(wǎng)頁結(jié)構(gòu)并自動填寫表單)。  
 
4。 專注于網(wǎng)絡(luò)爬蟲 
 
 將抓取目標定位在與主題相關(guān)的頁面中,主要用于抓取特定信息,主要為某類特定人群服務(wù)。  
 
爬取策略:基于內(nèi)容評價的爬取策略、基于鏈接評價的爬取策略、基于強化學(xué)習(xí)的爬取策略、基于上下文圖的爬取策略、針對網(wǎng)絡(luò)爬蟲的具體爬取策略。  
 
 基本組成:初始URL、URL隊列、頁面抓取模塊、頁面分析模塊、頁面數(shù)據(jù)庫、連接過濾模塊、內(nèi)容評估模塊、鏈接評估模塊等。 
 
 關(guān)于分類 爬蟲,上面介紹了三類爬蟲。 它們根據(jù)授權(quán)、功能和抓取網(wǎng)站的數(shù)量進行分類。 不同的爬蟲可以爬取不同的內(nèi)容。 根據(jù)實際爬取需求,比如只爬取網(wǎng)頁的某一部分。