在一大堆專業(yè)術(shù)語中,最廣為人知的大概就是“網(wǎng)絡(luò)爬蟲”了。事實上,網(wǎng)絡(luò)爬蟲的名字已經(jīng)顯示了這種技術(shù)的作用,特別是像密集的蠕蟲一樣在網(wǎng)絡(luò)上均勻分布,使用http代理IP爬行到每個網(wǎng)站以獲得數(shù)據(jù);也在一定程度上表達了人們對這項技術(shù)的情感傾向——爬行動物可能是無害的,但總是不受歡迎。
為了防止同一個代理IP訪問同一個網(wǎng)站,該IP長時間訪問同一個網(wǎng)站極有可能被屏蔽。
解決技術(shù)含量高的IP代理問題很方便,找代理也方便省事。
成本低維護服務(wù)器本身的成本太高,不亞于長期可持續(xù)發(fā)展。
有一種說法是,互聯(lián)網(wǎng)上60%的流量是由網(wǎng)絡(luò)爬蟲創(chuàng)造的。這種說法雖然有些夸張,但也反映了網(wǎng)絡(luò)爬蟲的無處不在。爬蟲無處不在,因為能給互聯(lián)網(wǎng)公司帶來收益。