爬蟲可以收集大量的數(shù)據(jù),比如商品價格和銷售數(shù)據(jù),或者抓取各種崗位信息并分析市場情況等。爬蟲有很多領(lǐng)域和廣泛的應(yīng)用。因此,即使很多人學(xué)習(xí)其他編程語言,他們也會學(xué)習(xí)Python。都說Python簡單,但對初學(xué)者來說也很難。下面小編介紹一些學(xué)習(xí)Python爬蟲需要掌握的基本知識點。
1.了解爬蟲的基本過程。
大多數(shù)爬蟲遵循“發(fā)送請求-獲取頁面-解析頁面-提取并存儲內(nèi)容”的過程,實際上模擬了使用瀏覽器獲取web信息的過程。
2.了解并熟悉Python包。
Python中有很多與爬蟲相關(guān)的包:urllib、requests、bs4、scratch、pyspider等。建議從requests+Xpath開始,其中requests負(fù)責(zé)連接網(wǎng)站和返回網(wǎng)頁,Xpath用于解析網(wǎng)頁,方便提取數(shù)據(jù)。如果你用過BeautifulSoup,你會發(fā)現(xiàn)Xpath省去了很多麻煩,省去了逐層檢查元素代碼的工作。這樣,基本的套路幾乎都一樣,一般的靜態(tài)網(wǎng)站完全不是問題。當(dāng)然,如果需要對異步加載的網(wǎng)站進(jìn)行抓取,可以學(xué)習(xí)瀏覽器抓取包并分析真實請求,或者學(xué)習(xí)Selenium實現(xiàn)自動化,這樣就可以輕松解決知乎、時代網(wǎng)、貓步鷹等動態(tài)網(wǎng)站。
3.了解數(shù)據(jù)的存儲。
抓取的數(shù)據(jù)可以以文檔的形式直接存儲在本地,也可以存儲在數(shù)據(jù)庫中。剛開始的時候,當(dāng)數(shù)據(jù)量不大的時候,可以直接通過Python語法或者pandas方法將數(shù)據(jù)保存為csv文件。
當(dāng)爬回的數(shù)據(jù)量很少時,可以以文檔的形式存儲。一旦數(shù)據(jù)量很大,它將不起作用。所以需要掌握一種數(shù)據(jù)庫,學(xué)習(xí)目前比較主流的MongoDB就可以了。
MongoDB可以方便你存儲一些非結(jié)構(gòu)化的數(shù)據(jù),比如各種評論的文字,圖片的鏈接等等。也可以用PyMongo更方便地操作Python中的MongoDB。因為這里用到的數(shù)據(jù)庫知識其實很簡單,主要是如何將數(shù)據(jù)放入倉庫以及如何提取,然后在需要的時候?qū)W習(xí)。
4.了解數(shù)據(jù)的清理。
當(dāng)然,你可能會發(fā)現(xiàn)抓取的數(shù)據(jù)不干凈,可能會有一些缺失和錯誤的數(shù)據(jù)。你還需要清理數(shù)據(jù),你可以學(xué)習(xí)熊貓包的基本用法,對數(shù)據(jù)進(jìn)行預(yù)處理,得到更干凈的數(shù)據(jù)。
5.了解爬蟲框架。
Scrapy是一個非常強(qiáng)大的爬蟲框架,它不僅可以方便地構(gòu)造請求,還可以用一個強(qiáng)大的選擇器方便地解析響應(yīng)。然而,最令人驚訝的是它的超高性能,允許您對爬蟲進(jìn)行工程化和模塊化。學(xué)習(xí)scrapy,可以自己搭建一些爬蟲框架,基本具備爬蟲工程師的思維。
當(dāng)抓取基礎(chǔ)數(shù)據(jù)不再是問題時,你的瓶頸將集中在抓取海量數(shù)據(jù)的效率上。這個時候,相信你自然會接觸到一個非常厲害的名字:分布式爬蟲。
這個分布式的東西聽起來很可怕,但實際上它利用多線程的原理讓多個爬蟲同時工作,這就需要你掌握三個工具:Scrapy+MongoDB+Redis。前面我們說過,Scrapy用來做基本的頁面抓取,MongoDB用來存儲抓取的數(shù)據(jù),Redis用來存儲待抓取的頁面隊列,也就是任務(wù)隊列。
以上是學(xué)習(xí)Python爬蟲的一些基本知識點。此外,還要注意網(wǎng)站的反爬蟲機(jī)制,如動態(tài)加載、IP密封、驗證碼、userAgent訪問限制等。面對這些反爬蟲,我們也需要用一些工具來對付它們。比如IP限制可以通過使用IP模擬器代理進(jìn)行IP工具的切換,這樣我們就可以突破IP限制。