前面十章爬蟲(chóng)筆記陸陸續(xù)續(xù)記錄了一些簡(jiǎn)單的 Python 爬蟲(chóng)知識(shí),用來(lái)解決簡(jiǎn)單的貼吧下載,績(jī)點(diǎn)運(yùn)算自然不在話下。不過(guò)要想批量下載大量的內(nèi)容,比如知乎的所有的問(wèn)答,那便顯得游刃不有余了點(diǎn)。于是乎,爬蟲(chóng)框架 Scrapy 就這樣出場(chǎng)了!Scrapy = Scrach+Python,Scrach 這個(gè)單詞是抓取的意思,暫且可以叫它:小抓抓吧。
小抓抓的官網(wǎng)地址:點(diǎn)我點(diǎn)我。
那么下面來(lái)簡(jiǎn)單的演示一下小抓抓 Scrapy 的安裝流程。
具體流程參照:官網(wǎng)教程
友情提醒:一定要按照 Python 的版本下載,要不然安裝的時(shí)候會(huì)提醒找不到 Python。建議大家安裝 32 位是因?yàn)橛行┌姹镜谋貍滠浖?64 位不好找。
建議安裝 Python2.7.x,3.x 貌似還不支持。 安裝完了記得配置環(huán)境,將 python 目錄和 python 目錄下的 Scripts 目錄添加到系統(tǒng)環(huán)境變量的 Path 里。在 cmd中輸入 python 如果出現(xiàn)版本信息說(shuō)明配置完畢。
lxml 是一種使用 Python 編寫的庫(kù),可以迅速、靈活地處理 XML。點(diǎn)擊這里選擇對(duì)應(yīng)的 Python 版本安裝。
用來(lái)安裝 egg 文件,點(diǎn)擊這里下載 python2.7 的對(duì)應(yīng)版本的 setuptools。
可以使用第三步下載的 setuptools 來(lái)安裝 egg 文件,現(xiàn)在也有 exe 版本,點(diǎn)擊這里下載。
Twisted 是用 Python 實(shí)現(xiàn)的基于事件驅(qū)動(dòng)的網(wǎng)絡(luò)引擎框架,點(diǎn)擊這里下載。
pyOpenSSL 是 Python 的 OpenSSL 接口,點(diǎn)擊這里下載。
提供 win32api,點(diǎn)擊這里下載
終于到了激動(dòng)人心的時(shí)候了!安裝了那么多小部件之后終于輪到主角登場(chǎng)。 直接在 cmd 中輸入 easy_install scrapy 回車即可。
打開(kāi)一個(gè) cmd 窗口,在任意位置執(zhí)行 scrapy 命令,得到下列頁(yè)面,表示環(huán)境配置成功。
http://wiki.jikexueyuan.com/project/python-crawler/images/32.png" alt="" />