在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 教程/ Python/ 亮劍!爬蟲(chóng)框架小抓抓 Scrapy 閃亮登場(chǎng)!
一個(gè)簡(jiǎn)單的百度貼吧的小爬蟲(chóng)
亮劍!爬蟲(chóng)框架小抓抓 Scrapy 閃亮登場(chǎng)!
Opener 與 Handler 的介紹和實(shí)例應(yīng)用
百度貼吧的網(wǎng)絡(luò)爬蟲(chóng)(v0.4)源碼及解析
異常的處理和 HTTP 狀態(tài)碼的分類
利用 urllib2 通過(guò)指定的 URL 抓取網(wǎng)頁(yè)內(nèi)容
Python 中的正則表達(dá)式教程
爬蟲(chóng)框架 Scrapy 的第一個(gè)爬蟲(chóng)示例入門教程
抓取網(wǎng)頁(yè)的含義和 URL 基本構(gòu)成
urllib2 的使用細(xì)節(jié)與抓站技巧
一個(gè)爬蟲(chóng)的誕生全過(guò)程(以山東大學(xué)績(jī)點(diǎn)運(yùn)算為例)
糗事百科的網(wǎng)絡(luò)爬蟲(chóng)(v0.3)源碼及解析(簡(jiǎn)化更新)

亮劍!爬蟲(chóng)框架小抓抓 Scrapy 閃亮登場(chǎng)!

前面十章爬蟲(chóng)筆記陸陸續(xù)續(xù)記錄了一些簡(jiǎn)單的 Python 爬蟲(chóng)知識(shí),用來(lái)解決簡(jiǎn)單的貼吧下載,績(jī)點(diǎn)運(yùn)算自然不在話下。不過(guò)要想批量下載大量的內(nèi)容,比如知乎的所有的問(wèn)答,那便顯得游刃不有余了點(diǎn)。于是乎,爬蟲(chóng)框架 Scrapy 就這樣出場(chǎng)了!Scrapy = Scrach+Python,Scrach 這個(gè)單詞是抓取的意思,暫且可以叫它:小抓抓吧。

小抓抓的官網(wǎng)地址:點(diǎn)我點(diǎn)我。

那么下面來(lái)簡(jiǎn)單的演示一下小抓抓 Scrapy 的安裝流程。
具體流程參照:官網(wǎng)教程
友情提醒:一定要按照 Python 的版本下載,要不然安裝的時(shí)候會(huì)提醒找不到 Python。建議大家安裝 32 位是因?yàn)橛行┌姹镜谋貍滠浖?64 位不好找。

安裝 Python(建議 32 位)

建議安裝 Python2.7.x,3.x 貌似還不支持。 安裝完了記得配置環(huán)境,將 python 目錄和 python 目錄下的 Scripts 目錄添加到系統(tǒng)環(huán)境變量的 Path 里。在 cmd中輸入 python 如果出現(xiàn)版本信息說(shuō)明配置完畢。

安裝 lxml

lxml 是一種使用 Python 編寫的庫(kù),可以迅速、靈活地處理 XML。點(diǎn)擊這里選擇對(duì)應(yīng)的 Python 版本安裝。

安裝 setuptools

用來(lái)安裝 egg 文件,點(diǎn)擊這里下載 python2.7 的對(duì)應(yīng)版本的 setuptools。

安裝 zope.interface

可以使用第三步下載的 setuptools 來(lái)安裝 egg 文件,現(xiàn)在也有 exe 版本,點(diǎn)擊這里下載。

安裝 Twisted

Twisted 是用 Python 實(shí)現(xiàn)的基于事件驅(qū)動(dòng)的網(wǎng)絡(luò)引擎框架,點(diǎn)擊這里下載。

安裝 pyOpenSSL

pyOpenSSL 是 Python 的 OpenSSL 接口,點(diǎn)擊這里下載。

安裝 win32py

提供 win32api,點(diǎn)擊這里下載

安裝 Scrapy

終于到了激動(dòng)人心的時(shí)候了!安裝了那么多小部件之后終于輪到主角登場(chǎng)。 直接在 cmd 中輸入 easy_install scrapy 回車即可。

檢查安裝

打開(kāi)一個(gè) cmd 窗口,在任意位置執(zhí)行 scrapy 命令,得到下列頁(yè)面,表示環(huán)境配置成功。

http://wiki.jikexueyuan.com/project/python-crawler/images/32.png" alt="" />