tutorial/  
    scrapy.cfg  
    tutorial/  
        __init__.py  
        items.py  
        pipelines.py  
        settings.py  
        spiders/  
            __init__.py  
            ...

下面來簡單介紹一下各個文件的作用：

scrapy.cfg：項目的配置文件
tutorial/：項目的 Python 模塊，將會從這里引用代碼
tutorial/items.py：項目的 items 文件
tutorial/pipelines.py：項目的 pipelines 文件
tutorial/settings.py：項目的設(shè)置文件
tutorial/spiders/：存儲爬蟲的目錄

明確目標(biāo)（Item）

在 Scrapy 中，items 是用來加載抓取內(nèi)容的容器，有點像 Python 中的 Dic，也就是字典，但是提供了一些額外的保護減少錯誤。

一般來說，item 可以用 scrapy.item.Item 類來創(chuàng)建，并且用 scrapy.item.Field 對象來定義屬性（可以理解成類似于 ORM 的映射關(guān)系）。

接下來，我們開始來構(gòu)建 item 模型（model）。

首先，我們想要的內(nèi)容有：

名稱（name）
鏈接（url）
描述（description）

修改 tutorial 目錄下的 items.py 文件，在原本的 class 后面添加我們自己的 class。因為要抓 dmoz.org 網(wǎng)站的內(nèi)容，所以我們可以將其命名為 DmozItem：

# Define here the models for your scraped items  
#  
# See documentation in:  
# http://doc.scrapy.org/en/latest/topics/items.html  

from scrapy.item import Item, Field  

class TutorialItem(Item):  
    # define the fields for your item here like:  
    # name = Field()  
    pass  

class DmozItem(Item):  
    title = Field()  
    link = Field()  
    desc = Field()

剛開始看起來可能會有些看不懂，但是定義這些 item 能讓你用其他組件的時候知道你的 items 到底是什么。可以把 Item 簡單的理解成封裝好的類對象。

制作爬蟲（Spider）

制作爬蟲，總體分兩步：先爬再取。
也就是說，首先你要獲取整個網(wǎng)頁的所有內(nèi)容，然后再取出其中對你有用的部分。

爬

Spider 是用戶自己編寫的類，用來從一個域（或域組）中抓取信息。他們定義了用于下載的 URL 列表、跟蹤鏈接的方案、解析網(wǎng)頁內(nèi)容的方式，以此來提取 items。要建立一個 Spider，你必須用 scrapy.spider.BaseSpider 創(chuàng)建一個子類，并確定三個強制的屬性：

name：爬蟲的識別名稱，必須是唯一的，在不同的爬蟲中你必須定義不同的名字。
start_urls：爬取的 URL 列表。爬蟲從這里開始抓取數(shù)據(jù)，所以，第一次下載的數(shù)據(jù)將會從這些 urls 開始。其他子 URL 將會從這些起始 URL 中繼承性生成。
parse()：解析的方法，調(diào)用的時候傳入從每一個 URL 傳回的 Response 對象作為唯一參數(shù)，負(fù)責(zé)解析并匹配抓取的數(shù)據(jù)(解析為 item)，跟蹤更多的 URL。

這里可以參考寬度爬蟲教程中提及的思想來幫助理解，教程傳送：[Java] 知乎下巴第5集：使用HttpClient工具包和寬度爬蟲。
也就是把 Url 存儲下來并依此為起點逐步擴散開去，抓取所有符合條件的網(wǎng)頁 Url 存儲起來繼續(xù)爬取。

下面我們來寫第一只爬蟲，命名為 dmoz_spider.py，保存在 tutorial\spiders 目錄下。

dmoz_spider.py 代碼如下：

from scrapy.spider import Spider  

class DmozSpider(Spider):  
    name = "dmoz"  
    allowed_domains = ["dmoz.org"]  
    start_urls = [  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"  
    ]  

    def parse(self, response):  
        filename = response.url.split("/")[-2]  
        open(filename, 'wb').write(response.body)

allow_domains 是搜索的域名范圍，也就是爬蟲的約束區(qū)域，規(guī)定爬蟲只爬取這個域名下的網(wǎng)頁。從 parse 函數(shù)可以看出，將鏈接的最后兩個地址取出作為文件名進行存儲。然后運行一下看看，在 tutorial 目錄下按住 shift 右擊，在此處打開命令窗口，輸入：

scrapy crawl dmoz

運行結(jié)果如圖：

http://wiki.jikexueyuan.com/project/python-crawler/images/33.png" alt="" />

報錯了：

UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 1: ordinal not in range(128)

運行第一個 Scrapy 項目就報錯，真是命運多舛。應(yīng)該是出了編碼問題，谷歌了一下找到了解決方案：

在 python 的 Lib\site-packages 文件夾下新建一個 sitecustomize.py：

import sys    
sys.setdefaultencoding('gb2312')

再次運行，OK，問題解決了，看一下結(jié)果：

http://wiki.jikexueyuan.com/project/python-crawler/images/34.png" alt="" />

最后一句 INFO: Closing spider (finished)表明爬蟲已經(jīng)成功運行并且自行關(guān)閉了。包含[dmoz]的行，那對應(yīng)著我們的爬蟲運行的結(jié)果。可以看到 start_urls 中定義的每個URL都有日志行。還記得我們的 start_urls 嗎？
http://www.dmoz.org/Computers/Programming/Languages/Python/Books
http://www.dmoz.org/Computers/Programming/Languages/Python/Resources
因為這些 URL 是起始頁面，所以他們沒有引用(referrers)，所以在它們的每行末尾你會看到 (referer: <None>)。在 parse 方法的作用下，兩個文件被創(chuàng)建：分別是 Books 和 Resources，這兩個文件中有 URL 的頁面內(nèi)容。

那么在剛剛的電閃雷鳴之中到底發(fā)生了什么呢？首先，Scrapy 為爬蟲的 start_urls 屬性中的每個 URL 創(chuàng)建了一個 scrapy.http.Request 對象，并將爬蟲的 parse 方法指定為回調(diào)函數(shù)。然后，這些 Request 被調(diào)度并執(zhí)行，之后通過 parse()方法返回 scrapy.http.Response 對象，并反饋給爬蟲。

取

爬取整個網(wǎng)頁完畢，接下來的就是的取過程了。光存儲一整個網(wǎng)頁還是不夠用的。在基礎(chǔ)的爬蟲里，這一步可以用正則表達(dá)式來抓。在 Scrapy 里，使用一種叫做 XPath selectors 的機制，它基于 XPath 表達(dá)式。如果你想了解更多 selectors 和其他機制你可以查閱資料：點我點我

這是一些 XPath 表達(dá)式的例子和他們的含義

/html/head/title: 選擇 HTML 文檔 <head> 元素下面的 <title> 標(biāo)簽。
/html/head/title/text(): 選擇前面提到的 <title> 元素下面的文本內(nèi)容
//td: 選擇所有 <td> 元素
//div[@class="mine"]: 選擇所有包含 class="mine" 屬性的 div 標(biāo)簽元素

以上只是幾個使用 XPath 的簡單例子，但是實際上 XPath 非常強大。可以參照 W3C 教程：點我點我。

為了方便使用 XPaths，Scrapy 提供 XPathSelector 類，有兩種可以選擇，HtmlXPathSelector(HTML 數(shù)據(jù)解析)和 XmlXPathSelector(XML 數(shù)據(jù)解析)。必須通過一個 Response 對象對他們進行實例化操作。你會發(fā)現(xiàn) Selector 對象展示了文檔的節(jié)點結(jié)構(gòu)。因此，第一個實例化的 selector 必與根節(jié)點或者是整個目錄有關(guān) 。

在 Scrapy 里面，Selectors 有四種基礎(chǔ)的方法（點擊查看 API 文檔）：

xpath()：返回一系列的 selectors，每一個 select 表示一個 xpath 參數(shù)表達(dá)式選擇的節(jié)點
css()：返回一系列的 selectors，每一個 select 表示一個 css 參數(shù)表達(dá)式選擇的節(jié)點
extract()：返回一個 unicode 字符串，為選中的數(shù)據(jù)
re()：返回一串一個 unicode 字符串，為使用正則表達(dá)式抓取出來的內(nèi)容

xpath 實驗

下面我們在 Shell 里面嘗試一下 Selector 的用法。實驗的網(wǎng)址：http://www.dmoz.org/Computers/Programming/Languages/Python/Books/

http://wiki.jikexueyuan.com/project/python-crawler/images/35.png" alt="" />

熟悉完了實驗的小白鼠，接下來就是用 Shell 爬取網(wǎng)頁了。進入到項目的頂層目錄，也就是第一層 tutorial 文件夾下，在 cmd 中輸入：

scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/

回車后可以看到如下的內(nèi)容：

http://wiki.jikexueyuan.com/project/python-crawler/images/36.png" alt="" />

在 Shell 載入后，你將獲得 response 回應(yīng)，存儲在本地變量 response 中。所以如果你輸入 response.body，你將會看到 response 的 body 部分，也就是抓取到的頁面內(nèi)容：

http://wiki.jikexueyuan.com/project/python-crawler/images/37.png" alt="" />

或者輸入 response.headers 來查看它的 header 部分：

http://wiki.jikexueyuan.com/project/python-crawler/images/38.png" alt="" />

現(xiàn)在就像是一大堆沙子握在手里，里面藏著我們想要的金子，所以下一步，就是用篩子搖兩下，把雜質(zhì)出去，選出關(guān)鍵的內(nèi)容。

selector 就是這樣一個篩子。在舊的版本中，Shell 實例化兩種 selectors，一個是解析 HTML 的 hxs 變量，一個是解析 XML 的 xxs 變量。

而現(xiàn)在的 Shell 為我們準(zhǔn)備好的 selector 對象，sel，可以根據(jù)返回的數(shù)據(jù)類型自動選擇最佳的解析方案(XML or HTML)。

然后我們來搗弄一下！~

要徹底搞清楚這個問題，首先先要知道，抓到的頁面到底是個什么樣子。比如，我們要抓取網(wǎng)頁的標(biāo)題，也就是 <title> 這個標(biāo)簽：

http://wiki.jikexueyuan.com/project/python-crawler/images/39.png" alt="" />

可以輸入：

sel.xpath('//title')

結(jié)果就是：

http://wiki.jikexueyuan.com/project/python-crawler/images/40.png" alt="" />

這樣就能把這個標(biāo)簽取出來了，用 extract()和 text()還可以進一步做處理。

備注：簡單的羅列一下有用的 xpath 路徑表達(dá)式：

表達(dá)式	描述
nodename	選取此節(jié)點的所有子節(jié)點。
/	從根節(jié)點選取。
//	從匹配選擇的當(dāng)前節(jié)點選擇文檔中的節(jié)點，而不考慮它們的位置。
.	選取當(dāng)前節(jié)點。
..	選取當(dāng)前節(jié)點的父節(jié)點。
@	選取屬性。

全部的實驗結(jié)果如下，In[i]表示第 i 次實驗的輸入，Out[i]表示第 i 次結(jié)果的輸出（建議大家參照：W3C 教程）：

In [1]: sel.xpath('//title')  
Out[1]: [<Selector xpath='//title' data=u'<title>Open Directory - Computers: Progr'>]  

In [2]: sel.xpath('//title').extract()  
Out[2]: [u'<title>Open Directory - Computers: Programming: Languages: Python: Books</title>']  

In [3]: sel.xpath('//title/text()')  
Out[3]: [<Selector xpath='//title/text()' data=u'Open Directory - Computers: Programming:'>]  

In [4]: sel.xpath('//title/text()').extract()  
Out[4]: [u'Open Directory - Computers: Programming: Languages: Python: Books']  

In [5]: sel.xpath('//title/text()').re('(\w+):')  
Out[5]: [u'Computers', u'Programming', u'Languages', u'Python']

當(dāng)然 title 這個標(biāo)簽對我們來說沒有太多的價值，下面我們就來真正抓取一些有意義的東西。使用火狐的審查元素我們可以清楚地看到，我們需要的東西如下：

http://wiki.jikexueyuan.com/project/python-crawler/images/41.png" alt="" />

我們可以用如下代碼來抓取這個 <li> 標(biāo)簽：

sel.xpath('//ul/li')

從 <li> 標(biāo)簽中，可以這樣獲取網(wǎng)站的描述：

sel.xpath('//ul/li/text()').extract()

可以這樣獲取網(wǎng)站的標(biāo)題：

sel.xpath('//ul/li/a/text()').extract()

可以這樣獲取網(wǎng)站的超鏈接：

sel.xpath('//ul/li/a/@href').extract()

當(dāng)然，前面的這些例子是直接獲取屬性的方法。我們注意到 xpath 返回了一個對象列表，那么我們也可以直接調(diào)用這個列表中對象的屬性挖掘更深的節(jié)點。
（參考：Nesting selectors and Working with relative XPaths in the Selectors）：

sites = sel.xpath('//ul/li')
for site in sites:
    title = site.xpath('a/text()').extract()
    link = site.xpath('a/@href').extract()
    desc = site.xpath('text()').extract()
    print title, link, desc

xpath 實戰(zhàn)

我們用 shell 做了這么久的實戰(zhàn)，最后我們可以把前面學(xué)習(xí)到的內(nèi)容應(yīng)用到 dmoz_spider 這個爬蟲中。

在原爬蟲的 parse 函數(shù)中做如下修改：

from scrapy.spider import Spider  
from scrapy.selector import Selector  

class DmozSpider(Spider):  
    name = "dmoz"  
    allowed_domains = ["dmoz.org"]  
    start_urls = [  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"  
    ]  

    def parse(self, response):  
        sel = Selector(response)  
        sites = sel.xpath('//ul/li')  
        for site in sites:  
            title = site.xpath('a/text()').extract()  
            link = site.xpath('a/@href').extract()  
            desc = site.xpath('text()').extract()  
            print title

注意，我們從 scrapy.selector 中導(dǎo)入了 Selector 類，并且實例化了一個新的 Selector 對象。這樣我們就可以像 Shell 中一樣操作 xpath 了。

我們來試著輸入一下命令運行爬蟲（在 tutorial 根目錄里面）：

scrapy crawl dmoz

運行結(jié)果如下：

http://wiki.jikexueyuan.com/project/python-crawler/images/42.png" alt="" />

果然，成功的抓到了所有的標(biāo)題。但是好像不太對啊，怎么 Top，Python 這種導(dǎo)航欄也抓取出來了呢？我們只需要紅圈中的內(nèi)容：

http://wiki.jikexueyuan.com/project/python-crawler/images/43.png" alt="" />

看來是我們的 xpath 語句有點問題，沒有僅僅把我們需要的項目名稱抓取出來，也抓了一些無辜的但是 xpath 語法相同的元素。審查元素我們發(fā)現(xiàn)我們需要的 <ul> 具有 class='directory-url' 的屬性，那么只要把 xpath 語句改成 sel.xpath('//ul[@class="directory-url"]/li') 即可將 xpath 語句做如下調(diào)整：

from scrapy.spider import Spider  
from scrapy.selector import Selector  

class DmozSpider(Spider):  
    name = "dmoz"  
    allowed_domains = ["dmoz.org"]  
    start_urls = [  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"  
    ]  

    def parse(self, response):  
        sel = Selector(response)  
        sites = sel.xpath('//ul[@class="directory-url"]/li')  
        for site in sites:  
            title = site.xpath('a/text()').extract()  
            link = site.xpath('a/@href').extract()  
            desc = site.xpath('text()').extract()  
            print title

成功抓出了所有的標(biāo)題，絕對沒有濫殺無辜：

http://wiki.jikexueyuan.com/project/python-crawler/images/44.png" alt="" />

使用 Item

接下來我們來看一看如何使用 Item。前面我們說過，Item 對象是自定義的 python 字典，可以使用標(biāo)準(zhǔn)字典語法獲取某個屬性的值：

>>> item = DmozItem()  
>>> item['title'] = 'Example title'  
>>> item['title']  
'Example title'

作為一只爬蟲，Spiders 希望能將其抓取的數(shù)據(jù)存放到 Item 對象中。為了返回我們抓取數(shù)據(jù)，spider 的最終代碼應(yīng)當(dāng)是這樣:

from scrapy.spider import Spider  
from scrapy.selector import Selector  

from tutorial.items import DmozItem  

class DmozSpider(Spider):  
    name = "dmoz"  
    allowed_domains = ["dmoz.org"]  
    start_urls = [  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",  
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"  
    ]  

    def parse(self, response):  
        sel = Selector(response)  
        sites = sel.xpath('//ul[@class="directory-url"]/li')  
        items = []  
        for site in sites:  
            item = DmozItem()  
            item['title'] = site.xpath('a/text()').extract()  
            item['link'] = site.xpath('a/@href').extract()  
            item['desc'] = site.xpath('text()').extract()  
            items.append(item)  
        return items

存儲內(nèi)容（Pipeline）

保存信息的最簡單的方法是通過 Feed exports，主要有四種：JSON，JSON lines，CSV，XML。我們將結(jié)果用最常用的 JSON 導(dǎo)出，命令如下：

scrapy crawl dmoz -o items.json -t json

-o 后面是導(dǎo)出文件名，-t 后面是導(dǎo)出類型。然后來看一下導(dǎo)出的結(jié)果，用文本編輯器打開 json 文件即可（為了方便顯示，在 item 中刪去了除了 title 之外的屬性）：

http://wiki.jikexueyuan.com/project/python-crawler/images/45.png" alt="" />

因為這個只是一個小型的例子，所以這樣簡單的處理就可以了。如果你想用抓取的 items 做更復(fù)雜的事情，你可以寫一個 Item Pipeline(條目管道)。這個我們以后再慢慢玩^_^

上一篇：一個簡單的百度貼吧的小爬蟲下一篇：urllib2 的使用細(xì)節(jié)與抓站技巧

在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

爬蟲框架 Scrapy 的第一個爬蟲示例入門教程

新建項目（Project）