當(dāng) urlopen 不能夠處理一個(gè) response 時(shí)，產(chǎn)生 urlError。不過(guò)通常的 Python APIs 異常如 ValueError，TypeError 等也會(huì)同時(shí)產(chǎn)生。HTTPError 是 urlError 的子類(lèi)，通常在特定 HTTP URLs 中產(chǎn)生。

URLError

通常，URLError 在沒(méi)有網(wǎng)絡(luò)連接(沒(méi)有路由到特定服務(wù)器)，或者服務(wù)器不存在的情況下產(chǎn)生。這種情況下，異常同樣會(huì)帶有"reason"屬性，它是一個(gè) tuple（可以理解為不可變的數(shù)組），包含了一個(gè)錯(cuò)誤號(hào)和一個(gè)錯(cuò)誤信息。

我們建一個(gè) urllib2_test06.py 來(lái)感受一下異常的處理：

import urllib2  

req = urllib2.Request('http://www.baibai.com')  

try: urllib2.urlopen(req)  

except urllib2.URLError, e:    
    print e.reason

按下 F5，可以看到打印出來(lái)的內(nèi)容是：

[Errno 11001] getaddrinfo failed

也就是說(shuō)，錯(cuò)誤號(hào)是 11001，內(nèi)容是 getaddrinfo failed。

HTTPError

服務(wù)器上每一個(gè) HTTP 應(yīng)答對(duì)象 response 包含一個(gè)數(shù)字"狀態(tài)碼"。有時(shí)狀態(tài)碼指出服務(wù)器無(wú)法完成請(qǐng)求。默認(rèn)的處理器會(huì)為你處理一部分這種應(yīng)答。

例如:response 是一個(gè)"重定向"，需要客戶(hù)端從別的地址獲取文檔，urllib2 將為你處理。其他不能處理的，urlopen 會(huì)產(chǎn)生一個(gè) HTTPError。典型的錯(cuò)誤包含"404"(頁(yè)面無(wú)法找到)，"403"(請(qǐng)求禁止)，和"401"(帶驗(yàn)證請(qǐng)求)。HTTP 狀態(tài)碼表示 HTTP 協(xié)議所返回的響應(yīng)的狀態(tài)。比如客戶(hù)端向服務(wù)器發(fā)送請(qǐng)求，如果成功地獲得請(qǐng)求的資源，則返回的狀態(tài)碼為 200，表示響應(yīng)成功。如果請(qǐng)求的資源不存在，則通常返回 404 錯(cuò)誤。 HTTP 狀態(tài)碼通常分為5種類(lèi)型，分別以 1～5 五個(gè)數(shù)字開(kāi)頭，由 3 位整數(shù)組成：

200：請(qǐng)求成功      處理方式：獲得響應(yīng)的內(nèi)容，進(jìn)行處理   
201：請(qǐng)求完成，結(jié)果是創(chuàng)建了新資源。新創(chuàng)建資源的 URI 可在響應(yīng)的實(shí)體中得到    處理方式：爬蟲(chóng)中不會(huì)遇到   
202：請(qǐng)求被接受，但處理尚未完成    處理方式：阻塞等待   
204：服務(wù)器端已經(jīng)實(shí)現(xiàn)了請(qǐng)求，但是沒(méi)有返回新的信 息。如果客戶(hù)是用戶(hù)代理，則無(wú)須為此更新自身的文檔視圖。    處理方式：丟棄  
300：該狀態(tài)碼不被 HTTP/1.0 的應(yīng)用程序直接使用， 只是作為 3XX 類(lèi)型回應(yīng)的默認(rèn)解釋。存在多個(gè)可用的被請(qǐng)求資源。    處理方式：若程序中能夠處理，則進(jìn)行進(jìn)一步處理，如果程序中不能處理，則丟棄  
301：請(qǐng)求到的資源都會(huì)分配一個(gè)永久的 URL，這樣就可以在將來(lái)通過(guò)該 URL 來(lái)訪(fǎng)問(wèn)此資源    處理方式：重定向到分配的 URL    
302：請(qǐng)求到的資源在一個(gè)不同的 URL 處臨時(shí)保存     處理方式：重定向到臨時(shí)的 URL   
304 請(qǐng)求的資源未更新     處理方式：丟棄   
400 非法請(qǐng)求     處理方式：丟棄   
401 未授權(quán)     處理方式：丟棄   
403 禁止     處理方式：丟棄   
404 沒(méi)有找到     處理方式：丟棄   
5XX 回應(yīng)代碼以“5”開(kāi)頭的狀態(tài)碼表示服務(wù)器端發(fā)現(xiàn)自己出現(xiàn)錯(cuò)誤，不能繼續(xù)執(zhí)行請(qǐng)求    處理方式：丟棄

HTTPError 實(shí)例產(chǎn)生后會(huì)有一個(gè)整型'code'屬性，是服務(wù)器發(fā)送的相關(guān)錯(cuò)誤號(hào)。Error Codes 錯(cuò)誤碼因?yàn)槟J(rèn)的處理器處理了重定向(300 以外號(hào)碼)，并且 100-299 范圍的號(hào)碼指示成功，所以你只能看到 400-599 的錯(cuò)誤號(hào)碼。

BaseHTTPServer.BaseHTTPRequestHandler.response 是一個(gè)很有用的應(yīng)答號(hào)碼字典，顯示了 HTTP 協(xié)議使用的所有的應(yīng)答號(hào)。當(dāng)一個(gè)錯(cuò)誤號(hào)產(chǎn)生后，服務(wù)器返回一個(gè) HTTP 錯(cuò)誤號(hào)，和一個(gè)錯(cuò)誤頁(yè)面。你可以使用 HTTPError 實(shí)例作為頁(yè)面返回的應(yīng)答對(duì)象 response。這表示和錯(cuò)誤屬性一樣，它同樣包含了 read,geturl，和 info 方法。

我們建一個(gè) urllib2_test07.py 來(lái)感受一下：

import urllib2  
req = urllib2.Request('http://bbs.csdn.net/callmewhy')  

try:  
    urllib2.urlopen(req)  

except urllib2.URLError, e:  

    print e.code  
    #print e.read()

按下 F5 可以看見(jiàn)輸出了 404 的錯(cuò)誤碼，也就說(shuō)沒(méi)有找到這個(gè)頁(yè)面。

Wrapping

所以如果你想為 HTTPError 或 URLError 做準(zhǔn)備，將有兩個(gè)基本的辦法。推薦使用第二種。

我們建一個(gè) urllib2_test08.py 來(lái)示范一下第一種異常處理的方案：

from urllib2 import Request, urlopen, URLError, HTTPError  

req = Request('http://bbs.csdn.net/callmewhy')  

try:  

    response = urlopen(req)  

except HTTPError, e:  

    print 'The server couldn\'t fulfill the request.'  

    print 'Error code: ', e.code  

except URLError, e:  

    print 'We failed to reach a server.'  

    print 'Reason: ', e.reason  

else:  
    print 'No exception was raised.'  
    # everything is fine

和其他語(yǔ)言相似，try 之后捕獲異常并且將其內(nèi)容打印出來(lái)。

這里要注意的一點(diǎn)，except HTTPError 必須在第一個(gè)，否則 except URLError 將同樣接受到 HTTPError。因?yàn)?HTTPError 是 URLError 的子類(lèi)，如果 URLError 在前面它會(huì)捕捉到所有的 URLError（包括HTTPError）。

我們建一個(gè) urllib2_test09.py 來(lái)示范一下第二種異常處理的方案：

from urllib2 import Request, urlopen, URLError, HTTPError  

req = Request('http://bbs.csdn.net/callmewhy')  

try:    

    response = urlopen(req)    

except URLError, e:    

    if hasattr(e, 'code'):    

        print 'The server couldn\'t fulfill the request.'    

        print 'Error code: ', e.code    

    elif hasattr(e, 'reason'):    

        print 'We failed to reach a server.'    

        print 'Reason: ', e.reason    

else:    
    print 'No exception was raised.'    
    # everything is fine

上一篇：糗事百科的網(wǎng)絡(luò)爬蟲(chóng)（v0.3）源碼及解析(簡(jiǎn)化更新)

在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

異常的處理和 HTTP 狀態(tài)碼的分類(lèi)

URLError

HTTPError

Wrapping