當 urlopen 不能夠處理一個 response 時，產(chǎn)生 urlError。不過通常的 Python APIs 異常如 ValueError，TypeError 等也會同時產(chǎn)生。HTTPError 是 urlError 的子類，通常在特定 HTTP URLs 中產(chǎn)生。

URLError

通常，URLError 在沒有網(wǎng)絡(luò)連接(沒有路由到特定服務(wù)器)，或者服務(wù)器不存在的情況下產(chǎn)生。這種情況下，異常同樣會帶有"reason"屬性，它是一個 tuple（可以理解為不可變的數(shù)組），包含了一個錯誤號和一個錯誤信息。

我們建一個 urllib2_test06.py 來感受一下異常的處理：

import urllib2  

req = urllib2.Request('http://www.baibai.com')  

try: urllib2.urlopen(req)  

except urllib2.URLError, e:    
    print e.reason

按下 F5，可以看到打印出來的內(nèi)容是：

[Errno 11001] getaddrinfo failed

也就是說，錯誤號是 11001，內(nèi)容是 getaddrinfo failed。

HTTPError

服務(wù)器上每一個 HTTP 應(yīng)答對象 response 包含一個數(shù)字"狀態(tài)碼"。有時狀態(tài)碼指出服務(wù)器無法完成請求。默認的處理器會為你處理一部分這種應(yīng)答。

例如:response 是一個"重定向"，需要客戶端從別的地址獲取文檔，urllib2 將為你處理。其他不能處理的，urlopen 會產(chǎn)生一個 HTTPError。典型的錯誤包含"404"(頁面無法找到)，"403"(請求禁止)，和"401"(帶驗證請求)。HTTP 狀態(tài)碼表示 HTTP 協(xié)議所返回的響應(yīng)的狀態(tài)。比如客戶端向服務(wù)器發(fā)送請求，如果成功地獲得請求的資源，則返回的狀態(tài)碼為 200，表示響應(yīng)成功。如果請求的資源不存在，則通常返回 404 錯誤。 HTTP 狀態(tài)碼通常分為5種類型，分別以 1～5 五個數(shù)字開頭，由 3 位整數(shù)組成：

200：請求成功      處理方式：獲得響應(yīng)的內(nèi)容，進行處理   
201：請求完成，結(jié)果是創(chuàng)建了新資源。新創(chuàng)建資源的 URI 可在響應(yīng)的實體中得到    處理方式：爬蟲中不會遇到   
202：請求被接受，但處理尚未完成    處理方式：阻塞等待   
204：服務(wù)器端已經(jīng)實現(xiàn)了請求，但是沒有返回新的信 息。如果客戶是用戶代理，則無須為此更新自身的文檔視圖。    處理方式：丟棄  
300：該狀態(tài)碼不被 HTTP/1.0 的應(yīng)用程序直接使用， 只是作為 3XX 類型回應(yīng)的默認解釋。存在多個可用的被請求資源。    處理方式：若程序中能夠處理，則進行進一步處理，如果程序中不能處理，則丟棄  
301：請求到的資源都會分配一個永久的 URL，這樣就可以在將來通過該 URL 來訪問此資源    處理方式：重定向到分配的 URL    
302：請求到的資源在一個不同的 URL 處臨時保存     處理方式：重定向到臨時的 URL   
304 請求的資源未更新     處理方式：丟棄   
400 非法請求     處理方式：丟棄   
401 未授權(quán)     處理方式：丟棄   
403 禁止     處理方式：丟棄   
404 沒有找到     處理方式：丟棄   
5XX 回應(yīng)代碼以“5”開頭的狀態(tài)碼表示服務(wù)器端發(fā)現(xiàn)自己出現(xiàn)錯誤，不能繼續(xù)執(zhí)行請求    處理方式：丟棄

HTTPError 實例產(chǎn)生后會有一個整型'code'屬性，是服務(wù)器發(fā)送的相關(guān)錯誤號。Error Codes 錯誤碼因為默認的處理器處理了重定向(300 以外號碼)，并且 100-299 范圍的號碼指示成功，所以你只能看到 400-599 的錯誤號碼。

BaseHTTPServer.BaseHTTPRequestHandler.response 是一個很有用的應(yīng)答號碼字典，顯示了 HTTP 協(xié)議使用的所有的應(yīng)答號。當一個錯誤號產(chǎn)生后，服務(wù)器返回一個 HTTP 錯誤號，和一個錯誤頁面。你可以使用 HTTPError 實例作為頁面返回的應(yīng)答對象 response。這表示和錯誤屬性一樣，它同樣包含了 read,geturl，和 info 方法。

我們建一個 urllib2_test07.py 來感受一下：

import urllib2  
req = urllib2.Request('http://bbs.csdn.net/callmewhy')  

try:  
    urllib2.urlopen(req)  

except urllib2.URLError, e:  

    print e.code  
    #print e.read()

按下 F5 可以看見輸出了 404 的錯誤碼，也就說沒有找到這個頁面。

Wrapping

所以如果你想為 HTTPError 或 URLError 做準備，將有兩個基本的辦法。推薦使用第二種。

我們建一個 urllib2_test08.py 來示范一下第一種異常處理的方案：

from urllib2 import Request, urlopen, URLError, HTTPError  

req = Request('http://bbs.csdn.net/callmewhy')  

try:  

    response = urlopen(req)  

except HTTPError, e:  

    print 'The server couldn\'t fulfill the request.'  

    print 'Error code: ', e.code  

except URLError, e:  

    print 'We failed to reach a server.'  

    print 'Reason: ', e.reason  

else:  
    print 'No exception was raised.'  
    # everything is fine

和其他語言相似，try 之后捕獲異常并且將其內(nèi)容打印出來。

這里要注意的一點，except HTTPError 必須在第一個，否則 except URLError 將同樣接受到 HTTPError。因為 HTTPError 是 URLError 的子類，如果 URLError 在前面它會捕捉到所有的 URLError（包括HTTPError）。

我們建一個 urllib2_test09.py 來示范一下第二種異常處理的方案：

from urllib2 import Request, urlopen, URLError, HTTPError  

req = Request('http://bbs.csdn.net/callmewhy')  

try:    

    response = urlopen(req)    

except URLError, e:    

    if hasattr(e, 'code'):    

        print 'The server couldn\'t fulfill the request.'    

        print 'Error code: ', e.code    

    elif hasattr(e, 'reason'):    

        print 'We failed to reach a server.'    

        print 'Reason: ', e.reason    

else:    
    print 'No exception was raised.'    
    # everything is fine

上一篇：糗事百科的網(wǎng)絡(luò)爬蟲（v0.3）源碼及解析(簡化更新)

在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

異常的處理和 HTTP 狀態(tài)碼的分類

URLError

HTTPError

Wrapping