網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機器人，在 FOAF 社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動的抓取萬維網(wǎng)信息的程序或者腳本。根據(jù)我的經(jīng)驗，要學習 Python 爬蟲，我們要學習的共有以下幾點：

Python 基礎(chǔ)知識
Python 中 urllib 和 urllib2 庫的用法
Python 正則表達式
Python 爬蟲框架 Scrapy
Python 爬蟲更高級的功能

Python 基礎(chǔ)學習

首先，我們要用 Python 寫爬蟲，肯定要了解 Python 的基礎(chǔ)吧，萬丈高樓平地起，不能忘啦那地基，哈哈，那么我就分享一下自己曾經(jīng)看過的一些 Python 教程，小伙伴們可以作為參考。

極客學院 Python 教程

曾經(jīng)有一些基礎(chǔ)的語法是在慕課網(wǎng)上看的，上面附有一些練習，學習完之后可以作為練習，感覺效果還是蠻不錯的，不過稍微遺憾的是內(nèi)容基本上都是最基礎(chǔ)的，入門開始的話，就這個吧

學習網(wǎng)址：極客學院 Python 教程

廖雪峰 Python 教程

后來，我發(fā)現(xiàn)了廖老師的 Python 教程，講的那是非常通俗易懂哪，感覺也是非常不錯，大家如果想進一步了解 Python 就看一下這個吧。

學習網(wǎng)址：廖雪峰 Python 教程

簡明 Python 教程

還有一個我看過的，簡明 Python 教程，感覺講的也不錯

學習網(wǎng)址：簡明 Python 教程

Python urllib 和 urllib2 庫的用法

urllib 和 urllib2 庫是學習 Python 爬蟲最基本的庫，利用這個庫我們可以得到網(wǎng)頁的內(nèi)容，并對內(nèi)容用正則表達式提取分析，得到我們想要的結(jié)果。這個在學習過程中我會和大家分享的。

Python 正則表達式

Python 正則表達式是一種用來匹配字符串的強有力的武器。它的設(shè)計思想是用一種描述性的語言來給字符串定義一個規(guī)則，凡是符合規(guī)則的字符串，我們就認為它“匹配”了，否則，該字符串就是不合法的。這個在后面的博文會分享的。

爬蟲框架 Scrapy

如果你是一個 Python 高手，基本的爬蟲知識都已經(jīng)掌握了，那么就尋覓一下 Python 框架吧，我選擇的框架是 Scrapy 框架。這個框架有什么強大的功能呢？下面是它的官方介紹：

HTML, XML 源數(shù)據(jù) 選擇及提取的內(nèi)置支持提供了一系列在 spider 之間共享的可復(fù)用的過濾器(即 Item Loaders)，對智能處理爬取數(shù)據(jù)提供了內(nèi)置支持。通過 feed 導(dǎo)出提供了多格式(JSON、CSV、XML)，多存儲后端(FTP、S3、本地文件系統(tǒng))的內(nèi)置支持提供了 media pipeline，可以自動下載爬取到的數(shù)據(jù)中的圖片(或者其他資源)。高擴展性。您可以通過使用 signals ，設(shè)計好的 API(中間件, extensions, pipelines)來定制實現(xiàn)您的功能。

內(nèi)置的中間件及擴展為下列功能提供了支持:

cookies and session 處理
HTTP 壓縮
HTTP 認證
HTTP 緩存
user-agent模擬
robots.txt

爬取深度限制

針對非英語語系中不標準或者錯誤的編碼聲明, 提供了自動檢測以及健壯的編碼支持。

支持根據(jù)模板生成爬蟲。在加速爬蟲創(chuàng)建的同時，保持在大型項目中的代碼更為一致。詳細內(nèi)容請參閱 genspider 命令。

針對多爬蟲下性能評估、失敗檢測，提供了可擴展的狀態(tài)收集工具。

提供交互式 shell 終端 , 為您測試 XPath 表達式，編寫和調(diào)試爬蟲提供了極大的方便

提供 System service, 簡化在生產(chǎn)環(huán)境的部署及運行

內(nèi)置 Web service, 使您可以監(jiān)視及控制您的機器

內(nèi)置 Telnet 終端，通過在 Scrapy 進程中鉤入 Python 終端，使您可以查看并且調(diào)試爬蟲

Logging 為您在爬取過程中捕捉錯誤提供了方便

支持 Sitemaps 爬取

具有緩存的 DNS 解析器

官方文檔：http://doc.scrapy.org/en/latest/

等我們掌握了基礎(chǔ)的知識，再用這個 Scrapy 框架吧！

上一篇：Urllib 庫的基本使用下一篇：計算大學本學期績點

在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久