在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Python/ 請問如何設計爬蟲中的爬取進度保存問題?

請問如何設計爬蟲中的爬取進度保存問題?

一個網站版塊下有30個分類,每個分類有20個子分類,一個子分類約有30頁數據,一頁15條數據
我需要爬取所有子分類的所有分頁數據,因為程序可能會因為各種情況中斷運行,那么我應該怎么記錄已爬取的記錄呢?下次啟動自動從未爬取的記錄開始執(zhí)行。

我的想法是先把30*20個分類的分頁url爬取存起來,做個標記,1為已爬取,0為未爬取,爬蟲程序從url表中取標記為0的url執(zhí)行爬取。

回答
編輯回答
下墜

這個就是爬蟲去重啊,你的任務目標比較少,所以你的方法是可行的,也不需要數據庫,把爬去過的url轉換成md5,存到文本里,下次抓取的時候讀取到內存里,然后比對一下就行了。

2018年6月17日 18:32