在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Python/ 關(guān)于監(jiān)測頁面變化與定時爬取增量的問題

關(guān)于監(jiān)測頁面變化與定時爬取增量的問題

有一個項目,我要對頁面每天19點開始爬,每隔30分鐘爬取一次,直到爬取到增量內(nèi)容后停止,然后明日19點再循環(huán)。配置如下

@every(minutes=30)
def on_start(self):
    ...


@config(age=24 * 60 * 60)
def index_page(self, response):
    ...
  1. 這樣設(shè)置,every=每30分鐘,age=每24小時,可以起到定時啟動的效果嗎?
    如果要發(fā)起每天19點開始的定時功能,除了第一次在19點點run之外,還有沒有更合適的方法?
  2. 此外,該項目的網(wǎng)頁,在內(nèi)容相同的情況下,URL會變化。請問除了手動對比本地數(shù)據(jù)庫之外,有沒有更合適的辦法去監(jiān)測從而只爬取增量?
回答
編輯回答
礙你眼

第一個問題自己解決了:
調(diào)用Python的時間日期接口,用if判斷即可。
第二個問題,由于URL會變動,也許我給出的是目前唯一可用的方法。

2017年2月28日 07:40