在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問(wèn)答/數(shù)據(jù)分析&挖掘/ 爬蟲(chóng)如何確定什么時(shí)候停止

爬蟲(chóng)如何確定什么時(shí)候停止

想問(wèn)一下,寫(xiě)一個(gè)爬蟲(chóng),如何判斷該爬蟲(chóng)什么時(shí)候應(yīng)該停止呢?
初始狀態(tài)為一個(gè)url;然后有一個(gè)

while(isNotEmpty(urlList)){
    // do something
}

我的思路是這樣,但是會(huì)有放入隊(duì)列url 的速度跟不上消費(fèi)的速度,以至于出現(xiàn)了urlList為空的情況,這時(shí)候爬蟲(chóng)就停掉了。我想問(wèn)下,有哪位大牛自己寫(xiě)過(guò)爬蟲(chóng)的框架,是根據(jù)什么條件決定爬蟲(chóng)停止運(yùn)行的。

回答
編輯回答
熊出沒(méi)

思路有點(diǎn)奇怪,urlList的鏈接也是自己放進(jìn)去吧,放一個(gè)爬一個(gè)不就行了。什么時(shí)候不往urlList放鏈接爬蟲(chóng)就停了。

2017年4月13日 11:54
編輯回答
葬憶

爬蟲(chóng)怎么停止,不是取決于你自己的業(yè)務(wù)的嗎。
爬蟲(chóng)只要做好去重就好了。
爬蟲(chóng)如果可控, 用單進(jìn)程取代多線程。通過(guò)殺死進(jìn)程的方法??刂婆老x(chóng)程序。
screen 部署爬蟲(chóng)項(xiàng)目。

2017年11月19日 13:32
編輯回答
話寡

視要爬取的具體情況來(lái)定:

(1)情況一:對(duì)指定網(wǎng)站,全量爬取完之后,爬蟲(chóng)的全量爬取停止,之后都用定時(shí)任務(wù)爬取增量數(shù)據(jù)
(2)情況二:使用Kafka或其他消息隊(duì)列,只要監(jiān)聽(tīng)到有爬取的topic,就執(zhí)行爬取,否則就一直處于待命狀態(tài)
2018年8月9日 05:51