在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問(wèn)答/人工智能  數(shù)據(jù)分析&挖掘  PHP  Python/ CrawlSpider循環(huán)抓取網(wǎng)頁(yè)

CrawlSpider循環(huán)抓取網(wǎng)頁(yè)

在用CrawlSpider進(jìn)行爬取網(wǎng)頁(yè)新聞的時(shí)候我定義的rules是這樣的
圖片描述

現(xiàn)在遇到的問(wèn)題是在這些網(wǎng)頁(yè)中有的有‘下一頁(yè)’按鈕,而按鈕的跳轉(zhuǎn)鏈接是相對(duì)的,比如是page2.html這類(lèi)的,這樣的鏈接不符合我定義的正則提取規(guī)則,導(dǎo)致第二頁(yè)的頁(yè)面抓取不下來(lái),請(qǐng)問(wèn)可以怎么修改呢?拜托拜托大家了

回答
編輯回答
司令

rules是Rule的列表,所以你可以放多個(gè)規(guī)則不同的Rule

2018年6月19日 03:39