在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/人工智能  Python/ 已知網(wǎng)站中各月份的鏈接結(jié)構(gòu),scrapy要如何爬???

已知網(wǎng)站中各月份的鏈接結(jié)構(gòu),scrapy要如何爬?。?/h1>

爬取某網(wǎng)站的公示信息,打開第一頁(當月)后,底部的跳轉(zhuǎn)是按月份。

clipboard.png

每一個鏈接都有相似結(jié)構(gòu)

<a href="/notices/2018/1">1月</a>

請問在scrapy中要如何爬取。

回答
編輯回答
六扇門

你應(yīng)該分析html結(jié)構(gòu)和抓取的標簽,例如這是一個table(我瞎猜的,嗯)tabody->tr->td->a,然后去使用xpath或者BeautifulSoup4去提取,提取出來的月份鏈接list,循環(huán)遍歷這個list產(chǎn)生請求去追蹤每個頁面。

yield scrapy.Request(url, callback=self.parse_everymonth_content, headers=headers)
2017年8月29日 20:27
編輯回答
玩控

先通過 XPath Helper 精確找出要抓取的內(nèi)容
然后 在Scrapy中操作 接下來還有幾個步驟 建議樓主去看一下相關(guān)的視頻

2018年3月30日 21:29
編輯回答
糖果果

用xpath爬取
response=#整個div
response.xpath('/a/@href')

2018年1月10日 03:23
編輯回答
笨尐豬

直接獲取整個頁面,然后正則匹配呀

2017年1月8日 22:47