在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問(wèn)答/數(shù)據(jù)分析&挖掘  Java/ 如何整理爬蟲(chóng)抓取信息的格式?

如何整理爬蟲(chóng)抓取信息的格式?

例如我需要爬很多網(wǎng)站的新聞、文章頁(yè)。我需要提取對(duì)應(yīng)頁(yè)面的標(biāo)題、內(nèi)容、發(fā)布時(shí)間等信息。但每個(gè)網(wǎng)站的頁(yè)面格式不一樣,難道我要給每個(gè)網(wǎng)站寫一個(gè)爬蟲(chóng)嗎?
還有,信息被抓取來(lái)后,每個(gè)網(wǎng)站個(gè)信息格式也不同,我需要調(diào)整為我網(wǎng)站的格式,有沒(méi)有一套可以適用于所有格式的調(diào)整方法?

回答
編輯回答
妖妖

1.如何抓取多個(gè)網(wǎng)站的文章?
答:不同的網(wǎng)站,意味著html結(jié)構(gòu)、分頁(yè)格式都會(huì)不一樣,只能針對(duì)不同的網(wǎng)頁(yè),寫不同的解析程序。
2.如何整理爬蟲(chóng)信息?
答:你肯定是知道要抓取什么內(nèi)容的不是嗎?如標(biāo)題,內(nèi)容,作者等等,無(wú)非就是key-value,將值存在數(shù)據(jù)庫(kù)對(duì)應(yīng)的字段即可。

2017年10月16日 05:12