在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Java  HTML/ 在新浪微博現(xiàn)行的架構(gòu)里,我如何爬取單個用戶的所有微博?

在新浪微博現(xiàn)行的架構(gòu)里,我如何爬取單個用戶的所有微博?

近期在新浪微博上關(guān)注了一個相當有料的博主,個人大概有兩萬多條微博的數(shù)據(jù),基本上是以純文字居多。

有沒有做過數(shù)據(jù)采集的和爬蟲的小伙伴,說說這部分思路和理解?(個人也在摸索)

回答
編輯回答
悶油瓶

Java
沒做過微博的,但思路的話大概就是先獲取認證Cookie,Token之類的,然后用Fiddler抓包,主要是抓請求數(shù)據(jù)的接口,然后在用Jsoup把微博的部分抓下來進行持久化。
關(guān)于源的話應(yīng)該有App接口,或者是PC網(wǎng)頁和H5網(wǎng)頁,看哪個更加容易選哪個。

2017年10月25日 14:25
編輯回答
荒城

以前用 Java 寫過一個模擬登錄,爬自己私信的
因為比較懶,并沒有用微博的 API
而是用 Fiddler 抓包,分析參數(shù),模擬瀏覽器登錄,發(fā)送請求,解析Json
缺點是比較被動,人家改個參數(shù)程序就玩不轉(zhuǎn)了

如果現(xiàn)在再讓我寫一個我會選擇寫個 Chrome 插件
畢竟本身就是瀏覽器,認證那塊不用操心,只管爬就行了

如果插件也懶得寫,可以看下這個
不用寫代碼,webscraper 30秒抓取李笑來所有微博

2017年5月5日 01:00
編輯回答
陌璃

微博有自己的開放平臺,你可以通過微博的API獲取,沒必要用爬蟲

2017年1月11日 19:21
編輯回答
擱淺

我之前做過一個爬微博文章的,用的是puppeteer.js,完全模擬的是用戶行為,不會被屏蔽檢測
你可以看下這個庫

2017年10月24日 05:44
編輯回答
喜歡你

爬微博是犯法的喲,請仔細閱讀微博的用戶協(xié)議。所以偷偷搞就是了,不要這么大張旗鼓的……

2018年3月16日 18:41