&

分類(lèi):

推薦最新等你回答

反爬蟲(chóng)技術(shù)如何實(shí)現(xiàn)

愿如初回答

一篇不錯(cuò)的反爬蟲(chóng)技術(shù)方案博文：https://github.com/FantasticL...

沒(méi)有使用的socket卻出現(xiàn) java.net.SocketException: Connection reset錯(cuò)誤

蟲(chóng)児飛回答

java.lang.NullPointerException
應(yīng)該是空指針異常引發(fā)的socke錯(cuò)誤，檢查賦值操作為NULL的情況

網(wǎng)頁(yè)信息爬蟲(chóng)的進(jìn)來(lái)討論一下

萌吟回答

如果是我來(lái)做的話，大概采用這么個(gè)思路。首先找到關(guān)鍵信息所在位置。信息都有具體的層級(jí)結(jié)構(gòu)，具體到對(duì)應(yīng)到哪個(gè)html標(biāo)簽，這個(gè)html標(biāo)簽具有什么class屬性，這么一步作用是縮小了范圍。然后查找關(guān)鍵字：比如公司名稱、手機(jī)、姓名之類(lèi)的，找到關(guān)聯(lián)的字段。最后考慮用正則輔助。

java將R執(zhí)行結(jié)果展示出來(lái)

壞脾滊回答

直接調(diào)用R里面的ggplot+plotly+shiny 或者你如果是用java的話可以直接寫(xiě)一個(gè)js

爬蟲(chóng)學(xué)習(xí)：為什么封裝函數(shù)與否使得返回的結(jié)果不一樣？

薄荷綠回答

大哥你仔細(xì)看你的代碼，你要return的data被for循環(huán)覆蓋了，第二個(gè)代碼你用了print()，當(dāng)然每次循環(huán)只是把data打印出來(lái)了

請(qǐng)問(wèn)xpath如何在指定class的同時(shí)指定選擇第某個(gè)？

檸檬藍(lán) 回答

xpath 語(yǔ)法可以實(shí)現(xiàn)你的要求，不必重造輪子。

舉個(gè)例子，定位含有類(lèi) title 的最后一個(gè) h2 元素，xpath 可以這樣

(//h2[@class="title"])[last()]

請(qǐng)注意一定要使用括號(hào)，因?yàn)?[ ] 的優(yōu)先級(jí)較高。

順便提一下，在谷歌瀏覽器開(kāi)發(fā)者工具（console，按 F12 打開(kāi)）中，用 $x(...) 便可執(zhí)行 xpath 查詢。

參考

xpath 語(yǔ)法文檔， https://www.w3schools.com/xml...

數(shù)組中如何取最低價(jià)格？

怣痛回答

price.sort((a,b) => b-a)[price.length - 1]
這個(gè)答案會(huì)改動(dòng)原有數(shù)組。

在爬取網(wǎng)址時(shí)，如何用python的正則匹配？

笑浮塵回答

一樓的finditer方法是一個(gè)非常好的方法，它會(huì)返回一個(gè)迭代器，而不是返回所有的匹配數(shù)據(jù)，這樣的好處一個(gè)是節(jié)省內(nèi)存，另一個(gè)是能逐個(gè)輸出，樓主可以參考，謝謝

數(shù)據(jù)挖掘算法的實(shí)際應(yīng)用場(chǎng)景，求大佬們指點(diǎn)

傲嬌范回答

推薦系統(tǒng)，用戶畫(huà)像，精準(zhǔn)營(yíng)銷(xiāo)，反作弊等等。

Scrapy ImagesPipeline類(lèi)無(wú)法執(zhí)行。

糖豆豆回答

你是不是沒(méi)有import

python 爬蟲(chóng)報(bào)錯(cuò) 報(bào)錯(cuò)后手動(dòng)打開(kāi)這個(gè)網(wǎng)站很卡！

浪蕩不羈回答

所以你是問(wèn)為什么報(bào)錯(cuò)，還是問(wèn)為什么網(wǎng)站卡嘛……

報(bào)錯(cuò)是因?yàn)轫憫?yīng)數(shù)據(jù)格式不對(duì)，忽略就好了。

pandas怎么修改部分?jǐn)?shù)據(jù)但輸出所有的值

夕顏回答

df[['one','two']]=df[['one','two']].replace(np.nan,'hello')
df

python requests.post中的date元素如何確定？

假灑脫回答

用post提交表需要確認(rèn)服務(wù)器需要的數(shù)據(jù)項(xiàng)，然后組成json對(duì)。

requests.post(url=url, data=data)

我覺(jué)得樓主說(shuō)的是data的提交。

一般用瀏覽器的開(kāi)發(fā)者工具確認(rèn)網(wǎng)頁(yè)請(qǐng)求時(shí)候的方法，cookie，請(qǐng)求頭等等
也就是說(shuō)data也可以在這里找到
模擬一次提交表的過(guò)程，就可以看到提交的參數(shù)項(xiàng)了

requests.post(headers=headers,params=json.dumps(payload),url=url)

嗯嗯嗯，用的payload。我錯(cuò)了。。。

代理ip 的搭建

薔薇花回答

再隨機(jī)一次咯，直到隨機(jī)到有用的為止。

js 將對(duì)象的屬性全部提升到第一層

祉小皓回答

可以去看一下二叉樹(shù)的遞歸，相信應(yīng)該有幫助

如何用pandas尋找一些持續(xù)增長(zhǎng)的數(shù)值？

囍槑回答

import pandas as pd
df = pd.DataFrame([['2018-3-8', 10],
    ['2018-3-9', 20],
    ['2018-3-10', 30],
    ['2018-3-11', 40],
    ['2018-3-12', 250],
    ['2018-3-13', 260],
    ['2018-3-14', 270],
    ['2018-3-15', 280]], columns=['日期', '數(shù)據(jù)1'])


def f(df):
    return (df[2] - df[1] < 100) and df[2] > df[1] and (df[1] - df[0] < 100) and df[1] > df[0] #增長(zhǎng)大于0小于100

df[pd.rolling_apply(df, window=3, func=f)['數(shù)據(jù)1'] == True] # 滿足條件的日期（展示的是連續(xù)三天的最后一天）

判斷每個(gè)ID是否有連續(xù)3天【數(shù)據(jù)1】增長(zhǎng)都大于0小于100的日期吧。

pandas如何高效匹配兩個(gè)數(shù)據(jù)表

傲寒回答

先笛卡爾積s1['product_name']和s2['brand_name']，設(shè)為結(jié)果為df則：

df[df['brand_name'].isin('product_name')]

為結(jié)果。這樣子可能會(huì)調(diào)用內(nèi)部?jī)?yōu)化快一點(diǎn)，可以試試。

具體如何在pandas里做笛卡爾積可以參考這個(gè)答案。

python進(jìn)制轉(zhuǎn)換Bug

心沉回答

我覺(jué)得，你沒(méi)有搞明白，什么叫“數(shù)”，什么叫“字節(jié)”吧。
0xfffe7b89 這個(gè)數(shù)，就是 4294867849 ，負(fù)的是 -0xfffe7b89 。
事實(shí)上，它就不是負(fù)數(shù)，只是你自己“覺(jué)得”它是負(fù)數(shù)。

隨機(jī)漫步問(wèn)題問(wèn)什么argmax輸出結(jié)果會(huì)有很多0？不符預(yù)期。

茍活回答

當(dāng)某一行所有值都不大于7時(shí)，walks[hits7] >= 7在那一行返回全部是False.
對(duì)np.argmax函數(shù)來(lái)說(shuō)，當(dāng)所有值都一樣大，也就都是最大值，默認(rèn)返回第一個(gè)，也說(shuō)是0出現(xiàn)的原因。

python的包含有的屬性是哪來(lái)的

傲寒回答

numpy/__init__.py里有一句：