假如你的文件1.txt, 編碼格式utf-8
import pandas as pd
df = pd.read_csv('1.txt', header=None, sep=',', encoding='utf-8', names=['a', 'b'])
df.groupby('a')['b'].count() # 非去重版groupby
df.groupby('a')['b'].apply(lambda b: b.drop_duplicates().count()) # 去重版groupby為何要用正則進(jìn)行匹配替換,如果是整個(gè)HTML文檔,那么你可以借用 beautifulsoup 進(jìn)行解析后,批量修改。
可能有反爬蟲手段,selenium還是有些特征的,比如全局對象中會有一些特殊屬性。
你按回車了么
比較好理解的做法如下。
str = 'aaabbb/&edfg cccaaa'
keys = ['aaa', 'bbb', 'ccc']
found = {k: [] for k in keys}
total_length = len(str)
# 按key依次遍歷字符串,保存出現(xiàn)的位置
for key in keys:
length, i = len(key), 0
while i + length <= total_length:
s = str[i:i + length]
if s == key:
found[key].append(i)
i += length
else:
i += 1
print(found)
# {'aaa': [0, 16], 'bbb': [3], 'ccc': [13]}
result, next_match_index = '', -1
# 重新組合,如果坐標(biāo)重疊連接符為空,否則為空格
for i in range(total_length):
for k, v in found.items():
if i in v:
split = '' if next_match_index == i else ' '
result = result + split + k
next_match_index = i + len(k)
print(result)
# aaabbb cccaaa
優(yōu)化循環(huán)次數(shù)后結(jié)果一樣,但沒那么好懂。
str = 'aaaabbb/&edfg cccaaa'
keys = ['aaa', 'bbb', 'ccc']
total_length = len(str)
result, next_match_index, skip = '', -1, 0
for i in range(total_length):
if skip:
skip -= 1
continue
for key in keys: # 查找當(dāng)前位置是否有match的key
length = len(key)
if i + length <= total_length: # 確保index不越界
s = str[i:i + length]
if s == key: # 如果有match的key,添加到結(jié)果
split = '' if next_match_index == i else ' '
result = result + split + key
next_match_index = i + length #預(yù)測相鄰key的位置
skip = length - 1 #需要跳過當(dāng)前key再匹配下一個(gè)key
break # 已經(jīng)找到匹配key,可以結(jié)束keys的遍歷
print(result)<iframe height="500px" width="100%" src="https://www.baidu.com" frameborder="0"></iframe>這是我的 pyblog 項(xiàng)目里的 models.py —— 希望對你有用
https://github.com/eastossifrage/pyblog/blob/master/app/models.py
請?zhí)貏e關(guān)注對 articles 類的定義,建議你把想要查詢的內(nèi)容,直接做成為某個(gè)類的屬性,記得前面加上裝飾器 @property。
這樣的 json 結(jié)果,需要你用 Python 的數(shù)據(jù)庫類里設(shè)置好相應(yīng)的輸出 json 函數(shù)。
不敢再發(fā)我的項(xiàng)目鏈接,老是被那些不認(rèn)真,不仔細(xì),或者說一知半解的人舉報(bào)。
如果你想學(xué)習(xí) sql to sqlalchemy,你可以查看我的資料,然后找到相關(guān) github 項(xiàng)目的鏈接。
import importlib
b = importlib.import_module('b')
para_in = 123
para_out = b.xxx(para_in)
對于大部分Python對象來說,直接del就可以了
a = pd.Dataframe()
del a這是 mod_wsgi 模塊的一個(gè)bug:https://bugzilla.redhat.com/s...
臨時(shí)解決的辦法就是,把 ctypes/__init__.py 報(bào)錯(cuò)的那行 CFUNCTYPE(c_int)(lambda: None) 注釋掉。
去網(wǎng)上找個(gè)aes加密庫,然后在前后端約定好加密鹽,在進(jìn)行加密傳輸即可。
換 IP 已經(jīng)超出 selenium 的范圍,常見的手法如重新?lián)芴枴⒏鼡Q代理服務(wù)器等等。
如果你勾選了,你就不能把你本地的倉庫直接推送上去了,因?yàn)檫h(yuǎn)程倉庫已有一次commit。那你只能git clone下來從0開始寫項(xiàng)目。
如果你本地已經(jīng)有代碼了,你可以按github的提示添加遠(yuǎn)程倉庫git remote add origin url再推送你的本地代碼git push -u origin master。
initialize: 初始化的意思。
檢查getHTML、paraHTML內(nèi)是否有嵌套
聽不懂你在說什么.
保存到數(shù)組就行了.
url_list = ['http://top.chinaz.com/hangye/index_news_{}.html'.format(page) for page in range(1, 67)]
pip install selector
Collecting selector
Downloading selector-0.10.1.tar.gz
Collecting resolver (from selector)
Downloading resolver-0.2.1.tar.gz
Building wheels for collected packages: selector, resolver
Running setup.py bdist_wheel for selector ... done
Stored in directory: C:UsersJeffersLiAppDataLocalpipCachewheelsc8bc02c336ba851136938476995dcf9ebf5edbac0d86bca1aa4ab105
Running setup.py bdist_wheel for resolver ... done
Stored in directory: C:UsersJeffersLiAppDataLocalpipCachewheels6ff18abcfc1c3c975c987564c58645bb2446bc7be5a74f57f6ebb587
Successfully built selector resolver
Installing collected packages: resolver, selector
Successfully installed resolver-0.2.1 selector-0.10.1
實(shí)測沒有問題。
get 后臺當(dāng)然可以拿到數(shù)據(jù)啊,換個(gè)方法取而已
pip install bs4
pip install lxml
import re
import requests
from bs4 import BeautifulSoup
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
'Referer': 'http://cq.jiaoyubao.cn/',
'Host': 'cq.jiaoyubao.cn',
'Upgrade-Insecure-Requests': '1',
}
r = requests.get('http://cq.jiaoyubao.cn/cn/xiaoxue/', headers=headers)
soup = BeautifulSoup(r.content, 'lxml')
print(soup.prettify())
file object 不能被pickle
from multiprocessing.pool import Pool
def filetest(content):
print content
if __name__ == '__main__':
p = Pool(2)
f = r'./1.txt'
ff = open(f, 'rb')
p.map_async(filetest, ff)
p.close()
p.join()北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國家
達(dá)內(nèi)教育集團(tuán)成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機(jī)構(gòu),是中國一站式人才培養(yǎng)平臺、一站式人才輸送平臺。2014年4月3日在美國成功上市,融資1
北大課工場是北京大學(xué)校辦產(chǎn)業(yè)為響應(yīng)國家深化產(chǎn)教融合/校企合作的政策,積極推進(jìn)“中國制造2025”,實(shí)現(xiàn)中華民族偉大復(fù)興的升級產(chǎn)業(yè)鏈。利用北京大學(xué)優(yōu)質(zhì)教育資源及背
博為峰,中國職業(yè)人才培訓(xùn)領(lǐng)域的先行者
曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項(xiàng)目經(jīng)理從事移動(dòng)互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍(lán)懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
浪潮集團(tuán)項(xiàng)目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺面向?qū)ο箝_發(fā)經(jīng)驗(yàn),技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點(diǎn)難點(diǎn)突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗(yàn)。曾經(jīng)歷任德國Software AG 技術(shù)顧問,美國Dachieve 系統(tǒng)架構(gòu)師,美國AngelEngineers Inc. 系統(tǒng)架構(gòu)師。