給出一個(gè)關(guān)鍵詞列表:
keys = ['aaa','bbb','ccc']
給出一個(gè)字符串 str,如果字符串中有包含列表 keys 中的子串,則過(guò)濾并保留下來(lái),其余部分則刪除。請(qǐng)問(wèn)可以如何實(shí)現(xiàn)?
例子:
str = 'aaaawtf he heheccc'
過(guò)濾后變成:
'aaa ccc'
例子二:
str = 'aaabbb/&edfg cccaaa'
過(guò)濾后變成:
'aaabbb cccaaa'
也就是:要求盡可能保留原字符串的相對(duì)位置信息,比如aaa和bbb是連在一塊的,就連在一塊被保留下來(lái)
比較好理解的做法如下。
str = 'aaabbb/&edfg cccaaa'
keys = ['aaa', 'bbb', 'ccc']
found = {k: [] for k in keys}
total_length = len(str)
# 按key依次遍歷字符串,保存出現(xiàn)的位置
for key in keys:
length, i = len(key), 0
while i + length <= total_length:
s = str[i:i + length]
if s == key:
found[key].append(i)
i += length
else:
i += 1
print(found)
# {'aaa': [0, 16], 'bbb': [3], 'ccc': [13]}
result, next_match_index = '', -1
# 重新組合,如果坐標(biāo)重疊連接符為空,否則為空格
for i in range(total_length):
for k, v in found.items():
if i in v:
split = '' if next_match_index == i else ' '
result = result + split + k
next_match_index = i + len(k)
print(result)
# aaabbb cccaaa
優(yōu)化循環(huán)次數(shù)后結(jié)果一樣,但沒(méi)那么好懂。
str = 'aaaabbb/&edfg cccaaa'
keys = ['aaa', 'bbb', 'ccc']
total_length = len(str)
result, next_match_index, skip = '', -1, 0
for i in range(total_length):
if skip:
skip -= 1
continue
for key in keys: # 查找當(dāng)前位置是否有match的key
length = len(key)
if i + length <= total_length: # 確保index不越界
s = str[i:i + length]
if s == key: # 如果有match的key,添加到結(jié)果
split = '' if next_match_index == i else ' '
result = result + split + key
next_match_index = i + length #預(yù)測(cè)相鄰key的位置
skip = length - 1 #需要跳過(guò)當(dāng)前key再匹配下一個(gè)key
break # 已經(jīng)找到匹配key,可以結(jié)束keys的遍歷
print(result)import re
def foo(keys, text):
flags = [i for i in re.split('|'.join(keys), text) if i]
if flags:
text = re.sub('|'.join(flags), ' ', text)
return text
測(cè)試結(jié)果如下:
k = ['aaa', 'bbb', 'ccc']
>>> print foo(k, 'aaaawtf he heheccc')
aaa ccc
>>> print foo(k, 'aaabbb/&edfg cccaaa')
aaabbb cccaaa
>>> print foo(k, 'ccchhaaauuccc')
ccc aaa ccc
>>> print foo(k, 'cccccc')
cccccc 北大青鳥(niǎo)APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國(guó)IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國(guó)家
達(dá)內(nèi)教育集團(tuán)成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機(jī)構(gòu),是中國(guó)一站式人才培養(yǎng)平臺(tái)、一站式人才輸送平臺(tái)。2014年4月3日在美國(guó)成功上市,融資1
北大課工場(chǎng)是北京大學(xué)校辦產(chǎn)業(yè)為響應(yīng)國(guó)家深化產(chǎn)教融合/校企合作的政策,積極推進(jìn)“中國(guó)制造2025”,實(shí)現(xiàn)中華民族偉大復(fù)興的升級(jí)產(chǎn)業(yè)鏈。利用北京大學(xué)優(yōu)質(zhì)教育資源及背
博為峰,中國(guó)職業(yè)人才培訓(xùn)領(lǐng)域的先行者
曾工作于聯(lián)想擔(dān)任系統(tǒng)開(kāi)發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項(xiàng)目經(jīng)理從事移動(dòng)互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍(lán)懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
浪潮集團(tuán)項(xiàng)目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺(tái)面向?qū)ο箝_(kāi)發(fā)經(jīng)驗(yàn),技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點(diǎn)難點(diǎn)突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫(kù),具有快速界面開(kāi)發(fā)的能力,對(duì)瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁(yè)制作和網(wǎng)頁(yè)游戲開(kāi)發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開(kāi)發(fā)經(jīng)驗(yàn)。曾經(jīng)歷任德國(guó)Software AG 技術(shù)顧問(wèn),美國(guó)Dachieve 系統(tǒng)架構(gòu)師,美國(guó)AngelEngineers Inc. 系統(tǒng)架構(gòu)師。