在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Java  Python  網(wǎng)絡(luò)安全/ python中如何實(shí)現(xiàn)識別多個實(shí)體并進(jìn)行標(biāo)注

python中如何實(shí)現(xiàn)識別多個實(shí)體并進(jìn)行標(biāo)注

假設(shè)所有實(shí)體名存在A.xlxs中(補(bǔ)充一下,大概幾百個實(shí)體,幾萬條序列),
假設(shè)其中一個序列為"現(xiàn)場可見屏幕有壞點(diǎn),聽筒聲音過小,連接上耳機(jī)通話時(shí)偶爾對方聽不清楚。”
上面這個序列中實(shí)體有三個,但是在一個序列中實(shí)體個數(shù)其實(shí)是不定的,如何實(shí)現(xiàn)識別出實(shí)體后,并記錄實(shí)體所在的索引區(qū)間。
一個思路是,用re.search()找到第一個實(shí)體后,分割序列,如分割為I.【現(xiàn)場可見屏幕】,II.【有壞點(diǎn),聽筒聲音過小,連接上耳機(jī)通話時(shí)偶爾對方聽不清楚?!績刹糠郑又鴮I部分接著re.search(),重復(fù)上述步驟,直到re.search()返回值為空。
感覺上面的思路不是很好,求指點(diǎn)一下,謝謝。

忘記提標(biāo)注的事情了,大家見諒 = =
然后已知實(shí)體在該序列中的索引值,該怎么寫入到txt文件中,大致如下:
現(xiàn) O
場 O
可 O
見 O
屏 B-Part
幕 I-Part
有 O
壞 O
點(diǎn) O
, O
聽 B-Part
筒 I-Part
聲 O
音 O
......

回答
編輯回答
咕嚕嚕

正則匹配在這個模式并不適用。題主沒有指明實(shí)體名和句子的數(shù)量級。難道寫代碼不考慮復(fù)雜度的么…

CeGq3T.png

2018年6月11日 04:29
編輯回答
假灑脫

簡單粗暴一點(diǎn),把所有實(shí)體名用|拼起來,直接正則匹配

import re

s = '現(xiàn)場可見屏幕有壞點(diǎn),聽筒聲音過小,連接上耳機(jī)通話時(shí)偶爾對方聽不清楚'
p = '屏幕|聽筒|耳機(jī)|其他'

print re.findall(p, s)
2017年1月13日 22:27