在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問(wèn)答/Java  數(shù)據(jù)庫(kù)/ 關(guān)于中文搜索分詞與索引的問(wèn)題

關(guān)于中文搜索分詞與索引的問(wèn)題

我們知道搜索大體分為兩步,首先對(duì)文檔集做索引,然后處理查詢(xún),做好的索引可能會(huì)使用很長(zhǎng)一段時(shí)間。

對(duì)于中文搜索,做索引時(shí)要對(duì)文檔分詞,處理查詢(xún)時(shí)要對(duì)查詢(xún)串分詞。
問(wèn)題是,如果做索引時(shí)的分詞結(jié)果,不同于查詢(xún)處理時(shí)的分詞結(jié)果,那還能找到嗎?

舉個(gè)例子,做索引時(shí),“區(qū)塊鏈”一詞不太流行,詞典里沒(méi)有,結(jié)果分詞算法分成了“區(qū)塊”和“鏈”兩個(gè)詞,存入數(shù)據(jù)庫(kù)的也是這兩個(gè)詞。
后來(lái)過(guò)了幾個(gè)月(甚至年),該詞越來(lái)越流行,于是網(wǎng)站管理員把它添加到了“熱門(mén)詞典”里以便提升分詞質(zhì)量。從這一刻起,新來(lái)的查詢(xún)?nèi)舭皡^(qū)塊鏈”,將作為單個(gè)詞保留下來(lái)。不幸的是,除非有包含該詞的新文檔加入,否則因?yàn)閿?shù)據(jù)庫(kù)里根本沒(méi)有這個(gè)詞導(dǎo)致搜索失敗,即使存在一些舊文檔包含該詞。

請(qǐng)問(wèn)這種困境該如何應(yīng)對(duì)呢?當(dāng)然,一種做法是把“區(qū)塊”和“鏈”這倆詞重新做索引……這個(gè)太不方便了,有沒(méi)有更好的辦法?

求思路,謝謝!

回答
編輯回答
墨沫

前面啰嗦得太多,我再把問(wèn)題精簡(jiǎn)一下:

如何設(shè)計(jì)詞索引,使得 —— 若 將來(lái) 改進(jìn)了分詞算法,在不重建索引的情況下,搜索結(jié)果也能改進(jìn)?

例如,當(dāng)詞典沒(méi)有“區(qū)塊鏈”一詞時(shí),搜索結(jié)果可能包含大量“區(qū)塊”和“鏈”兩個(gè)詞的文檔;當(dāng)把“區(qū)塊鏈”加入詞典后,在不重建索引的情況下,立即就能找到包含“區(qū)塊鏈”的文檔,排名在包含“區(qū)塊”和“鏈”兩個(gè)詞的文檔前面。

2017年8月15日 17:00