在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/PHP  數(shù)據(jù)庫/ 各位親,多關(guān)鍵詞搜索時,存儲過程怎么寫好?

各位親,多關(guān)鍵詞搜索時,存儲過程怎么寫好?

我正在寫一個信息檢索程序,PHP+MYSQL,數(shù)據(jù)庫是這么設(shè)計的(為簡化省去和問題無關(guān)的列):
詞表T: id, term;其中term列表示關(guān)鍵詞,做了唯一索引;
數(shù)據(jù)樣例:[1,'云計算'],[2,'大數(shù)據(jù)']
文檔表D:id, length;其中l(wèi)ength列表示文檔長度,用于計算排名以便排序搜索結(jié)果;
數(shù)據(jù)樣例:[1,300],[2,500]
關(guān)系表C:tid,did,count; 表示哪個詞出現(xiàn)在哪個文檔多少次?前兩列是外鍵,count列也用于計算排名;
數(shù)據(jù)樣例:[1,1,3],[1,2,5],[2,2,10]

對文檔集編制索引,也就是向這三個表插入數(shù)據(jù),這一步已經(jīng)完成。

接下來處理查詢,用戶輸入的是自然語言,例如“今年云計算和大數(shù)據(jù)發(fā)展趨勢”。
我用PHP提取出關(guān)鍵詞“云計算”“大數(shù)據(jù)”,現(xiàn)在是兩個,然后調(diào)用存儲過程來快速檢索:
CALL SP2('云計算','大數(shù)據(jù)');
存儲過程會返回文檔id數(shù)組,并根據(jù)相關(guān)度排序,相關(guān)度的計算比較復(fù)雜,會用到D.length和C.count,以及一些統(tǒng)計數(shù)據(jù),比如文檔總共有多少個?其中包含詞'云計算'的文檔有多少個?……

我的問題是,目前我寫了SP(K),SP2(K1,K2);可PHP提取出來的關(guān)鍵詞數(shù)量可以任意多,總不能為每種數(shù)量編寫一個存儲過程吧?請問如何編寫一個存儲過程,能高效的處理任意多個關(guān)鍵詞呢?

我先簡要展示一下SP2的偽代碼(可能有語法錯誤,您湊付看,明白意思就好):

-- 計算文檔總數(shù),包含關(guān)鍵詞K1、K2的文檔數(shù)
select count(*) into TotalD from D;

select count(*) into TotalDK1 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K1;

select count(*) into TotalDK2 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K2;

-- 檢索文檔,根據(jù)相關(guān)度排名,返回給PHP
select D.id, 計算相關(guān)度(TotalD, TotalDK1, TotalDK2, length, count) AS rel
from
(
select D.id, D.length, C.count from D join ... where T.term = K1
union all
select D.id, D.length, C.count from D join ... where T.term = K2
)
group by D.id
order by rel desc;

大致如此,您明白了吧,如果再寫SP3、SP4、……要了命了!

謝謝!

回答
編輯回答
嫑吢丕

為啥用數(shù)據(jù)庫實現(xiàn),用全文搜索啊,一般都有權(quán)重功能的...

2018年8月2日 12:00