在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Python/ 初學(xué)者想實現(xiàn)一個使用TF-IDF提取關(guān)鍵詞例子,求教如何實現(xiàn)?

初學(xué)者想實現(xiàn)一個使用TF-IDF提取關(guān)鍵詞例子,求教如何實現(xiàn)?

如題,想實現(xiàn)使用TF-IDF提取文章關(guān)鍵詞的程序,我已經(jīng)將去停用詞的部分實現(xiàn)了,現(xiàn)在的.txt文件中的內(nèi)容如下圖:

clipboard.png
是中英文混合的,文件的內(nèi)容規(guī)格是這樣的:1、文件的每一行是一篇文章;2、根據(jù)圖中顯示的行數(shù),一共有15篇文章。
現(xiàn)在想把每一篇文章中TF-IDF得分排名前10的關(guān)鍵詞提取出來寫入到文件中,請問如何實現(xiàn)這個程序?
假如現(xiàn)在文件的路徑在D:\delsw_原文(D盤的根目錄下)。
我想說一下我遇到的問題,我的問題是:1、我想使用readline()方法讀入每行,然后一行一行的處理,但是我試了很多程序總是寫不對,readline()之后每一行是字符串形式的,我想用“空格”將每個詞區(qū)分,但是沒能做到;2、我想用列表list存儲每一行的內(nèi)容,處理完一行之后就清空接著處理下一行,循環(huán)。理論感覺挺簡單的但是對于新手真的不好實現(xiàn),所以求教一下各位大神了,謝謝!
附上TF-IDF的公式:
TF(詞頻)=該詞在文章中出現(xiàn)的次數(shù)/該文章的總詞數(shù)
IDF(逆文檔頻率)=log(文檔總數(shù)/包含該詞的文檔數(shù)+1)
TF-IDF=TF*IDF
希望大神能幫忙實現(xiàn)一下,非常感謝!

回答
編輯回答
刮刮樂

空格分詞的話了解一下.split()

2018年3月17日 02:06
編輯回答
脾氣硬

站在巨人的肩上,結(jié)巴分詞了解下

2017年7月15日 11:31