在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Python/ python pdf生成txt時的格式優(yōu)化問題

python pdf生成txt時的格式優(yōu)化問題

需求來源:某人畢業(yè)論文需要文獻(xiàn)綜述,要看外文文獻(xiàn),并翻譯為中文。本人在代勞的時候發(fā)覺這種工作應(yīng)該交由腳本來解決比較輕松,所以emm.....

目前已實現(xiàn):
1.小腳本將外文txt,轉(zhuǎn)為分段落翻譯后的英漢txt。
2.小腳本將外文pdf轉(zhuǎn)為外文txt。(可惜可讀性比較低)

在2的實現(xiàn)中,因為用三方庫,轉(zhuǎn)換出來的txt保留了pdf的換行。(就是那種明明是一整段的,只是囿于文本寬度,pdf里的樣式是換行顯示了)。在pdf2txt過程中,目前的代碼是識別不出這種非正常的換行。導(dǎo)致轉(zhuǎn)換出的txt,可讀性大大降低。

e.g.
pdf:
bababbabababbabbababbabababbabbababbabababbabbababbabababbab(這里由于顯示的就這么點寬度,就換行了) bababbabababbab
掃出來的txt:
bababbabababbabbababbabababbabbababbabababbabbababbabababbab
(n)bababbabababbab

直接導(dǎo)致段落數(shù)量爆炸。220頁的pdf,轉(zhuǎn)完有15760行,估計了下,腳本全跑完需要4個多小時才翻譯完 - -!
各位有沒有什么想法?請賜教,謝謝

回答
編輯回答
久舊酒

論文段落一般是有空行的,用正則替換掉所有的單個換行符,保留連續(xù)的多個換行符,然后再翻譯

2018年9月22日 21:02