在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/人工智能  Java  PHP  Python/ 大數據清洗入庫的問題

大數據清洗入庫的問題

圖片描述

如圖,公司給了幾百G的word文檔,看了看里面的內容,很亂,但是大致如圖涉及公司的信息;
但是排版啊,字段名啊,一致性很差;

公司要信息入庫,不知道從何入手??

有大神有思路或者建議嗎?

回答
編輯回答
嘟尛嘴

1 先用正則表達式,按照 數字冒號(1:,2:)拆分單條信息
得到結果:
[
'1:公司名:An網站:wwwn電話:123456789n',
'2:公司名:An網站:wwwn電話:123456789nn',
'3:公司名:An網站:wwwn電話:123456789地址:abbn',
'4:公司名:An網站:wwwn電話:123456789',
]

2 取出每一項目,將數字冒號(1:)替換為空
如:'1:公司名:An網站:wwwn電話:123456789n',

3 按照n拆分,再按照:區(qū)分鍵值對。
如:'公司名:An網站:wwwn電話:123456789n',
得到結果:[{'公司名':'A'},{'網站':'www'},{'電話':'123456789'}]

2017年10月14日 23:10