在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Python  HTML/ 原網(wǎng)頁(yè)編碼是utf-8可是抓取之后還是亂碼

原網(wǎng)頁(yè)編碼是utf-8可是抓取之后還是亂碼

import requests,re

req_list = requests.get('http://finance.eastmoney.com/news/cgnjj_3.html').text
list_url = re.search('<p class="title">.*?<a href="(.*?)".*?target="_blank">',req_list,re.S)
content_url = list_url.group(1)
content_source = requests.get(content_url).text
#yixia,huoquneirong
title = re.search('<h1>(.*?)</h1>',content_source).group(1)
time = re.search('<div class="time">(.*?)</div>',content_source).group(1)
source = re.search('<div class="source">(.*?)</div>',content_source,re.S).group(1)
content = re.search('<div id="ContentBody" class="Body">(.*?)<p class="res-edit">',content_source,re.S).group(1)
print(title)
print(time)
print(source)
print(content)

獲取的內(nèi)容都是亂碼啊,我看了原網(wǎng)頁(yè),編碼確實(shí)是utf-8

回答
編輯回答
心沉
response = requests.get('http://finance.eastmoney.com/news/cgnjj_3.html')
response.encoding    # 查看響應(yīng)的編碼,我這里返回了'ISO-8859-1'
response.encoding = 'utf-8'
response.text    # OK
2017年1月20日 18:02
編輯回答
怪痞
req = requests.get('http://finance.eastmoney.com/news/cgnjj_3.html')
req.encoding = 'UTF-8'
req_list = req.text

類似這樣明確指明編碼

2017年9月11日 02:10
編輯回答
夢(mèng)若殤
req_list = req_list.encode("latin1").decode("utf-8")
print(req_list)
2017年4月3日 02:31