問題描述:
我想爬取電影網(wǎng)站的描述信息,一開始用的是正則,但是不是很熟練,就用了xpath,xpath在chrome中可以使用,但是放到代碼里就失效了,我用了自己寫的xpath還有chrome獲取的xpath(沒有tbody的問題)都沒有用。
(以 http://www.ygdy8.com/html/gnd... 為例)
我想要爬取的是以下文字信息:
代碼(一部分):
def getContent(url):
html = ulr.urlopen('http://www.ygdy8.net%s' %url).read()
con_text = html.decode('gb2312', 'ignore')
data = etree.HTML(con_text)
#reg = r'<div class="co_content8">(.+?)<p><strong><font color="#ff0000" size="4">'
#reg = r'◎簡 介 <br /><br />(.*?)<br />'
#text = re.compile(reg).findall(con_text)
#text = data.xpath('//*[@id="Zoom"]/span/p[1]/text()') #chrome瀏覽器中獲取
#text = data.xpath('//div[@id="Zoom"]/span/p/text()') #自己嘗試的
#text = data.xpath('/html/body/div/div/div[@class="bd2"]/div[@class="bd3"]/div[@class="bd3r"]/div[@class="co_area2"]/div[@class="co_content8"]/ul/div[@align="left"]/div[@id="Zoom"]/span/p/text()') #從根目錄處開始嘗試查找
if text:
text = text[0]
reg = r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(.+?)"'
link = re.findall(reg,con_text)[0]
return text,link
注釋的地方就是有問題的地方
執(zhí)行結(jié)果:
在chrome瀏覽器中使用xpath:
在代碼中使用xpath:
嘗試過直接獲取所有p標(biāo)簽以下的內(nèi)容,發(fā)現(xiàn)前面的一些文字可以獲取,但是想要的信息獲取不到。
請問該如何實(shí)現(xiàn)爬取想要的信息,xpath和正則分別應(yīng)該怎么寫呢?
并且:
對于這種已經(jīng)轉(zhuǎn)換為html信息的輸出具體有什么意思
北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國家
達(dá)內(nèi)教育集團(tuán)成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機(jī)構(gòu),是中國一站式人才培養(yǎng)平臺(tái)、一站式人才輸送平臺(tái)。2014年4月3日在美國成功上市,融資1
北大課工場是北京大學(xué)校辦產(chǎn)業(yè)為響應(yīng)國家深化產(chǎn)教融合/校企合作的政策,積極推進(jìn)“中國制造2025”,實(shí)現(xiàn)中華民族偉大復(fù)興的升級產(chǎn)業(yè)鏈。利用北京大學(xué)優(yōu)質(zhì)教育資源及背
博為峰,中國職業(yè)人才培訓(xùn)領(lǐng)域的先行者
曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項(xiàng)目經(jīng)理從事移動(dòng)互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍(lán)懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
浪潮集團(tuán)項(xiàng)目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺(tái)面向?qū)ο箝_發(fā)經(jīng)驗(yàn),技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點(diǎn)難點(diǎn)突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗(yàn)。曾經(jīng)歷任德國Software AG 技術(shù)顧問,美國Dachieve 系統(tǒng)架構(gòu)師,美國AngelEngineers Inc. 系統(tǒng)架構(gòu)師。