def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return" "
>>> def getStockList(lst,stockURL):
html=getHTMLText(stockURL)
soup=BeautifulSoup(html,'html.parser')
StockList=soup.find('div',attrs={'class':'title'})
a=StockList.find_all('a')
for i in a:
try:
href=i.attrs['href']
lst.append(href)[0]
except:
continue
>>> def getStockInfo(lst,fpath):
for stock in lst:
html=getHTMLText(stock)
try:
if stock=="":
continue
infoDict={}
soup=BeautifulSoup(stock,'html.parser')
stockInfo=soup.find('div' ,attrs={'class’:’house-title'})
name=stockInfo.find_all('div',attrs={'class’:’wrapper'})[0]
infoDict.update({'房源名稱':name.text.split()[0]})
with open(fpath,'a',encoding='utf-8')as f:
f.write(str(infoDict)+'\n')
except:
traceback.print_exc()
continue
>>> import requests
>>> from bs4 import BeautifulSoup
>>> import re
>>> import traceback
>>> def main():
stock_list_url='https://sz.lianjia.com/chengjiao/pg100/'
output_file='C://Users/Thinkpad/Desktop'
slist=[]
getStockList(slist,stock_list_url)
getStockInfo(slist,output_file)
>>> main()問題很多 : )
簡(jiǎn)單改了一下,發(fā)在Github Gist方便你看diff
不知道這個(gè)輸出是不是你想要的:
{'房源名稱': '碧水園 2室1廳 73平米'}
{'房源名稱': '萬科公園里一期 4室2廳 123.19平米'}
{'房源名稱': '吉信大廈 2室1廳 65.35平米'}
{'房源名稱': '中海日輝臺(tái) 3室2廳 85.89平米'}
{'房源名稱': '水電大廈 3室2廳 90.16平米'}
{'房源名稱': '星河盛世 3室1廳 87.55平米'}
{'房源名稱': '龍珠花園 2室1廳 60.04平米'}
{'房源名稱': '尚都二期 3室2廳 100.44平米'}
{'房源名稱': '富通好旺角二期 3室1廳 97.26平米'}
{'房源名稱': '香珠花園 2室1廳 42平米'}
{'房源名稱': '城市主場(chǎng) 1室1廳 45.16平米'}
{'房源名稱': '信義御城豪園 2室2廳 65.61平米'}
{'房源名稱': '荔芳村 1室1廳 30.56平米'}
{'房源名稱': '龍嶺山莊 2室2廳 66.64平米'}
{'房源名稱': '半山道1號(hào)禮賓府 5室3廳 215.35平米'}
{'房源名稱': '雙龍花園 3室2廳 73.5平米'}
{'房源名稱': '香詩美林 2室1廳 79.88平米'}
{'房源名稱': '金港華庭 1室1廳 37.22平米'}
{'房源名稱': '麗湖花園一期 1室0廳 42.23平米'}
{'房源名稱': '啟點(diǎn)公寓 1室0廳 17.48平米'}
{'房源名稱': '金達(dá)花園 1室1廳 30.48平米'}
{'房源名稱': '麗湖花園二期 2室1廳 62.96平米'}
{'房源名稱': '金茂禮都 1室1廳 46.72平米'}
{'房源名稱': '花崗石公司 3室2廳 94.37平米'}
{'房源名稱': '國(guó)展苑一期 1室1廳 44.16平米'}
{'房源名稱': '新天地名居 2室1廳 54.35平米'}
{'房源名稱': '藍(lán)馨苑 1室1廳 43.85平米'}
{'房源名稱': '星河國(guó)際花園 3室2廳 143.52平米'}
{'房源名稱': '嘉寶田花園 4室2廳 173.13平米'}
{'房源名稱': '萬科紅四期 3室1廳 88.63平米'}北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國(guó)IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國(guó)家
達(dá)內(nèi)教育集團(tuán)成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機(jī)構(gòu),是中國(guó)一站式人才培養(yǎng)平臺(tái)、一站式人才輸送平臺(tái)。2014年4月3日在美國(guó)成功上市,融資1
北大課工場(chǎng)是北京大學(xué)校辦產(chǎn)業(yè)為響應(yīng)國(guó)家深化產(chǎn)教融合/校企合作的政策,積極推進(jìn)“中國(guó)制造2025”,實(shí)現(xiàn)中華民族偉大復(fù)興的升級(jí)產(chǎn)業(yè)鏈。利用北京大學(xué)優(yōu)質(zhì)教育資源及背
博為峰,中國(guó)職業(yè)人才培訓(xùn)領(lǐng)域的先行者
曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項(xiàng)目經(jīng)理從事移動(dòng)互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍(lán)懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
浪潮集團(tuán)項(xiàng)目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺(tái)面向?qū)ο箝_發(fā)經(jīng)驗(yàn),技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點(diǎn)難點(diǎn)突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對(duì)瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗(yàn)。曾經(jīng)歷任德國(guó)Software AG 技術(shù)顧問,美國(guó)Dachieve 系統(tǒng)架構(gòu)師,美國(guó)AngelEngineers Inc. 系統(tǒng)架構(gòu)師。