在下載http://www.umei.cc/p/gaoqing/...,無法將一個圖集放到同一個目錄中
嘗試了網(wǎng)上很多方法,無法解決
// 請把代碼文本粘貼到下方(請勿用圖片代替代碼)
#coding:utf-8
import random
import re
import urllib2
from urllib import urlopen
import requests
import logging
import time
from bs4 import BeautifulSoup,Comment
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from z2.items import Z2Item
from scrapy.http import Request
logging.basicConfig(
level=logging.INFO,
format=
'%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
datefmt='%a, %d %b %Y %H:%M:%S',
filename='cataline.log',
filemode='w')
class Spider(CrawlSpider):
name = 'z2'
img_urls = []
allowed_domains = ["www.umei.cc"]
start_urls = ['http://www.umei.cc/p/gaoqing/rihan/']
# rules = (
# Rule(LinkExtractor(allow=('http://www.umei.cc/p/gaoqing/rihan/\d{1,6}.htm',), deny=('http://www.umei.cc/p/gaoqing/rihan/\d{1,6}_\d{1,6}.htm')),
# callback='parse_z2_info', follow=True),
# )
def start_requests(self):
yield Request(url='http://www.umei.cc/p/gaoqing/rihan/',
callback=self.parse_z2_key)
def parse_z2_key(self, response):
soup = BeautifulSoup(response.body, "lxml")
content = soup.find("div", attrs={'class': 'TypeList'})
# logging.debug(content)
for link in content.findAll("a", attrs={'href': re.compile( r'(.*)(/rihan/)(\d{1,6})(.htm)'), 'class': 'TypeBigPics'}):
logging.debug(link['href'])
yield Request(url=link['href'],
callback=self.parse_z2_info)
break
def parse_z2_info(self, response):
soup = BeautifulSoup(response.body, "lxml")
item = Z2Item()
# 去除html注釋
for element in soup(text=lambda text: isinstance(text, Comment)):
element.extract()
# 過濾script標(biāo)簽
[s.extract() for s in soup('script')]
# 過濾b標(biāo)簽
[s.extract() for s in soup('b')]
ArticleDesc = soup.find("p", attrs={'class': 'ArticleDesc'})
logging.debug(ArticleDesc.get_text())
Pages = soup.find("div", attrs={'class': 'NewPages'}).find('li')
pageCounts = filter(str.isdigit, Pages.get_text().encode('gbk'))
# 第一種含中文的字符串中提取數(shù)字的方法
# logging.debug(re.findall(r"\d+\.?\d*", Pages.get_text())[0])
# 第二種
# logging.debug(Pages.get_text()[1:-3])
# 第三種
logging.debug(filter(str.isdigit, Pages.get_text().encode('gbk')))
# img = soup.find("div", attrs={'class': 'ImageBody'}).find('img')
# url = img.attrs['src']
# self.img_urls.append(url)
# logging.debug(self.img_urls)
item['name'] = re.match(".*/(\d+)", response.url).group(1)
logging.debug(item['name'])
# image_urls = []
# item['image_urls'] = image_urls
sourceUrl = response.url[0:-4]
# logging.debug(sourceUrl)
for i in xrange(1, int(pageCounts) + 1):
nextUrl = sourceUrl + '_' + str(i) + '.htm'
# logging.debug(nextUrl)
yield Request(url=nextUrl,callback=self.parse_z2_single_img)
item['image_urls'] = self.img_urls
yield item
def parse_z2_single_img(self, response):
soup = BeautifulSoup(response.body, "lxml")
img = soup.find("div", attrs={'class': 'ImageBody'}).find('img')
url = img.attrs['src']
self.img_urls.append(url)
北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國家
達內(nèi)教育集團成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機構(gòu),是中國一站式人才培養(yǎng)平臺、一站式人才輸送平臺。2014年4月3日在美國成功上市,融資1
北大課工場是北京大學(xué)校辦產(chǎn)業(yè)為響應(yīng)國家深化產(chǎn)教融合/校企合作的政策,積極推進“中國制造2025”,實現(xiàn)中華民族偉大復(fù)興的升級產(chǎn)業(yè)鏈。利用北京大學(xué)優(yōu)質(zhì)教育資源及背
博為峰,中國職業(yè)人才培訓(xùn)領(lǐng)域的先行者
曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項目經(jīng)理從事移動互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負責(zé)iOS教學(xué)及管理工作。
浪潮集團項目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺面向?qū)ο箝_發(fā)經(jīng)驗,技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點難點突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗。曾經(jīng)歷任德國Software AG 技術(shù)顧問,美國Dachieve 系統(tǒng)架構(gòu)師,美國AngelEngineers Inc. 系統(tǒng)架構(gòu)師。