十八禁视频网站在线观看,偷偷做久久久久网站,无码熟妇人妻av在线c0930

五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

輕云服務(wù)器升級CN2線路有什么優(yōu)點

一、媒體管道

1.1、媒體管道的特性

媒體管道實現(xiàn)了以下特性:

避免重新下載最近下載的媒體
指定存儲位置（文件系統(tǒng)目錄，Amazon S3 bucket，谷歌云存儲bucket）

圖像管道具有一些額外的圖像處理功能:

將所有下載的圖片轉(zhuǎn)換為通用格式(JPG)和模式(RGB)
生成縮略圖
檢查圖像的寬度/高度，進行最小尺寸過濾

1.2、媒體管道的設(shè)置

ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 120}啟用
FILES_STORE = '/path/to/valid/dir'		文件管道存放位置
IMAGES_STORE = '/path/to/valid/dir'		  圖片管道存放位置
FILES_URLS_FIELD = 'field_name_for_your_files_urls' 自定義文件url字段
FILES_RESULT_FIELD = 'field_name_for_your_processed_files'自定義結(jié)果字段
IMAGES_URLS_FIELD = 'field_name_for_your_images_urls'自定義圖片url字段
IMAGES_RESULT_FIELD = 'field_name_for_your_processed_images'結(jié)果字段
FILES_EXPIRES = 90文件過期時間默認90天
IMAGES_EXPIRES = 90 圖片過期時間默認90天
IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)}  縮略圖尺寸
IMAGES_MIN_HEIGHT = 110  過濾最小高度
IMAGES_MIN_WIDTH = 110過濾最小寬度
MEDIA_ALLOW_REDIRECTS = True 是否重定向

二、ImagesPipeline類簡介

#解析settings里的配置字段
def __init__(self, store_uri, download_func=None, settings=None)
#圖片下載
def image_downloaded(self, response, request, info)
#圖片獲取圖片大小的過濾  #縮略圖的生成
def get_images(self, response, request, info)
#轉(zhuǎn)化圖片格式
def convert_image(self, image, size=None)
#生成媒體請求  可重寫
def get_media_requests(self, item, info)
	return [Request(x) for x in item.get(self.images_urls_field, [])] #得到圖片url  變成請求  發(fā)給引擎
#此方法獲取文件名  進行改寫
def item_completed(self, results, item, info)
#文件路徑 
def file_path(self, request, response=None, info=None)
#縮略圖的存儲路徑
def thumb_path(self, request, thumb_id, response=None, info=None):

三、小案例：使用圖片管道爬取百度圖片

（當然不使用圖片管道的話也是可以爬取百度圖片的，但這還需要我們?nèi)シ治鼍W(wǎng)頁的代碼，還是有點麻煩，使用圖片管道就可以省去這個步驟了）

3.1、spider文件

注意：由于需要添加所有的請求頭，所以我們要重寫start_requests函數(shù)

import re
import scrapy
from ..items import DbimgItem
class DbSpider(scrapy.Spider):
 name = 'db'
 # allowed_domains = ['xxx.com']
 start_urls = ['https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111110&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%8B%97&oq=%E7%8B%97&rsp=-1']
 def start_requests(self):  #因為需要添加所有的請求頭，所以我們要重寫start_requests函數(shù)
  # url = 'https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111110&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%8B%97&oq=%E7%8B%97&rsp=-1'
  headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Cache-Control": "max-age=0",
"Connection": "keep-alive",
"Cookie": "BIDUPSID=4B61D634D704A324E3C7E274BF11F280; PSTM=1624157516; BAIDUID=4B61D634D704A324C7EA5BA47BA5886E:FG=1; __yjs_duid=1_f7116f04cddf75093b9236654a2d70931624173362209; BAIDUID_BFESS=101022AEE931E08A9B9A3BA623709CFE:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; cleanHistoryStatus=0; H_PS_PSSID=34099_33969_34222_31660_34226_33848_34113_34073_33607_34107_34134_34118_26350_22159; delPer=0; PSINO=6; BA_HECTOR=24ak842ka421210koq1gdtj070r; BDRCVFR[X_XKQks0S63]=mk3SLVN4HKm; userFrom=www.baidu.com; firstShowTip=1; indexPageSugList=%5B%22%E7%8B%97%22%2C%22%E7%8C%AB%E5%92%AA%22%2C%22%E5%B0%8F%E9%80%8F%E6%98%8E%22%5D; ab_sr=1.0.1_OGYwMTZiMjg5ZTNiYmUxODIxOTgyYTllZGMyMzhjODE2ZWE5OGY4YmEyZWVjOGZhOWIxM2NlM2FhZTQxMmFjODY0OWZiNzQxMjVlMWIyODVlZWFiZjY2NTQyMTZhY2NjNTM5NDNmYTFmZjgxMTlkOGYxYTUzYTIzMzA0NDE3MGNmZDhkYTBkZmJiMmJhZmFkZDNmZTM1ZmI2MWZkNzYyYQ==",
"Host": "image.baidu.com",
"Referer": "https://image.baidu.com/",
"sec-ch-ua": '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"',
"sec-ch-ua-mobile": "?0",
"Sec-Fetch-Dest": "document",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "same-origin",
"Sec-Fetch-User": "?1",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"
  }
  for url in self.start_urls:
yield scrapy.Request(url,headers=headers,callback=self.parse,dont_filter=True)
 def parse(self, response):
  img_urls = re.findall('"thumbURL":"(.*?)"', response.text)
  # print(img_urls)
  item = DbimgItem()
  item['image_urls'] = img_urls
  yield item

3.2、items文件

import scrapy
class DbimgItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 image_urls = scrapy.Field()

3.3、settings文件

ROBOTSTXT_OBEY = False
#打開我們寫的管道
ITEM_PIPELINES = {
# 'dbimg.pipelines.DbimgPipeline': 300,
 'dbimg.pipelines.ImgPipe': 300,
}
#圖片存放位置
IMAGES_STORE = 'D:/python test/爬蟲/scrapy6/dbimg/imgs'

3.4、pipelines文件

import os
from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline
import settings
"""
def item_completed(self, results, item, info):
 with suppress(KeyError):
  ItemAdapter(item)[self.images_result_field] = [x for ok, x in results if ok]
 return item
"""
class ImgPipe(ImagesPipeline):
 num=0
 #重寫此函數(shù)修改獲取的圖片的名字  不然圖片名稱就是一串數(shù)字字母
 def item_completed(self, results, item, info):
  images_path = [x['path'] for ok, x in results if ok]
  #print('results: ',results)先查看下results的數(shù)據(jù)格式，然后才能獲取到我們需要的值
  for image_path in images_path:
os.rename(settings.IMAGES_STORE + "/" + image_path, settings.IMAGES_STORE + "/" + str(self.num) + ".jpg")
self.num += 1

結(jié)果：

以上就是python爬蟲Scrapy框架:媒體管道原理學(xué)習(xí)分析的詳細內(nèi)容，更多關(guān)于python爬蟲Scrapy框架的資料請關(guān)注本站其它相關(guān)文章！

美國服務(wù)器租用

版權(quán)聲明：本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學(xué)習(xí)參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢