当前位置:首页>帮助中心>雷神HTTP—Python爬虫之Scrapy框架的UA池和代理池

雷神HTTP—Python爬虫之Scrapy框架的UA池和代理池

发布日期:2020-06-11 13:50:54 来源:雷神HTTP

一 下载Scrapy的下载中间件


下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。

下载中间件的作用:

(1)引擎请求传递给下载器的过程中,下载中间件可以对请求进行一系列处理。比如:设置User-Agent,设置代理等。

(2)在下载器完成将Response传递给引擎中,下载中间件可以对响应进行一系列的处理。

我们主要使用下载中间件处理请求,设置随机的代理IP,对请求设置随机的User-Agent。目的在于防止爬取网站时的反爬虫策略。

二 UA池:User-Agent

作用是:尽量将scrapy工程中的请求伪装成不同类型的浏览器身份。

步骤如下:

(1) 在下载中间件中拦截请求

(2)将拦截到的请求的请求信息中的UA进行篡改伪装

(3)在配置文件中开启下载中间件

middlewares.py中

image.pngimage.png

三 代理池

作用是:将Scrapy工程中的请求中的IP设置成不同的

步骤:(与UA池基本上是一样的)

(1)在下载中间件中拦截请求

(2) 将拦截到的请求中的IP修改成某一个代理的IP

(3)在配置文件中开启下载中间件

middlewares.py

image.png

在settings.py中将下载中间件打开即可

image.png

用户登录

自动登录 忘记密码?

还没帐号?立即注册

用户注册

图形验证码

短信获取

我已阅读并同意 《用户协议》

已有账号?立即登录

忘记密码

图形验证码

短信获取

返回登录