我们在采集数据信息时经常会遇到一些问题而导致爬虫被封,其中采集速度问题如何解决呢?如何控制爬虫速度?
1、修改是否遵守爬虫协议为False
2、修改并发请求数,修改为1,或者2,越小爬取速度越慢,太快容易被识别到
3、修改下载延迟时间,DOWNLOAD_DELAY设置越大请求越慢
4、开启中间键
5、开启PIPELINES,一般在要存储数据的时候开启
6、开启如下设置
如果爬取页面设置为从page1到page10000,爬取的结果有很多漏掉的。然后将设置修改为如上,还是会有漏掉的。
解决办法:将DOWNLOAD_DELAY时间设置的更大一些。
如何突破IP限制问题,建议使用雷神代理,雷神代理拥有上千万的IP池,IP真实稳定可靠。