一、关于配置代理IP的问题
我们不禁会发问为什么用代理IP?
由于网站防爬功能日益加强,如果只用一个本地IP采集的话很容易被封IP,导致无法正常访问网页,所以为了防止被网站发现是机器在取数据,需要不断的更换IP。
如何设置代理IP呢?
1.启用IP代理
打开“启用IP代理”按钮,才能启用IP代理功能。
2.启用代理加速
启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。
3.本机IP混用策略
当代理IP失效时,选择是否启用本地网络。
4.添加代理
启用代理后,在IP资源列表中点击“+”添加一个资源,在弹框中填写资源名称,选择静态动态代理,填写请求频率和备注。
创建好ip资源之后,点击页面右侧的加号,填写IP地址,端口选择代理类型,填写用户名和密码。这样代理IP就配置好了。
【案例1】静态代理IP
创建IP资源
点击右侧加号添加代理,对应关系见下表:
添加好代理账号,点击保存就完成了代理IP的配置。
【案例2】动态代理IP
1.创建IP资源
①请求频率:每秒每个IP所允许的请求次数,某些代理商对此有所限制时,需要填写。
②服务端口:对并行运行软件时有效,多进程共享代理IP时需要填写。
2.右侧需要选择的内容:
①协议类型:选择代理的协议类型,软件支持http/https/socket代理。
②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。
③刷新周期:指代理IP的有效时长。
④请求地址:粘贴代理商的请求地址。
⑤POST DATA:根据代理不同,post请求的情况下填写该内容。
⑥代码编辑区:需要填写一段脚本,以调用代理IP。代码如下:
获取动态代理ip的脚本代码:
ips = DOWNDATA.Split('\n');
var t;
for(i=0;i
{
t = ips[i].TrimAll();
ip = t.Split(',');
if(ip.size>1)
{
this.Insert(ip[0],"","",ip[1].ToInt()/1000, "https");
}
}
二、当爬虫内置浏览器与网页版的内容不一致时应该怎么解决?
①点击软件的设置选择清空DNS缓存,然后点击确定。
②在该设置中点击IE内核,弹框内点击同步版本即可。
③弹框内提示版本已生效请重启软件,按照提示重启软件。
雷神HTTP代理IP平台专业提供HTTP代理IP服务,其中的动态高质量代理重点推荐,多年来服务了很多顾客朋友,高效稳定的质量,受到了一致的好评。雷神HTTP代理IP将会继续努力,为广大顾客提供更优质的产品!咨询QQ:800821230,网址:www.leishenhttp.com