很多时候,我们发布的文章没有足够的浏览量,而文章也不是随意刷新几次就会增加几个浏览量,这时,我们需要通过一些技术手段加上代理IP来实现.
首先我们需要有一个拥有一定数量并有效的代理IP组成的代理IP池,我们如何维来护代理IP库呢?
1、维护代理质量
代理IP入库前需要验证,发起一个请求状态码是否为200。入库后也需要定时验证,毕竟IP都有失效的时候。
2、代理IP存储
可以使用redis来存储这些有效代理,数据结构最好是采用Set,不允许存储相同的IP。
有了代理IP池,就可以方便的使用了,但还得考虑到目标网站的一些策略,比如header里的限制:
1、User-Agent:用户代理,不同的浏览器有不同的User-Agent,可以收集一些常见的浏览器用户代理,然后在发送请求的时候随机调用;
2、Referer:访问的来源是哪个链接,做防图片的盗链可以用它来处理,当然这个Referer也是可以伪造的;
3、cookie:很多网站要登陆了才能操作,所以这个cookie信息很重要,没有cookie很容易被识别为伪造请求,可以在本地通过Js,根据服务端返回的一些信息,本地区设置cookie,当然实际操作并不简单,具体情况具体分析。
雷神代理提醒大家有几点还是要注意下:
1、多线程批量发送请求,效率会高一些,要注意频率,不能太快,以免被发现;
2、定时入库新IP,定时获取Redis中代理使用;
3、统计IP失败的次数,达到一定次数后删除该IP,调用下一个IP继续使用。