很多人都使用过代理ip,比如说网络爬虫,可以通过使用代理IP来突破反爬,不过只有高匿代理才能实现反爬目标。那么该怎样判断代理是否为高匿?
其实想要识别代理IP的匿名等级只需要通过脚本程序(如ASP PHP JSP等)即可在服务器端识别出来,识别的办法就是抓数据包里的相关字段:REMOTE_ADDR,HTTP_VIA以及HTTP_X_FORWARDED_FOR。
1)透明代理
REMOTE_ADDR = Proxy IP(代理服务器 IP)
HTTP_VIA = Proxy IP(代理服务器 IP)
HTTP_X_FORWARDED_FOR = Your IP(您的真实 IP)
2)普通匿名代理
REMOTE_ADDR = proxy IP(代理服务器 IP)
HTTP_VIA = proxy IP(代理服务器 IP)
HTTP_X_FORWARDED_FOR = proxy IP(代理服务器 IP)
3)高匿代理
REMOTE_ADDR = Proxy IP(代理服务器 IP)
HTTP_VIA = not determined(没数值或不显示)
HTTP_X_FORWARDED_FOR = not determined(没数值或不显示)
透明代理会向目标服务器透露自己的真实IP,普匿代理会向目标服务器透露用了代理,髙匿代理什么都不透露给目标服务器。
由此可见,用透明代理和普通匿名代理被识别的几率非常大,设置反爬策略的网站一般都可以轻而易举的识别,使用髙匿代理IP的话则不能轻易的被识别。