当前位置:首页>帮助中心>python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可

python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可

发布日期:2021-01-12 09:10:40 来源:雷神HTTP


随机User-Agent


fake_useragent库,伪装请求头

image.png 


获取代理ip


在免费的代理网站爬取代理ip,免费代理的采集也很简单,无非就是:访问页面页面 —> 正则/xpath提取 —> 保存



代理ip网站


雷神代理:https://www.leishenhttp.com



根据网页结果,适用正则表达式匹配


这种方法适合翻页的网页

image.png


 


先获取特定标签


解析

image.png 


检测代理ip可用性


第一种方法:通过返回的状态码判断

 

 image.png

image.png

第二种方法:使用requests包来进行验证

 image.png

image.png 

第三种方法:使用telnet

 image.png

用户登录

自动登录 忘记密码?

还没帐号?立即注册

用户注册

图形验证码

短信获取

我已阅读并同意 《用户协议》

已有账号?立即登录

忘记密码

图形验证码

短信获取

返回登录