python 爬虫反爬策略

上传：jackyzoufeng 浏览： 39 推荐： 0 文件：PDF 大小：45.8KB 上传时间：2021-01-31 08:50:16 版权申诉

python 爬虫反爬策略爬虫和反爬的对抗一直在进行着...为了帮助更好的进行爬虫行为以及反爬,今天就来介绍一下网页开发者常用的反爬手段。 1.通过user-agent客户端标识来判断是不是爬虫解决方法:封装请求头:user-agent 2.封ip 解决方法:设置代理ip 封ip最主要的原因就是请求太频繁。 3.通过访问频率来判断是否是非人类请求解决方法:设置爬取间隔和爬取策略 4.验证码解决方法:识别验证码 5. 页面数据不再直接渲染,通过前端js异步获取解决方法:a:通过selenium+phantomjs来获取数据 b:找到数据来源的接口(