反爬经验与理论基础

更新日期: 2018-09-22 阅读: 4.3k 标签: 爬虫分享

一、反爬体系要做什么

完整的反爬体系有三大部分工作要做：感知识别、策略分析、监控封禁。

（一）感知识别：

数据支撑：爬虫指纹、设备指纹、风险UA、IP库等，不同端指纹的mapping等。
数据感知，什么人，通过什么方式，用什么爬虫，在什么时间，爬取了我们什么内容。

（二）策略分析：

事前策略：通过技术手段，在源头使攻击者无法爬取。
事后策略：指感知到有爬虫事件后，采取的封禁、验证码等组合策略。

（三）识别封禁：

离线识别：通过数据埋点监控，可离线分析爬虫情况，实时性差，但对业务无任何影响。
在线识别：在线检测服务，在业务关键节点，调用在线检测服务，实时感知爬虫情况。
离线阻断：离线分析后，根据策略筛选出要封禁的IP、UA、Session、userid等，调用封禁服务统一封禁。
在线阻断：在线检测到爬虫行为后，直接调用封禁服务阻断爬虫。

二、反爬策略有哪些

（一）事前策略：

js计算：js添加简单的数学计算，要求浏览器计算结果之后，返回给后端校验计算结果，来识别是否是爬虫行为。
js生成动态url：
- 生成动态参数：访问页面，先返回js脚本，js生成一个新参数，加入原请求中，再访问，才可得到数据。
- 生成动态地址：访问页面，先返回js脚本，js生成新接口地址，再访问新接口，才可得到数据。
js生成动态页面：动态生成js标签
因为js对用户是可见的，所以要尽量提升攻击成本，要写难懂的js，比如大量使用eval和goto，比如做js混淆、js压缩等。

（二）事后策略：

阈值封锁
1. IP维度：常见，但有两个缺陷：容易误伤普通用户，容易被绕过。
2. Session或uid等维度：需要考虑不同业务的Session或uid逻辑，是否唯一稳定？是否非空？
3. UA维度：误杀非常严重，除非能准确识别爬虫UA。
4. 设备指纹：PC、APP、小程序。
投毒：命中相应策略后，后端给前端反回一定比例的假数据。
验证码：图形、划动、短信、人脸、声纹。
加密：app参数加密，PC小程序前后端加密。前端加密需要做js混淆等处理。

三、反爬架构什么样

数据支撑平台：通过埋点、采集等方式接入各类维度的基础数据和第三方指纹sdk，封装成统一的数据输出形式。数据输出可以接口、db、log等不同形式。
数据分析平台；输入支撑数据，输出爬虫画像。
策略分析平台：输入爬虫画像，采取不同策略，输出策略分析结果。
上报阻断平台：输入策略分析结果，上报给运维，做阻断。

本文内容仅供个人学习、研究或参考使用，不构成任何形式的决策建议、专业指导或法律依据。未经授权，禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载，请保留原文来源信息，不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持！

链接: https://fly63.com/article/detial/2470

上一页: css样式的继承性、层叠性、优先级下一页: 优质的圈子，有多么重要？

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!

反爬经验与理论基础

一、反爬体系要做什么

二、反爬策略有哪些

三、反爬架构什么样

爬虫最终杀手锏 --- PhantomJS 详解（附案例）

网络爬虫_基于各种语言的开源网络爬虫总汇

爬虫解决网页重定向问题

爬虫解决网页ip限制的问题的八种方法

web爬虫抓取技术的门道,对于网络爬虫技术的攻与防

到百度云加速，网页内容爬不到的快速解决

网络爬虫程序员被抓，我们还敢爬虫吗？

大话爬虫的实践技巧

node.js主从分布式爬虫

什么是网络爬虫，网络爬虫有什么用？

反爬经验与理论基础

一、反爬体系要做什么

二、反爬策略有哪些

三、反爬架构什么样

爬虫最终杀手锏 --- PhantomJS 详解（附案例）

网络爬虫_基于各种语言的开源网络爬虫总汇

爬虫解决网页重定向问题

爬虫 解决网页ip限制的问题的八种方法

web爬虫抓取技术的门道,对于网络爬虫技术的攻与防

到百度云加速，网页内容爬不到的快速解决

网络爬虫程序员被抓，我们还敢爬虫吗？

大话爬虫的实践技巧

node.js主从分布式爬虫

什么是网络爬虫，网络爬虫有什么用？

爬虫解决网页ip限制的问题的八种方法