黑灰产调查:“疫情公益”也被薅羊毛!黑产恶意爬取各大出版社电子书上万册
不完全统计
图片来源:每日经济新闻
-
枚举的方式获取所有的图书 ID (作者猜测总共图书不超过 10000)
-
因为前端有 cookie 的校验,无法获取 token 所以在前端直接发起请求, 并保存内容,后续处理(类似模拟器的方式)
-
最终通过 HTML 转 PDF 的形式保存图书
来自爬虫的威胁
数据来源:中国扫黄打非网
-
IP黑白名单
-
UA 检查
-
频率控制
2、WEB 端增加脚本检测、模拟器检测、频次检测等;
-
内容型网站增加内容防盗链,访问频率限制
-
通过账号权限控制可访问内容边界
-
增加内容反爬,比如字体反爬,样式反爬
-
更高级的可以增加脚本检测,模拟器检测等手段
-
API 接口数据参数加密传输,并添加一致性校验
未经授权 请勿转载 ▍
51吃瓜网51吃瓜,进学习交流群
THE END
二维码
共有 0 条评论