更多内容请见: 《爬虫和逆向教程》 - 专栏介绍和目录
文章目录
- 一、脚本概述
- 1.1 脚本对应反爬措施
- 1.2 注意事项
- 1.3 反爬细节说明
- 二、完整代码
- 2.1 安装依赖
- 2.2 封装代码
- 2.3 使用示例
下面是一个使用 Playwright 封装的、具备反爬对抗能力的网页爬虫Python函数,返回原始 HTML 内容,并重点隐藏自动化特征,避免被检测为 bot。
一、脚本概述
该封装已在多个中等反爬网站(如电商、新闻站)验证有效,能绕过大多数基于navigator.webdriver、chrome对象、permissions等的检测。
1.1 脚本对应反爬措施
- 移除
navigator.webdriver标志 - 注入真实 User-Agent 和 Accept-Language
- 禁用
chrome对象中的自动化属性(如cdc_) - 设置合理的 viewport、设备比例、语言
- 启用 JavaScript 但模拟人类行为(可选延迟)
- 使用非 headless 模式或伪装 headless(推荐后者)
1.2 注意事项
- 不要频繁请求:即使隐藏了特征,高频访问