一、 法律风险核心要素 (合规三要件)

1. 数据来源是否获得授权?

症状:爬取时收到"HTTP 403 Forbidden"警告

根源:即便使用住宅IP,未经授权的数据抓取仍违反《计算机信息系统安全保护条例》第6条

  1. 检查目标网站的robots.txt文件(如:访问 https://www.example.com/robots.txt)
  2. 确认要爬取的目录未标注Disallow
  3. 个人推荐使用ScraperAPI的合规检测功能

2. IP使用是否符合TOS条款?

症状:代理服务商突然终止服务

根源:99%的住宅IP供应商禁止用于爬虫,需专门购买爬虫专用代理IP

  1. 登录代理服务商后台查看Acceptable Use Policy
  2. 重点检查条款中是否包含"web scraping"
  3. 我常用LIKE.TG的合规代理方案(明确标注支持合规爬取)

3. 请求频率是否触发反爬?

症状:目标网站弹出验证码或封禁IP

根源:单个住宅IP请求频率超过网站容忍阈值(通常>2次/秒)

  1. 安装ScrapingBee的速率监控插件
  2. 设置全局延迟参数(建议3-5秒/次)
  3. 使用轮询代理池(个人配置方案:50个IP轮换+随机UA)