网站网页采集与防采集技巧精华整理

搬不上舞台的偏门技术,个人整理,仅考虑思路,不谈技术实现,高手漂过……

  1. 来源判断(对策:来源欺骗)
  2. 用户身份认证(对策:模拟登录认证)
  3. 请求时间间隔和次数判断(对策:采集时间间隔)
  4. js,ajax隐藏地址(对策:提取脚本网址)
  5. 内容随机加入特别字符信息(对策:你总有规则可寻)
  6. 图片文字(对策:真的这么重要的资料就批量下载文字识别啦!)
  7. 系统随机模板(对策:判断下就可以啦,但是挺费事地……)
  8. 查看需要验证码(根本不重视用户体验嘛,去死啦!验证码识别不了的话,真是好资料人肉也值嘛!)
    看来没有绝对的防采集策略,只能是让采集者知难而退……而且要考虑到用户体验和搜索引擎蜘蛛爬虫……
    最笨的人肉采集 谁也没有一点办法!

总结:你采集别人的,别人也会采集你的啦!还是自身网站内容第一,小心的在文章加入一些显性和隐性的内链效果也许不错……

提醒:没智商的话就不要随便采集,现在搜素引擎在相似网页识别率上还是相当高的!就省点劲,少带给互联网一点垃圾吧!