点滴记录，沉思总结，成长分享。

网站网页采集与防采集技巧精华整理

发表于 2009-09-26 | 分类于 Web安全

搬不上舞台的偏门技术，个人整理，仅考虑思路，不谈技术实现，高手漂过……

来源判断（对策：来源欺骗）
用户身份认证（对策：模拟登录认证）
请求时间间隔和次数判断（对策：采集时间间隔）
js,ajax隐藏地址（对策：提取脚本网址）
内容随机加入特别字符信息（对策：你总有规则可寻）
图片文字（对策：真的这么重要的资料就批量下载文字识别啦！）
系统随机模板（对策：判断下就可以啦，但是挺费事地……）
查看需要验证码（根本不重视用户体验嘛，去死啦！验证码识别不了的话，真是好资料人肉也值嘛！）
看来没有绝对的防采集策略，只能是让采集者知难而退……而且要考虑到用户体验和搜索引擎蜘蛛爬虫……
最笨的人肉采集谁也没有一点办法！

总结：你采集别人的，别人也会采集你的啦！还是自身网站内容第一，小心的在文章加入一些显性和隐性的内链效果也许不错……

提醒：没智商的话就不要随便采集，现在搜素引擎在相似网页识别率上还是相当高的！就省点劲，少带给互联网一点垃圾吧！

watcher

笨狗博客互联网技术分享博客