看你是对付君子还是对付流氓。
对付君子的话,只要一个Robots.txt,上面写着,“谢绝推销员”就行了。
对付流氓的话,最终极的方法是网站不对外开放,内联网,或者找一下中国防火墙之父,
咨询一下,哈哈。
你要知道中国花了多少钱,搞了个巨牛的防火墙,可是为了实现四个现代化,
我们程序员需要访问Google,所以我们还是练就了一身的穿墙术。
上google, 不用学穿墙术, 直接用www.gaomn.com. 哈哈。
回到楼主的问题:
防蜘蛛一般写Robots.txt。不过它们流氓不一定遵守或响应很慢。
防采集这问题就大了, 正如大叔所说, 我可以看到, 我就能写程序采集到。。。
防采集常用的一些方法
1:判断这IP访问了多少个页面, 否则让它滚蛋。
2:在内容里面加一些隐藏的版权标记。 PS:这个也不能真正防采集。。。
3:要登陆才能浏览; PS:不过这个也能模拟登陆上。
http://www.im286.com/thread-8139723-1-1.html,相关文章太多,你去看看