类似IT大道、布咔咔都网站都会用爬虫来爬取博客内容,怎么防止自己博客内容被爬虫爬
博客其实就是个人品牌背书,保留出处就行,没必要防止爬出~
正规的spider都可以通过robots.txt来告诉spider不要爬取,乱七八糟的爬虫没法控制。
如果你要说你的博客园的博客不让爬虫爬,怕是不太可能了。
技术层——
1.内容非“静态文档”模式,一些爬虫对动态创建的dom还是没法的(毕竟还是高消耗),那么页面可以用客户端生成方式来构建内容,那么可以干掉这些页面文件解析类的爬虫。
2.把string变成binary,几乎的爬虫都爬不了了——例如activeX(flash,silverlight等)。如果基于flash和silverlight这类ml的,当然冲技术上能进行反编译,但这种天生就是runtime(动态创建内容)的,所以爬虫要爬代价会非常很大。
产品层——
3.博客本身就是用于广播的,而又不想广播,那么就不必用博客,比如你可以用网络记事本、web office之类的。
我想你误会了,我很愿意将写在博客园的东西分享,但是面对IT大道之类的网站,随意爬取作为他们自己的内容,这似乎不太合情理。
你的博客传播更广了以后难道不是更好吗???
但是那些垃圾网站都是用软件一律爬虫,完全不进行修改,不会在意出处和创作者,完全侵犯了一个人的著作权,而且网站没有投诉、登录、联系的功能。愿意在园内上传东西和愿意被人随意爬是两回事吧。
厉害了word哥,网站防爬是开发人员的问题,有博主哈事啊,另外把博文发出来。不就是为了共享技术研究成果,造服人类?