首页 新闻 搜索 专区 学院

怎么防止博客园博客被爬虫爬

0
悬赏园豆:5 [已解决问题] 解决于 2016-11-04 10:47

类似IT大道、布咔咔都网站都会用爬虫来爬取博客内容,怎么防止自己博客内容被爬虫爬

zxzhang的主页 zxzhang | 初学一级 | 园豆:193
提问于:2016-11-03 22:39
< >
分享
最佳答案
0

博客其实就是个人品牌背书,保留出处就行,没必要防止爬出~

收获园豆:5
晓菜鸟 | 老鸟四级 |园豆:2594 | 2016-11-04 09:28
其他回答(4)
0

正规的spider都可以通过robots.txt来告诉spider不要爬取,乱七八糟的爬虫没法控制。

如果你要说你的博客园的博客不让爬虫爬,怕是不太可能了。

czd890 | 园豆:8891 (大侠五级) | 2016-11-03 22:53
0

技术层——

1.内容非“静态文档”模式,一些爬虫对动态创建的dom还是没法的(毕竟还是高消耗),那么页面可以用客户端生成方式来构建内容,那么可以干掉这些页面文件解析类的爬虫。

2.把string变成binary,几乎的爬虫都爬不了了——例如activeX(flash,silverlight等)。如果基于flash和silverlight这类ml的,当然冲技术上能进行反编译,但这种天生就是runtime(动态创建内容)的,所以爬虫要爬代价会非常很大。

产品层——

3.博客本身就是用于广播的,而又不想广播,那么就不必用博客,比如你可以用网络记事本、web office之类的。

花飘水流兮 | 园豆:11000 (专家六级) | 2016-11-04 08:48

我想你误会了,我很愿意将写在博客园的东西分享,但是面对IT大道之类的网站,随意爬取作为他们自己的内容,这似乎不太合情理。

支持(0) 反对(0) zxzhang | 园豆:193 (初学一级) | 2016-11-04 10:44
0

你的博客传播更广了以后难道不是更好吗???

顾晓北 | 园豆:9957 (大侠五级) | 2016-11-04 09:22

但是那些垃圾网站都是用软件一律爬虫,完全不进行修改,不会在意出处和创作者,完全侵犯了一个人的著作权,而且网站没有投诉、登录、联系的功能。愿意在园内上传东西和愿意被人随意爬是两回事吧。

支持(0) 反对(0) Rynar | 园豆:200 (初学一级) | 2020-08-05 15:12
0

厉害了word哥,网站防爬是开发人员的问题,有博主哈事啊,另外把博文发出来。不就是为了共享技术研究成果,造服人类?

盟怀部孩 | 园豆:878 (小虾三级) | 2016-11-04 10:15
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册