怎么防止博客园博客被爬虫爬

悬赏园豆：5 [已解决问题] 解决于 2016-11-04 10:47

类似IT大道、布咔咔都网站都会用爬虫来爬取博客内容，怎么防止自己博客内容被爬虫爬

zxzhang | 初学一级 | 园豆：193
提问于：2016-11-03 22:39

< >

最佳答案

博客其实就是个人品牌背书，保留出处就行，没必要防止爬出~

收获园豆：5

晓菜鸟 | 老鸟四级 |园豆：2594 | 2016-11-04 09:28

其他回答(4)

正规的spider都可以通过robots.txt来告诉spider不要爬取，乱七八糟的爬虫没法控制。

如果你要说你的博客园的博客不让爬虫爬，怕是不太可能了。

czd890 | 园豆：14760 (专家六级) | 2016-11-03 22:53

技术层——

1.内容非“静态文档”模式，一些爬虫对动态创建的dom还是没法的（毕竟还是高消耗），那么页面可以用客户端生成方式来构建内容，那么可以干掉这些页面文件解析类的爬虫。

2.把string变成binary，几乎的爬虫都爬不了了——例如activeX（flash，silverlight等）。如果基于flash和silverlight这类ml的，当然冲技术上能进行反编译，但这种天生就是runtime（动态创建内容）的，所以爬虫要爬代价会非常很大。

产品层——

3.博客本身就是用于广播的，而又不想广播，那么就不必用博客，比如你可以用网络记事本、web office之类的。

花飘水流兮 | 园豆：13775 (专家六级) | 2016-11-04 08:48

我想你误会了，我很愿意将写在博客园的东西分享，但是面对IT大道之类的网站，随意爬取作为他们自己的内容，这似乎不太合情理。

支持(1) 反对(0) zxzhang | 园豆：193 (初学一级) | 2016-11-04 10:44

你的博客传播更广了以后难道不是更好吗？？？

顾晓北 | 园豆：10898 (专家六级) | 2016-11-04 09:22

但是那些垃圾网站都是用软件一律爬虫，完全不进行修改，不会在意出处和创作者，完全侵犯了一个人的著作权，而且网站没有投诉、登录、联系的功能。愿意在园内上传东西和愿意被人随意爬是两回事吧。

支持(1) 反对(0) Rynar | 园豆：200 (初学一级) | 2020-08-05 15:12

厉害了word哥，网站防爬是开发人员的问题，有博主哈事啊，另外把博文发出来。不就是为了共享技术研究成果，造服人类？

盟怀部孩 | 园豆：878 (小虾三级) | 2016-11-04 10:15

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。