首页 新闻 搜索 专区 学院

搜索引擎是不是一个大的爬虫,为什么网站反爬虫,却能被搜索引擎爬到?

0
[已解决问题] 解决于 2020-03-31 16:44

搜索引擎是不是一个大的爬虫,为什么网站反爬虫,却能被搜索引擎爬到?

张芸京的主页 张芸京 | 初学一级 | 园豆:76
提问于:2020-03-27 01:36
< >
分享
最佳答案
1

反爬虫有几种:
1、通过协议,告诉搜索引擎,[请不要爬我的网站,谢谢。],比如github不让百度爬但是让别人爬,百度就不爬了。这个和技术无关,你要是非要爬,也可以爬。

2、采用技术屏蔽,页面内容为动态生成且有权限要求,如你的qq空间,搜索引擎就爬不到,因为qq需要登录,并且需要好友关系验证,甚至你指定了部分好友可见等,搜索引擎自然无法爬到这些内容。

3、其他,如直接拒绝特定的请求,比如你某个IP定期抓你网页,直接拒绝访问。

当然,如果非要爬,还是能爬,毕竟人工能做到的,程序一样可以模拟,但这个没太大意义,除非你是有非法的目的。

奖励园豆:5
。淑女范erり | 小虾三级 |园豆:801 | 2020-03-27 13:29
其他回答(3)
1

是的。
让百度爬是故意的,增加曝光量嘛。当然也有一些比较私密的网站连同百度一起反,目的当然是保密。此类网站一般只能经内部人员介绍进入。大多不是什么正经网站。
其他爬虫爬取数据基本为了自己的私利,只会造成数据泄露或者服务器压力上升,当然要反。

coredx | 园豆:614 (小虾三级) | 2020-03-27 02:40
1

让我联想起 bbc纪录片 <深网>  , 京东又同名书 深网Google搜不到的世界

小鸣的微笔记 | 园豆:302 (菜鸟二级) | 2020-03-27 11:49
1

百度就是一个很大的爬虫

ycyzharry | 园豆:22032 (高人七级) | 2020-03-28 23:24
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册