搜索引擎是不是一个大的爬虫，为什么网站反爬虫，却能被搜索引擎爬到？

[已解决问题] 解决于 2020-03-31 16:44

道晖芝 | 初学一级 | 园豆：43
提问于：2020-03-27 01:36

< >

最佳答案

反爬虫有几种：
1、通过协议，告诉搜索引擎，[请不要爬我的网站，谢谢。]，比如github不让百度爬但是让别人爬，百度就不爬了。这个和技术无关，你要是非要爬，也可以爬。

2、采用技术屏蔽，页面内容为动态生成且有权限要求，如你的qq空间，搜索引擎就爬不到，因为qq需要登录，并且需要好友关系验证，甚至你指定了部分好友可见等，搜索引擎自然无法爬到这些内容。

3、其他，如直接拒绝特定的请求，比如你某个IP定期抓你网页，直接拒绝访问。

当然，如果非要爬，还是能爬，毕竟人工能做到的，程序一样可以模拟，但这个没太大意义，除非你是有非法的目的。

奖励园豆：5

。淑女范erり | 小虾三级 |园豆：961 | 2020-03-27 13:29

其他回答(3)

是的。
让百度爬是故意的，增加曝光量嘛。当然也有一些比较私密的网站连同百度一起反，目的当然是保密。此类网站一般只能经内部人员介绍进入。大多不是什么正经网站。
其他爬虫爬取数据基本为了自己的私利，只会造成数据泄露或者服务器压力上升，当然要反。

coredx | 园豆：678 (小虾三级) | 2020-03-27 02:40

让我联想起 bbc纪录片 <深网> , 京东又同名书深网Google搜不到的世界

小鸣Cycling | 园豆：350 (菜鸟二级) | 2020-03-27 11:49

百度就是一个很大的爬虫

ycyzharry | 园豆：25653 (高人七级) | 2020-03-28 23:24

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。