搜索引擎是不是一个大的爬虫,为什么网站反爬虫,却能被搜索引擎爬到?
反爬虫有几种:
1、通过协议,告诉搜索引擎,[请不要爬我的网站,谢谢。],比如github不让百度爬但是让别人爬,百度就不爬了。这个和技术无关,你要是非要爬,也可以爬。
2、采用技术屏蔽,页面内容为动态生成且有权限要求,如你的qq空间,搜索引擎就爬不到,因为qq需要登录,并且需要好友关系验证,甚至你指定了部分好友可见等,搜索引擎自然无法爬到这些内容。
3、其他,如直接拒绝特定的请求,比如你某个IP定期抓你网页,直接拒绝访问。
当然,如果非要爬,还是能爬,毕竟人工能做到的,程序一样可以模拟,但这个没太大意义,除非你是有非法的目的。
是的。
让百度爬是故意的,增加曝光量嘛。当然也有一些比较私密的网站连同百度一起反,目的当然是保密。此类网站一般只能经内部人员介绍进入。大多不是什么正经网站。
其他爬虫爬取数据基本为了自己的私利,只会造成数据泄露或者服务器压力上升,当然要反。
让我联想起 bbc纪录片 <深网> , 京东又同名书 深网Google搜不到的世界
百度就是一个很大的爬虫