首页新闻找找看学习计划

有很多筛选条件的列表页面如何防止被爬虫排列组合式的大量爬?

0
悬赏园豆:15 [待解决问题]
有一个网站,支持泛域名,即有很多二级域名,国内每个城市一个二级域名,
网站有一个列表页面,有很多筛选条件,不同条件的组合对应不同的url
那么这样就有无数个url 。
 
这样导致搜索引擎的爬虫不停的的爬网站,将网站爬的很慢。
 
有什么办法解决吗?
 
目前发现百度与搜狗的蜘蛛直接将网站爬卡了。
 
而google,360,bing则没有大量的爬。
step的主页 step | 初学一级 | 园豆:6
提问于:2018-08-25 11:40
< >
分享
所有回答(2)
0

1、防君子不防小人的做法,声明不欢迎robot,可参看 

网站防蜘蛛爬虫控制--怎么使用robots.txt及其详解

但目前国内的这些蜘蛛是君子还是小人,这个我就不多说了。

2. 防小人,很贵,好的程序员,破解反破解.... 就看你愿意花多少钱了。一言难尽。

爱编程的大叔 | 园豆:29455 (高人七级) | 2018-08-25 12:48

网址如

/list/subject1/gender2/district3

/list/subject1/gender2/district35

 

其中subject,gender,district是参数名,参数后面的是值。

这些参数排列组合

 

有无数的url

 

robots.txt无能为力

 

 

支持(0) 反对(0) step | 园豆:6 (初学一级) | 2018-08-25 13:21
1

只要想爬.你就会被爬.和条件组合没关系.

做调用频率检测吧.

吴瑞祥 | 园豆:28187 (高人七级) | 2018-08-25 18:28

检查参数组合,如果发现参数过多,就要登录

支持(1) 反对(0) step | 园豆:6 (初学一级) | 2018-08-25 21:38
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册