首页新闻找找看学习计划

抓数据抓一会页面会跳404

0
悬赏园豆:10 [已解决问题] 解决于 2014-05-28 17:24

写了个抓页面的东西,抓几分钟以后会一直404,随机时间间隔写了,浏览器解析变化写了,cookies提交了,还是那样,但是当404出现时,打开浏览器,刷新一下页面,就不会404了请问这是怎么回事???抓取用的HttpWebRequest和 HttpWebResponse

树形图的主页 树形图 | 初学一级 | 园豆:5
提问于:2014-05-27 17:45
< >
分享
最佳答案
0

可能不仅仅是针对ip访问频率做限制的,时间戳,浏览器版本什么的,你抓取的网站都可以用来做限制策略。

收获园豆:4
Rookier | 小虾三级 |园豆:652 | 2014-05-28 17:19
其他回答(3)
0

有可能网站对同一IP高频访问做了限制

收获园豆:3
l3oz | 园豆:586 (小虾三级) | 2014-05-27 17:51
0

就是做了限制,可以将线程休眠几秒

收获园豆:3
Zery | 园豆:6069 (大侠五级) | 2014-05-27 20:13

已经间隔,可是为什么刷新浏览器就会好呢?如果限制了浏览器也应该不行的

支持(0) 反对(0) 树形图 | 园豆:5 (初学一级) | 2014-05-28 10:16
0

已经完全解决了,之前都用的招数有1.切换浏览器信息头2.随机间隔时间3.referer完全模拟都不行,最后原来是少加载了个东西,估计里面有cookies或缓存什么的吧,现在还是大综合,防止被网站发现

树形图 | 园豆:5 (初学一级) | 2014-05-28 17:22
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册