写了个抓页面的东西,抓几分钟以后会一直404,随机时间间隔写了,浏览器解析变化写了,cookies提交了,还是那样,但是当404出现时,打开浏览器,刷新一下页面,就不会404了请问这是怎么回事???抓取用的HttpWebRequest和 HttpWebResponse
可能不仅仅是针对ip访问频率做限制的,时间戳,浏览器版本什么的,你抓取的网站都可以用来做限制策略。
就是做了限制,可以将线程休眠几秒
已经间隔,可是为什么刷新浏览器就会好呢?如果限制了浏览器也应该不行的
已经完全解决了,之前都用的招数有1.切换浏览器信息头2.随机间隔时间3.referer完全模拟都不行,最后原来是少加载了个东西,估计里面有cookies或缓存什么的吧,现在还是大综合,防止被网站发现