首页新闻找找看学习计划

爬虫使用代理爬取网页,响应的URI和页面不一致

0
悬赏园豆:40 [已关闭问题] 关闭于 2015-06-03 11:49

最近刚接触爬虫,打算把58下的所有类别的网页下载下来。为了绕开验证码问题我选择了换代理的方式。判断响应URI是不是验证码的服务器support.58.com, 但是爬取了几十条后发现58响应我的URI是正常页面的URI,但是页面的内容是“请输入验证码继续访问”。   求解

悠久的蒸汽机关的主页 悠久的蒸汽机关 | 初学一级 | 园豆:157
提问于:2015-06-02 11:49
< >
分享
所有回答(2)
0

一般比较出名的网站都会有反爬处理的,即便显示是正常的页面URL,但是在服务器发现你在短时间内持续请求就会怀疑你是爬虫,从而验证码验证,你要做的就是验证码识别,自动输入,还有可以增加访问时间间隔,或者动态切换代理。。。

ShadowFiend | 园豆:198 (初学一级) | 2015-06-02 11:54
0

推荐你模拟百度蜘蛛去抓取, 希望58不会判断蜘蛛IP。。。。 否则你就没办法只能去识别验证码了。  

问天何必 | 园豆:3291 (老鸟四级) | 2015-06-02 12:48
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册