爬虫使用代理爬取网页，响应的URI和页面不一致

悬赏园豆：40 [已关闭问题] 关闭于 2015-06-03 11:49

最近刚接触爬虫，打算把58下的所有类别的网页下载下来。为了绕开验证码问题我选择了换代理的方式。判断响应URI是不是验证码的服务器support.58.com, 但是爬取了几十条后发现58响应我的URI是正常页面的URI，但是页面的内容是“请输入验证码继续访问”。求解

爬虫

悠久的蒸汽机关 | 初学一级 | 园豆：157
提问于：2015-06-02 11:49

< >

所有回答(2)

一般比较出名的网站都会有反爬处理的，即便显示是正常的页面URL，但是在服务器发现你在短时间内持续请求就会怀疑你是爬虫，从而验证码验证，你要做的就是验证码识别，自动输入，还有可以增加访问时间间隔，或者动态切换代理。。。

ShadowFiend | 园豆：198 (初学一级) | 2015-06-02 11:54

推荐你模拟百度蜘蛛去抓取，希望58不会判断蜘蛛IP。。。。否则你就没办法只能去识别验证码了。

问天何必 | 园豆：3311 (老鸟四级) | 2015-06-02 12:48

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。