最近刚接触爬虫,打算把58下的所有类别的网页下载下来。为了绕开验证码问题我选择了换代理的方式。判断响应URI是不是验证码的服务器support.58.com, 但是爬取了几十条后发现58响应我的URI是正常页面的URI,但是页面的内容是“请输入验证码继续访问”。 求解
一般比较出名的网站都会有反爬处理的,即便显示是正常的页面URL,但是在服务器发现你在短时间内持续请求就会怀疑你是爬虫,从而验证码验证,你要做的就是验证码识别,自动输入,还有可以增加访问时间间隔,或者动态切换代理。。。
推荐你模拟百度蜘蛛去抓取, 希望58不会判断蜘蛛IP。。。。 否则你就没办法只能去识别验证码了。