很多接口都会做反爬虫技术的,通过随机数、时间戳, cookic ,user-agent,cookie,header
但是这都难不倒我们。
办法一、python 的 selenium 直接在页面里面运行,注入脚本,获取数据
办法二、写一个chrome 插件,直接重写原生的 ajax ,进行底层拦截,并下载数据。然后通过在 控制台,直接打 沾入js代码,触发一些事件,自动获取数据。
这两个办法我都用过
办法二,我之前正好写过一个插件。需要的话,邮件联系吧
好的,我用selenium爬取看看
那就一定是请求头之类的参数(比如url参数也可能动态生成,即可能过期)问题。
用Fiddler完整copy就行了。
嗯嗯,我配置下
看情况是做了些反爬虫的技术处理。简单的url不给数据。
request-headers分析吧
user-agent,cookie,header
好的,这个是淘宝的网页,反爬虫技术肯定有