scrapy爬取网页ajax数据

悬赏园豆：10 [已解决问题] 解决于 2019-10-30 11:29

我使用Chrome提供的开发者工具查看了网页的一项数据的URL

也就是说我只要在爬虫中构造这个Request请求就可以获取到对应的json数据（如下）

但是我直接在浏览器访问这个URL会出现这种情况

完全不是一回事呀，再不就是403没有足够的访问权限，如果我在代码中构造Request会不会也是获取不到那个json数据阿呀

Scrapy 网页爬虫 ajax

蜂蜜蛋糕葡萄酒 | 初学一级 | 园豆：3
提问于：2019-10-17 10:28

< >

最佳答案

很多接口都会做反爬虫技术的，通过随机数、时间戳， cookic ,user-agent，cookie，header
但是这都难不倒我们。
办法一、python 的 selenium 直接在页面里面运行，注入脚本，获取数据
办法二、写一个chrome 插件，直接重写原生的 ajax ，进行底层拦截，并下载数据。然后通过在控制台，直接打沾入js代码，触发一些事件，自动获取数据。

这两个办法我都用过
办法二，我之前正好写过一个插件。需要的话，邮件联系吧

收获园豆：10

muamaker | 小虾三级 |园豆：763 | 2019-10-17 18:05

好的，我用selenium爬取看看

蜂蜜蛋糕葡萄酒 | 园豆：3 (初学一级) | 2019-10-19 18:50

其他回答(2)

那就一定是请求头之类的参数（比如url参数也可能动态生成，即可能过期）问题。

用Fiddler完整copy就行了。

花飘水流兮 | 园豆：13775 (专家六级) | 2019-10-17 13:36

嗯嗯，我配置下

支持(0) 反对(0) 蜂蜜蛋糕葡萄酒 | 园豆：3 (初学一级) | 2019-10-19 18:49

看情况是做了些反爬虫的技术处理。简单的url不给数据。
request-headers分析吧
user-agent，cookie，header

张朋举 | 园豆：2098 (老鸟四级) | 2019-10-17 16:27

好的，这个是淘宝的网页，反爬虫技术肯定有

支持(0) 反对(0) 蜂蜜蛋糕葡萄酒 | 园豆：3 (初学一级) | 2019-10-19 18:50

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。