首页 新闻 会员 周边

scrapy爬取网页ajax数据

0
悬赏园豆:10 [已解决问题] 解决于 2019-10-30 11:29

我使用Chrome提供的开发者工具查看了网页的一项数据的URL

也就是说我只要在爬虫中构造这个Request请求就可以获取到对应的json数据(如下)

但是我直接在浏览器访问这个URL会出现这种情况


完全不是一回事呀,再不就是403没有足够的访问权限,如果我在代码中构造Request会不会也是获取不到那个json数据阿呀

心灵可视化的主页 心灵可视化 | 初学一级 | 园豆:1
提问于:2019-10-17 10:28
< >
分享
最佳答案
1

很多接口都会做反爬虫技术的,通过随机数、时间戳, cookic ,user-agent,cookie,header
但是这都难不倒我们。
办法一、python 的 selenium 直接在页面里面运行,注入脚本,获取数据
办法二、写一个chrome 插件,直接重写原生的 ajax ,进行底层拦截,并下载数据。然后通过在 控制台,直接打 沾入js代码,触发一些事件,自动获取数据。

这两个办法我都用过
办法二,我之前正好写过一个插件。需要的话,邮件联系吧

收获园豆:10
muamaker | 小虾三级 |园豆:763 | 2019-10-17 18:05

好的,我用selenium爬取看看

心灵可视化 | 园豆:1 (初学一级) | 2019-10-19 18:50
其他回答(2)
0

那就一定是请求头之类的参数(比如url参数也可能动态生成,即可能过期)问题。

用Fiddler完整copy就行了。

花飘水流兮 | 园豆:13560 (专家六级) | 2019-10-17 13:36

嗯嗯,我配置下

支持(0) 反对(0) 心灵可视化 | 园豆:1 (初学一级) | 2019-10-19 18:49
0

看情况是做了些反爬虫的技术处理。简单的url不给数据。
request-headers分析吧
user-agent,cookie,header

张朋举 | 园豆:1915 (小虾三级) | 2019-10-17 16:27

好的,这个是淘宝的网页,反爬虫技术肯定有

支持(0) 反对(0) 心灵可视化 | 园豆:1 (初学一级) | 2019-10-19 18:50
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册