首页 新闻 会员 周边

在Python3中Scrapy抓取贴吧帖子的标题,xpath返回为空,但是找不到问题出在哪里。

0
悬赏园豆:5 [待解决问题]

google浏览器xpath测试

spider文件:

item文件:

运行结果:

但是如果直接print(response.text)是完全可以获得页面,并且可以保存在本地文件系统,但是xpath解析始终不成功。

CodeAsPoetry的主页 CodeAsPoetry | 初学一级 | 园豆:192
提问于:2018-09-19 17:55

我确定是xpath解析出问题,但是不知道如何修改。copy别人抓取豆瓣网数据且能够运行成功的爬虫,不管是保存在本地,还是一边抓取,一边解析xpath都可以成功。可见是xpath解析出了问题。还求教大佬们提点一二,多多指教。不胜感激。

CodeAsPoetry 5年前

通过google浏览器观察了两个页面的不同,豆瓣那个似乎是直接的html,贴吧的那些似乎是由js动态生成的。但是网上也的确有用我这种方式抓取贴吧成功的。并没要涉及到js什么的。。。

CodeAsPoetry 5年前
< >
分享
所有回答(3)
0

你贴图片,别人咋测?把你图片上的代码敲一遍?

会发光 | 园豆:258 (菜鸟二级) | 2018-09-20 13:52

我也遇到同样问题了,xpath完全一致,但每隔几个帖子就title解析失败

支持(0) 反对(0) ph11204 | 园豆:202 (菜鸟二级) | 2018-11-16 21:17
0

一部分原因是帖子被屏蔽了

另一部分找不到原因,可以用cmd中进入Python,直接import scrapy来测速

ph11204 | 园豆:202 (菜鸟二级) | 2018-11-16 21:20
0

遇到类似的问题 ,不知道啥原因???

woheni3 | 园豆:202 (菜鸟二级) | 2018-12-11 14:06
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册