google浏览器xpath测试
spider文件:
item文件:
运行结果:
但是如果直接print(response.text)是完全可以获得页面,并且可以保存在本地文件系统,但是xpath解析始终不成功。
你贴图片,别人咋测?把你图片上的代码敲一遍?
我也遇到同样问题了,xpath完全一致,但每隔几个帖子就title解析失败
一部分原因是帖子被屏蔽了
另一部分找不到原因,可以用cmd中进入Python,直接import scrapy来测速
遇到类似的问题 ,不知道啥原因???
我确定是xpath解析出问题,但是不知道如何修改。copy别人抓取豆瓣网数据且能够运行成功的爬虫,不管是保存在本地,还是一边抓取,一边解析xpath都可以成功。可见是xpath解析出了问题。还求教大佬们提点一二,多多指教。不胜感激。
– CodeAsPoetry 6年前通过google浏览器观察了两个页面的不同,豆瓣那个似乎是直接的html,贴吧的那些似乎是由js动态生成的。但是网上也的确有用我这种方式抓取贴吧成功的。并没要涉及到js什么的。。。
– CodeAsPoetry 6年前