首页新闻找找看学习计划
当前位置: 博问标签 /scrapy/未解决/ 已解决
1
回答数

scrapy crawlspider 中的deny设置无效?

Rule(LinkExtractor(allow=rule.get("allow", None), restrict_xpaths=rule.get("restrict_xpaths", ""),de
0
回答数

scrapy自带去重和设置随机的useragent会冲突吗?

scrapy自带去重原理是说:对Request的method,url,body,headers进行消息摘要。 那么我设置了随机的user-agent,对于同一个url,user-agent不同,即he
1
回答数

50 Python爬虫,用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,有没有大神帮忙看一下,谢谢

用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,代理设置后还是提示需要登录。 settings内的FirstSplash.middlewares.FirstsplashSpi
1
回答数

10 爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑

爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑
4
回答数

100 求助!爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到

爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到 import urllib.request url='http://www.airbnb.cn/api/v2/explore_t
0
回答数

5 scrapy-splash总是报504 Gateway Time-out

使用的scrapy-splash 渲染的页面,总是出现http://localhost:8050/render.html> (failed 2 times): 504 Gateway Time-out
1
回答数

5 scrapy 抓取到的内容是一段一段的,不是整体

示例页面: finance.eastmoney.com/news/1345,20181129995332038.html item['Content'] = response.xpath('//div
0
回答数

萌新用scrapy爬取豆瓣音乐,报错KeyError: 'item',求大神讲解。

class spider(scrapy.Spider): name='doubanmusic' start_urls=['https://m.douban.com/music/'] allowed_d
1
回答数

scrapy 报错 ValueError: dictionary update sequence element #0 has length 5; 2 is required

爬虫目的 新闻详情页的结构分两种,判断结构,再获取不同的内容。 请各位朋友看一下这个错误? 非常感谢 Traceback (most recent call last): File "/usr/loc
0
回答数

100 scrapy for循环问题

这是scrapy pipelines模块,运行爬虫的话一次性迭代出所有内容,而不是逐个迭代,请问原因是什么,加上索引count可以解决这个问题def parse(self, response):for