首页新闻找找看学习计划
2
回答数

待解决问题 Python 发送带附件的邮件,有些文件能发送有些文件发送不了?

代码都是一样的。 我做的测试: 同一个收件箱,不同的两个Excel文件 A文件发送3遍,接收到的时候收件箱没有附件 B文件发送3遍,接收到的时候收件箱都有附件 把A、B的文件名字对换,结果还是原来的B
0
回答数

已关闭问题 scrapy 异常状态码使用代理只有第一个请求生效?

下载中间件的部分代码: def process_response(self, request, response, spider): status_code = [403] if response.s
0
回答数

待解决问题 scrapy 忽略证书?

查了各方文档,最后定位在DOWNLOAD_HANDLERS_BASE这里。 { 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHa
3
回答数

待解决问题 Python requests 返回的源码和浏览器看到的不一样,headers都带了

import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36
1
回答数

回答被采纳 scrapy crawlspider 中的deny设置无效?

Rule(LinkExtractor(allow=rule.get("allow", None), restrict_xpaths=rule.get("restrict_xpaths", ""),de
0
回答数

已关闭问题 链接是通过时间戳分页的,爬虫怎么处理?

举例网站:http://finance.123.com.cn/china/ 下拉加载分页的时候,链接是时间戳形式的 http://finance.123.com.cn/china/?start=156
0
回答数

已关闭问题 5 Python for循环问题

if cc['filter']: for key,value in cc['filter'].items(): for cs in value: if re.search(cs,item[key])
0
回答数

已关闭问题 Python 正则表达式替换问题

有一段文本:'(来源:新浪网)一、题材前瞻 1、MicroLED显示技术突破量产关卡商用进程有望进一步加速、国星光电、华灿光电。 (来源:中国网财经)' 需要把“(来源:新浪网)”、“ (来源:中国网
2
回答数

已解决问题 Python selenium 获取到的cookie和自己查看的不一样?

用的get_cookies()方法获取到的cookie是这样的:[{u'domain': u'.weixin.***.com', u'secure': False, u'value': u'BBB25
0
回答数

已关闭问题 scrapy 运行的过程中,为什么中间会有很长时间的停顿?

如图,这中间十分钟干啥了... emmm....猜测了一下,有可能是上面最后一条链接连接的时间太长了?但是也不至于10分钟吧,也没个超时啥的或者是重试(Retrying)耗费的时间太久了?会不会有可能
3
回答数

回答被采纳 scrapy 如何把列表页内容和详情页的内容存在一个item?

举例: https://www.baidu.com/s?&wd=123百度的搜索页面相当于列表页,在列表页抓取了标题、时间、URL,接着还要去抓到的URL里抓取内容。 问题来了,怎么把列表页抓到的和在
0
回答数

已关闭问题 Scrapy ItemLoader 的疑问,多条数据合并存储了

标题没起好,确实想不来怎么形容...news_info里有多个news。news的数据:`['https://www.xxxx.com.cn/news/...', 'xxx学会为自己“找乐子”', '
0
回答数

已关闭问题 crawlspider能不能只爬当前链接的数据?

比如,给一个起始链接:http://music.ent.163.com/ Rule: rules = [ Rule(LinkExtractor(allow=r'/news/\d+/\d+/\d+.ht
2
回答数

已解决问题 从配置文件读取正则表达式,读取后类型是字符串

从配置文件读取到正则表达式,但是读取之后的类型是字符串,也就不具有正则查找的效果了...例如配置文件的内容是这样的: pattern_dict = ['re.compile(.*?日历\(.*?\))
0
回答数

已关闭问题 20 crawlspider中deny的设置无效?

在Rule中设置了deny,但是并未生效: 代码如下: '123123':( Rule(LinkExtractor(allow='\d+-\d+-\d+/.*?-.*?.shtml', deny=('
1
回答数

待解决问题 redis 远程主机强迫关闭了一个现有的连接

远程带密码访问的时候: 远程不带密码访问: 远程计算机本机访问的时候: 已经设置:密码、protected-mode no 、bind 0.0.0.0
1
回答数

待解决问题 scrapy Rule如何解析json格式的链接?

rules = { 'sina':( Rule(LinkExtractor(allow='/\d+-\d+-\d+\/.*?-.*?.shtml', deny=('http://search.sina
1
回答数

回答被采纳 crawlspider如何修改Rule解析过的链接?

经过Rule解析的链接还需要再加工一下,例如: rules = { 'eastmoney':( Rule(LinkExtractor(allow='/a/\d+.html', restrict_xpa
2
回答数

已解决问题 selenium 无法切换iframe

<iframe sandbox="allow-forms allow-modals allow-orientation-lock allow-pointer-lock allow-same-origi
1
回答数

待解决问题 5 scrapy 抓取到的内容是一段一段的,不是整体

示例页面: finance.eastmoney.com/news/1345,20181129995332038.html item['Content'] = response.xpath('//div
1
回答数

待解决问题 正则表达式匹配问题?

如图,1号区域了2号区域完全相同,但是1号是完整的区域,2号+3号才是完整的区域,所以就导致了2号的部分区域与1号完全相同,在正则匹配的时候 按照1号区域写则3号匹配不到,按照2号区域写,1号又会贪婪
1
回答数

待解决问题 正则怎么替换多处?

s = '<img data-ratio="0.23333333333333334" data-type="gif" data-w="1050" data-src="https://mmbiz.qpi
1
回答数

已解决问题 正则匹配的时候,标识符在后边怎么处理?

在做正则匹配的时候,标识在后边咋办,正则表达式: 1 .*?\[.(*?)\]<br/> 这个<br/>才是标识符...就是想根据<br/>来截取内容匹配的字符串是: <div style="disp
1
回答数

已解决问题 5 Python 怎么把抓到的文字和图片保存到word?

场景是这样的: 已经把文章的文本和图片都获取到了,怎么能保存成word呢(保存后文字、图片顺序和网页相同)。 ps:文章的文本:文字内容加图片的超链接,类似: 1 <p>实现数字化结算:企业可利用分布
3
回答数

已解决问题 Python怎么读取Excel的行数和列数?

在把数据写入Excel的过程中遇到了问题,写入的数据是for循环进去的,所以是分多次写入(每次for循环写入一次,一次有几十条数据)。但是在第二次for循环写数据时,就会覆盖掉第一次写的数据,就是后一