首页新闻找找看学习计划
当前位置:博问标签/爬虫/未解决/ 已解决
0
回答数

待解决问题 5 seleniumlibrary3.3.0

seleniumlibrary3.3版本支持phantomJS吗,如果支持的话,如何使用
3
回答数

待解决问题 如何实现一个爬虫系统,有帮忙解决的吗

需要的技术可以分享一下给我吗?谢谢 1、做一个新闻领域自动化爬虫框架,要求,一时间上不间断,二能够适配多个主流新闻网站源,爬下来后去标签化,统一存储。 2、程序需要有一定的健壮性,鲁棒性,因为要7*2
1
回答数

待解决问题 50 Python爬虫,用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,有没有大神帮忙看一下,谢谢

用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,代理设置后还是提示需要登录。 settings内的FirstSplash.middlewares.FirstsplashSpi
1
回答数

待解决问题 10 爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑

爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑
2
回答数

待解决问题 5 selenium技术求助

1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 print("Test-1") 5 browser.get("h
0
回答数

待解决问题 5 scrapy-splash总是报504 Gateway Time-out

使用的scrapy-splash 渲染的页面,总是出现http://localhost:8050/render.html> (failed 2 times): 504 Gateway Time-out
3
回答数

待解决问题 30 如何用C#控制网页

该如何实现用c#的控件webbrowser控制一个网页,进行登录之后,自动对需要查询的数据输入相关的查询条件并进行下载呢
4
回答数

待解决问题 15 c#如何下载动态生成的附件

我想在c#代码中下载该附件 http://www.nbcs.gov.cn/module/download/downfile.jsp?classid=0&filename=44950b3deb254b6
2
回答数

待解决问题 20 关于 python 爬虫中json的keyerror疑问

今天在模仿一本书上的爬虫例程练习时发现了一个问题, 下面是出现问题的那段代码所在定义的函数 执行程序后发现返回了下面的错误, 我就输出了一下content的内容,发现返回None 但是网页json格式
2
回答数

待解决问题 15 有很多筛选条件的列表页面如何防止被爬虫排列组合式的大量爬?

有一个网站,支持泛域名,即有很多二级域名,国内每个城市一个二级域名, 网站有一个列表页面,有很多筛选条件,不同条件的组合对应不同的url 那么这样就有无数个url 。 这样导致搜索引擎的爬虫不停的的爬
3
回答数

待解决问题 30 python进程池爬取速度比单线程还要慢,求一个可实现的代码方案。

一开始,我用的是单线程,爬完整个397页数据用时,其中如果不向数据库写入是62秒左右,如果要向数据库插入文件需要82秒 后来我改成了进程池模式,4进程爬取,其中不向数据库写入用时22秒左右 ,进程池4
1
回答数

待解决问题 15 爬虫关于爬到只有标签,没有内容<html><head></head><body></body></html>是怎么回事

学习爬虫阶段,看到有爬某个网站的图片,然后通过requests访问,返回response.text的时候,缺只爬到了<html><head></head><body></body></html>,头标