首页新闻找找看学习计划
当前位置: 博问标签 /爬虫/未解决/ 已解决
1
回答数

100 flask实现异步响应HTTP请求

最近做一个flask+selenium的模拟登录爬虫爬数据的接口;我这边需要提供一个HTTP的异步回调接口,具体来说就是公司php后台发送请求给我之后,我模拟登录判断登录是否成功,如果不成功返回一个状
1
回答数

50 Python爬虫,用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,有没有大神帮忙看一下,谢谢

用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,代理设置后还是提示需要登录。 settings内的FirstSplash.middlewares.FirstsplashSpi
1
回答数

5 我有一个list和一个str,如何将他们合在一起输出

reference = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id=" reg = r'.+/(\d+)_p0' re
1
回答数

10 爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑

爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑
2
回答数

5 selenium技术求助

1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 print("Test-1") 5 browser.get("h
4
回答数

100 求助!爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到

爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到 import urllib.request url='http://www.airbnb.cn/api/v2/explore_t
1
回答数

10 scrapy爬虫问题

代码: -- coding: utf-8 -- import scrapy from scrapy import Spider, Request class ZhihuSpider(Spider):
0
回答数

5 scrapy-splash总是报504 Gateway Time-out

使用的scrapy-splash 渲染的页面,总是出现http://localhost:8050/render.html> (failed 2 times): 504 Gateway Time-out
4
回答数

200 Python获取下载PDF链接

网站产品页面:https://www.cn-abs.com/product.html#/detail/document 背景:这个网站需要注册登录,其中PDF文件需要付费下载,但是我有付费下载账号,可
3
回答数

5 请教关于爬虫提取非结构化数据的方法

网络爬虫,提取指定网页上的结构化数据,可以采用各种方法,自己编写爬虫,使用框架等。 那么提取网页上非结构化数据,要用什么方法呢?有人说用正则去匹配,但它不是非结构化的么?怎么用通用的方法去获取? 也可
2
回答数

如何用java自动登录百度云网盘

如何用java自动登录百度云网盘呢,我想写一个自动登录百度云网盘的程序
1
回答数

30 百度云盘分享资源链接爬取

网上说share/home?UK= 可以爬取用户分享文件。但是已经爬了3800个页面都没有任何信息。都是木有分享。现在应该怎样爬取呀?
3
回答数

30 如何用C#控制网页

该如何实现用c#的控件webbrowser控制一个网页,进行登录之后,自动对需要查询的数据输入相关的查询条件并进行下载呢
4
回答数

15 c#如何下载动态生成的附件

我想在c#代码中下载该附件 http://www.nbcs.gov.cn/module/download/downfile.jsp?classid=0&filename=44950b3deb254b6
2
回答数

20 关于 python 爬虫中json的keyerror疑问

今天在模仿一本书上的爬虫例程练习时发现了一个问题, 下面是出现问题的那段代码所在定义的函数 执行程序后发现返回了下面的错误, 我就输出了一下content的内容,发现返回None 但是网页json格式
0
回答数

50 pyspider一运行就退出

run后点播放一出现error:error,cmd里就显示pyspider退出
2
回答数

60 用Python进行爬虫,将爬取结果存入mysql数据库内中,程序出错

这是怎么回事呢,之前简单的通过python可以在数据库中插入数据,如下:
3
回答数

100 现在还可以抓取微博仅自己可见内容吗

私是一个门外汉,不知有无方法可知他人仅自己可见微博内容, 如若有,又该何以操作,斗请先生告知。 承谢!
8
回答数

20 最近在写一个爬虫程序,遇到一点小问题

爬取的内容来自视频网站,网站大部分链接都是迅雷的,我通过解密后得到链接如下: http://dl74.80s.im:920/1610/%E7%BE%8E%E4%B8%BD%E4%BA%BA%E7%94
2
回答数

15 有很多筛选条件的列表页面如何防止被爬虫排列组合式的大量爬?

有一个网站,支持泛域名,即有很多二级域名,国内每个城市一个二级域名, 网站有一个列表页面,有很多筛选条件,不同条件的组合对应不同的url 那么这样就有无数个url 。 这样导致搜索引擎的爬虫不停的的爬
2
回答数

lucene7.4.0版本设置字段不分词,没有找到相关的类

我是用Field.Index没有发现这个静态属性了。Field中只有Store。现在要设置不分词字段应该怎么设置呢?谢谢!
3
回答数

30 python进程池爬取速度比单线程还要慢,求一个可实现的代码方案。

一开始,我用的是单线程,爬完整个397页数据用时,其中如果不向数据库写入是62秒左右,如果要向数据库插入文件需要82秒 后来我改成了进程池模式,4进程爬取,其中不向数据库写入用时22秒左右 ,进程池4
2
回答数

10 Jsoup的post怎么把请求体带上

最近在做爬虫,用到Jsoup,但是对Jsoup还不是很了解。现在有一个请求需要把请求体带过去,但是只会用请求参数的方式传过去,所以也没有获取到相关的数据。 但是我用Postman工具把请求体带上发送请
3
回答数

5 java模拟浏览器登录,进去爬取数据

最近都在弄爬虫,网上的资料中java爬虫的资料并不多,主要的还是python的爬虫资料。我弄了好久也没把那个网站登录进去,主要是该网站登录跳转,而且请求很多,。有哪位老铁能指导一下吗?