首页新闻找找看学习计划
当前位置: 博问标签 /爬虫/未解决/ 已解决
1
回答数

20 Jsoup超时

1 package cn.xls.util; 2 3 import cn.xls.pojo.City; 4 import org.jsoup.Jsoup; 5 import org.jsoup.nod
2
回答数

如何实现一个爬虫系统,有帮忙解决的吗

需要的技术可以分享一下给我吗?谢谢 1、做一个新闻领域自动化爬虫框架,要求,一时间上不间断,二能够适配多个主流新闻网站源,爬下来后去标签化,统一存储。 2、程序需要有一定的健壮性,鲁棒性,因为要7*2
4
回答数

200 求JAVA大佬帮帮忙!爬虫方面的

现在想爬取一个图片验证码: 正常来说拿到上图那样就对了, 但是现在爬取的这个验证码返回的一个页面,不知道图片验证码该怎么抓, 图片验证码地址:http://jx.189.cn/public/v4/co
3
回答数

c#抓取网站的网站地图内容(小白)

c#抓取网站的网站地图内容,比如https://pizzeria-latina.nl/sitemap.xml里面https://pizzeria-latina.nl/sitemap1.xml、http
1
回答数

100 flask实现异步响应HTTP请求

最近做一个flask+selenium的模拟登录爬虫爬数据的接口;我这边需要提供一个HTTP的异步回调接口,具体来说就是公司php后台发送请求给我之后,我模拟登录判断登录是否成功,如果不成功返回一个状
1
回答数

50 Python爬虫,用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,有没有大神帮忙看一下,谢谢

用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,代理设置后还是提示需要登录。 settings内的FirstSplash.middlewares.FirstsplashSpi
1
回答数

5 我有一个list和一个str,如何将他们合在一起输出

reference = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id=" reg = r'.+/(\d+)_p0' re
1
回答数

10 爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑

爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑
2
回答数

5 selenium技术求助

1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 print("Test-1") 5 browser.get("h
4
回答数

100 求助!爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到

爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到 import urllib.request url='http://www.airbnb.cn/api/v2/explore_t
1
回答数

10 scrapy爬虫问题

代码: -- coding: utf-8 -- import scrapy from scrapy import Spider, Request class ZhihuSpider(Spider):
0
回答数

5 scrapy-splash总是报504 Gateway Time-out

使用的scrapy-splash 渲染的页面,总是出现http://localhost:8050/render.html> (failed 2 times): 504 Gateway Time-out
4
回答数

200 Python获取下载PDF链接

网站产品页面:https://www.cn-abs.com/product.html#/detail/document 背景:这个网站需要注册登录,其中PDF文件需要付费下载,但是我有付费下载账号,可
3
回答数

5 请教关于爬虫提取非结构化数据的方法

网络爬虫,提取指定网页上的结构化数据,可以采用各种方法,自己编写爬虫,使用框架等。 那么提取网页上非结构化数据,要用什么方法呢?有人说用正则去匹配,但它不是非结构化的么?怎么用通用的方法去获取? 也可
2
回答数

如何用java自动登录百度云网盘

如何用java自动登录百度云网盘呢,我想写一个自动登录百度云网盘的程序
1
回答数

30 百度云盘分享资源链接爬取

网上说share/home?UK= 可以爬取用户分享文件。但是已经爬了3800个页面都没有任何信息。都是木有分享。现在应该怎样爬取呀?
3
回答数

30 如何用C#控制网页

该如何实现用c#的控件webbrowser控制一个网页,进行登录之后,自动对需要查询的数据输入相关的查询条件并进行下载呢
4
回答数

15 c#如何下载动态生成的附件

我想在c#代码中下载该附件 http://www.nbcs.gov.cn/module/download/downfile.jsp?classid=0&filename=44950b3deb254b6
2
回答数

20 关于 python 爬虫中json的keyerror疑问

今天在模仿一本书上的爬虫例程练习时发现了一个问题, 下面是出现问题的那段代码所在定义的函数 执行程序后发现返回了下面的错误, 我就输出了一下content的内容,发现返回None 但是网页json格式
0
回答数

50 pyspider一运行就退出

run后点播放一出现error:error,cmd里就显示pyspider退出
2
回答数

60 用Python进行爬虫,将爬取结果存入mysql数据库内中,程序出错

这是怎么回事呢,之前简单的通过python可以在数据库中插入数据,如下:
3
回答数

100 现在还可以抓取微博仅自己可见内容吗

私是一个门外汉,不知有无方法可知他人仅自己可见微博内容, 如若有,又该何以操作,斗请先生告知。 承谢!
8
回答数

20 最近在写一个爬虫程序,遇到一点小问题

爬取的内容来自视频网站,网站大部分链接都是迅雷的,我通过解密后得到链接如下: http://dl74.80s.im:920/1610/%E7%BE%8E%E4%B8%BD%E4%BA%BA%E7%94
2
回答数

15 有很多筛选条件的列表页面如何防止被爬虫排列组合式的大量爬?

有一个网站,支持泛域名,即有很多二级域名,国内每个城市一个二级域名, 网站有一个列表页面,有很多筛选条件,不同条件的组合对应不同的url 那么这样就有无数个url 。 这样导致搜索引擎的爬虫不停的的爬