首页新闻找找看学习计划
当前位置: 博问标签 /爬虫/未解决/ 已解决
2
回答数

100 爬虫求助之同一url在window正常爬取,到Linux上却返回403

源码:import requests headers = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US; rv:1.0.
4
回答数

100 爬虫得到的部分汉字乱码

为什么我得到数据有的乱码,有的不乱吗???乱码该怎么解决???求大佬赐教!!! 代码: import requests from pyquery import PyQuery as pq respon
4
回答数

20 爬虫的正则表达式相关,两个一样的标签怎么抓第二个

这个是网站上的标签 <td style="color:#458c3f; font-size:14px; font-weight:bold; padding-top:15px; padding-bott
0
回答数

5 seleniumlibrary3.3.0

seleniumlibrary3.3版本支持phantomJS吗,如果支持的话,如何使用
2
回答数

30 爬虫下载附件的问题,附件下载不下来,有大佬解答一下吗

这个是目标网站:http://www.liyang.gov.cn/default.php?mod=article&do=detail&tid=146308363&sid= 然后附件下不下来,也没有报错
2
回答数

50 爬虫爬下来的怎么都是乱码...

’’’ import requests import re import os from lxml.etree import HTML def request_link(link): """链接请求"
1
回答数

80 python爬虫相关

要做一个30多个网站的爬虫,大多是table元素,有一些嵌套在了 frame里。有的需要下载附件,一开始想使用selenium,但是颅内构思了一下速度太慢了。想问问大佬们有什么好方法可以快速的拿下来呢
1
回答数

20 Jsoup超时

1 package cn.xls.util; 2 3 import cn.xls.pojo.City; 4 import org.jsoup.Jsoup; 5 import org.jsoup.nod
3
回答数

如何实现一个爬虫系统,有帮忙解决的吗

需要的技术可以分享一下给我吗?谢谢 1、做一个新闻领域自动化爬虫框架,要求,一时间上不间断,二能够适配多个主流新闻网站源,爬下来后去标签化,统一存储。 2、程序需要有一定的健壮性,鲁棒性,因为要7*2
4
回答数

200 求JAVA大佬帮帮忙!爬虫方面的

现在想爬取一个图片验证码: 正常来说拿到上图那样就对了, 但是现在爬取的这个验证码返回的一个页面,不知道图片验证码该怎么抓, 图片验证码地址:http://jx.189.cn/public/v4/co
3
回答数

c#抓取网站的网站地图内容(小白)

c#抓取网站的网站地图内容,比如https://pizzeria-latina.nl/sitemap.xml里面https://pizzeria-latina.nl/sitemap1.xml、http
1
回答数

100 flask实现异步响应HTTP请求

最近做一个flask+selenium的模拟登录爬虫爬数据的接口;我这边需要提供一个HTTP的异步回调接口,具体来说就是公司php后台发送请求给我之后,我模拟登录判断登录是否成功,如果不成功返回一个状
1
回答数

50 Python爬虫,用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,有没有大神帮忙看一下,谢谢

用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,代理设置后还是提示需要登录。 settings内的FirstSplash.middlewares.FirstsplashSpi
1
回答数

5 我有一个list和一个str,如何将他们合在一起输出

reference = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id=" reg = r'.+/(\d+)_p0' re
1
回答数

10 爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑

爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑
2
回答数

5 selenium技术求助

1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 print("Test-1") 5 browser.get("h
4
回答数

100 求助!爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到

爬取json接口的数据,返回的数据不完整,但用浏览器中(如图)可以看到 import urllib.request url='http://www.airbnb.cn/api/v2/explore_t
1
回答数

10 scrapy爬虫问题

代码: -- coding: utf-8 -- import scrapy from scrapy import Spider, Request class ZhihuSpider(Spider):
0
回答数

5 scrapy-splash总是报504 Gateway Time-out

使用的scrapy-splash 渲染的页面,总是出现http://localhost:8050/render.html> (failed 2 times): 504 Gateway Time-out
4
回答数

200 Python获取下载PDF链接

网站产品页面:https://www.cn-abs.com/product.html#/detail/document 背景:这个网站需要注册登录,其中PDF文件需要付费下载,但是我有付费下载账号,可
3
回答数

5 请教关于爬虫提取非结构化数据的方法

网络爬虫,提取指定网页上的结构化数据,可以采用各种方法,自己编写爬虫,使用框架等。 那么提取网页上非结构化数据,要用什么方法呢?有人说用正则去匹配,但它不是非结构化的么?怎么用通用的方法去获取? 也可
2
回答数

如何用java自动登录百度云网盘

如何用java自动登录百度云网盘呢,我想写一个自动登录百度云网盘的程序
1
回答数

30 百度云盘分享资源链接爬取

网上说share/home?UK= 可以爬取用户分享文件。但是已经爬了3800个页面都没有任何信息。都是木有分享。现在应该怎样爬取呀?
3
回答数

30 如何用C#控制网页

该如何实现用c#的控件webbrowser控制一个网页,进行登录之后,自动对需要查询的数据输入相关的查询条件并进行下载呢
4
回答数

15 c#如何下载动态生成的附件

我想在c#代码中下载该附件 http://www.nbcs.gov.cn/module/download/downfile.jsp?classid=0&filename=44950b3deb254b6