首页新闻找找看学习计划
当前位置: 博问标签 /爬虫/未解决/ 已解决
4
回答数

50 谁能帮我看看这段代码错在哪了?

想写一个把爬虫数据写入MySQL的代码,数据库设置为id和name,主键是id而且设置成递增。 import pymysql import requests from lxml import etre
1
回答数

200 现金悬赏:Github图片爬虫

如上图的Github页面,网站页面中有许多链接,每个链接都是一张图片,需要一个爬虫程序把所有图片都爬下来保存到指定目录并删除损坏的文件(不保证链接全部可以打开)。链接即图片本身。 图片数量级最少上千,
0
回答数

15 很好奇旺旺商家的手机号数据从哪来的?

网上看到有的软件能根据旺旺号查到手机号,想知道他们从哪弄的数据,爬虫是爬不到的,难道阿里这么强的公司被盗库了,不太可能,最大的可能就是内部人员在卖数据?大家说这些数据怎么来的,如果真是爬虫在哪爬的?
0
回答数

python3 运行scrapy1.8错误

2020-03-14 13:26:51 [twisted] CRITICAL: Unhandled Error Traceback (most recent call last): File "/us
0
回答数

python3 urllib.request.HTTPHandler() 调试模式无效

python3 urllib.request.HTTPHandler() 调试模式无效
2
回答数

为什么返回的数据只有第一个,不科学啊,大佬看看!

import requests from bs4 import BeautifulSoup def get_movie(): headers = {'user-agent':'Mozilla/5.0
1
回答数

20 请问一下,这样的数据如何逐条爬取呢?

http://push2his.eastmoney.com/api/qt/stock/fflow/daykline/get?lmt=0&klt=101&secid=1.000001&secid2=0.
3
回答数

有关Java web爬虫问题

源代码如下: import java.util.Scanner; import java.util.ArrayList; public class WebCrawler { public static
2
回答数

5 selenium爬取的还是加载前的代码

今天尝试使用selenium爬取一个动态加载的网站,可是爬取到的还是它的js脚本,而不是F12后得到的html,这是为什么呢? from selenium import webdriver impor
2
回答数

100 爬虫求助之同一url在window正常爬取,到Linux上却返回403

源码:import requests headers = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US; rv:1.0.
4
回答数

100 爬虫得到的部分汉字乱码

为什么我得到数据有的乱码,有的不乱吗???乱码该怎么解决???求大佬赐教!!! 代码: import requests from pyquery import PyQuery as pq respon
4
回答数

20 爬虫的正则表达式相关,两个一样的标签怎么抓第二个

这个是网站上的标签 <td style="color:#458c3f; font-size:14px; font-weight:bold; padding-top:15px; padding-bott
0
回答数

5 seleniumlibrary3.3.0

seleniumlibrary3.3版本支持phantomJS吗,如果支持的话,如何使用
2
回答数

30 爬虫下载附件的问题,附件下载不下来,有大佬解答一下吗

这个是目标网站:http://www.liyang.gov.cn/default.php?mod=article&do=detail&tid=146308363&sid= 然后附件下不下来,也没有报错
2
回答数

50 爬虫爬下来的怎么都是乱码...

’’’ import requests import re import os from lxml.etree import HTML def request_link(link): """链接请求"
1
回答数

80 python爬虫相关

要做一个30多个网站的爬虫,大多是table元素,有一些嵌套在了 frame里。有的需要下载附件,一开始想使用selenium,但是颅内构思了一下速度太慢了。想问问大佬们有什么好方法可以快速的拿下来呢
1
回答数

20 Jsoup超时

1 package cn.xls.util; 2 3 import cn.xls.pojo.City; 4 import org.jsoup.Jsoup; 5 import org.jsoup.nod
3
回答数

如何实现一个爬虫系统,有帮忙解决的吗

需要的技术可以分享一下给我吗?谢谢 1、做一个新闻领域自动化爬虫框架,要求,一时间上不间断,二能够适配多个主流新闻网站源,爬下来后去标签化,统一存储。 2、程序需要有一定的健壮性,鲁棒性,因为要7*2
4
回答数

200 求JAVA大佬帮帮忙!爬虫方面的

现在想爬取一个图片验证码: 正常来说拿到上图那样就对了, 但是现在爬取的这个验证码返回的一个页面,不知道图片验证码该怎么抓, 图片验证码地址:http://jx.189.cn/public/v4/co
3
回答数

c#抓取网站的网站地图内容(小白)

c#抓取网站的网站地图内容,比如https://pizzeria-latina.nl/sitemap.xml里面https://pizzeria-latina.nl/sitemap1.xml、http
1
回答数

100 flask实现异步响应HTTP请求

最近做一个flask+selenium的模拟登录爬虫爬数据的接口;我这边需要提供一个HTTP的异步回调接口,具体来说就是公司php后台发送请求给我之后,我模拟登录判断登录是否成功,如果不成功返回一个状
1
回答数

50 Python爬虫,用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,有没有大神帮忙看一下,谢谢

用scrapy框架和scrapy-splash爬豆瓣读书设置代理不起作用,代理设置后还是提示需要登录。 settings内的FirstSplash.middlewares.FirstsplashSpi
1
回答数

5 我有一个list和一个str,如何将他们合在一起输出

reference = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id=" reg = r'.+/(\d+)_p0' re
1
回答数

10 爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑

爬取汽车之家口碑这个是不是必须要从app手机端入手,有点摸不着头脑
2
回答数

5 selenium技术求助

1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 print("Test-1") 5 browser.get("h