首页 新闻 搜索 专区 学院
当前位置: 博问标签 /爬虫/未解决/ 已解决
0
回答数

10 JSP(成员变量)

初学JSP,书中说的是每一个用户发送一个请求,那么Tamcat服务器就会为用户启动一个线程。虽然每一个线程执行java程序片时的局部变量不一样,但是每一个线程操作的成员变量却是一个东西。 下面是JSP
3
回答数

python 爬虫 关于如何获取网页的json文件

中午耍谋音 看见一个老哥花了一年半的时间 将一个 地下水 换到了 流浪者 我以为用曲别针换别墅只是故事而已 没想到啊没想到 所有有了这个帖子因为 咱平常也会玩玩c**g 加上最近在学爬虫 所以突发奇想
1
回答数

python 爬虫 使用代理ip访问某宝时遇到的问题

这是代码 import random from selenium import webdriver from selenium.webdriver import ChromeOptions impor
2
回答数

scrapy爬虫数据清洗

我想要左边红框里的是数据但是,可以从右边看到数据都是几个字几个字的,我以前都只会用xpath通过标签定位一个内容,像这样零散的怎么办啊,大佬帮帮忙,谢谢啦
1
回答数

5 scrapy框架怎么用啊

我这里print(response)怎么什么都没显示,是哪里出问题了啊,麻烦大佬了,帮我看看
1
回答数

50 怎么去除爬下来的网站中的一些转义字符串

from bs4 import BeautifulSoup import re import urllib.request, urllib.error def first(baseurl): retu
2
回答数

50 我用python爬下来网址怎么带个括号和单引号啊

我看别人最后都是一串一串网址没有【】和''的 from bs4 import BeautifulSoup import re import urllib.request, urllib.error i
3
回答数

20 美团动态字体解密,如何每次获取到当前页面的字体库?

美团动态字体解密,如何每次获取到当前页面的字体库?
4
回答数

80 抓取到的数据不知如何解密

抓取到某平台的实时公交到站数据,想要解密不知如何下手,尝试几种方法均不成功,请大神给个解决思路 (数据公开非商业用途) url : “http://bus.qingdaonews.com/new/ap
1
回答数

10 关于Scrapy报错 Error while obtaining start requests

class SouthwestSpider(scrapy.Spider): name = 'southwest' # allowed_domains = ['www.xxx.com'] # start
0
回答数

50 求助于关于Scrapy的ImagesPipeline管道无法进行图片的储存

爬虫文件 class Dm5Spider(scrapy.Spider): name = 'dm5' # allowed_domains = ['www.xxx.com'] start_urls = [
0
回答数

如何用phantomjs爬取改网站

https://pubs.acs.org/doi/10.1021/acschembio.9b00869
4
回答数

50 谁能帮我看看这段代码错在哪了?

想写一个把爬虫数据写入MySQL的代码,数据库设置为id和name,主键是id而且设置成递增。 import pymysql import requests from lxml import etre
1
回答数

200 现金悬赏:Github图片爬虫

如上图的Github页面,网站页面中有许多链接,每个链接都是一张图片,需要一个爬虫程序把所有图片都爬下来保存到指定目录并删除损坏的文件(不保证链接全部可以打开)。链接即图片本身。 图片数量级最少上千,
0
回答数

15 很好奇旺旺商家的手机号数据从哪来的?

网上看到有的软件能根据旺旺号查到手机号,想知道他们从哪弄的数据,爬虫是爬不到的,难道阿里这么强的公司被盗库了,不太可能,最大的可能就是内部人员在卖数据?大家说这些数据怎么来的,如果真是爬虫在哪爬的?
1
回答数

python3 运行scrapy1.8错误

2020-03-14 13:26:51 [twisted] CRITICAL: Unhandled Error Traceback (most recent call last): File "/us
2
回答数

为什么返回的数据只有第一个,不科学啊,大佬看看!

import requests from bs4 import BeautifulSoup def get_movie(): headers = {'user-agent':'Mozilla/5.0
1
回答数

20 请问一下,这样的数据如何逐条爬取呢?

http://push2his.eastmoney.com/api/qt/stock/fflow/daykline/get?lmt=0&klt=101&secid=1.000001&secid2=0.
3
回答数

有关Java web爬虫问题

源代码如下: import java.util.Scanner; import java.util.ArrayList; public class WebCrawler { public static
2
回答数

5 selenium爬取的还是加载前的代码

今天尝试使用selenium爬取一个动态加载的网站,可是爬取到的还是它的js脚本,而不是F12后得到的html,这是为什么呢? from selenium import webdriver impor
2
回答数

100 爬虫求助之同一url在window正常爬取,到Linux上却返回403

源码:import requests headers = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US; rv:1.0.
4
回答数

100 爬虫得到的部分汉字乱码

为什么我得到数据有的乱码,有的不乱吗???乱码该怎么解决???求大佬赐教!!! 代码: import requests from pyquery import PyQuery as pq respon
4
回答数

20 爬虫的正则表达式相关,两个一样的标签怎么抓第二个

这个是网站上的标签 <td style="color:#458c3f; font-size:14px; font-weight:bold; padding-top:15px; padding-bott
0
回答数

5 seleniumlibrary3.3.0

seleniumlibrary3.3版本支持phantomJS吗,如果支持的话,如何使用