首页 新闻 搜索 专区 学院
当前位置: 博问标签 /爬虫/未解决/ 已解决
3
回答数

200 C# 多线程爬虫任务怎么分配?

网页爬虫,用户输入一批网址加入未爬取队列,多线程进行爬取。提取网页里的链接又加入到未爬取队列。循环往复。那我的运行逻辑是使用并发集合ConcurrentQueue,开启线程循环取任务,访问网址提取源码
1
回答数

50 flask的app.py

有没有大佬能做出图中的效果,源码在下面,不会组合 服务器程序app.py app.py from flask import Flask, render_template, request app =
0
回答数

selenium爬取网页版抖音遇到问题?

你们好,我用selenium爬抖音视频,是先爬的url存在txt,然后一个个的读txt爬取详情,运行过程中,程序经常就自己停在下载视频那块代码不走了,也不报错,网页也停在详情页,也没有验证码之类的反爬
0
回答数

有朋友使用过pypcap吗,遇到了问题,希望高人指点

想实现一个python代码版抓包工具,了解到pypcap可以用于网络请求抓包, 想获取请求体参数,请求响应数据 有点不知道怎么做,希望有经验的朋友看一下 下面是我找到的demo和资料 import p
2
回答数

为什么我使用python爬取的照片不能打开呢??

import requests import re import os if name=="main": if not os.path.exists("F:/tupian"): os.mkdir("F
3
回答数

爬虫 使用有道的翻译 实现实时翻译时 遇到的问题

先看代码 import requests import json # 伪装UA head = { 'Accept': 'application/json, text/javascript, */*;
1
回答数

这个日期辅助表怎么保存或者引用,才能让下面程序获取到

import datetime from scipy.io import savemat def create_assist_date(datestart=None, dateend=None): #
1
回答数

关于如何获得12306的列车信息

先看代码 data_t = requests.get('https://kyfw.12306.cn/otn/leftTicket/query?',headers = { "User-Agent":"M
0
回答数

关于selenium遇到的问题

在我使用selenium时 发现有两个东西很像 options = webdriver.ChromeOptions()和options = Options() options = webdriver.
0
回答数

10 JSP(成员变量)

初学JSP,书中说的是每一个用户发送一个请求,那么Tamcat服务器就会为用户启动一个线程。虽然每一个线程执行java程序片时的局部变量不一样,但是每一个线程操作的成员变量却是一个东西。 下面是JSP
3
回答数

python 爬虫 关于如何获取网页的json文件

中午耍谋音 看见一个老哥花了一年半的时间 将一个 地下水 换到了 流浪者 我以为用曲别针换别墅只是故事而已 没想到啊没想到 所有有了这个帖子因为 咱平常也会玩玩c**g 加上最近在学爬虫 所以突发奇想
1
回答数

python 爬虫 使用代理ip访问某宝时遇到的问题

这是代码 import random from selenium import webdriver from selenium.webdriver import ChromeOptions impor
2
回答数

scrapy爬虫数据清洗

我想要左边红框里的是数据但是,可以从右边看到数据都是几个字几个字的,我以前都只会用xpath通过标签定位一个内容,像这样零散的怎么办啊,大佬帮帮忙,谢谢啦
1
回答数

5 scrapy框架怎么用啊

我这里print(response)怎么什么都没显示,是哪里出问题了啊,麻烦大佬了,帮我看看
1
回答数

50 怎么去除爬下来的网站中的一些转义字符串

from bs4 import BeautifulSoup import re import urllib.request, urllib.error def first(baseurl): retu
2
回答数

50 我用python爬下来网址怎么带个括号和单引号啊

我看别人最后都是一串一串网址没有【】和''的 from bs4 import BeautifulSoup import re import urllib.request, urllib.error i
3
回答数

20 美团动态字体解密,如何每次获取到当前页面的字体库?

美团动态字体解密,如何每次获取到当前页面的字体库?
4
回答数

80 抓取到的数据不知如何解密

抓取到某平台的实时公交到站数据,想要解密不知如何下手,尝试几种方法均不成功,请大神给个解决思路 (数据公开非商业用途) url : “http://bus.qingdaonews.com/new/ap
1
回答数

10 关于Scrapy报错 Error while obtaining start requests

class SouthwestSpider(scrapy.Spider): name = 'southwest' # allowed_domains = ['www.xxx.com'] # start
0
回答数

50 求助于关于Scrapy的ImagesPipeline管道无法进行图片的储存

爬虫文件 class Dm5Spider(scrapy.Spider): name = 'dm5' # allowed_domains = ['www.xxx.com'] start_urls = [
0
回答数

如何用phantomjs爬取改网站

https://pubs.acs.org/doi/10.1021/acschembio.9b00869
4
回答数

50 谁能帮我看看这段代码错在哪了?

想写一个把爬虫数据写入MySQL的代码,数据库设置为id和name,主键是id而且设置成递增。 import pymysql import requests from lxml import etre
1
回答数

200 现金悬赏:Github图片爬虫

如上图的Github页面,网站页面中有许多链接,每个链接都是一张图片,需要一个爬虫程序把所有图片都爬下来保存到指定目录并删除损坏的文件(不保证链接全部可以打开)。链接即图片本身。 图片数量级最少上千,
0
回答数

15 很好奇旺旺商家的手机号数据从哪来的?

网上看到有的软件能根据旺旺号查到手机号,想知道他们从哪弄的数据,爬虫是爬不到的,难道阿里这么强的公司被盗库了,不太可能,最大的可能就是内部人员在卖数据?大家说这些数据怎么来的,如果真是爬虫在哪爬的?