首页 新闻 搜索 专区 学院
当前位置: 博问标签 /爬虫/未解决/ 已解决
2
回答数

python 使用webdriver 打开浏览器,但不能send_keys

python3.5 _x86 system:win7_x64 selenium3.5 geckodriver:0.18.0_x64 firefox:55_x64 代码: from selenium i
5
回答数

60 C# httpWebrequest模拟登陆网站(有验证码)

C# httpWebrequest模拟登陆网站,已经写好post只提交了验证码cookie一直提示验证码验证失败! https://user.qunar.com/passport/login.jsp?
5
回答数

20 爬虫——用requests在拉勾网爬取职位信息

在Python2.x版本上写的代码 ,运行代码的时候报错,KeyError: 'content' 代码如下: import json import requests def get_job_infor
0
回答数

爬虫——在京东商城爬取狗粮

问题:用BeautifulSoup在京东商城爬取狗粮信息时,对于价格这一点,个别价格爬取的结果是None ,然后分析网页源代码,发现不是在同一个标签,然而尝试调试异常或者另给标签,都没爬取到完整信息点
1
回答数

爬虫——爬取到图片链接但下载到本地失败

#encoding:utf-8 import urllib2 import re #获取网页内容 def getHtml(url): req=urllib2.Request(url) req.add_
1
回答数

5 scrapy

# -*- coding: utf-8 -*- import scrapy import requests import os import sys import io from scrapy.sel
0
回答数

50 pyspider的分布式运行成功,2台slave跑,但是时间并没有缩短问题?

1台master,2台slave,虚拟机ubuntu下,配置如下:一。master的config.json:{ "taskdb": "mysql+taskdb://pyspider:pyspider-
2
回答数

10 python多线程爬虫,提高效率,怎么写?

1 import requests 2 from scrapy.selector import Selector 3 import scrapy,datetime 4 import threading
2
回答数

10 webhttprequest爬取asp.net站点报错:Invalid postback or callback argument……

最近因为工作需要,写一个爬虫小软件。 一切基本就绪后突然在爬一个ASP.NET站点时出问题了,错误信息如下: 505|error|500|Invalid postback or callback ar
1
回答数

5 python爬虫怎么输入代理服务器的账号密码

公司用的代理服务器上网,每次打开网页都要弹出代理的账号密码进行验证,我现在想在python里实现登录代理,应该怎么做?
2
回答数

20 C# 提取有效页面url

做一个小爬虫,给定一个基地址,然后爬取页面的a标签。 现在遇到一个问题就是a标签会出现 相对地址、js代码,请问怎么屏蔽掉js代码的a标签,相对链接的加上域名
0
回答数

100 scrapy for循环问题

这是scrapy pipelines模块,运行爬虫的话一次性迭代出所有内容,而不是逐个迭代,请问原因是什么,加上索引count可以解决这个问题def parse(self, response):for
2
回答数

20 关于爬取图片的问题,怎么爬取网站结构

比如,给定一个网站的首页,然后爬取图片这个没问题,但是怎么爬取网站的所有图片呢?就是网站的目录结构
0
回答数

java爬虫获取div

我先获取到了上面的DIV,然后在获得下一级的时候报错,我要获取的那个div内容框没有id、name和class,我该咋获取,好困惑啊。。。
0
回答数

爬虫xpath匹配不出内容

用谷歌浏览器的xpath helper可以匹配出信息,但是运行以下代码却没有打印出内容from lxml import etreefrom urllib import requesturl = "ht
1
回答数

100 获取优酷视频的播放的真实播放地址

目前当前网站上获取的方式都已经过时了。不能获取到了,望大神能在出一个java源码获取优酷视频的源码,谢谢了。大神
2
回答数

PHP curl爬虫如何爬取动态网页?

PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……另外可能写一个通用的爬取AJAX
4
回答数

5 C# winform爬虫程序 ,最大线程数设置为多少合适?

C# winform爬虫程序 ,最大线程数设置为多少合适? 这个最大线程数,和物理内核数还是逻辑内核数有关?
1
回答数

20 通过Heritrix或者webmagic如何爬去指定url里的内容?

现在我有host和url,如何爬取这个url对应的内容呢?求大神指教,用heritrix或者webmagic
2
回答数

10 Heritrix如何提取指定网页的URL,只要URL,其他内容不要

我在做一个爬虫的测试,Heritrix如何才能把其他的内容过滤掉,我只要输入指定链接里面包含的链接?麻烦知道的大神说下,谢谢
1
回答数

5 DHT网络中知道infohash如何获取BT种子的信息?

我已经找到了一个dht的包 获取到了获取到了对应infohash的peer的ip和端口号,接下来怎么做可以获取到种子里的信息呢?
1
回答数

15 天猫商城 获取商品上下架时间的方法

如何获得天猫商品的上下架时间,在哪里能找到上下架时间戳?