首页新闻找找看学习计划
当前位置: 博问标签 /爬虫/未解决/ 已解决
1
回答数

爬虫——爬取到图片链接但下载到本地失败

#encoding:utf-8 import urllib2 import re #获取网页内容 def getHtml(url): req=urllib2.Request(url) req.add_
1
回答数

5 scrapy

# -*- coding: utf-8 -*- import scrapy import requests import os import sys import io from scrapy.sel
0
回答数

50 pyspider的分布式运行成功,2台slave跑,但是时间并没有缩短问题?

1台master,2台slave,虚拟机ubuntu下,配置如下:一。master的config.json:{ "taskdb": "mysql+taskdb://pyspider:pyspider-
2
回答数

10 python多线程爬虫,提高效率,怎么写?

1 import requests 2 from scrapy.selector import Selector 3 import scrapy,datetime 4 import threading
2
回答数

10 webhttprequest爬取asp.net站点报错:Invalid postback or callback argument……

最近因为工作需要,写一个爬虫小软件。 一切基本就绪后突然在爬一个ASP.NET站点时出问题了,错误信息如下: 505|error|500|Invalid postback or callback ar
1
回答数

5 python爬虫怎么输入代理服务器的账号密码

公司用的代理服务器上网,每次打开网页都要弹出代理的账号密码进行验证,我现在想在python里实现登录代理,应该怎么做?
2
回答数

20 C# 提取有效页面url

做一个小爬虫,给定一个基地址,然后爬取页面的a标签。 现在遇到一个问题就是a标签会出现 相对地址、js代码,请问怎么屏蔽掉js代码的a标签,相对链接的加上域名
0
回答数

100 scrapy for循环问题

这是scrapy pipelines模块,运行爬虫的话一次性迭代出所有内容,而不是逐个迭代,请问原因是什么,加上索引count可以解决这个问题def parse(self, response):for
2
回答数

20 关于爬取图片的问题,怎么爬取网站结构

比如,给定一个网站的首页,然后爬取图片这个没问题,但是怎么爬取网站的所有图片呢?就是网站的目录结构
0
回答数

java爬虫获取div

我先获取到了上面的DIV,然后在获得下一级的时候报错,我要获取的那个div内容框没有id、name和class,我该咋获取,好困惑啊。。。
0
回答数

爬虫xpath匹配不出内容

用谷歌浏览器的xpath helper可以匹配出信息,但是运行以下代码却没有打印出内容from lxml import etreefrom urllib import requesturl = "ht
1
回答数

100 获取优酷视频的播放的真实播放地址

目前当前网站上获取的方式都已经过时了。不能获取到了,望大神能在出一个java源码获取优酷视频的源码,谢谢了。大神
2
回答数

PHP curl爬虫如何爬取动态网页?

PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……另外可能写一个通用的爬取AJAX
4
回答数

5 C# winform爬虫程序 ,最大线程数设置为多少合适?

C# winform爬虫程序 ,最大线程数设置为多少合适? 这个最大线程数,和物理内核数还是逻辑内核数有关?
1
回答数

20 通过Heritrix或者webmagic如何爬去指定url里的内容?

现在我有host和url,如何爬取这个url对应的内容呢?求大神指教,用heritrix或者webmagic
2
回答数

10 Heritrix如何提取指定网页的URL,只要URL,其他内容不要

我在做一个爬虫的测试,Heritrix如何才能把其他的内容过滤掉,我只要输入指定链接里面包含的链接?麻烦知道的大神说下,谢谢
1
回答数

5 DHT网络中知道infohash如何获取BT种子的信息?

我已经找到了一个dht的包 获取到了获取到了对应infohash的peer的ip和端口号,接下来怎么做可以获取到种子里的信息呢?
1
回答数

15 天猫商城 获取商品上下架时间的方法

如何获得天猫商品的上下架时间,在哪里能找到上下架时间戳?
0
回答数

50 php curl 百度 验证码模拟 登录 错误信息是7

用php的curl 去模拟登录 百度 但是遇到错误提示 是登录错误7 是验证码的错误 是这个errInfo":{ "no": "500002", "msg": "vcodeErr.codestr us
3
回答数

java 正则表达式 很多字符的组合 有多个 怎么写

比如 "1223801,122380,14瀚华01,111" 我想 写 任意字符 + , 的组合 有多个 怎么写? [\d]+ 表示数字 有多个 不能写 [[\d]+]+ 这样吧 加括号就成了分组了
1
回答数

10 如何使用c# sharppcap获取打开网址的html内容

我要抓取一个网页的html,但是那个网站的屏蔽比较严重,连用iframe都会屏蔽,控制台用ajax获取内容也会屏蔽,无奈想通过抓包来抓取数据,程序调用浏览器打开对应网址来获取html,发现fiddle
2
回答数

100 如何用python提取网页中框架的源代码

直接查看源代码的话是看不到这一段的,我在审查元素内找到了这个网页的地址,直接看的话 是可以看到源代码 但是新窗口打开的话 ,里面的内容是空白的怎么用python把这一段源代码抓出来啊 求提供思路 图1