首页新闻找找看学习计划
当前位置: 博问标签 /爬虫/未解决/ 已解决
2
回答数

20 关于爬取图片的问题,怎么爬取网站结构

比如,给定一个网站的首页,然后爬取图片这个没问题,但是怎么爬取网站的所有图片呢?就是网站的目录结构
0
回答数

java爬虫获取div

我先获取到了上面的DIV,然后在获得下一级的时候报错,我要获取的那个div内容框没有id、name和class,我该咋获取,好困惑啊。。。
0
回答数

爬虫xpath匹配不出内容

用谷歌浏览器的xpath helper可以匹配出信息,但是运行以下代码却没有打印出内容from lxml import etreefrom urllib import requesturl = "ht
1
回答数

100 获取优酷视频的播放的真实播放地址

目前当前网站上获取的方式都已经过时了。不能获取到了,望大神能在出一个java源码获取优酷视频的源码,谢谢了。大神
2
回答数

PHP curl爬虫如何爬取动态网页?

PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……另外可能写一个通用的爬取AJAX
1
回答数

20 怎么使用爬虫采集知乎上的问题和答案

要采集知乎上的问题和答案以及评论等这些数据,一般的采集器都无法做到。我也一直在搜索这方面相关的采集和爬虫,终于发现了一个叫神箭手云爬虫的(地址是:http://www.shenjianshou.cn/
5
回答数

5 C# winform爬虫程序 ,最大线程数设置为多少合适?

C# winform爬虫程序 ,最大线程数设置为多少合适? 这个最大线程数,和物理内核数还是逻辑内核数有关?
1
回答数

20 通过Heritrix或者webmagic如何爬去指定url里的内容?

现在我有host和url,如何爬取这个url对应的内容呢?求大神指教,用heritrix或者webmagic
2
回答数

10 Heritrix如何提取指定网页的URL,只要URL,其他内容不要

我在做一个爬虫的测试,Heritrix如何才能把其他的内容过滤掉,我只要输入指定链接里面包含的链接?麻烦知道的大神说下,谢谢
1
回答数

5 DHT网络中知道infohash如何获取BT种子的信息?

我已经找到了一个dht的包 获取到了获取到了对应infohash的peer的ip和端口号,接下来怎么做可以获取到种子里的信息呢?
1
回答数

15 天猫商城 获取商品上下架时间的方法

如何获得天猫商品的上下架时间,在哪里能找到上下架时间戳?
0
回答数

50 php curl 百度 验证码模拟 登录 错误信息是7

用php的curl 去模拟登录 百度 但是遇到错误提示 是登录错误7 是验证码的错误 是这个errInfo":{ "no": "500002", "msg": "vcodeErr.codestr us
3
回答数

java 正则表达式 很多字符的组合 有多个 怎么写

比如 "1223801,122380,14瀚华01,111" 我想 写 任意字符 + , 的组合 有多个 怎么写? [\d]+ 表示数字 有多个 不能写 [[\d]+]+ 这样吧 加括号就成了分组了
1
回答数

10 如何使用c# sharppcap获取打开网址的html内容

我要抓取一个网页的html,但是那个网站的屏蔽比较严重,连用iframe都会屏蔽,控制台用ajax获取内容也会屏蔽,无奈想通过抓包来抓取数据,程序调用浏览器打开对应网址来获取html,发现fiddle
2
回答数

100 如何用python提取网页中框架的源代码

直接查看源代码的话是看不到这一段的,我在审查元素内找到了这个网页的地址,直接看的话 是可以看到源代码 但是新窗口打开的话 ,里面的内容是空白的怎么用python把这一段源代码抓出来啊 求提供思路 图1
1
回答数

5 请问这个地址 怎么抓包?

http://shixin.court.gov.cn/unitMore.do 点击任意一个查看后, 看它的详情 从火狐的网络里面 看到地址 ,但自己复制打开以后 是 一个文件。。 用 记事本 查看这个
5
回答数

5 爬虫获取不到网页源码

用了python和c#爬这个网站https://exchange.xforce.ibmcloud.com/activity 但是就只能得到上图中的代码,不能获取全部内容,不知道怎么回事,求教大家~
5
回答数

100 爬虫如何抓取网站下拉动态加载的内容。

写一个java的小爬虫程序,爬知乎的一些内容。 知乎的关注者列表,页面拉到底加载更多的一些联系人 ajax实现,我ajax并不是很懂。 现在我想获得这部分新加载的数据,如何获取, 很多答案就是分析ht
1
回答数

5 如何爬取 某些网页,返回一些奇怪的东西?

连接都是我使用fidder 抓包手机App得到的,可是我明明看到的是 刷新出的是页面,可是连接 却返回这么个东西,没有jison什么的 这是个什么玩意,怎么搞? 1. http://data.howb
1
回答数

5 关于 拼接 url 连接 参数的问题(爬虫)。

是不是 有些网站 防止重复提交,还会对参数 之间 进行校验? 比如这里 我找的 后台请求的json的链接: 第一页: http://www.igoldenbeta.com:8080/cn-jsfund
1
回答数

10 使用Threading.EnterWriteLock多线程并发问题

写了个多线程爬虫,每次取得数据后都向日志文件写入一条信息。但是使用EnterWriteLock之后还是会随机出现 文件被进程占用无法访问的错误。代码如下 /// 将日志信息写入文件 /// </sum
2
回答数

40 爬虫使用代理爬取网页,响应的URI和页面不一致

最近刚接触爬虫,打算把58下的所有类别的网页下载下来。为了绕开验证码问题我选择了换代理的方式。判断响应URI是不是验证码的服务器support.58.com, 但是爬取了几十条后发现58响应我的URI
0
回答数

10 如何获取这个sougou微信链接的内容

内容详情请点击问题查看!