首页 新闻 搜索 专区 学院
当前位置: 博问标签 /爬虫/未解决/ 已解决
0
回答数

50 php curl 百度 验证码模拟 登录 错误信息是7

用php的curl 去模拟登录 百度 但是遇到错误提示 是登录错误7 是验证码的错误 是这个errInfo":{ "no": "500002", "msg": "vcodeErr.codestr us
3
回答数

java 正则表达式 很多字符的组合 有多个 怎么写

比如 "1223801,122380,14瀚华01,111" 我想 写 任意字符 + , 的组合 有多个 怎么写? [\d]+ 表示数字 有多个 不能写 [[\d]+]+ 这样吧 加括号就成了分组了
1
回答数

10 如何使用c# sharppcap获取打开网址的html内容

我要抓取一个网页的html,但是那个网站的屏蔽比较严重,连用iframe都会屏蔽,控制台用ajax获取内容也会屏蔽,无奈想通过抓包来抓取数据,程序调用浏览器打开对应网址来获取html,发现fiddle
2
回答数

100 如何用python提取网页中框架的源代码

直接查看源代码的话是看不到这一段的,我在审查元素内找到了这个网页的地址,直接看的话 是可以看到源代码 但是新窗口打开的话 ,里面的内容是空白的怎么用python把这一段源代码抓出来啊 求提供思路 图1
1
回答数

5 请问这个地址 怎么抓包?

http://shixin.court.gov.cn/unitMore.do 点击任意一个查看后, 看它的详情 从火狐的网络里面 看到地址 ,但自己复制打开以后 是 一个文件。。 用 记事本 查看这个
5
回答数

5 爬虫获取不到网页源码

用了python和c#爬这个网站https://exchange.xforce.ibmcloud.com/activity 但是就只能得到上图中的代码,不能获取全部内容,不知道怎么回事,求教大家~
5
回答数

100 爬虫如何抓取网站下拉动态加载的内容。

写一个java的小爬虫程序,爬知乎的一些内容。 知乎的关注者列表,页面拉到底加载更多的一些联系人 ajax实现,我ajax并不是很懂。 现在我想获得这部分新加载的数据,如何获取, 很多答案就是分析ht
1
回答数

5 如何爬取 某些网页,返回一些奇怪的东西?

连接都是我使用fidder 抓包手机App得到的,可是我明明看到的是 刷新出的是页面,可是连接 却返回这么个东西,没有jison什么的 这是个什么玩意,怎么搞? 1. http://data.howb
1
回答数

5 关于 拼接 url 连接 参数的问题(爬虫)。

是不是 有些网站 防止重复提交,还会对参数 之间 进行校验? 比如这里 我找的 后台请求的json的链接: 第一页: http://www.igoldenbeta.com:8080/cn-jsfund
1
回答数

10 使用Threading.EnterWriteLock多线程并发问题

写了个多线程爬虫,每次取得数据后都向日志文件写入一条信息。但是使用EnterWriteLock之后还是会随机出现 文件被进程占用无法访问的错误。代码如下 /// 将日志信息写入文件 /// </sum
2
回答数

40 爬虫使用代理爬取网页,响应的URI和页面不一致

最近刚接触爬虫,打算把58下的所有类别的网页下载下来。为了绕开验证码问题我选择了换代理的方式。判断响应URI是不是验证码的服务器support.58.com, 但是爬取了几十条后发现58响应我的URI
0
回答数

10 如何获取这个sougou微信链接的内容

内容详情请点击问题查看!
1
回答数

同一个网站获取不同页面的相同部分

如题,怎么样获取同一个网站中不同页面的相同部分,望大神指导
6
回答数

50 非移动端模拟淘宝登录和店铺数据采集

请有做过的人讲讲。 具体需求就是: 模拟淘宝帐号登录 采集淘宝店的所有宝贝, 去重复
4
回答数

10 java 爬虫.Js网页如何爬取?

http://www.yanglee.com/product/product_Lists.aspx?ptype=105015016005 js网站的爬取,我一般就是看页面上请求后台数据 的地址,然后获
4
回答数

10 各大浏览器采集,防屏蔽策略

请问有没有大神做过搜索引擎新闻采集? 针对搜索引擎,采集过快会被屏蔽是如何做处理的? 目前我们的采集速度是1秒 采集一次但是还是会被屏蔽掉。 如果做到长时间采集不会被屏蔽掉了? 目前是伪装的谷歌的请求
1
回答数

10 python爬虫抓取google搜索结果出现403的问题?

最近学习了下爬虫,觉得python不错。试着写了个抓取百度搜索结果的爬虫,成功抓取成功了。我试着依样画葫芦,想抓取一下google的搜索结果。结果,却失败了。下面是我的抓取代码: 没有成功抓到搜索结果
3
回答数

10 C# 网络爬虫模拟登陆新浪微博

内容详情请点击问题查看!
2
回答数

100 nginx 日志中发现,百度爬虫在地址里加入通配符/../, 然后被nginx阻止了, 有疑问

早上起来查看nginx.error.log发现如下日志 2013/06/27 08:57:25 [error] 14492#0: *2955437 access forbidden by rule,
1
回答数

80 关于新闻资讯类信息爬虫具体实现的请教?

最近做毕设,需要用爬虫爬取各大新闻媒体和一些行业资讯网站的数据,想知道爬取的思路。我知道是分析html提取超链接,有几个疑点:1、对于这一类的爬虫,是针对性的抓取还是全网爬取比较好?2、如果针对性的抓
3
回答数

20 求一个好点的网络爬虫源码不? 不限语言 只看速度

求一个好点的网络爬虫源码不? 不限语言 只看速度 先给20分 如果有好的源码 可以加分(100分)
3
回答数

关于爬虫可以绕过登录是怎么实现的呢?

网上老是有人说自己写的爬虫绕开 会员登录 去下载只有会员才能看的小说,这是如何实现的?谢谢!!1
1
回答数

10 网站设置了反爬虫,怎么办

要爬取网页,如www.39.net网站里的数据,但是该网页却设置了反爬虫,不能把网页爬下来,请问,如何才能把网页爬下来,谢谢,急用。。。。
4
回答数

20 如何将文件中的"\u3010"读成一个字符

内容详情请点击问题查看!
3
回答数

15 关于新浪微博页面提取所要数据的问题

内容详情请点击问题查看!