首页新闻找找看学习计划
当前位置:博问标签/爬虫/未解决/ 已解决
3
回答数

已解决问题 java 正则表达式 很多字符的组合 有多个 怎么写

比如 "1223801,122380,14瀚华01,111" 我想 写 任意字符 + , 的组合 有多个 怎么写? [\d]+ 表示数字 有多个 不能写 [[\d]+]+ 这样吧 加括号就成了分组了
1
回答数

已解决问题 10 如何使用c# sharppcap获取打开网址的html内容

我要抓取一个网页的html,但是那个网站的屏蔽比较严重,连用iframe都会屏蔽,控制台用ajax获取内容也会屏蔽,无奈想通过抓包来抓取数据,程序调用浏览器打开对应网址来获取html,发现fiddle
2
回答数

已解决问题 100 如何用python提取网页中框架的源代码

直接查看源代码的话是看不到这一段的,我在审查元素内找到了这个网页的地址,直接看的话 是可以看到源代码 但是新窗口打开的话 ,里面的内容是空白的怎么用python把这一段源代码抓出来啊 求提供思路 图1
5
回答数

已解决问题 100 爬虫如何抓取网站下拉动态加载的内容。

写一个java的小爬虫程序,爬知乎的一些内容。 知乎的关注者列表,页面拉到底加载更多的一些联系人 ajax实现,我ajax并不是很懂。 现在我想获得这部分新加载的数据,如何获取, 很多答案就是分析ht
1
回答数

已解决问题 5 如何爬取 某些网页,返回一些奇怪的东西?

连接都是我使用fidder 抓包手机App得到的,可是我明明看到的是 刷新出的是页面,可是连接 却返回这么个东西,没有jison什么的 这是个什么玩意,怎么搞? 1. http://data.howb
1
回答数

已解决问题 5 关于 拼接 url 连接 参数的问题(爬虫)。

是不是 有些网站 防止重复提交,还会对参数 之间 进行校验? 比如这里 我找的 后台请求的json的链接: 第一页: http://www.igoldenbeta.com:8080/cn-jsfund
5
回答数

已解决问题 50 非移动端模拟淘宝登录和店铺数据采集

请有做过的人讲讲。 具体需求就是: 模拟淘宝帐号登录 采集淘宝店的所有宝贝, 去重复
4
回答数

已解决问题 10 java 爬虫.Js网页如何爬取?

http://www.yanglee.com/product/product_Lists.aspx?ptype=105015016005 js网站的爬取,我一般就是看页面上请求后台数据 的地址,然后获
4
回答数

已解决问题 10 各大浏览器采集,防屏蔽策略

请问有没有大神做过搜索引擎新闻采集? 针对搜索引擎,采集过快会被屏蔽是如何做处理的? 目前我们的采集速度是1秒 采集一次但是还是会被屏蔽掉。 如果做到长时间采集不会被屏蔽掉了? 目前是伪装的谷歌的请求
3
回答数

已解决问题 20 求一个好点的网络爬虫源码不? 不限语言 只看速度

求一个好点的网络爬虫源码不? 不限语言 只看速度 先给20分 如果有好的源码 可以加分(100分)
4
回答数

已解决问题 关于爬虫可以绕过登录是怎么实现的呢?

网上老是有人说自己写的爬虫绕开 会员登录 去下载只有会员才能看的小说,这是如何实现的?谢谢!!1