首页新闻找找看学习计划
当前位置: 博问标签 /爬虫/未解决/ 已解决
4
回答数

10 各大浏览器采集,防屏蔽策略

请问有没有大神做过搜索引擎新闻采集? 针对搜索引擎,采集过快会被屏蔽是如何做处理的? 目前我们的采集速度是1秒 采集一次但是还是会被屏蔽掉。 如果做到长时间采集不会被屏蔽掉了? 目前是伪装的谷歌的请求
1
回答数

10 python爬虫抓取google搜索结果出现403的问题?

最近学习了下爬虫,觉得python不错。试着写了个抓取百度搜索结果的爬虫,成功抓取成功了。我试着依样画葫芦,想抓取一下google的搜索结果。结果,却失败了。下面是我的抓取代码: 没有成功抓到搜索结果
3
回答数

10 C# 网络爬虫模拟登陆新浪微博

内容详情请点击问题查看!
3
回答数

100 nginx 日志中发现,百度爬虫在地址里加入通配符/../, 然后被nginx阻止了, 有疑问

早上起来查看nginx.error.log发现如下日志 2013/06/27 08:57:25 [error] 14492#0: *2955437 access forbidden by rule,
1
回答数

80 关于新闻资讯类信息爬虫具体实现的请教?

最近做毕设,需要用爬虫爬取各大新闻媒体和一些行业资讯网站的数据,想知道爬取的思路。我知道是分析html提取超链接,有几个疑点:1、对于这一类的爬虫,是针对性的抓取还是全网爬取比较好?2、如果针对性的抓
3
回答数

20 求一个好点的网络爬虫源码不? 不限语言 只看速度

求一个好点的网络爬虫源码不? 不限语言 只看速度 先给20分 如果有好的源码 可以加分(100分)
4
回答数

关于爬虫可以绕过登录是怎么实现的呢?

网上老是有人说自己写的爬虫绕开 会员登录 去下载只有会员才能看的小说,这是如何实现的?谢谢!!1
1
回答数

10 网站设置了反爬虫,怎么办

要爬取网页,如www.39.net网站里的数据,但是该网页却设置了反爬虫,不能把网页爬下来,请问,如何才能把网页爬下来,谢谢,急用。。。。
4
回答数

20 如何将文件中的"\u3010"读成一个字符

内容详情请点击问题查看!
3
回答数

15 关于新浪微博页面提取所要数据的问题

内容详情请点击问题查看!
1
回答数

30 file_get_contents()函数如何使用

内容详情请点击问题查看!
1
回答数

10 perl文本处理

内容详情请点击问题查看!
1
回答数

20 perl处理网页信息

内容详情请点击问题查看!