首页新闻找找看学习计划

各大浏览器采集,防屏蔽策略

0
悬赏园豆:10 [已解决问题] 解决于 2014-10-25 11:54

请问有没有大神做过搜索引擎新闻采集?

针对搜索引擎,采集过快会被屏蔽是如何做处理的?

目前我们的采集速度是1秒 采集一次但是还是会被屏蔽掉。

如果做到长时间采集不会被屏蔽掉了?

目前是伪装的谷歌的请求头。

 

小弟在这里跪谢各位大神了?

        分数有点少以后补齐来。  谢谢了 

问题补充:

为啥每次提问都是这样了???都没有一个满意的答案?

是我问他没有描述清楚吗?

 

还是我分给少了?

实在没分了,求路过的大神帮忙看下。

落幕残情的主页 落幕残情 | 初学一级 | 园豆:9
提问于:2014-09-15 17:06
< >
分享
最佳答案
0

采集软件设计成仿浏览器解析,直接读取源码的很容易被屏蔽,js加载的内容页都采集不了!

收获园豆:10
veling | 菜鸟二级 |园豆:214 | 2014-09-16 21:23

你好已经使用 WEBKIT实现过得,只采集HTML源码和JS,然后JS做缓存。
可是还是会被屏蔽 因为采集速度过快。谢谢你的回答。

落幕残情 | 园豆:9 (初学一级) | 2014-09-16 22:48
其他回答(3)
0

关注。 

519740105 | 园豆:5810 (大侠五级) | 2014-09-15 17:12

这个问题,要经历过的人才能给你很好的帮助。没经历过的人,要么纸上谈兵式的根据个人经验和臆测猜想,要么就是自己去做一番实验。

如果是自己做实验的话,说真的,不要说你给的是10分,再多分又有什么价值?能当RMB不?

在这里,应该是:

1、我有热忱助人的精神

2、我刚好路过,看到了。

3、问题刚好我能解决或者我能提供一些参考意见或建议

绝对不会跟分数有关,如果跟分数有关,那些几百分的,还不趋之若鹜?这里的分又不能当饭吃。

支持(0) 反对(0) 519740105 | 园豆:5810 (大侠五级) | 2014-09-17 09:06

@519740105: 谢谢你的回答。

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-09-22 09:13
0

关注。

晓菜鸟 | 园豆:2564 (老鸟四级) | 2014-09-15 20:26
0

1.ADSL自动重新拨号

2.自动切换代理

iImax | 园豆:3138 (老鸟四级) | 2014-09-15 21:11

已经搞过了,治标不治本。

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-09-15 22:35

@落幕残情:   换了有效的IP,自然不会屏蔽啊。曾经做过国航机票采集,换代理解决

支持(0) 反对(0) iImax | 园豆:3138 (老鸟四级) | 2014-09-17 21:10

@iImax: 你的目标网站是多少个?目前我们的目标网站  国内外各大搜索引擎,带来IP肯定会被识别出来的呀。。。

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-09-17 21:12
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册