首页 新闻 赞助 找找看

网页抓取程序越来越慢

0
悬赏园豆:20 [已解决问题] 解决于 2011-09-05 16:31

用winform写的一个网页论坛抓取程序,根据选择的关键字和时间对论坛新闻进行筛选,用的多线程,抓取到3万多条数据后就变的很慢。。几分钟还不抓取一个,代码里应该没有涉及到死锁吧,程序还能工作,刚开始抓取的速度也不算慢。线程下只是用了sleep让耗时的线程让出时间片,是这个原因还是其他的什么??

Rookier的主页 Rookier | 小虾三级 | 园豆:652
提问于:2011-08-24 17:21
< >
分享
最佳答案
0

你要是天天抓的话人家会封你IP的,就搞个单线程抓算了,抓一个sleep 300ms 然后抓的时候定个超时时间,一个抓不到就往下抓

收获园豆:5
.net小鸟 | 菜鸟二级 |园豆:210 | 2011-08-24 18:10
问题是我有200多个关键字,20多个论坛要监测。。如果是单线程,那是不是太没效率了。。
Rookier | 园豆:652 (小虾三级) | 2011-08-25 09:12
一个论坛下有200多个关键字.
Rookier | 园豆:652 (小虾三级) | 2011-08-25 09:13
其他回答(3)
0

楼上说的不错,当时我在上家公司的时候,那个搜索程序就是用了4个IP轮流从百度谷歌等网站上抓新闻。

收获园豆:5
顾晓北 | 园豆:10844 (专家六级) | 2011-08-25 09:00
0

写一些日志,看问题出在哪里。

网络问题?记录每个线程从抓到解析内容的时间,看是你这边问题还是他那边问题。

还是数据库越来越大了?

收获园豆:5
Astar | 园豆:40805 (高人七级) | 2011-08-25 17:55
0

你抓取的服务器承受不了吧

收获园豆:5
慧☆星 | 园豆:5640 (大侠五级) | 2011-08-25 18:01
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册