首页 新闻 会员 周边

做页面采集是每提取一个页面数据就加入数据库吗

0
悬赏园豆:10 [已解决问题] 解决于 2013-11-10 09:45
需要采集的数据比较多,在采集的过程中可能会增加新的类,大家一般都是每提取一个页面数据就加入数据库,还是提取的时候先加入一个vector里面最后一起加入数据库啊?
Jingle Guo的主页 Jingle Guo | 初学一级 | 园豆:134
提问于:2013-11-08 16:15
< >
分享
最佳答案
0

可能后者会好一些

  1. 可以再入库前检查数据,看是否符合要求
  2. 一次连接数据库写入多行数据,省得频繁打开关闭数据库连接
收获园豆:6
会长 | 专家六级 |园豆:12401 | 2013-11-08 17:04
其他回答(3)
0

我当时的做法比你多了一步,为了提高采集效率,分为下载Html文件,和分析文件后入库2个步骤。

下载后,数据库只保存一个本地文件路径。

分析时,只提取出有用的数据,然后文件删除掉,因为文件下载下来还是很占空间的。

关于效率,楼上已经说了,不要一条信息就保存一次数据库,否则效率会低一点。

如果采集的数据量不大,也不需要分步采集了。

收获园豆:3
袁家小黑球 | 园豆:1045 (小虾三级) | 2013-11-08 17:58

你这种做法是下载文件的语言和分析文件的语言不是一个吧?不然我想不到先进行下载的优势.

支持(0) 反对(0) Jingle Guo | 园豆:134 (初学一级) | 2013-11-08 18:07
0

好像做信息收集的都做索引的吧,把信息处理下,存一些关键信息,lucene是存在文件中的。

收获园豆:1
angelshelter | 园豆:9887 (大侠五级) | 2013-11-08 20:51
0

学习

大芝麻 | 园豆:4 (初学一级) | 2013-11-09 13:55
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册