做页面采集是每提取一个页面数据就加入数据库吗

悬赏园豆：10 [已解决问题] 解决于 2013-11-10 09:45

需要采集的数据比较多,在采集的过程中可能会增加新的类,大家一般都是每提取一个页面数据就加入数据库,还是提取的时候先加入一个vector里面最后一起加入数据库啊?

Jingle Guo | 初学一级 | 园豆：134
提问于：2013-11-08 16:15

< >

最佳答案

可能后者会好一些

收获园豆：6

会长 | 专家六级 |园豆：12401 | 2013-11-08 17:04

其他回答(3)

我当时的做法比你多了一步，为了提高采集效率，分为下载Html文件，和分析文件后入库2个步骤。

下载后，数据库只保存一个本地文件路径。

分析时，只提取出有用的数据，然后文件删除掉，因为文件下载下来还是很占空间的。

关于效率，楼上已经说了，不要一条信息就保存一次数据库，否则效率会低一点。

如果采集的数据量不大，也不需要分步采集了。

收获园豆：3

袁家小黑球 | 园豆：1045 (小虾三级) | 2013-11-08 17:58

你这种做法是下载文件的语言和分析文件的语言不是一个吧?不然我想不到先进行下载的优势.

支持(0) 反对(0) Jingle Guo | 园豆：134 (初学一级) | 2013-11-08 18:07

好像做信息收集的都做索引的吧，把信息处理下，存一些关键信息，lucene是存在文件中的。

收获园豆：1

angelshelter | 园豆：9887 (大侠五级) | 2013-11-08 20:51

学习

大芝麻 | 园豆：4 (初学一级) | 2013-11-09 13:55

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。