需要采集的数据比较多,在采集的过程中可能会增加新的类,大家一般都是每提取一个页面数据就加入数据库,还是提取的时候先加入一个vector里面最后一起加入数据库啊?
可能后者会好一些
我当时的做法比你多了一步,为了提高采集效率,分为下载Html文件,和分析文件后入库2个步骤。
下载后,数据库只保存一个本地文件路径。
分析时,只提取出有用的数据,然后文件删除掉,因为文件下载下来还是很占空间的。
关于效率,楼上已经说了,不要一条信息就保存一次数据库,否则效率会低一点。
如果采集的数据量不大,也不需要分步采集了。
你这种做法是下载文件的语言和分析文件的语言不是一个吧?不然我想不到先进行下载的优势.
好像做信息收集的都做索引的吧,把信息处理下,存一些关键信息,lucene是存在文件中的。
学习