用蚁群算法
能给我发分具体的实现代码吗 小弟是新手 发到我邮箱即可 谢谢啦
你百度一下蚁群算法,先进行分词,再进行搜索,然后对结果进行筛选,还是比较麻烦的,我没弄过,只能给你思路,还得靠你自己摸索,祝你早日实现功能
@我爱白开水: 嗯 谢谢
说明URL是常用的搜索条件,给它建立索引试试看吧,应该会快一些。
纯10w不多,放内存都没啥问题,直接遍内存一下就出来了。
10w对于mssql,查一下就出来了,也很快。
如果再往上,自己在数据存储上花点功能,比如把域名建成分类,这样查询时就可以按域名缩小范围。
我是URL 去重复
网络爬虫在 筛选URL 不去读取重复URL ,10W确实少了点 ,目前我能做到的是 蜘蛛每天可以读取100W网页
对URL进行hash,32bit的hash就足够了,使用hashcode做index,查询速度是客观的。我现在也在做抓取工作,采用的方式就是这种,数据库文件体积8G+了。
周公说的对...
这个东西用hashtable,肯定满足你的需求
能否发到 邮箱里边 185367128@qq.com
@落幕残情:
就是周公的说的。sorry,没有具体实现。
蜘蛛程序中用来判断重复URL通常用的是布隆过滤器(Bloom Filter),http://www.cnblogs.com/TianFang/archive/2012/03/04/2379342.html