首页 新闻 会员 周边 捐助

那位大神能提供告诉下 10W数据 快速查询的算法谢谢

0
悬赏园豆:80 [已解决问题] 解决于 2012-07-02 11:41

那位大神能提供告诉下  10W数据 快速查询的算法谢谢

我自己在写一个网络蜘蛛玩  里边的URL去重  要是用常规方法 需要花很久的时间

我希望能以算法实现快速查找

 

希望路过的  都给吓意见吗  小弟在这里 谢谢啦

问题补充:

是关于网络蜘蛛不读取重复的URL问题    有好的建议或者好点的算法  可以发我的QQ邮箱:185367128@qq.com

谢谢

落幕残情的主页 落幕残情 | 初学一级 | 园豆:34
提问于:2012-06-07 13:11
< >
分享
最佳答案
0

用蚁群算法

收获园豆:75
墨猦 | 小虾三级 |园豆:668 | 2012-06-08 08:55

能给我发分具体的实现代码吗   小弟是新手  发到我邮箱即可  谢谢啦

落幕残情 | 园豆:34 (初学一级) | 2012-06-08 08:58

你百度一下蚁群算法,先进行分词,再进行搜索,然后对结果进行筛选,还是比较麻烦的,我没弄过,只能给你思路,还得靠你自己摸索,祝你早日实现功能

墨猦 | 园豆:668 (小虾三级) | 2012-06-08 09:11

@我爱白开水: 嗯 谢谢  

落幕残情 | 园豆:34 (初学一级) | 2012-06-08 09:30
其他回答(5)
0

说明URL是常用的搜索条件,给它建立索引试试看吧,应该会快一些。

收获园豆:1
today4king | 园豆:3499 (老鸟四级) | 2012-06-07 13:25
0

纯10w不多,放内存都没啥问题,直接遍内存一下就出来了。

10w对于mssql,查一下就出来了,也很快。

如果再往上,自己在数据存储上花点功能,比如把域名建成分类,这样查询时就可以按域名缩小范围。

收获园豆:1
路过秋天 | 园豆:4787 (老鸟四级) | 2012-06-07 14:11

我是URL 去重复   
网络爬虫在 筛选URL  不去读取重复URL ,10W确实少了点 ,目前我能做到的是 蜘蛛每天可以读取100W网页

支持(0) 反对(0) 落幕残情 | 园豆:34 (初学一级) | 2012-06-07 15:30
0

对URL进行hash,32bit的hash就足够了,使用hashcode做index,查询速度是客观的。我现在也在做抓取工作,采用的方式就是这种,数据库文件体积8G+了。

收获园豆:1
周金桥 | 园豆:203 (菜鸟二级) | 2012-06-08 09:55

周公说的对...

支持(0) 反对(0) shenopkss | 园豆:310 (菜鸟二级) | 2012-06-11 11:28
0

这个东西用hashtable,肯定满足你的需求

收获园豆:1
Alvin | 园豆:828 (小虾三级) | 2012-06-11 13:33

能否发到 邮箱里边  185367128@qq.com

支持(0) 反对(0) 落幕残情 | 园豆:34 (初学一级) | 2012-06-11 13:36

@落幕残情: 

就是周公的说的。sorry,没有具体实现。

支持(0) 反对(0) Alvin | 园豆:828 (小虾三级) | 2012-06-11 20:01
0

蜘蛛程序中用来判断重复URL通常用的是布隆过滤器(Bloom Filter),http://www.cnblogs.com/TianFang/archive/2012/03/04/2379342.html

收获园豆:1
天方 | 园豆:5432 (大侠五级) | 2012-06-11 22:37
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册