那位大神能提供告诉下 10W数据快速查询的算法谢谢

悬赏园豆：80 [已解决问题] 解决于 2012-07-02 11:41

我自己在写一个网络蜘蛛玩里边的URL去重要是用常规方法需要花很久的时间

我希望能以算法实现快速查找

希望路过的都给吓意见吗小弟在这里谢谢啦

.NET技术高性能网站构建网站开发 C#

问题补充：

是关于网络蜘蛛不读取重复的URL问题有好的建议或者好点的算法可以发我的QQ邮箱：185367128@qq.com

谢谢

落幕残情 | 初学一级 | 园豆：34
提问于：2012-06-07 13:11

< >

最佳答案

用蚁群算法

收获园豆：75

墨猦 | 小虾三级 |园豆：668 | 2012-06-08 08:55

能给我发分具体的实现代码吗小弟是新手发到我邮箱即可谢谢啦

落幕残情 | 园豆：34 (初学一级) | 2012-06-08 08:58

你百度一下蚁群算法，先进行分词，再进行搜索，然后对结果进行筛选，还是比较麻烦的，我没弄过，只能给你思路，还得靠你自己摸索，祝你早日实现功能

墨猦 | 园豆：668 (小虾三级) | 2012-06-08 09:11

@我爱白开水: 嗯谢谢

落幕残情 | 园豆：34 (初学一级) | 2012-06-08 09:30

其他回答(5)

说明URL是常用的搜索条件，给它建立索引试试看吧，应该会快一些。

收获园豆：1

today4king | 园豆：3499 (老鸟四级) | 2012-06-07 13:25

纯10w不多，放内存都没啥问题，直接遍内存一下就出来了。

10w对于mssql，查一下就出来了，也很快。

如果再往上，自己在数据存储上花点功能，比如把域名建成分类，这样查询时就可以按域名缩小范围。

收获园豆：1

路过秋天 | 园豆：4794 (老鸟四级) | 2012-06-07 14:11

我是URL 去重复
网络爬虫在筛选URL 不去读取重复URL ,10W确实少了点，目前我能做到的是蜘蛛每天可以读取100W网页

支持(0) 反对(0) 落幕残情 | 园豆：34 (初学一级) | 2012-06-07 15:30

对URL进行hash，32bit的hash就足够了，使用hashcode做index，查询速度是客观的。我现在也在做抓取工作，采用的方式就是这种，数据库文件体积8G+了。

收获园豆：1

周金桥 | 园豆：203 (菜鸟二级) | 2012-06-08 09:55

周公说的对...

支持(0) 反对(0) shenopkss | 园豆：310 (菜鸟二级) | 2012-06-11 11:28

这个东西用hashtable，肯定满足你的需求

收获园豆：1

Alvin | 园豆：828 (小虾三级) | 2012-06-11 13:33

能否发到邮箱里边 185367128@qq.com

支持(0) 反对(0) 落幕残情 | 园豆：34 (初学一级) | 2012-06-11 13:36

@落幕残情:

就是周公的说的。sorry，没有具体实现。

支持(0) 反对(0) Alvin | 园豆：828 (小虾三级) | 2012-06-11 20:01

蜘蛛程序中用来判断重复URL通常用的是布隆过滤器（Bloom Filter），http://www.cnblogs.com/TianFang/archive/2012/03/04/2379342.html

收获园豆：1

天方 | 园豆：5432 (大侠五级) | 2012-06-11 22:37

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

那位大神能提供告诉下 10W数据 快速查询的算法谢谢

那位大神能提供告诉下 10W数据快速查询的算法谢谢