340+万条URL放在HashSet中 现在整个程序占用700+MB。预估有2千多万URL。。。因为是历史采集集合。除了放数据库还有其他方案吗
md5 一下, 如果只是单纯的匹配.
还可以用domain 作为一级key, 分割成map<string,hashset<string>>, 二级结构
或者还可以用一个布隆过滤器来做这个事情
用来干啥的啊,放内存里干啥