340+万条URL放在HashSet中 现在整个程序占用700+MB。预估有2千多万URL。。。因为是历史采集集合。除了放数据库还有其他方案吗
微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
md5 一下, 如果只是单纯的匹配.
还可以用domain 作为一级key, 分割成map<string,hashset<string>>, 二级结构
或者还可以用一个布隆过滤器来做这个事情
用来干啥的啊,放内存里干啥