首页新闻找找看学习计划
当前位置: 博问标签 /去重/未解决/ 已解决
3
回答数

关于大数据的数据去重问题

我需要对200多万条数据进行一个去重的操作,数据存放在mongodb中,之前存放的时候是通过url地址来判断采集的信息是否存在,但是现在发现有些信息它们内容一样,但是url相同。所以想请问一下,有没有
2
回答数

80 求 C# 文本去重算法

现在需要建立一个文章资源库,很多相似的文章资源添加一次就够了,需要把相似度达到80%的文章不能再添加入库需求类似百度大规模网页去重判断网上搜索了很多论文也看了几个字符串相似度计算的算法但是如果文本很长