首页新闻找找看学习计划
3
回答数

待解决问题 关于大数据的数据去重问题

我需要对200多万条数据进行一个去重的操作,数据存放在mongodb中,之前存放的时候是通过url地址来判断采集的信息是否存在,但是现在发现有些信息它们内容一样,但是url相同。所以想请问一下,有没有