首页 新闻 会员 周边 捐助
3
回答数

待解决问题 关于大数据的数据去重问题

我需要对200多万条数据进行一个去重的操作,数据存放在mongodb中,之前存放的时候是通过url地址来判断采集的信息是否存在,但是现在发现有些信息它们内容一样,但是url相同。所以想请问一下,有没有