有2个文本文件,保存的都是hash值,1个文本文件有20万行数据,另1个文本文件有200万行数据,请问这个2文件查重最快的方法是什么?
sort 和uniq 命令组合求交集 cat file1.txt file2.txt | sort | uniq -d > res.txt
文件内存映射
使用下面的 shell 命令耗时5秒
awk 'a[$0]++' data-200k.txt data-2m.txt | wc -l