求一个高效的数组取交集的算法

-1

悬赏园豆：200 [待解决问题]

List<string[]> str1;

List<string[]> str2;

要求：求str1数组中每个string[0] 与str2中哪个string[0]相当

这两个数组里都是几万条的大量数据。。普通的循环效率太差。。根本就无法接受，请各位高人给个算法啊！！！最好贴上点原码。。谢谢了。。。。期待中

补充：楼下的哈希的做法应该是可以。。但要把值存入哈希。。。也是个不小的工啊。。。另外。。比对的是str1[x][0]与str2[x][0]。。。。请高手指教。。。请不要吝啬原码。。谢谢

.NET技术 Windows Forms

鬼哭狼嚎 | 初学一级 | 园豆：0
提问于：2010-08-24 17:17

< >

所有回答(11)

要求：求str1数组中每个string[0] 与str2中哪个string[0]相当？

什么意思呀《没看懂

jowo | 园豆：2834 (老鸟四级) | 2010-08-24 17:26

List<>有个方法，List.Contains 方法,仅供参考，

http://msdn.microsoft.com/zh-cn/library/bhkz42b3%28VS.80%29.aspx

邀月 | 园豆：25475 (高人七级) | 2010-08-24 17:27

这里主要的性能瓶颈在于 string.CompareOrdinal 的性能。

假设：

List<string[]> str1 = new List<string[]>();
str1.Add(new string[] {"1","2","3" });
str1.Add(new string[] {"1","2" });

List<string[]> str2 = new List<string[]>();
str2.Add(new string[] { "1", "2"});
str2.Add(new string[] { "1", "2","3" });
str2.Add(new string[] { "1", "2" ,"3","4"});

楼主，你是要找出:

str1[0] == str2[1]

还是要找出：

str1[0][0] == str2[0][0] ?

Launcher | 园豆：45050 (高人七级) | 2010-08-24 17:29

其实我也没看懂啥意思。

Astar | 园豆：40805 (高人七级) | 2010-08-24 17:33

List.Contains() 这个方法采用的是线性搜索，效率低，可以采用二分查找法。

HUHU慈悲 | 园豆：9973 (大侠五级) | 2010-08-24 17:35

有个问题，

List<string[]> str1;

List<string[]> str2;

你的List中放的是string[]数组还是string字符串

Hawkon | 园豆：225 (菜鸟二级) | 2010-08-24 17:39

百万 string 类型进行比较，估计很难高效。

jeff-zheng | 园豆：480 (菜鸟二级) | 2010-08-24 17:58

1. 如果你的list 能排序的话，那就简单了，先对两个list 进行排序，两个list 进行比较。复杂度是：nlogn的复杂度。

2. 如果不能排序，list 能不能换成 dictionary ，这个的内部结构是hash 表。直接循环，然后判断某个key 是否在另外一个哈希表里面就好了，理论上来说，采用哈希表的复杂度是 n。

暮夏 | 园豆：391 (菜鸟二级) | 2010-08-24 18:45

百万级字符串排序速度肯定快不了。数字到可以。

支持(0) 反对(0) jeff-zheng | 园豆：480 (菜鸟二级) | 2010-08-25 09:01

楼主可以试试我的方法，代码量也不大，具体速度可以测试。

支持(0) 反对(0) 暮夏 | 园豆：391 (菜鸟二级) | 2010-08-25 10:12

借用数据库的方法：

0。Nested Loop

就是你说的方法了。

1。Sort Merge Join

和楼上的方法差不多，两个序列都按从小到大排好序，然后按同一个方向扫描。

2。Hash Join

扫描较少的那个序列一次，将值放入Hash表的Key中，扫描一次另个序列，利用 Hash 查找的优势，很容易就能找到相同的值了。

killkill | 园豆：1192 (小虾三级) | 2010-08-24 20:14

几十W的数据？看着像是面试题一样。。。

顾晓北 | 园豆：10900 (专家六级) | 2010-12-08 11:45

楼上的办法都很棒，楼主完全可以拼接出高效的算法，但是在实际使用中的高效比算法本身更重要，比如楼主在题目中list<string[]>就是个很低效的做法，内存是有限的，不是说你能装的下数据就全放进去，在比较排序中关心的是str的特征不是str本身。如果是几十万数据，很难想象普通pc怎么跑你的运算才能快，但是跑你提取的特征值比如gethashcode()=int,几百万的int数组而已，速度会快n倍。

希望能对你有帮助。

today4king | 园豆：3499 (老鸟四级) | 2012-01-10 10:49

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。