蜘蛛程序，怎么判断重复页面

悬赏园豆：50 [已解决问题] 解决于 2011-03-08 15:10

像百度蜘蛛那样的程序，是怎么判断抓取了重复页面的呢？比如说一个登陆页面，可能有N个页面有这个链接，该怎么判断呢？ 一定要判断的话“登录”页面的链接，勉强还算可以写出个判断语句来的，但要是再复杂的链接，又该怎么判断呢？？麻烦高手指点下啊！！！

.NET技术 C#

East神奇 | 初学一级 | 园豆：21
提问于：2011-02-15 16:52

< >

最佳答案

参考：http://www.25yi.com/seo/ruhebimianwangyedezhongfusouji-109/

收获园豆：25

artwl | 专家六级 |园豆：16736 | 2011-02-15 16:58

其他回答(1)

把链接字符串用MD5转换为 128位整数，然后放到 Dictionary 里面判断重复

收获园豆：25

eaglet | 园豆：17139 (专家六级) | 2011-02-16 05:07

请问下！对于链接到同一页面的，但该url可能带有不同参数的，也可以判断出来吗？

支持(0) 反对(0) East神奇 | 园豆：21 (初学一级) | 2011-02-16 11:40

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。