首页 新闻 搜索 专区 学院

蜘蛛程序,怎么判断重复页面

0
悬赏园豆:50 [已解决问题] 解决于 2011-03-08 15:10
像百度蜘蛛那样的程序,是怎么判断抓取了重复页面的呢?比如说一个登陆页面,可能有N个页面有这个链接,该怎么判断呢? 一定要判断的话“登录”页面的链接,勉强还算可以写出个判断语句来的,但要是再复杂的链接,又该怎么判断呢??麻烦高手指点下啊!!!
East神奇的主页 East神奇 | 初学一级 | 园豆:21
提问于:2011-02-15 16:52
< >
分享
最佳答案
0

参考:http://www.25yi.com/seo/ruhebimianwangyedezhongfusouji-109/

收获园豆:25
artwl | 专家六级 |园豆:16536 | 2011-02-15 16:58
其他回答(1)
0

把链接字符串用MD5转换为 128位整数,然后放到 Dictionary 里面判断重复

收获园豆:25
eaglet | 园豆:17119 (专家六级) | 2011-02-16 05:07
请问下!对于链接到同一页面的,但该url可能带有不同参数的,也可以判断出来吗?
支持(0) 反对(0) East神奇 | 园豆:21 (初学一级) | 2011-02-16 11:40
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册