像百度蜘蛛那样的程序,是怎么判断抓取了重复页面的呢?比如说一个登陆页面,可能有N个页面有这个链接,该怎么判断呢? 一定要判断的话“登录”页面的链接,勉强还算可以写出个判断语句来的,但要是再复杂的链接,又该怎么判断呢??麻烦高手指点下啊!!!
参考:http://www.25yi.com/seo/ruhebimianwangyedezhongfusouji-109/
把链接字符串用MD5转换为 128位整数,然后放到 Dictionary 里面判断重复