URL重写后百度蜘蛛抓取时不完整或是多了一个“-”
完整的URL或是画蛇添足,具体情况与有关日志摘录如下:
2010-08-31 01:37:14 W3SVC485830957 202.91.231.89 GET /syfanw - 80 - 123.125.71.26 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 0 199 46————不完整
2010-09-04 02:50:37 W3SVC485830957 202.91.231.89 GET /PR - 80 - 123.125.71.35 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 0 195 31————不完整,这个“PR”也不知道哪里来的
2010-09-05 03:13:40 W3SVC485830957 202.75.216.89 GET /jiaoxueziyuan/shijuan/fanwen_12.ht- - 80 - 220.181.7.130 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 0 228 31————不完整,“M”变成“-”
2010-09-05 07:47:55 W3SVC485830957 202.75.216.89 GET /jianghua/jianghuagao/fanwen_25.htm- - 80 - 220.181.7.69 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 0 228 46————多了一个“-”
2010-09-07 05:52:47 W3SVC485830957 202.75.216.89 GET /xindetihui/guanhougan/fanwen_287.h- - 80 - 220.181.7.56 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 0 228 31————不完整,“TM”变成“-”
高手们快点出现吧,我快要崩溃了
HTML中的链接对不对,是不是这样的...
“fanwen_12”是下划线的问题,下划线之后都是5个或6个字符。所以建议用其他字符代替这个下滑线。
既然下划线后边的是数字那么把下划线用个字母来代替就可以了