网站中有一重定向页面,在某些情况下先进入重定向页面做某些处理,再返回原来页面,但在日志中却发现重复爬取的重定向页面信息,已经在robots.txt中禁止访问重定向页面,但有一带baidu+Transcoder标识的爬虫却反复爬取,导致日志文件非常大,请问大家有什么好的方法。
想访问原来的页面是不是必须经过重定向页面?
1、确认你的robots.txt文件的语法正确。# robots.txt for http://www.bmshops.com/## $Id: robots.txt,v 1.59 2010/04/25 15:52:50 $#
# exclude some access-controlled areasUser-agent: *Disallow: /重定向页面
2、屏蔽baidu+Transcoder标识的爬虫的ip对网站的访问