首页新闻找找看学习计划

nginx 日志中发现,百度爬虫在地址里加入通配符/../, 然后被nginx阻止了, 有疑问

0
悬赏园豆:100 [已关闭问题] 关闭于 2013-07-17 10:17

早上起来查看nginx.error.log发现如下日志

2013/06/27 08:57:25 [error] 14492#0: *2955437 access forbidden by rule, client: 111.161.8.11, server: www.XXXX.com, request: "GET /..linkfeed-soho-lifestreams/ HTTP/1.1", host: "XXXX.com"

查了一下IP,是百度爬虫的.

在日志里查找一个,所有类似于/../的request都被nginx阻止了. 大家可以拿tianming.me/...a/试试.

这里我有两个问题:

1. 百度爬虫在request地址里加入通配符...的意图是什么?

2. 这是被nginx里哪条规则阻止的? 我自己没有加过这样的规则,应该是某一条默认的规则.

hurner的主页 hurner | 初学一级 | 园豆:14
提问于:2013-06-27 09:08
< >
分享
所有回答(3)
0

这个其实应该是爬虫的一种逻辑,通常下 地址加上../只带当前目录的下一层级目录,个人理解,不知道对不对,希望对你有帮助。

````` | 园豆:14268 (专家六级) | 2013-06-27 11:40

他是把..的字母一起写的,应该起不到上下层级目录的功能了。而且在日志里还有三个点的情况。

我也是想这么做对爬虫有什么好处,是否对网站的收录有什么影响,费解。

支持(0) 反对(0) hurner | 园豆:14 (初学一级) | 2013-06-27 13:35

@hurner: 那估计就是某个地址上有错误的URL  然后解析进去了就这样了。没事情的 不会影响收录,看看响应状态值是多少  如果是404应该问题不大。

支持(0) 反对(0) ````` | 园豆:14268 (专家六级) | 2013-06-27 15:24
0

太高级,没接触过 

教我撒 啊哈哈~

alone__ | 园豆:60 (初学一级) | 2013-06-28 14:48
0

加通配符,用于实现过滤功能

二十三号同学 | 园豆:969 (小虾三级) | 2013-07-01 15:40
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册