公司刚做基于hadoop的日志处理,目前在用CNZZ的统计,问题是我们做的日志分析系统与CNZZ的差距都比较明显,uv的统计相差30%,而我们没有实现与CNZZ的无接收cookie的用户重复判断,这个是一个关键点,所以来问问了。另外,要提一下的一个现象,就是我们的日志中发现一些高访的IP,来多数自于IDC,个别不能确定。而CNZZ的统计中,这些IP都是基本查不到的,怀疑是爬虫,但不敢确定是否为CDN的IP,望各路厉害大神出手相助,小弟万分感激!!!谢谢了
微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
不接收cookie的基本都是爬虫,建议与Google Analytics对比一下。
我是需要收集所有爬虫IP的列入访问黑名单吗,而且小部分用户也存在有一定频率的清除cookie行为,这也对我们的统计有一定的影响了
如果你只统计访客, 当然要把爬虫,cdn等不需要关注的IP列入灰名单了, 至于清除cookie的问题, 你没法精准统计的。