首页 新闻 搜索 专区 学院

一个问题,大家一起讨论.

0
悬赏园豆:10 [已解决问题] 解决于 2009-04-08 19:35

有时候在google搜索某关键字(如"本地抓包").

发现其中有某些匹配结果是其他搜索引擎的结果:

----下面是第二,三条结果

本地抓包- 博客园找找看

现在有一台不在本地Linux服务器(RedHat),在本地可以通过telnet登陆上去,但我想在服务器上装一个wireshark并用于网络抓包,由于wireshark是图像界面操作的,所以. ...
zzk.cnblogs.com/s?w=本地+抓包 - 23k - 网页快照 - 类似网页
本地抓包- 博客园找找看
端口去要策略文件,但我从本地抓包以及在服务端抓包来看,swf似乎就没有去请求21端口,而是直接去问... www.cnblogs.com/taobataom...59709.html 2008-06-25 ...
zzk.cnblogs.com/s?w=本地抓包 - 11k - 网页快照 - 类似网页
现在问题就是这些google都是怎么获取的?难道google有一份其他搜索引擎的List,然后根据关键字进行查询?还是在获取某页面的时候刚好有一个链接指向该搜索引擎然后爬虫就跑过去了?以前看到很多很多这样的,希望大家一起讨论,给个结论.
谢谢参与
xAppDev的主页 xAppDev | 菜鸟二级 | 园豆:230
提问于:2009-04-07 14:17
< >
分享
最佳答案
0

应该是第一种情况,即有反向链接指向该搜索引擎的地址如 zzk.cnblogs.com/s?w=本地+抓包

你可以在 google 中搜 zzk.cnblogs.com/s

你会发现大量的反向链接指向 zzk.cnblogs.com

如果是有个列表去测试,

一般是两种方式:

1.  实时测试

即每次搜索关键字都到一个搜索引擎列表中测试一下有没有符合的结果,如果是这样的话,应该大部分热门关键字都会有其他搜索引擎的相应结果,但事实并不是这样。而且我们可以看google cache 的时间,zzk.cnblogs.com/s?w=本地+抓包 的cache 时间如下

This is Google's cache of http://zzk.cnblogs.com/s?w=%E6%9C%AC%E5%9C%B0+%E6%8A%93%E5%8C%85. It is a snapshot of the page as it appeared on 26 Mar 2009 21:05:18 GMT. The current page could have changed in the meantime. Learn more

即3月26日抓取的,而不是现在抓取的。

所以第一种假设应该可以否定。

2. 定时测试

即安排一个热门的关键字列表,和一个搜索引擎列表,定时去测试这些搜索引擎的结果。如果是这样那热门关键字的选择就是一个大问题,因为对于不同的搜索引擎,热门关键字往往不太,比如博客园的找找看如果搜一些非技术的关键字虽然也很热门,但对于博客园往往不一定有结果。那么针对搜索引擎的热门关键字选择的依据是什么,为什么对找找看 选择 可 本地抓包,但不选择本地抓取?

看下面

http://www.google.com/search?hl=en&rlz=1G1GGLQ_ENAU293&q=%E6%9C%AC%E5%9C%B0%2B%E6%8A%93%E5%8C%85+site%3Azzk.cnblogs.com&btnG=Search

本地抓包有匹配记录

http://www.google.com/search?hl=en&rlz=1G1GGLQ_ENAU293&q=%E6%9C%AC%E5%9C%B0%2B%E6%8A%93%E5%8F%96+site%3Azzk.cnblogs.com&btnG=Search

本地抓取没有匹配记录

http://zzk.cnblogs.com/s?w=%E6%9C%AC%E5%9C%B0+%E6%8A%93%E5%8C%85&t=

找找看中本地抓包 只有20条记录,而且没有一条记录同时包含本地和抓包

http://zzk.cnblogs.com/s?w=%E6%9C%AC%E5%9C%B0+%E6%8A%93%E5%8F%96&t=

但本地抓取有132条记录

所以根据上面这些数据分析,虽然说理论上google 是可以采取这种方式来测试其他搜索引擎,但感觉可能性很小,而且这种测试消耗资源非常大,世界上和博客园相同规模或者更大规模的本地搜索的数量是很大的,再乘以测试的热门关键字数量,资源的消耗不可想象。

 

 

 

 

 

 

 

 

 

 

 

 

 

eaglet | 专家六级 |园豆:17119 | 2009-04-07 14:35
其他回答(1)
0

呵呵!他们都是互相友情连接的,比如百度和谷歌,以前还有雅虎都是互相可以连接的到的!!!

子夜星辰 | 园豆:1613 (小虾三级) | 2009-04-07 14:34
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册