下面两个链接有搜索引擎的相关知识和讨论
http://space.cnblogs.com/group/search/
http://searchengine.cnblogs.com/
搜索引擎涉及的知识点很多,如果分词,爬虫,索引等等全部从头开发,工作量非常大。
从开发语言来讲,当然是越低级的效率越高,如果这样考虑,用汇编最快,不过越底层的语言
开发的效率越低,这方面需要进行折中。另外越底层的语言硬件可移植性越差,比如用C语言开发
的x86 32位程序,如果要移植到IA64 的系统中,需要做大量改动。这方面也需要考虑。
当然是c比较好,linux系统效率比较高,知识当然是数据结构最重要而且是基础。
有几个基本的问题需要解决:
爬虫 可以在开源的基础上包装
数据库 有很多选择,大型结构化数据库或者如Berkely DB之类的快速数据库
中文的话需要分词处理
索引结构
查询处理 可以包装开源的C/S网络通讯程序,或者自己写
基本的web服务器 如apache
前端页面处理 php等
去问问,李彦宏和李开复,他们是鼻祖,盖茨好像最近也在搞,也可以探讨下!
顶上 ,,
lucene
两个主要的知识。
正则表达式必须得nb~~~。
数据库必须得十分nb。对数据优化,索引。必须熟悉的nb。
两大基础。
其他,对网络知识,了解。