分词我就不多说了,见我的博客。
统计词频,在这个需求中通常是采用
tf-idf 算法,得出 tf-idf 最高的5个词就可以了。由于引入了 idf, 楼主所说的“的”字由于 idf 较大,便不会排在前面。
tf-idf 算法请参见
http://baike.baidu.com/view/1228847.html
这个好像很困难,我觉得让编辑在录入时将关键词一并录入的好,我工的随便一选都是比较准确的
而让程序来选关键词,很难。首先得分词,可以看下有关搜索引擎的资料,分词完了之后还要比较各个词的频率和相似度,还要排除一些常见词,比如你说的那个“的”等……
总之很麻烦,计算机无法完全代替人工