首页 新闻 会员 周边 捐助

如何实现分词

0
悬赏园豆:10 [已解决问题] 解决于 2009-01-03 09:26

现在我有这样的需求..不知道怎么实现.

当网络编辑在录入文章时..  我需要从标题提取二个重要的词.

从正文中提取出现5个频率最高的词(不是一个单词.而是两个以上,因为一篇文章中"的"这个字是出现次

数是最高的)...

 

  也就是找大概7个词作为TAG用...   各位教教我.. 再三感谢,  

不若相忘于江湖的主页 不若相忘于江湖 | 初学一级 | 园豆:51
提问于:2009-01-02 15:59
< >
分享
最佳答案
0

分词我就不多说了,见我的博客。

统计词频,在这个需求中通常是采用

tf-idf 算法,得出 tf-idf 最高的5个词就可以了。由于引入了 idf, 楼主所说的“的”字由于  idf 较大,便不会排在前面。

tf-idf 算法请参见

http://baike.baidu.com/view/1228847.html

 

 

eaglet | 专家六级 |园豆:17139 | 2009-01-03 05:12
其他回答(1)
0

这个好像很困难,我觉得让编辑在录入时将关键词一并录入的好,我工的随便一选都是比较准确的

而让程序来选关键词,很难。首先得分词,可以看下有关搜索引擎的资料,分词完了之后还要比较各个词的频率和相似度,还要排除一些常见词,比如你说的那个“的”等……

总之很麻烦,计算机无法完全代替人工

丁学 | 园豆:18730 (专家六级) | 2009-01-02 23:30
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册