这个和盘古分词的权重没有关系,是 lucene 的得分算法缺陷,因为那个算法忽略了单词位置,只判断单词的出现频率,当然这个频率并不是简单的计数,有个公式的。我的另外一个开源项目hubbledotnet 在得分算法上参考斯坦福大学的信息检索教程做了很大的改进,匹配的准确性比lucene 要高很多,速度和易用性方面都比lucene 要好,由于盘古分词也是我开发的,两者之间可以配合的很好。你可以试试hubbledotnet 的效果。
看下面两篇,有问题可以联系我。
http://www.cnblogs.com/eaglet/archive/2010/05/13/1734273.html
http://www.cnblogs.com/eaglet/archive/2010/08/30/1812650.html
这个组件很不错!谢谢