如题,可否对全文内容分词后,进行特征选择,选择最能代表此文章的词汇,再存入索引中。这样可以减少索引的量,也可以增加搜索的速度。不知道是否可行呢?可以讨论一下。
用百度搜索引擎搜索关键词 “的”
可以看到,百度连"的" 这个词都索引起来了。更何况别的词呢?虽然权重占比很小,但是对搜索引擎来说,搜得到相关内容总比搜不到要好。所以特征选择这个概率只适合用于文本分析,而不适合用于搜索引擎。
内容没必要分词,你是用的Lucene吗
是Lucene. 嗯。。内容没必要分词?能细说一下吗?