首页 新闻 会员 周边 捐助

全文检索,有必要把全文的内容都进行分词索引吗?

0
悬赏园豆:50 [已解决问题] 解决于 2018-04-18 11:35

如题,可否对全文内容分词后,进行特征选择,选择最能代表此文章的词汇,再存入索引中。这样可以减少索引的量,也可以增加搜索的速度。不知道是否可行呢?可以讨论一下。

Shendu.CC的主页 Shendu.CC | 老鸟四级 | 园豆:2138
提问于:2018-04-10 11:38
< >
分享
最佳答案
0

用百度搜索引擎搜索关键词 “的”

 

可以看到,百度连"的" 这个词都索引起来了。更何况别的词呢?虽然权重占比很小,但是对搜索引擎来说,搜得到相关内容总比搜不到要好。所以特征选择这个概率只适合用于文本分析,而不适合用于搜索引擎。

Shendu.CC | 老鸟四级 |园豆:2138 | 2018-04-18 11:34
其他回答(1)
0

内容没必要分词,你是用的Lucene吗

收获园豆:50
市侩之徒 | 园豆:256 (菜鸟二级) | 2018-04-10 17:13

是Lucene. 嗯。。内容没必要分词?能细说一下吗?

支持(0) 反对(0) Shendu.CC | 园豆:2138 (老鸟四级) | 2018-04-10 17:43
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册