首页 新闻 会员 周边

全文检索,对内容进行分词索引时,有必要去停用词吗?

0
悬赏园豆:20 [已解决问题] 解决于 2018-06-07 11:26

比如汉字:

“多”

“对”

“或”

“的”

.....

等等

讨论一下。

Shendu.CC的主页 Shendu.CC | 老鸟四级 | 园豆:2138
提问于:2018-04-18 11:30
< >
分享
最佳答案
0

肯定有必要啊。。。

收获园豆:20
BUTTERAPPLE | 老鸟四级 |园豆:3190 | 2018-04-18 11:34

事实上,我上面的词,“多”,“对”,“或”  都不能停用。如果用户搜索 "或运算" 那么分词(使用jieba分词)之后是“或”和“运算” ,显然停用了“或”,就再也搜不到关于“或”的了只能搜到“运算”同理我搜索“多对多关系”,“多对多”也出不来了。

上面的停用词是我网上找的停用词表的一共600多个

相反使用了百度,搜索“的” ,你会发现,出来条目中包含“的”的内容都跳出来,表明“的”也被索引了。

所以我就有疑问了,搜索引擎是不是应该不需要停用词,或者汉字的停用词是不需要的?

Shendu.CC | 园豆:2138 (老鸟四级) | 2018-04-18 11:43

@Shendu.cc: 根据实际情况建立自己的停用词库,。。等等,其实你这个要搜索引擎的话,就涉及到SEO了,标题上可以使用 stopwords,内容感觉不是太需要。

BUTTERAPPLE | 园豆:3190 (老鸟四级) | 2018-04-18 11:51

@BUTTERAPPLE: SEO 目前还没有考虑到,毕竟属于站内搜索,用的人少,排序算法也十分简陋。

Shendu.CC | 园豆:2138 (老鸟四级) | 2018-04-18 11:56

@Shendu.cc: 或运算 或者 与运算 那些专业名词 分词在分时不应该进行分开吧。

BUTTERAPPLE | 园豆:3190 (老鸟四级) | 2018-04-18 12:03

@BUTTERAPPLE: 在分词工具中是没办法不分开的。除非在字典中加入“或运算”但是这样类似组合起来的专业名词太多了。。

Shendu.CC | 园豆:2138 (老鸟四级) | 2018-04-18 12:14
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册