比如汉字:
“多”
“对”
“或”
“的”
.....
等等
讨论一下。
肯定有必要啊。。。
事实上,我上面的词,“多”,“对”,“或” 都不能停用。如果用户搜索 "或运算" 那么分词(使用jieba分词)之后是“或”和“运算” ,显然停用了“或”,就再也搜不到关于“或”的了只能搜到“运算”同理我搜索“多对多关系”,“多对多”也出不来了。
上面的停用词是我网上找的停用词表的一共600多个
相反使用了百度,搜索“的” ,你会发现,出来条目中包含“的”的内容都跳出来,表明“的”也被索引了。
所以我就有疑问了,搜索引擎是不是应该不需要停用词,或者汉字的停用词是不需要的?
@Shendu.cc: 根据实际情况建立自己的停用词库,。。等等,其实你这个要搜索引擎的话,就涉及到SEO了,标题上可以使用 stopwords,内容感觉不是太需要。
@BUTTERAPPLE: SEO 目前还没有考虑到,毕竟属于站内搜索,用的人少,排序算法也十分简陋。
@Shendu.cc: 或运算 或者 与运算 那些专业名词 分词在分时不应该进行分开吧。
@BUTTERAPPLE: 在分词工具中是没办法不分开的。除非在字典中加入“或运算”但是这样类似组合起来的专业名词太多了。。