首页 新闻 会员 周边 捐助

求C#数据库词库机械分词的代码步奏

0
悬赏园豆:100 [已解决问题] 解决于 2014-04-05 16:47
求C#数据库词库机械分词的代码步奏
命题    标题 进行分词 之后 判断是不是你要的关键词表是的取出
不是的话判断是不是垃圾表
是不是特殊词表
是不是待定词表(指的是要放入前三个表中的哪一个) ~假设所有表是空的
本人只做到 输入之后 然后在关键词哪里对比 
关键词表 比如有:雪白
输入框时候:是雪白的世界真好
然后我进行了分:是/雪白/的/世/界/真/好/
疑点:如何判断让自己觉得这是垃圾词?这是特殊词  这是待定。本人是菜鸟。真心搞不懂
xue858的主页 xue858 | 初学一级 | 园豆:112
提问于:2014-04-02 15:34
< >
分享
最佳答案
0

不知道是不是这个意思

收获园豆:100
seaconch | 老鸟四级 |园豆:4823 | 2014-04-02 16:11

你自己不知道那些词是需要留下来的关键字吗?

seaconch | 园豆:4823 (老鸟四级) | 2014-04-03 18:21

你自己不知道那些词是需要留下来的关键字吗?

楼主,我不太明白您的操作到哪里了,你是已经分好词,但是不知道哪些事关键字吗?

seaconch | 园豆:4823 (老鸟四级) | 2014-04-03 18:23

@Goona: 对不起~最近找不到这方面资料就放下了。。我分词就照着网上那个最大匹配图做的 分的。词库是对比数据库

我不明白的地方是输入标题的时候要判断标题有哪些关键词是你要的然后放入 因为一开始关键词库不可以全都有的 然后把不要的扔进垃圾词  还有些词就是特殊词库 比如地方 国家主席名字等    有个待定词库一开始对标题判断词要放进那个三个词库 。很不好意思。

xue858 | 园豆:112 (初学一级) | 2014-04-04 15:35

@xue858: 

是不是目前的情况是:已经用最大匹配把字符串分好了。

但是切割完后不知道那些事关键字,因为不一定每个关键字数据库里面都有,还有可能是新的,是这个意思吗?

seaconch | 园豆:4823 (老鸟四级) | 2014-04-04 15:48

@Goona: 嗯   要判断。。不知怎么办。  另外我读取对比关键词的词库是遍历所有的。。假设以后我的词库很大估计会崩溃。判断输入字在 词库相关的时候是SQL语句是用什么?ILKE %%对一个才产生作用 昨晚找了下是用charindex 这个来WHERE吗?

xue858 | 园豆:112 (初学一级) | 2014-04-04 16:47

@xue858: 问一个问题,这些关键字可以提到内存中搞吗?

如果能够提到内存中搞的话会方便很多。

还有,如果需求上没有说要提关键字干嘛那咱们怎么提啊,感觉就是蒙着头乱搞..

楼主这个是要做搜索引擎吗?

seaconch | 园豆:4823 (老鸟四级) | 2014-04-04 16:58

@Goona: 问过了~他说放进数据库就行。 不是 是淘宝关键词分词。 

xue858 | 园豆:112 (初学一级) | 2014-04-04 17:06

@xue858: 楼主,原谅我的愚钝,我一直不知道这些分词是干什么用的...

所以没啥思路。。。

seaconch | 园豆:4823 (老鸟四级) | 2014-04-04 17:45

@Goona: 您有C#分词过的列子吗~简单就好我分析下。

xue858 | 园豆:112 (初学一级) | 2014-04-05 16:42
其他回答(1)
0

又开源的东西,自己拿过来用,特别是java。

[秦时明月] | 园豆:738 (小虾三级) | 2014-04-02 16:04
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册