首页新闻找找看学习计划

几万条公司名字简化,比如 北京德恩装饰有限公司 简化成 ‘北京德恩’ 或‘德恩装饰’

0
悬赏园豆:10 [待解决问题]

几万条公司名字简化,比如 北京德恩装饰有限公司 简化成 ‘北京德恩’ 或‘德恩装饰’。怎么用c#程序智能简化,不要简化成‘北京德恩装’或‘德恩装饰有限’等,可以让差错控制在10%之内,用程序怎么智能简化这几万条企业全名。

小明同学的主页 小明同学 | 初学一级 | 园豆:12
提问于:2012-07-12 21:59
< >
分享
所有回答(5)
0

需要一个匹配的字典库比较合适,公司有这个业务,就是用的字典库,库中保存常用的词汇,到时候匹配出来

编程笔记 | 园豆:107 (初学一级) | 2012-07-12 22:52
0

我感觉把“北京”与“有限公司”去掉,这个方法,至少能解决七八千条吧。

你把那些常用的前缀后缀去掉,找的时候由多到少,比如先看后缀有没有“科技有限公司”,没有再看看有没有“有限公司”。

幽灵~ | 园豆:268 (菜鸟二级) | 2012-07-13 09:37
0

那就需要对公司名称进行替换或者截取了,把地区替换成空格,把有限公司替换成空格,返回的就是真正公司的名称,如果觉得名字太很长,就截取一下。楼主也可以把数据都输出出来,然后全部进行替换,搞定!

墨猦 | 园豆:668 (小虾三级) | 2012-07-13 12:05
0

我觉得可以考虑汉字首字母的方式,以前的项目我的做法是:首先检查用户输入的是首字母还是汉字(可以用正则检查),如果是首字母的话,直接从列表里面检索。如果是汉字就模糊查询,但是这里需要进行优化, 公司名称最好使用一个规则,地区+名称+性质(集团、科技、股份、责任。。。。),通过这几个进行查询,速度非常快,即使是数据里面10万条也就0.1秒。前提是你要对所有的公司进行首字母采样,这样速度才会快,以空间换时间。

归真 | 园豆:605 (小虾三级) | 2012-07-14 18:09
0

采用盘古分词。把名字给加到词典里才行的。上来想控制在10%那是不可能滴。。。要慢慢积累。。

````` | 园豆:14268 (专家六级) | 2012-07-18 09:48
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册