需要一个匹配的字典库比较合适,公司有这个业务,就是用的字典库,库中保存常用的词汇,到时候匹配出来
我感觉把“北京”与“有限公司”去掉,这个方法,至少能解决七八千条吧。
你把那些常用的前缀后缀去掉,找的时候由多到少,比如先看后缀有没有“科技有限公司”,没有再看看有没有“有限公司”。
那就需要对公司名称进行替换或者截取了,把地区替换成空格,把有限公司替换成空格,返回的就是真正公司的名称,如果觉得名字太很长,就截取一下。楼主也可以把数据都输出出来,然后全部进行替换,搞定!
我觉得可以考虑汉字首字母的方式,以前的项目我的做法是:首先检查用户输入的是首字母还是汉字(可以用正则检查),如果是首字母的话,直接从列表里面检索。如果是汉字就模糊查询,但是这里需要进行优化, 公司名称最好使用一个规则,地区+名称+性质(集团、科技、股份、责任。。。。),通过这几个进行查询,速度非常快,即使是数据里面10万条也就0.1秒。前提是你要对所有的公司进行首字母采样,这样速度才会快,以空间换时间。