首页 新闻 会员 周边

结巴(jieba)分词将点号分成词的问题

0
悬赏园豆:30 [待解决问题]

使用 .net 版 jieba 时遇到的问题,然后试了一下 python 原版 jieba,也是同样的问题

重现问题的 python 代码如下,. 被分成了一个单独的词

import jieba
seg_list = jieba.cut("ASP.NET Core", HMM=False)
print(", ".join(seg_list))
#output: ASP, ., NET,  , Core

如果用 lucene.net 自带的 StandardAnalyzer ,分词结果是 asp.netcore

dudu的主页 dudu | 高人七级 | 园豆:30994
提问于:2023-01-25 17:06
< >
分享
所有回答(2)
0

正则遍历去过滤

〆灬丶 | 园豆:2287 (老鸟四级) | 2023-01-28 09:43
0

1、准备字典库
创建一个字典库文档dict.txt,在该文档中加入自己的分词,分词格式为:
每个词占据一行
每行分三部分:词语、词频(可省略)、词性(可省略)
文件编码方式必须为:utf-8
2.分此前添加加载代码
添加代码jieba.load_userdict("dict.txt")进行加载分词词典
import jieba
jieba.load_userdict("dict.txt")
seg_list = jieba.cut("ASP.NET Core", HMM=False)
print(", ".join(seg_list))

Tom.汤 | 园豆:3028 (老鸟四级) | 2023-01-30 15:42

jieba 的字典不支持带空格的词

支持(0) 反对(0) dudu | 园豆:30994 (高人七级) | 2023-01-30 15:49

@dudu: 是的。jieba 的词典是用空格作为词,词频,词性之间的分隔符的

支持(0) 反对(0) Tom.汤 | 园豆:3028 (老鸟四级) | 2023-01-30 15:55

@Tom.汤: 目前已经在词典中添加 .NETASP.NET 部分地解决问题,但是非 .NET 的情况依然不能解决,比如文件扩展名 .txt

支持(0) 反对(0) dudu | 园豆:30994 (高人七级) | 2023-01-30 15:59

@dudu: 有时候不重要的东西要学会放弃

支持(0) 反对(0) Tom.汤 | 园豆:3028 (老鸟四级) | 2023-01-30 16:12

@Tom.汤: 当知道 jieba 为什么将点号分成一个词后选择是否放弃会更好些

支持(0) 反对(0) dudu | 园豆:30994 (高人七级) | 2023-01-30 16:19

@dudu: 实在不行改源码

支持(0) 反对(0) Tom.汤 | 园豆:3028 (老鸟四级) | 2023-01-30 16:35
支持(1) 反对(0) dudu | 园豆:30994 (高人七级) | 2023-01-30 16:40
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册