首页 新闻 会员 周边 捐助

对关键字提取有什么好的准确的算法?

0
[待解决问题]

有没有大佬知道对一段文本关键字进行提取的比较好的算法,很多算法可以说极其不准确,就是那种可以提取隐形关键字那种,比如下面这段话,好歹也得把智能家居提取出来啊:

智能家居主要采用安全防范、网络通信、 自动控制等先进技术,基于住宅平台,集成了人们的家居生活有关的设施,从而构建智能的住宅设施与家庭事务结合的管理系统,全面提升了家居安全性、舒适性、艺术性和便利性,打造一个环保节能的居住环境。

我试了很多算法jieba、hanlp、textrank4zh、tfidf等等吧,提取都非常不准确,求解!!!

小程大序的猿的主页 小程大序的猿 | 初学一级 | 园豆:4
提问于:2019-03-21 16:40
< >
分享
所有回答(2)
0

这种分词程序的原理是什么,是不是根据词典库来分词的,那你把“智能家居”加入词典是不是就可以了

会长 | 园豆:12463 (专家六级) | 2019-03-21 17:00

那你有没有想过我要是对很长的文档进行分词 关键字的提取 很麻烦的

支持(0) 反对(0) 小程大序的猿 | 园豆:4 (初学一级) | 2019-03-21 17:01

@小程大序的猿: 好的

支持(0) 反对(0) 会长 | 园豆:12463 (专家六级) | 2019-03-21 17:03
2

首先jiebahanlptextRanktfidf

前者和后者不是同一层面的东西,后者是基于前者。前者是分词算法,而后者是关键词权重计算或者提取的算法。

你要明确自己是的问题,是正确分词,还是提取关键词?

如果你用分词算法无法把智能家居切分出来,只能切分成智能家居,但是你依然可以用关键词提取算法将智能家居都提取出来。这样效果是一样的啊。

所以使用好的分词算法+好的关键词提取算法,绝对可以满足你的绝大部分需求。

另外,JIEba分词有三种模式,你都试过了吗? 关键词提取算法,除了TextRank,TFIDF,还有LDA模型.主成成分分析(PCA)卡方检验 你都试了吗?

关键词提取是个很难的过程。所以要耐心尝试。

Shendu.CC | 园豆:2138 (老鸟四级) | 2019-03-21 17:21

很详细 嗯我会慢慢来的

支持(0) 反对(0) 小程大序的猿 | 园豆:4 (初学一级) | 2019-03-21 17:23

哇 膜拜大神!

支持(0) 反对(0) 古宇 | 园豆:476 (菜鸟二级) | 2019-03-21 18:29
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册