有没有大佬知道对一段文本关键字进行提取的比较好的算法,很多算法可以说极其不准确,就是那种可以提取隐形关键字那种,比如下面这段话,好歹也得把智能家居提取出来啊:
智能家居主要采用安全防范、网络通信、 自动控制等先进技术,基于住宅平台,集成了人们的家居生活有关的设施,从而构建智能的住宅设施与家庭事务结合的管理系统,全面提升了家居安全性、舒适性、艺术性和便利性,打造一个环保节能的居住环境。
我试了很多算法jieba、hanlp、textrank4zh、tfidf等等吧,提取都非常不准确,求解!!!
这种分词程序的原理是什么,是不是根据词典库来分词的,那你把“智能家居”加入词典是不是就可以了
那你有没有想过我要是对很长的文档进行分词 关键字的提取 很麻烦的
@小程大序的猿: 好的
首先jieba
,hanlp
和 textRank
, tfidf
前者和后者不是同一层面的东西,后者是基于前者。前者是分词算法,而后者是关键词权重计算或者提取的算法。
你要明确自己是的问题,是正确分词,还是提取关键词?
如果你用分词算法无法把智能家居
切分出来,只能切分成智能
和家居
,但是你依然可以用关键词提取算法将智能
和家居
都提取出来。这样效果是一样的啊。
所以使用好的分词算法+好的关键词提取算法,绝对可以满足你的绝大部分需求。
另外,JIEba分词有三种模式,你都试过了吗? 关键词提取算法,除了TextRank
,TFIDF
,还有LDA模型
,.主成成分分析(PCA)
,卡方检验
你都试了吗?
关键词提取是个很难的过程。所以要耐心尝试。
很详细 嗯我会慢慢来的
哇 膜拜大神!