首页 新闻 会员 周边 捐助

Python如何实现剔除关键词前存在“没”“无”“不”等否定词的表述

0
[待解决问题]

刚学Python,想请教大家这个命令该怎么写呀?

比如,我要统计文本中“人工智能”的词频数,但是像“没有人工智能”这种在关键词前存在否定词的,就不能算入统计中

主要是参考 https://mp.weixin.qq.com/s/npAZpRqedYqAz8V1pj1BNw ,先添加自定义词典,分词后再进行剔除处理

将军练码的主页 将军练码 | 菜鸟二级 | 园豆:210
提问于:2022-09-27 16:04
< >
分享
所有回答(2)
0

你这说的太宽泛了,最少给点关键词的样例吧;以及是否需要分词等等

〆灬丶 | 园豆:2314 (老鸟四级) | 2022-09-27 16:17

我补充了相关信息,您看是否可行呢?非常感谢!

支持(0) 反对(0) 将军练码 | 园豆:210 (菜鸟二级) | 2022-09-27 17:02

@将军练码: 看完链接内容,我觉得你可以找其他人了

支持(0) 反对(0) 〆灬丶 | 园豆:2314 (老鸟四级) | 2022-09-27 17:13
0

没太看懂你的需求,我根据我的理解提供一下大概思路,你现在有两个词表:

  1. 统计词表:人工智能、商业智能等,需要统计这些词在一篇文章中出现的次数;
  2. 坏词表:别、不、无、无关,统计词表里的关键词出现这几个坏词,不生效;
    所以,这是一个关键词匹配问题,做法有两个:
    第一个可以构建2个向量机或者Trie树,然后用【统计词树】-【坏前缀+统计词】;
    第二个可以构建1个【统计词】Trie树,做匹配,当发现匹配到的字是“别、不、无关”之类的字时,位移不是1,而是2,因为后1位无论能不能匹配到都是不生效的,位移直接是2即可
猫探长 | 园豆:325 (菜鸟二级) | 2022-09-27 17:49

很受启发,谢谢您!

支持(0) 反对(0) 将军练码 | 园豆:210 (菜鸟二级) | 2022-09-27 18:52
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册