有下面一些数据:
・机器的日志文件:已经经过人工筛选出出现故障时前1小时至后2小时内的日志文件。
步骤如下:
用mecab进行分词
统计每个日志中各个词汇出现的次数,大于50次的话取出来
删除一些不重要的词汇(即使出现次数大于50次也删除)
强制取出一些重要词汇(即使出现次数小于50次也取出)
用Doc2Vec进行向量化(以日志为单位)并生成模型,然后用SVM进行预测
经过以上步骤之后,用leave-one-out进行交叉验证
发现正确率只有50%~60%。
有什么其他方法可以提高正确率吗?希望大家可以畅所欲言!