手头有一批数据,其中大部分是连续型数值变量,部分是分类型变量,还有一个时间记录。
模型的目的是分析一种水质污染情况,用于监控污染物的排放,并提出针对性的方案。(主要是多家企业的排放,气象数据,水温等数据,及监测站的监测数据,这些数据都是以时间轴记录下来的)
想请教下大牛,这种情况下,如何将时间数据纳入模型中?
--我考虑的模型是随机森林模型,因为之前初步分析发现,用线性回归模型拟合效果很差,用其他基础分类器效果也不好,随机森林效率相对最好。但是由于记录的数据离散化处理后,发现数据有不平衡情况,导致模型训练效果较好,但是测试的结果就有点惨不忍睹了。。
个人初步考虑模型效果不好的原因有两点,一个是变量纳入数目不够(可能其他污染数据因为获取难度较大,未能纳入),一个是数据的时间跨度不够,有效数据量比较少。。
但是我目前只能基于手头数据,尽量做到最好的情况。。所以考虑尽量纳入可能的变量,以提高模型的效果。。