手头一份问卷调查报告,需要对其清洗数据并建模,以便日后预测。 数据中含有不少字符串格式的字段,需要将其转换成数值格式。但是由于是问卷调查,答案五花八门,即使将手头数据的字符转换成了数值,也无法保证将来的输入都可以自动转成数值吧?(因为可能考虑的地方不够周全)。 请问下这种问卷调查的数据,该如何清洗比较合适呢?
比如上述这种图片,其实答案存在重复的情况,又该如何处理?