已经做了分表,大概有两亿六千多万数据,现在要洗数据,有什么好的方案么?多线程?多任务分发?单线程过滤?数据分片?希望有大神解答。由于资源限制,用Hive或者大数据方案暂时没有考虑。
当然是选择删库了
你想要咋个清洗?是历史数据还是活动数据?是一次性清洗还是多次清洗?
表添加了一些字段,需要洗这些添加的字段,每天半夜的时候洗
@Rainydayfmb: 正如楼下所说,先做出一版来看吧。理论上,新旧数据分离,后期需要清洗的数据并不多。这个需要你结合你的数据特性整体考虑了。
当然是找个懂的人啦。
先搞定基本问题,再考虑高级问题。
假设数据量只有现在的1%,你所说的洗数据的代码写好了没,试着跑过了没?
这一步搞定了,再说其他的。