首页 新闻 会员 周边 捐助

Mysql两亿条数据清洗,有什么好的方案么。

0
悬赏园豆:10 [待解决问题]

已经做了分表,大概有两亿六千多万数据,现在要洗数据,有什么好的方案么?多线程?多任务分发?单线程过滤?数据分片?希望有大神解答。由于资源限制,用Hive或者大数据方案暂时没有考虑。

Rainydayfmb的主页 Rainydayfmb | 初学一级 | 园豆:192
提问于:2018-05-07 01:21
< >
分享
所有回答(4)
0

当然是选择删库了

夜里挑键戳灯 | 园豆:299 (菜鸟二级) | 2018-05-07 09:13
0

你想要咋个清洗?是历史数据还是活动数据?是一次性清洗还是多次清洗?

幻天芒 | 园豆:37207 (高人七级) | 2018-05-07 09:16

表添加了一些字段,需要洗这些添加的字段,每天半夜的时候洗

支持(0) 反对(0) Rainydayfmb | 园豆:192 (初学一级) | 2018-05-07 09:43

@Rainydayfmb: 正如楼下所说,先做出一版来看吧。理论上,新旧数据分离,后期需要清洗的数据并不多。这个需要你结合你的数据特性整体考虑了。

支持(0) 反对(0) 幻天芒 | 园豆:37207 (高人七级) | 2018-05-07 14:42
0

当然是找个懂的人啦。

爱编程的大叔 | 园豆:30844 (高人七级) | 2018-05-07 09:16
1

先搞定基本问题,再考虑高级问题。

假设数据量只有现在的1%,你所说的洗数据的代码写好了没,试着跑过了没?

这一步搞定了,再说其他的。

西漠以西 | 园豆:1675 (小虾三级) | 2018-05-07 09:43
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册