问题是这样的,我们之前为某某造船场做了一套能耗统计分析系统,也就是BI。工厂很大,每2,3秒会把所有的计量仪表的数据给我们系统发过来,有瞬时值有电流、电压等,累计值有当前能耗。
我们要计算每分钟的每个累计值的能耗量,用当前时间能耗减去上一分钟的能耗得出插值,这样客户就知道为从今天12点到13点用了多少电等等。
使用的SQLSERVER,数据量小的时候用每小时用第归去减就得出来了,但日积月累,每天数据量都很大,500g硬盘一个月就满了。我们的计算和统计越来越吃不消。
请问这算大数据处理马?如果算,有什么大数据解决方法适合我们吗?之前没接触过大数据,最近找了hadoop的资料,也有人说用列数据库hbase什么的。我对这方面没接触过,希望求一个方向,让为可以去研究。谢谢。
这个就真算大数据了.对这种数据的分析是技术活.不行的话找个顾问吧
已经是算法问题了
瞬时值保存的时候可以参考上一次结果,如果差别小于需要的精度就不进行保存数据库,这样对存储和分析的压力都会减少很多
这个看起来很类似最基础的mapreduce过程。
前面根据原始信息累加计算出来每分钟每个设备的消耗信息记录下来,最后sum一下不就可以了么?
难道理解错了?
是没有理解错,只是我们公司之前没做过大数据,如果真的是mapreduce能解决,那么对公司或对于我个人都是一次很好的学习机会。
我这几天浏览了很多大数据的概念,但是很浅。最后也不知道是不是适合把这些技术应用到这个项目上。
我看了hadoop,然后了解了下做数据仓库用列式数据库比行的好,有个HBASE或者其他的。
可能真得想其他兄弟们说的找个顾问了。。
定义每小时计算一次采取上来的数据是一个问题,他是一个原子数据。
接下来用户分析的时候就是需要将好多这样点位数据套用到不同的公式里,
比如:(M1设备下的P1点的差值+M2设备下的P2点的能耗差值)/ 一个系数 = 想要的数据。
这个是不是mapreduce可以解决阿。
这个最好你不要想着问问问题就能解决,申请一些费用(不是三两千,三两万的概念),找个顾问或者高手,也许很简单,
如果人家可以1分钟解决你的问题,你给几万也不算亏了。
如果1分钟解决不了的话,就是需要好几个月的调整,可能很多代码需要重写之类的。
好的,我就是想找一个解决问题的方向,只要能解决这个问题并且自己学到了东西,公司以前没有做过这方面的。谢谢你的回复。
@TheBlackPearl: 简单的说,这里面最大的问题是,
你的需求要是完整的写出来,10页纸4000个字大概能够说明清楚。
就算是看也得看个半天一天的。
优化性能,关键是要看瓶颈在哪儿,是否有办法空间换时间,是否有办法时间换空间。
有多少预算限制,哪些需求是可以放弃的或者做出一些限制,哪些需求是一定必须的。
哪个报表是谁要看的,看的频率是怎样的。
这些非技术性的流程分析,对于设计小系统无所谓。
对于设计海量数据或者海量用户,就会带来很大的影响。
不对啊,哥们你哪来的500T硬盘?
有这硬盘需求的话,你花100万找人解决也不是问题了。
@爱编程的大叔: 打错了500G
最简单的办法是分表,先看看能不能解决性能问题,比如最常用的数据在一张表(比如当天的数据),不是特别常用的数据在历史表(比如除今天之外的数据),历史表可以考虑再细分,比如一个月的,三个月的这样