待处理数据量巨大(TB/PB级),只有分布在分布式集群节
点上并行计算才能在可接受的时间内完成
传统并行计算框架
共享式(共享内存/共享存储),容错性差
刀片服务器、高速网、SAN,价格贵,扩展性差
实时、细粒度计算、计算密集型
MapReduce
非共享式,容错性好
普通PC机,便宜,扩展性好
简单
批处理、非实时、数据密
集型
MapReduce设计的一个理念就是“计算向数据靠拢”,而
不是“数据向计算靠拢”
MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片( split),这些分片可以被多个Map任务并行处理
????什么玩意儿
在论文: Splitting large medical data sets based on normal distribution in cloud environment中介绍了基于统计规律的云大数据分割方法来优化云计算存储。网址: 10.1109/TCC.2015.2462361