我们都知道spark的stage是通过宽依赖进行划分。其根本原因是在错误恢复时,能够确定从哪一步进行数据恢复。窄依赖可以确定唯一的恢复源,而宽依赖无法确定恢复源,所以需要结果stage划分,进行一段数据存储划分。
但是当我们只有单核、单线程、单分区的情况下,理论上shuffle已经没有任何意义了,这个时候还会存在宽依赖吗