本人刚刚接触hadoop不久,现在想自己写一个k-means算法,但是在随机选择聚类中心那里遇到了问题。
如果数据量少的话,可以通过先遍历一下全部数据,然后随机选择,但是面对海量数据的话,还是要这样做么?或者有哪些快捷的方法或者想法?
本人所理解:生成初始的聚类中心是在map之前的。
另外再问一下,有什么不在本机安装某一些软件的情况下,远程局域网内的ubuntu(例如我在上机课的时候远程我学校宿舍的ubuntu电脑),谢谢
现在这东西相当之热门啊,有前途。飘过.....