我这边需要将hive表中的数据全部导出,但是担心数据过多,导致内存不足,无法处理,因此需要采用缓存式处理方式,如先从hive中查询出1000条数据,写入到文件中,然后再查询出1000条数据,再写入,依次进行,直至写完为止,我知道java中有这种缓存的机制,但是不知道python中是否有?或者pyhive中是否有?
应该有的,pyhive不是很了解,但是使用pandas时有个读入缓存的机制,详细的可以看下pd.read_sql函数 https://www.jianshu.com/p/cb2b864b4aca