代码之家  ›  专栏  ›  技术社区  ›  Stefan Papp

使用MapR将数据从一个卷移动到另一个卷的最快方式是什么?

  •  1
  • Stefan Papp  · 技术社区  · 6 年前

    我想将数据从一个卷移动到另一个卷。文件夹和文件大小各不相同。文件可以高达100GB,但我们也可以有很多小文件。如果目标卷中的特定文件夹中有数据,则可以覆盖该数据。

    到目前为止,我尝试过(为了演示,代码已经简化)

       (1)for root, directories, files in os.walk(src):
            for file in files:
                mv -v <src> <dest>
    
       (2)hadoop distcp -overwrite -m100 <src> <dest>
    

    小于10 GB时,mv选项速度更快。在10 GB时,两个选项都需要大约2分钟的传输时间。

    0 回复  |  直到 6 年前