我想将数据从一个卷移动到另一个卷。文件夹和文件大小各不相同。文件可以高达100GB,但我们也可以有很多小文件。如果目标卷中的特定文件夹中有数据,则可以覆盖该数据。
到目前为止,我尝试过(为了演示,代码已经简化)
(1)for root, directories, files in os.walk(src):
for file in files:
mv -v <src> <dest>
(2)hadoop distcp -overwrite -m100 <src> <dest>
小于10 GB时,mv选项速度更快。在10 GB时,两个选项都需要大约2分钟的传输时间。