![]() |
1
2
我使用这些函数来合并拼花文件,但它在Scala中。不管怎样,这可能会给你一个很好的起点。
|
![]() |
2
1
您正在尝试实现的目标已经可以使用
如果你想自己实现它,你可以 increase the heap size ,或者修改代码,使其在写入新文件之前不会将所有文件都读入内存,而是逐个读取它们(甚至更好,是逐行组读取),并立即将它们写入新文件。这样,您只需要在内存中保留一个文件或行组。 |
![]() |
3
1
我也面临着同样的问题。对于不太大的文件(高达100兆字节),写入时间可能长达20分钟。 尝试使用kite-sdkapi。我知道它看起来像是被遗弃了,但其中有些事情做得非常有效率。如果您喜欢Spring,也可以尝试springdatahadoop(这是kitesdkapi上的某种包装器)。在我的例子中,这个库的使用将写作时间减少到了2分钟。
当然,您需要向您的项目添加一些依赖项(在我的示例中,这是spring data hadoop):
|
![]() |
4
0
我已经用Spark和pyspark脚本实现了一些解决方案,下面是相同的示例代码,这里从目录位置加载多个parquet文件,如果parquet文件模式在文件中有点不同,我们也会合并这些文件。
希望这是一个简短的解决方案。 |