![]() |
1
3
不幸的是,我还没有找到这样做的方法。我报告了 this issue 删除硬编码值并使其可配置。如果你感兴趣的话,我有一个补丁。 |
![]() |
2
2
虽然
PARQUET-409
尚未修复,有几个变通方法可以让应用程序使用它
第一个问题和解决方法
:
您提到了行的大小可能高达50Mb。
这使得行组大小约为5Gb。
同时,您的spark执行器只有4Gb(
第二个问题和解决方法 :5Gb的大行块很可能分布在许多HDFS块上,因为默认HDFS块在128-256Mb范围内。(我假设您使用HDFS存储这些拼花文件,就像使用“hadoop”标记一样)parquet best practice 用于将行组完全驻留在一个HDFS块中:
下面是如何更改HDFS块大小的示例(在您之前设置 创造 此类拼花文件):
或在Spark Scala中:
我希望这将是固定在拼花地板水平有时,但这两个解决办法应该允许您与拼花地板操作这样大的行组。 |
![]() |
guilhermecgs · 拼花文件-具有可变频率的时间序列 7 年前 |
![]() |
Jay · 对Pyarrows的HdfsClient使用多处理 7 年前 |
![]() |
Mark Rajcok · 如何在构建拼花cpp时静态链接箭头? 7 年前 |
![]() |
Rijo Joseph · Spark读取拼花文件的问题 7 年前 |
![]() |
Martin Studer · 从拼花文件读取/写入pyarrow张量 7 年前 |
![]() |
M80 · 通过为包含JSON的列定义模式来创建配置单元表的视图 7 年前 |