|
|
1
2
s3select与您的用例无关。
将大文件分成小部分进行并行处理正是Spark(以及mapreduce、hive等)对任何有意义的格式所做的事情。 CSV文件很容易分区,只要它们是用 压缩格式(none,snappy-但不是gzip)
除非您的工作人员每行都要进行大量的计算,否则在值得这样做之前有一个最小的块大小。实验。 |
|
|
2
1
如果希望同一个文件上有多个读卡器,请使用类似Parquet的格式,其中的行组具有在页脚中定义的显式定义的起始位置,这些行组可以由独立的读取器读取。当spark读取parquet文件时,它将把行组分成单独的任务。最终拥有适当大小的文件对于spark性能非常重要。 |