代码之家 › 专栏 › 技术社区 › Avision

Apache PySpark-在不扫描文件的情况下读取目录

google-cloud-storage apache-spark-sql pyspark apache-spark

Avision · 技术社区 · 6 年前

我们有一个不断增长的数据湖的日志,我们保存在谷歌存储。数据按日期进行分区(以及其他东西,如env=production/staging)。想象一下这条路 gs://bucket/data/env=*/date=*

我们通过创建数据帧开始一个应用程序或一个分析,这些数据帧可以在以后查询以进行处理。问题是,创建DFs需要很长时间,甚至在我们对其执行操作之前。换句话说,下面的命令需要很长时间,因为Spark似乎正在扫描内部的所有文件(正如我所提到的,数据量一直在增长)。

df = spark.read.load("gs://bucket/data/", schema=data_schema, format="json")

注意,我们在这里提供了模式。另外,在加载数据之后,分区工作得很好,也就是说,如果我们按天过滤,我们确实得到了预期的速度。我们不想从一开始就读取一个特定的分区,我们希望将所有内容都放在一个DF中,并且只读取稍后需要的内容。

0 回复 | 直到 6 年前

推荐文章

Jurgen · 是否可以从linux shell脚本从云存储中检索文档?

7 年前

Jan · GCP部署管理器:403没有存储。水桶。得以进入

7 年前

Bruce Mu · 在gcs上使用拼花文件创建新的大查询外部表时。显示错误

7 年前

Brian · 为什么写入GCS存储桶会导致本地开发blob存储条目?

7 年前

Nitishkumar Singh user3744342 · Google云存储同时上传多个大文件时引发错误

7 年前

Nagesh Singh Chauhan · 遍历所有文件夹以搜索最新修改的文件

7 年前

user3116871 · 使用具有云功能的下载url从firebase存储中删除文件

7 年前

Tabish Rizvi · 如何从google云存储中的多个文件中删除扩展名?

7 年前

Tom Gummery · 将负载平衡的Google后端bucket限制为特定的IP范围

7 年前

user1403546 · Python-从Google云存储下载整个目录

7 年前