代码之家 › 专栏 › 技术社区 › STORM

如何在Azure数据库中循环浏览Azure Datalake存储文件

databricks azure-data-lake azure python

STORM · 技术社区 · 6 年前

我正在列出文件 Azure Datalake Store gen1 使用以下命令成功:

dbutils.fs.ls('mnt/dbfolder1/projects/clients')

这个文件夹的结构是

- client_comp_automotive_1.json [File]
- client_comp_automotive_2.json [File]
- client_comp_automotive_3.json [File]
- client_comp_automotive_4.json [File]
- PROCESSED [Folder]

我想把那些( .json )将此文件夹中的文件逐个处理,以便我可以处理错误或其他问题,并将成功处理的文件移动到子文件夹中。

我该怎么做 python . 我试过了

folder = dbutils.fs.ls('mnt/dbfolder1/projects/clients')
files = [f for f in os.listdir(folder) if os.path.isfile(f)]

os 是未知的。我怎样才能做到 Databricks ?

1 回复 | 直到 6 年前

STORM 6 年前

即使我找了两天,答案也很简单:

files = dbutils.fs.ls('mnt/dbfolder1/projects/clients')

for fi in files: 
  print(fi.path)

推荐文章

Danylo Kuznetsov · 如何在PySpark Rancher中将DataFrame转换为整数?

6 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

6 月前

Enrique Benito Casado · Databricks Pyspark写入增量格式模式覆盖无法正常工作

1 年前

Patterson · 无法从Visual Studio代码创建用于Databricks的Python控制盘

1 年前

Aaron · Databricks SQL中行到列的动态转换

1 年前

Ajay S Pal · 当调用函数时传递参数时,PySpark没有在函数内部创建Dataframe

1 年前

Patterson · 将T-SQL重构为Databricks SQL以从子查询返回结果

1 年前

Desert Spider · 使用多个分隔符拆分sql

1 年前

Idiot · Spark-处理后移动文件

1 年前

Sarath Subramanian · 处理来自cat命令的错误消息

1 年前