代码之家 › 专栏 › 技术社区 › Lymedo

Databricks从包含等号(=)的路径加载文件

azure-log-analytics azure-databricks pyspark

Lymedo · 技术社区 · 3 年前

我希望将Azure Monitor数据从日志分析导出到存储帐户,并使用PySpark将JSON文件读取到Databricks中。

Log Analytics导出的blob路径包含一个等号(=),使用该路径时,Databricks会抛出和异常。

WorkspaceResourceId=/subscriptions/subscription-id/resourcegroups/<resource-group>/providers/microsoft.operationalinsights/workspaces/<workspace>/y=<four-digit numeric year>/m=<two-digit numeric month>/d=<two-digit numeric day>/h=<two-digit 24-hour clock hour>/m=<two-digit 60-minute clock minute>/PT05M.json

Log Analytics Data Export

有没有办法转义等号,以便可以从blob位置加载JSON文件?

0 回复 | 直到 3 年前

SaiKarri-MT 3 年前

我参考了Microsoft文档中的类似用例,以下是步骤:

安装存储容器。我们可以用下面的python代码来实现,确保传递的所有参数都正确,因为不正确的参数会导致多个不同的错误。
```
 dbutils.fs.mount(
       source = "wasbs://<container-name>@<storage-account-name>.blob.core.windows.net",
       mount_point = "/mnt/<mount-name>",
       extra_configs = {"<conf-key>":dbutils.secrets.get(scope = "<scope-name>", key = "<key-name>")})
```
以下是参数说明:
- <storage-account-name> 是您的Azure Blob存储帐户的名称。
- <container-name> 是Azure Blob存储帐户中容器的名称。
- <mount-name> 是一个DBFS路径,表示Blob存储容器或容器中的文件夹的位置(在中指定) source )将装入DBFS中。
- <conf-key> 两者都可以 fs.azure.account.key.<storage-account-name>.blob.core.windows.net 或 fs.azure.sas.<container-name>.<storage-account-name>.blob.core.windows.net
- dbutils.secrets.get(scope = "<scope-name>", key = "<key-name>") 获取已存储为 secret 在一个 secret scope .

然后,您可以按如下方式访问这些文件:

 df = spark.read.text("/mnt/<mount-name>/...")
 df = spark.read.text("dbfs:/<mount-name>/...")

此外,还有多种访问文件的方法,所有这些都在 doc .

并查看此日志分析工作区 doc 了解如何将数据导出到Azure存储。

推荐文章

Kevin Smeeks · Pyspark JDBC分区读取

5 月前

user3579222 · 阅读以前的Spark API

6 月前

Danylo Kuznetsov · 如何在PySpark Rancher中将DataFrame转换为整数?

6 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

6 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

11 月前

lenpyspanacb · 在Pyspark中计算重复次数

11 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

11 月前

Jamal Khan · 我们如何在Apache Spark中实现CDC(变更数据捕获)?

11 月前

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前