代码之家 › 专栏 › 技术社区 › Shankar Panda

Pyspark:如何将spark数据帧转换为json并保存为json文件?

pyspark-sql apache-spark-sql pyspark python-3.x

Shankar Panda · 技术社区 · 6 年前

我正在尝试将我的pysparksql数据帧转换为json,然后另存为一个文件。

df_final = df_final.union(join_df)

我试过这样的方法。但它创建了一个无效的json。

df_final.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True)

{"Variable":"Col1","Min":"20","Max":"30"}
{"Variable":"Col2","Min":"25,"Max":"40"}

我的预期文件应包含以下数据:

[
{"Variable":"Col1",
"Min":"20",
"Max":"30"},
{"Variable":"Col2",
"Min":"25,
"Max":"40"}]

3 回复 | 直到 6 年前

Sahil Desai 6 年前

为 pyspark 您可以直接将您的数据帧存储到json文件中,不需要将datafram转换为json。

df_final.coalesce(1).write.format('json').save('/path/file_name.json')

仍然需要将datafram转换为json,然后才能使用 df_final.toJSON() .

OmG 6 年前

collect 然后用 json.dump :

import json
collected_df = df_final.collect()
with open(data_output_file + 'createjson.json', 'w') as outfile:
    json.dump(data, outfile)

chilun 6 年前

如果您想使用spark将结果作为json文件处理,我认为您的输出模式在hdfs中是正确的。

我假设您遇到了这样一个问题,即使用以下命令无法顺利地从普通python脚本中读取数据:

with open('data.json') as f:
  data = json.load(f)

您应该尝试逐行读取数据:

data = []
with open("data.json",'r') as datafile:
  for line in datafile:
    data.append(json.loads(line))

你可以用 pandas

df = pd.DataFrame(data)

推荐文章

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

8 月前

Cam · Pandas列表日期到日期时间

8 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

8 月前

jjkennedy · Pandas文本文件导入:当每个文件中存在多个表时,自动选择1个表

8 月前

LMC · Numpy数组布尔索引以获取包含元素

9 月前

vr8ce · 非成对标记中特定字符的正则表达式

9 月前

Kernel · 如果指定了crs参数,shapefile的geopandas.read_file将出错

9 月前

ShaAnder · 为什么sqllachemy返回的是类而不是字符串

9 月前

sixtytrees · detectron2软件包未安装(没有名为“torch”的模块),但我安装了torch

9 月前

Pernoctador · Python映射可以复制吗?我需要参考地图

10 月前