我有以下文件:test。json>
{ "id": 1, "name": "A green door", "price": 12.50, "tags": ["home", "green"] }
我想把这个文件加载到RDD中。这就是我尝试的:
rddj = sc.textFile('test.json') rdd_res = rddj.map(lambda x: json.loads(x))
我出错了:
预期对象:第1行第1列(字符0)
我不完全明白 json.loads
json.loads
我如何解决这个问题?
textFile 逐行读取数据。输入的每一行在语法上都不是有效的JSON。
textFile
只需使用json阅读器:
spark.read.json("test.json", multiLine=True)
或(不推荐)全文文件
sc.wholeTextFiles("test.json").values().map(json.loads)