代码之家 › 专栏 › 技术社区 › Palkin Jangra

使用循环在Pyspark数组元素上和元素本身内迭代两次

apache-spark-sql pyspark arrays python

Palkin Jangra · 技术社区 · 3 年前

我有一个住房数据集,其中既有分类变量,也有数字变量。在这个数据集中,我创建了另一个仅包含数值_属性的数据集,其中数组中包含数值_属性。数据集-数组值。 数字属性 [卧室数量、价格、年龄]

现在我想先循环数值_属性数组,然后在每个元素中计算每个数值_属性的平均值。

数据集1

Age Price Location
20  56000  ABC
30  58999  XYZ

数据集2(数据帧中的数组)

Numeric_attributes 
[Age, Price]

期望输出

Mean(Age)  Mean(Price)
25         57000

当前尝试

 def minimum_value(df2):
    min_value = lambda x: x.min()
    for a in df2.collect():
        for b in a.collect():
            min_udf = F.udf(lambda row: [min_value(x) for x in b])
            df2.withColumn('minimum_value', min_udf(F.col('Numerical_attributes').cast("array<int>")))
        return df2

0 回复 | 直到 3 年前

推荐文章

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前

user23358051 · 火花顺序优化规则

1 年前

Tristpost · 如何从我自己的Java Stream将CSV数据最好地加载到Apache Spark数据帧中?

1 年前

David Cunningham · Pyspark结构化流媒体-来自以前记录的数据

1 年前

Surender Raja · 对case语句的pyspark查询引发错误

1 年前

ConfusedDeveloper · 取消查看SPARK SQL中的列组

1 年前

nfsp412 · 当我使用spark-sql时,将出现此错误

1 年前