代码之家 › 专栏 › 技术社区 › Shankar Panda

Pyspark:如何在通过配置单元上下文执行时传递sql脚本中的参数

pyspark-sql apache-spark-sql pyspark python-3.x

Shankar Panda · 技术社区 · 6 年前

for line in tcp.collect():
hive_context.sql("SELECT 'zip' as Variable_name,percentile(zip, 0.25) as Q1, percentile(zip, 0.75) as Q3 FROM df_tab").show()  -- Zip should be replaced by variable line

I tried to do something like this as well, but it dint work
query="SELECT {d_line} as Variable_name, percentile({line}, 0.25) as Q1, percentile({line}, 0.75) as Q3 FROM df_tab".format(d_line=line) --this gives me output as

从df_tab中选择zip作为变量名,percentile(zip,0.25)作为Q1,percentile(zip,0.75)作为Q3——这里的zip必须以单引号形式出现

预期的输出查询:从df_tab中选择'zip'作为变量名,percentile(zip,0.25)作为Q1,percentile(zip,0.75)作为Q3

1 回复 | 直到 6 年前

Shankar Panda 6 年前

query="SELECT {d_name} as Variable_name, percentile({f_name}, 0.25) as Q1, percentile({f_name}, 0.75) as Q3 FROM df_tab GROUP BY {f_name}".format(f_name=line, d_name="'"+str(line)+"'")

推荐文章

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前

user23358051 · 火花顺序优化规则

1 年前

Tristpost · 如何从我自己的Java Stream将CSV数据最好地加载到Apache Spark数据帧中?

1 年前

David Cunningham · Pyspark结构化流媒体-来自以前记录的数据

1 年前

Surender Raja · 对case语句的pyspark查询引发错误

1 年前

ConfusedDeveloper · 取消查看SPARK SQL中的列组

1 年前

nfsp412 · 当我使用spark-sql时,将出现此错误

1 年前