代码之家 › 专栏 › 技术社区 › Shankar Panda

如何使用pyspark将SQL语句的结果发送到for循环?

pyspark-sql pyspark apache-spark python

Shankar Panda · 技术社区 · 6 年前

我正在尝试将SQL结果发送到for循环。我是新来的火花和巨蟒,请帮助。

    from pyspark import SparkContext
sc =SparkContext()
from pyspark.sql import HiveContext
hive_context = HiveContext(sc)
#bank = hive_context.table("cip_utilities.file_upload_temp")
data=hive_context.sql("select * from cip_utilities.cdm_variable_dict")
hive_context.sql("describe cip_utilities.cdm_variables_dict").registerTempTable("schema_def")
temp_data=hive_context.sql("select * from schema_def")
temp_data.show()
data1=hive_context.sql("select col_name from schema_def where data_type<>'string'")
data1.show()

2 回复 | 直到 6 年前

y2k-shubham 6 年前

使用 DataFrame.collect() method 集合了 Spark-SQL 从所有查询 遗嘱执行人 进入之内司机 .
这个 collect() 方法将返回 Python list ,每个元素都是 Spark Row
然后可以在 for 回路

代码片段:

data1 = hive_context.sql("select col_name from schema_def where data_type<>'string'")
colum_names_as_python_list_of_rows = data1.collect()

ThatDataGuy 6 年前

我想你需要问问自己 为什么 您希望对数据进行迭代。

您正在进行聚合吗?转换数据?如果是这样,考虑使用Spark API来实现。

打印一些文本?如果是,那么使用.collect()并将数据检索回驱动程序进程。然后您可以用通常的Python方法循环结果。

推荐文章

Anneso · 获取系列第一次/最后一次出现的日期

7 年前

Jared · 如何将时间戳类型的PySpark数据帧截断到当天?

7 年前

Ashley O · 从当前时间算起N天内的发生次数-pyspark

7 年前

Nevermore · 检查两个pyspark行是否相等

7 年前

Ahmad Senousi · 将时间划分为每30分钟一个周期

7 年前

desaiankitb · 如何使用jdbc执行连接查询,而不是使用pyspark获取多个表

7 年前

silviacamplani · 如何删除加入同一pyspark数据帧的“重复”行?

7 年前

Jack · 如何在pyspark dataframe中将字符串以外的任何数据类型转换为字符串

7 年前

abhjt · 读取ASCII字符pyspark上的csv和连接行

7 年前

RobinL · Pyspark:使用带参数的UDF创建新列[重复]

7 年前