代码之家 › 专栏 › 技术社区 › mcsilvio

在foreach中组织联接的最佳方式是什么?

apache-spark-sql pyspark apache-spark

mcsilvio · 技术社区 · 2 年前

我有两张桌子: {users, orders} 在本例中,假设对于 users 表中,有100000个订单 orders 桌子

我必须使用pyspark为每个用户生成一个Orders语句。因此,单个用户将需要他/她自己的订单列表。此外,我需要通过电子邮件(例如)将此声明发送给真实世界的用户。

我的第一直觉是应用 DataFrame.foreach() 在 用户 数据帧。这样,我就可以依靠星火员工单独处理电子邮件发送。然而,我现在不知道获得每个用户订单的最佳方式。

我将很快尝试以下(伪代码):

users_df = <my entire users DataFrame>
orders_df = <my entire orders DataFrame>

#this is poorly named for max understandability in this context
def foreach_function(row):
  user_id = row.user_id
  user_orders_df = orders_df.select(f'user_id = {user_id}')

  #here, I'd get any User info from 'row'
  #then, I'd convert all 'user_orders' to JSON
  #then, I'd prepare the email and send it

users_df.foreach(foreach_function)

我的理解是,如果我在 foreach 函数,在做这项工作时,我将利用Spark的可伸缩性。然而,我担心两件事:

如果我提前接受所有订单。。。
- 这样行吗?
- 我会吃得太多吗?我会接受那些不会处理它们的分区上的订单吗(不同的用户)。
如果我创建 orders_df (已过滤)在foreach函数中。。。
- 它行得通吗?
- 这对DB来说会不会太多IO?

最终的问题是:我如何才能有效地实现这个目标?

我还没有在这里尝试过任何东西。就在我们讲话的时候,我正在这样做,但我正遭受着选择麻痹症的折磨。

求你了,谢谢你。

0 回复 | 直到 2 年前

推荐文章

user3579222 · 阅读以前的Spark API

4 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

5 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

9 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

10 月前

Nakeuh · 从数组列中新建数据帧列

10 月前

maximodesousadias · 如何根据条件删除日期后的记录

10 月前

Ajay S Pal · 当调用函数时传递参数时,PySpark没有在函数内部创建Dataframe

1 年前

SUBHOJEET · 如何使用pyspark读取rds文件?

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前