代码之家  ›  专栏  ›  技术社区  ›  alexgbelov

Spark数据集何时使用除vs左反连接

  •  1
  • alexgbelov  · 技术社区  · 6 年前
    1 回复  |  直到 6 年前
        1
  •  1
  •   Ged    6 年前

    你的标题和解释不同。

    但是,如果您有相同的结构,您可以使用这两种方法来查找丢失的数据。

    除外

    是执行相同结构的特定实现,是减法运算,而

    如您所说,允许不同的结构,但可以得到相同的结果。

    用例不同:1)Left-Anti-Join可以应用于许多与丢失数据相关的情况—没有订单的客户(还没有),数据库中的孤儿。2) 除了减法以外,例如机器学习把数据分成测试集和训练集。

    性能不应该是真正的交易破坏者,因为它们通常是不同的用例,因此很难比较。Except将涉及相同的数据源,而LAJ将涉及不同的数据源。