代码之家  ›  专栏  ›  技术社区  ›  Naguib Ihab

如何在AWS粘合作业中将多个源映射到单个目标

  •  1
  • Naguib Ihab  · 技术社区  · 6 年前

    我有一个MySQL数据库和一个包含200个表的Mongo数据库,我正在尝试将它们连接起来,将一些表粘在一起并合并到一起,最后得到20个合并数据表,以及一些过滤器和脚本,它们在数据到达需要的地方之前过滤掉其中的一些数据。

    我正在使用AWS Glue来完成这项工作,在使用爬虫程序生成1-1个表之后,我想开始将这些表合并到一起,但是当我创建作业时,我只能选择一个表作为源,这意味着我最终将得到200个作业。

    有没有一种方法可以让我的工作指向多个源,并将它们映射到一个表,如下面的屏幕截图?

    enter image description here

    我应该改用另一个工具,还是在其他地方执行这个步骤(即使用DMS并为爬虫程序生成另一个目标?)

    1 回复  |  直到 6 年前
        1
  •  0
  •   Kishore Bharathy    6 年前

    您应该使用代码级方法来执行此操作,方法是将每个表映射到单独的数据帧/动态帧,并将这些帧连接在一起,然后使用applymapping函数将其与目标模式一起打印/映射出来。下面是一个使用pyspark在glue中连接或合并两个表的清晰示例: Join two data frames, select all columns from one and some columns from the other