代码之家  ›  专栏  ›  技术社区  ›  atlas_scoffed

AWS胶水作业内的互联网接入

  •  3
  • atlas_scoffed  · 技术社区  · 6 年前

    胶水工可以上网吗?

    使用此测试作业:

    def have_internet():
        conn = httplib.HTTPConnection("www.google.com", timeout=5)
        try:
            conn.request("HEAD", "/")
            conn.close()
            logger.warn('ok')
        except:
            conn.close()
            logger.warn('no ok')
    
    have_internet()
    

    看来他们没有。。。

    另外,在正确配置的Glue dev端点中,没有internet访问。

    通过正确配置,我的意思是在一个公共子网(internet网关)内,具有S3端点和internet网关,以及一个工作的“连接”和安全组。

    但仍然无法上网。。。

    我希望互联网接入能够查询一个prem数据库,保存到S3,运行另一个作业进行转换,并加载到rds。。。

    我可以用胶水做提取物吗?

    1 回复  |  直到 6 年前
        1
  •  0
  •   atlas_scoffed    6 年前

    这个问题现在已经自行解决了,我怀疑是由于Glue或相关基础设施的更新。

    连接问题是在PySpark REPL中发生的,而不是在实际的Dev端点实例本身上发生的。。。

    不管怎样,对于其他使用Glue解决类似网络连接问题的人,下面列出了可能的原因:

    开发人员终结点需要位于“公共”子网中* DHCP选项需要有默认设置 安全组,安全组,安全组 子网应与S3终结点相关联 ...