代码之家  ›  专栏  ›  技术社区  ›  Parand

用Python将S3数据并行/异步下载到EC2?

  •  2
  • Parand  · 技术社区  · 16 年前

    我在S3中存储了大量需要分析的数据文件。每批包含约50个文件,每个文件都可以独立分析。

    我想设置将S3数据并行下载到EC2实例中,并设置触发器,启动对下载的每个文件的分析过程。

    是否有任何库可以处理异步下载,在完整模型上触发?

    3 回复  |  直到 16 年前
        1
  •  3
  •   Parand    16 年前

    为了回答我自己的问题,我最终对Amazon S3 python库进行了一个简单的修改,允许您分块下载文件或逐行读取。 Available here .

        2
  •  0
  •   Nathan Stocks    16 年前

    twisted :

    “Twisted是一个用Python编写的事件驱动网络引擎,并在MIT许可证下获得许可。”

    http://twistedmatrix.com/trac/

    我已经在相当多的异步项目中使用了扭曲的python,这些项目涉及通过互联网和子流程进行通信。

        3
  •  0
  •   Jay    16 年前

    我不知道有什么已经存在的东西能完全满足你的需求,但即使没有,它也应该很容易与Python结合在一起。对于线程方法,您可以看看这个 Python recipe 它执行多线程HTTP下载以测试下载镜像。

    编辑