代码之家  ›  专栏  ›  技术社区  ›  djWann

如何从AWS SQS读取流数据集?

  •  2
  • djWann  · 技术社区  · 8 年前

    对于火花流,有 connectors 可以实现此功能。

    不幸的是,对于Spark结构化流媒体,我找不到任何内容,因为它是一种较新的技术。是否有办法使用Spark流式连接器连接到源?或者,是否有一种方法可以创建自定义连接器,类似于在 spark streaming 应用

    2 回复  |  直到 7 年前
        1
  •  1
  •   Jacek Laskowski    8 年前

    是否有办法使用spark流式连接器连接到源?

    不知道。

    或者,是否有一种创建自定义连接器的方法,类似于在spark流媒体应用程序中创建连接器的方法?

    由于没有AWS SQS方面的经验,我认为如果Spark Streaming支持它,Spark结构化流也应该支持。

    流媒体 Source 接口允许您实现一个自定义数据源来加载流数据集,也可能来自AWS SQS。

    使用 KafkaSource TextSocketSource 作为模板。

        2
  •  1
  •   Ashan    8 年前

    首先,与使用AWS Kinesis Streams、Kinesis Firehorse和Kinesis Analytics相比,AWS SQS可能不适合流媒体要求,因为后者专注于流媒体数据处理、存储和分析。

    您可以进行事件连接 Spark Streaming + Kinesis Integration 配置Spark Streaming以从Kinesis接收数据。

    我认为目前还没有针对AWS SQS的spark流连接器,但您应该能够使用AWS SQS SDK编写自定义连接器,以轮询队列中的数据并将其推送到spark流。

    推荐文章