![]() |
1
1
AmazonS3为列出目录提供了最终的一致性(请参见 this question ) 监控源列出目录中的文件,并通过记住文件的最大修改时间戳来跟踪它处理的文件。由于S3列表不能保证立即一致,因此最大修改时间戳可能会提前,时间戳较小的文件可能会丢失。 我认为增加监测间隔不能完全解决这个问题。相反,我们需要一个额外的参数来添加最大时间戳的偏移量。如果你能通过 mailing list 或者打开一个 Jira ticket . =======更新=========== 我已经按照法比安的建议实施了变更。功能方面,它已完成并工作。需要花费更多的时间来编写适当的单元测试/文档。 My implementation is here |
![]() |
Ellen Spertus · 使用Scala访问HBase的推荐方法 7 年前 |
![]() |
Daniel · 目录中的Apache Flink流文件 7 年前 |
![]() |
Jicaar · 一个卡夫卡制作人可以被多个接收器安全使用吗? 7 年前 |