![]() |
1
11
这里有两种方法可能适合您。。。 Amazon S3有一个新功能,名为 S3 Select 它允许您查询存储在S3上的文件。 您可以对文件中的记录数(行)进行计数,甚至可以对GZIP文件进行计数。结果可能因文件格式而异。
亚马逊雅典娜 也是一个类似的可能合适的选项。它可以查询存储在Amazon S3中的文件。 |
![]() |
2
3
是的,Amazon S3具有选择功能,在从选择选项卡执行任何查询时,也要关注成本。。 例如,以下是2018年6月的价格(可能有所不同) S3选择定价基于输入、输出和传输数据的大小。 每个查询的扫描成本为每GB 0.002美元,再加上返回的每GB 0.0007美元。 |
![]() |
3
1
您可以使用python/boto3来完成。 定义bucket\u名称和前缀:
请注意,S3 SELECT一次只能访问一个文件。 现在,您可以打开S3选择光标:
现在迭代thourgh返回的记录:
如果要计算给定S3目录中所有拼花文件中的记录,请查看以下python/boto3脚本: S3-parquet-files-row-counter |
![]() |
hallibut · Lambda功能不工作的SST热重新加载 3 月前 |
![]() |
Tim · 在java中,有没有更快的方法将字节数组写入文件? 3 月前 |
![]() |
Sampgun · CDN调用与lambda调用的巨大差异 5 月前 |
![]() |
Tiago · 如何允许从一个安全组到另一个组的所有流量? 9 月前 |
![]() |
explorer · AWS SageMaker项目模板创建失败 9 月前 |