![]() |
1
11
这里有两种方法可能适合您。。。 Amazon S3有一个新功能,名为 S3 Select 它允许您查询存储在S3上的文件。 您可以对文件中的记录数(行)进行计数,甚至可以对GZIP文件进行计数。结果可能因文件格式而异。
亚马逊雅典娜 也是一个类似的可能合适的选项。它可以查询存储在Amazon S3中的文件。 |
![]() |
2
3
是的,Amazon S3具有选择功能,在从选择选项卡执行任何查询时,也要关注成本。。 例如,以下是2018年6月的价格(可能有所不同) S3选择定价基于输入、输出和传输数据的大小。 每个查询的扫描成本为每GB 0.002美元,再加上返回的每GB 0.0007美元。 |
![]() |
3
1
您可以使用python/boto3来完成。 定义bucket\u名称和前缀:
请注意,S3 SELECT一次只能访问一个文件。 现在,您可以打开S3选择光标:
现在迭代thourgh返回的记录:
如果要计算给定S3目录中所有拼花文件中的记录,请查看以下python/boto3脚本: S3-parquet-files-row-counter |
![]() |
j panton · 使用循环创建JSON格式 7 年前 |
![]() |
tooptoop4 · s3-如何快速计算文件的行数?wc-l太慢 7 年前 |
![]() |
Nazar · 作为守护程序运行时,Botocore无法读取凭据。服务 7 年前 |
![]() |
Piyush Kumar · 在负载平衡器中打印实例的状态 7 年前 |