我正在尝试从BigQuery数据库表中导出查询的数据。
由于生成的表可能很大(2.5GB或更大),我遵循了
bq_table_download()
帮助,我曾经
bq_table_save()
将数据保存在谷歌云存储的多个文件中。
当我试图申请时
bq_table_save()
,我发现了一个未记录的选项来导出文件:
destination_format = "PARQUET"
代替
"NEWLINE_DELIMITED_JSON"
或
"CSV"
.
如果我使用这个参数,
bq_table_save()
将数据正确保存在多个“镶木地板”文件中。
我可以毫无问题地使用此选项吗?在我看来,它工作得很好:它的性能很好,使用镶木地板文件为我节省了大量检查数据类型的工作。
以下代码最多概括了我用来将数据成功导出到谷歌云存储桶的代码:
project_id <- "<project identifier>"
sql_dwn <- "SELECT * FROM <table from which to extract data>"
tb <- bq_project_query(project_id, sql_dwn)
bq_table_save(tb, destination_uris = "destination_bucket/folder/filename_*.parquet", destination_format="PARQUET")
提前感谢您的建议/提示。
Enrico