代码之家  ›  专栏  ›  技术社区  ›  ENRICO PEGORARO

R BigQuery:以拼花地板格式将数据导出到谷歌云存储

  •  0
  • ENRICO PEGORARO  · 技术社区  · 1 年前

    我正在尝试从BigQuery数据库表中导出查询的数据。 由于生成的表可能很大(2.5GB或更大),我遵循了 bq_table_download() 帮助,我曾经 bq_table_save() 将数据保存在谷歌云存储的多个文件中。

    当我试图申请时 bq_table_save() ,我发现了一个未记录的选项来导出文件: destination_format = "PARQUET" 代替 "NEWLINE_DELIMITED_JSON" "CSV" . 如果我使用这个参数, bq_table_save() 将数据正确保存在多个“镶木地板”文件中。

    我可以毫无问题地使用此选项吗?在我看来,它工作得很好:它的性能很好,使用镶木地板文件为我节省了大量检查数据类型的工作。

    以下代码最多概括了我用来将数据成功导出到谷歌云存储桶的代码:

    project_id  <- "<project identifier>"
    sql_dwn <- "SELECT * FROM <table from which to extract data>"
    tb <- bq_project_query(project_id, sql_dwn)
    bq_table_save(tb, destination_uris = "destination_bucket/folder/filename_*.parquet", destination_format="PARQUET") 
    

    提前感谢您的建议/提示。 Enrico

    0 回复  |  直到 1 年前