代码之家 › 专栏 › 技术社区 › kee

如何在BigQuery客户端pythonapi中以原子方式覆盖表

google-bigquery python

kee · 技术社区 · 7 年前

job_config = bigquery.QueryJobConfig()
# Set the destination table
table_ref = client.dataset(dataset_id).table('your_table_id')
job_config.destination = table_ref
sql = """
    SELECT corpus
    FROM `bigquery-public-data.samples.shakespeare`
    GROUP BY corpus;
"""

# Start the query, passing in the extra configuration.
query_job = client.query(
    sql,
    # Location must match that of the dataset(s) referenced in the query
    # and of the destination table.
    location='US',
    job_config=job_config)  # API request - starts the query

query_job.result()  # Waits for the query to finish
print('Query results loaded to table {}'.format(table_ref.path))

这可以正常工作,但如果表已经存在,则会抛出一个错误。我知道如何首先删除表,但我想知道是否有一种方法可以使它以原子方式覆盖表,从而使表始终存在。

1 回复 | 直到 5 年前

shollyman 7 年前

您可以通过组合设置create\u处置和write\u处置来控制结果的持久化方式。python库在中公开了这些选项 QueryJobConfig ,并链接到RESTAPI文档中的更多详细信息。

WRITE_EMPTY ,如果表已存在,则会导致失败。把它换成 WRITE_TRUNCATE 应该给你的原子替换的数据,你正在寻找。

TL;DR: 只需将此添加到作业配置中:

job_config.write_disposition = bigquery.WriteDisposition.WRITE_TRUNCATE

推荐文章

Joe · 为什么这两个查询之间的性能存在如此大的差异?

1 年前

David542 · 除了显示其他字段

1 年前

Jamal Khan · 如何从Google大查询表中的大数据集中删除重复数据?

1 年前

ENRICO PEGORARO · R BigQuery:以拼花地板格式将数据导出到谷歌云存储

2 年前

user2707590 · 创建动态任务映射时,如何在BigQueryInsertJobOperator“params”中使用XComArg?

2 年前

KG1 · BigQuery-较大的查询在子查询抛出错误时执行

2 年前

Iren Ramadhan · 检查两个日期字段是否正好有一个月的间隔(相同日期)的逻辑,即2月28日和3月28日

2 年前

holzben · BigQuery `LIKE ANY`和`NOT LIKE ANY`

2 年前

NaiveBae · 如果我可以查询BigQuery表,但在资源管理器面板中找不到该表,我如何访问该表的元数据?

2 年前

Matt · BigQuery-当子查询不返回结果时,所有结果为零

2 年前