代码之家 › 专栏 › 技术社区 › Andrew Cassidy

多个分析函数在大查询中消耗所有内存

google-bigquery sql

Andrew Cassidy · 技术社区 · 6 年前

我以为我在大查询中避免了多个左连接和分组,并使用了以下功能:

 WITH added_a_boolean_column AS (
      SELECT
        *,
        NOT (DATE(CodedDate) >= "2018-04-01"
          AND DATE(CodedDate) < "2018-04-14") AS train
      FROM
      `XXXXX` )


SELECT 
   countif(train) OVER (PARTITION BY a) as a_counts,
   countif(train) OVER (PARTITION BY b) as b_counts,
   countif(train) OVER (PARTITION BY c) as c_counts,
   countif(train) OVER (PARTITION BY d) as d_counts,
   countif(train) OVER (PARTITION BY e) as e_counts,
   countif(train) OVER (PARTITION BY f) as f_counts,
   countif(train) OVER (PARTITION BY g) as g_counts,
   countif(train) OVER (PARTITION BY h) as h_counts,
   countif(train) OVER (PARTITION BY i) as i_counts
 FROM added_a_boolean_column

然而这会导致以下错误:

Resources exceeded during query execution: The query could not be executed in the allotted memory. Peak usage: 152% of limit. Top memory consumer(s): sort operations used for analytic OVER() clauses: 99% other/unattributed: 1% .

到底发生了什么?是:

 WITH added_a_boolean_column AS (
      SELECT
        *,
        NOT (DATE(CodedDate) >= "2018-04-01"
          AND DATE(CodedDate) < "2018-04-14") AS train
      FROM
      `XXXXX` ),

    a_count as (
        SELECT count(*) as a_counts, a FROM added_a_boolean_column WHERE train GROUP BY a),
    b_count as (.....
    ....
    ....

    i_count as (..

    SELECT * FROM added_a_boolean_column LEFT JOIN a_count.....

更好的选择?

0 回复 | 直到 6 年前

推荐文章

Johnny T · 基于当前值的SQL合并表[重复]

4 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

4 月前

John D · 需要为NULL或NOT NULL的WHERE子句

4 月前

ojek · 如何对SQL结果进行分组和编号?

4 月前

senek · 如何在PL/SQL中将选择结果(列)放入数组中

4 月前

Sax · 规范化Google表格(第一步)

4 月前

BarÄ±Å UÅaklÄ± · 如何在ON冲突更新中使用CTE中的值

4 月前

Jatin · 检索卷计数的动态sql抛出错误语法错误[关闭]

4 月前

Andrus · 如何在sql中查找第二个匹配项

5 月前

Nebula Tech · 在SQL Server中搜索字符串中单词的多次出现

5 月前