代码之家 › 专栏 › 技术社区 › SuperSecretAndNotSafeFromWork

可以在<1秒内通过SQL运行此查询,但聚合MongoDB不能在45分钟内从具有相同索引的相同数据集运行

aggregate-functions indexing performance mongodb

SuperSecretAndNotSafeFromWork · 技术社区 · 7 年前

我有一个数据集(1100万行),其中包括支付给公司的款项,结构如下:

id : 12345678,
company_id : 123456,
payment_value : 50,
payer_id: 111111,
payment_date: "20/01/2017"
payer_name: "John Smith",
...<70ish more columns with mostly blank data>...

有60万个公司ID,我想将其分组,并显示支付总额最高的公司ID

这是我拥有的mongo shell(db版本:4.0.1)代码:

db.pay.aggregate([
 {$project: {_id:1, company_id:1, payment_value:1}},
 {$group: {_id: "$company_id", total_value: {$sum: "$payment_value"}}},
 {$sort: {total_value: -1},
 {$limit: 1}],
 {allowDiskUse: true})

它不会在45分钟内运行!我有一个关于公司ID的索引,这看起来像是一个直接的查询

我把它加载到Postgresdb中并写道:

SELECT 
company_id,
SUM(payment_value)
FROM payments
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1

这花了1秒钟。我对mongodb collection和postgres表使用相同的索引方法

我在这里对MongoDB做了什么错误?

谢谢你抽出时间

1 回复 | 直到 7 年前

SuperSecretAndNotSafeFromWork 7 年前

我已经设法在一定程度上提高了性能:

通过在终端中设置ulimits和rlimits来更改MongoDB可用资源的限制 -在聚合查询结束时使用allowdishuse:true

推荐文章

Franz Biberkopf · Oracle:组合子查询和聚合函数

3 年前

Himanshu Pant · 在Teradata中实现聚合

7 年前

Niels Kristian · 如何根据不同行的左外连接关系中的属性生成函数值

7 年前

Vinay Ranjan Shukla · 使用max(column1)打印行中的column2,但不在group by子句中包含column2

7 年前

user4398985 · 通过维护订单聚合重复记录,还包括重复记录

7 年前

Igneous01 · SQL-添加到现有平均值

7 年前

ALM · 使用Spring JPA通过Postgresql为Group\u设置STRING\u AGG的聚合函数

7 年前

Konstantinos Vidakis · 列在选择列表中无效,因为它不包含在聚合函数或GROUP BY子句中。[ntext][duplicate]

7 年前

CairoCoder · MySQL 5.7 | group by | distinct |聚合错误

7 年前

Kvvaradha · MySQL查询简化

7 年前