mongodb删除重复数据

删除线上运行数据产生的脏数据

Posted by Silence on November 30, 2018

前言

注:mongodb当前版本是3.4.3

线上会员注册的小程序, 因粉丝upsert会员的接口出现问题(在转公众号粉丝的时候因没有openId,使用的是缓存数据,有两分钟延迟,每两分钟内修改的是同一个会员的数据),导致会员的数据被重复修改产生脏数据,需要进行数据清洗

删除重复数据的mongo语句:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
db.userInfo.aggregate([
    {
        $group: {
          _id: {userName: '$userName',age: '$age'},
          count: {$sum: 1},
          dups: {$addToSet: '$_id'}
        }
    },
    {
        $match: {count: {$gt: 1}}
    }
]).forEach(function(doc){
    doc.dups.shift();
    db.userInfo.remove({_id: {$in: doc.dups}});
})
  1. 根据userName和age分组并统计数量,$group只会返回参与分组的字段,使用$addToSet在返回结果数组中增加_id字段
  2. 使用$match匹配数量大于1的数据
  3. doc.dups.shift();表示从数组第一个值开始删除;作用是踢除重复数据其中一个_id,让后面的删除语句不会删除所有数据
  4. 使用forEach循环根据_id删除数据

$addToSet 操作符只有在值没有存在于数组中时才会向数组中添加一个值。如果值已经存在于数组中,$addToSet返回,不会修改数组。

注意:forEach和$addToSet的驼峰写法不能全部写成小写