Dizine alınmış bir sütunda MongoDB seçme sayısı (farklı x) - büyük veri kümeleri için benzersiz sonuçları sayın

Question 1

Birkaç makale ve örneği inceledim ve bu SQL sorgusunu MongoDB'de yapmanın etkili bir yolunu henüz bulamadım (milyonlarca ~~satırlar~~ belgeler)

İlk girişim

(örneğin bu neredeyse yinelenen sorudan - SQL'deki SELECT DISTINCT'in Mongo eşdeğeri? )

db.myCollection.distinct("myIndexedNonUniqueField").length

Veri kümem çok büyük olduğu için açıkçası bu hatayı aldım

Thu Aug 02 12:55:24 uncaught exception: distinct failed: {
        "errmsg" : "exception: distinct too big, 16mb cap",
        "code" : 10044,
        "ok" : 0
}

İkinci deneme

Bir grup denemeye karar verdim

db.myCollection.group({key: {myIndexedNonUniqueField: 1},
                initial: {count: 0}, 
                 reduce: function (obj, prev) { prev.count++;} } );

Ama bunun yerine şu hata mesajını aldım:

exception: group() can't handle more than 20000 unique keys

Üçüncü deneme

Henüz denemedim, ancak içeren birkaç öneri var mapReduce

Örneğin

bu , mongodb'de farklı ve grup nasıl yapılır? (kabul edilmedi, cevap yazarı / OP test etmedi)
İşlevselliklere göre bu bir MongoDB grubu (İkinci Deneme'ye benzer görünüyor)
bu http://blog.emmettshear.com/post/2010/02/12/Counting-Uniques-With-MongoDB
bu https://groups.google.com/forum/?fromgroups#!topic/mongodb-user/trDn3jJjqtE
bu http://cookbook.mongodb.org/patterns/unique_items_map_reduce/

Ayrıca

Görünüşe göre GitHub'da .distinct, yalnızca bir sayı döndürmesi gerektiğinden bahsetmek için yöntemi düzelten bir çekme isteği var , ancak hala açık: https://github.com/mongodb/mongo/pull/34

Ama bu noktada burada sormaya değer olduğunu düşündüm, konuyla ilgili son gelişmeler neler? Farklı sayılar için SQL veya başka bir NoSQL DB'ye geçmeli miyim? yoksa verimli bir yol var mı?

Güncelleme:

MongoDB resmi dokümanları hakkındaki bu yorum cesaret verici değil, bu doğru mu?

http://www.mongodb.org/display/DOCS/Aggregation#comment-430445808

Güncelleme2:

Görünüşe göre yeni Toplama Çerçevesi yukarıdaki yorumu yanıtlıyor ... (MongoDB 2.1 / 2.2 ve üstü, geliştirme önizlemesi mevcut, üretim için değil)

http://docs.mongodb.org/manual/applications/aggregation/

Question 2

1) Bunu yapmanın en kolay yolu, toplama çerçevesi kullanmaktır. Bu, iki "$ group" komutunu alır: birincisi farklı değerlere göre gruplandırılır, ikincisi farklı tüm değerleri sayar

pipeline = [ 
    { $group: { _id: "$myIndexedNonUniqueField"}  },
    { $group: { _id: 1, count: { $sum: 1 } } }
];

//
// Run the aggregation command
//
R = db.runCommand( 
    {
    "aggregate": "myCollection" , 
    "pipeline": pipeline
    }
);
printjson(R);

2) Bunu Harita / Küçült ile yapmak isterseniz yapabilirsiniz. Bu aynı zamanda iki aşamalı bir süreçtir: ilk aşamada, anahtar için her farklı değerin bir listesiyle yeni bir koleksiyon oluşturuyoruz. İkinci olarak, yeni koleksiyona bir sayarız ().

var SOURCE = db.myCollection;
var DEST = db.distinct
DEST.drop();


map = function() {
  emit( this.myIndexedNonUniqueField , {count: 1});
}

reduce = function(key, values) {
  var count = 0;

  values.forEach(function(v) {
    count += v['count'];        // count each distinct value for lagniappe
  });

  return {count: count};
};

//
// run map/reduce
//
res = SOURCE.mapReduce( map, reduce, 
    { out: 'distinct', 
     verbose: true
    }
    );

print( "distinct count= " + res.counts.output );
print( "distinct count=", DEST.count() );

Haritanın sonucunu döndüremeyeceğinizi / satır içi küçültemeyeceğinizi unutmayın, çünkü bu 16MB belge boyutu sınırını aşabilir. Sen edebilir bir koleksiyonundaki hesaplama kaydetmek ve daha sonra (sayım) koleksiyonun boyutunu veya mapreduce dönüş değerinden sonuç sayısını elde edebilirsiniz ().

Question 3

db.myCollection.aggregate( 
   {$group : {_id : "$myIndexedNonUniqueField"} }, 
   {$group: {_id:1, count: {$sum : 1 }}});

doğrudan sonuca:

db.myCollection.aggregate( 
   {$group : {_id : "$myIndexedNonUniqueField"} }, 
   {$group: {_id:1, count: {$sum : 1 }}})
   .result[0].count;

Question 4

Aşağıdaki çözüm benim için çalıştı

db.test.distinct ('kullanıcı'); ["alax", "İngiltere", "Fransa", "Avustralya"]

db.countries.distinct ('ülke'). uzunluk 4