DynamoDB'yi tarihe göre sorgulama

Question 1

İlişkisel bir veritabanı geçmişinden geliyorum ve Amazon'un DynamoDB'si ile çalışmaya çalışıyorum

Karma anahtarı "DataID" ve "CreatedAt" aralığı ve içinde bir sürü öğe olan bir tablom var.

Belirli bir tarihten sonra oluşturulan ve tarihe göre sıralanmış tüm öğeleri almaya çalışıyorum. İlişkisel bir veri tabanında bu oldukça basittir.

DynamoDB'de bulabildiğim en yakın şey bir sorgu ve filtreden daha büyük aralık anahtarını kullanmaktır. Tek sorun, bir sorgu gerçekleştirmek için amacı ortadan kaldıran bir hash anahtarına ihtiyacım olmasıdır.

Öyleyse neyi yanlış yapıyorum? Tablo şemam yanlış mı, hash anahtarının benzersiz olması gerekmez mi? yoksa sorgulamanın başka bir yolu var mı?

Question 2

Güncellenmiş Cevap:

DynamoDB, bu tür bir sorgulamaya yardımcı olmak için ikincil dizinlerin belirlenmesine izin verir. İkincil dizinler ya global olabilir, yani indeksin karma anahtarlar boyunca tüm tabloyu kapsadığı anlamına gelir ya da dizinin her bir karma anahtar bölümü içinde var olacağı anlamına gelir, dolayısıyla karma anahtarın sorgu yapılırken de belirtilmesi gerekir.

Bu sorunun kullanım örneği için, "CreatedAt" alanında genel bir ikincil dizin kullanmak istersiniz.

DynamoDB ikincil dizinler hakkında daha fazla bilgi için ikincil dizin belgelerine bakın

Orijinal Cevap:

DynamoDB, yalnızca aralık anahtarında dizine eklenen aramalara izin vermez. Karma anahtar, hizmetin verileri bulmak için hangi bölüme bakacağını bilmesi için gereklidir.

Tabii ki tarih değerine göre filtrelemek için bir tarama işlemi gerçekleştirebilirsiniz, ancak bu tam bir tablo taraması gerektirir, bu nedenle ideal değildir.

Birden çok birincil anahtarda zamana göre dizine alınmış kayıt araması yapmanız gerekiyorsa, DynamoDB kullanmanız için ideal bir hizmet olmayabilir veya öğeyi depolamak için ayrı bir tablo (ya DynamoDB'de ya da ilişkisel bir depoda) kullanmanız gerekebilir. dizinlenmiş bir arama gerçekleştirebileceğiniz meta veriler.

Question 3

Mevcut tablo yapınız göz önüne alındığında, bu şu anda DynamoDB'de mümkün değildir. En büyük zorluk, tablonun (bölüm) Hash anahtarının ayrı tablolar oluşturuyor gibi ele alınması gerektiğini anlamaktır. Bazı yönlerden bu gerçekten güçlüdür (bölüm anahtarlarını her kullanıcı veya müşteri için yeni bir tablo oluştururken düşünün, vb.

Sorgular yalnızca tek bir bölümde yapılabilir. Bu gerçekten hikayenin sonu. Bu, tarihe göre sorgulamak istiyorsanız (epoch'tan beri msec kullanmak isteyeceksiniz), tek bir sorguda geri almak istediğiniz tüm öğelerin aynı Hash'e (bölüm anahtarı) sahip olması gerektiği anlamına gelir.

Bunu nitelendirmeliyim. scanAradığınız kritere göre kesinlikle yapabilirsiniz , bu sorun değil, ancak bu, tablonuzdaki her satıra bakacağınız ve ardından bu satırın parametrelerinize uyan bir tarih olup olmadığını kontrol edeceğiniz anlamına gelir. Bu gerçekten pahalıdır, özellikle olayları ilk etapta tarihe göre saklama işindeyseniz (yani çok sayıda satırınız varsa).

Sorunu çözmek için tüm verileri tek bir bölüme koymak isteyebilirsiniz ve kesinlikle yapabilirsiniz, ancak her bölümün toplam ayarlanan miktarın yalnızca bir kısmını aldığı göz önüne alındığında veriminiz acı verici derecede düşük olacaktır.

Yapılacak en iyi şey, verileri kaydetmek için oluşturmak üzere daha kullanışlı bölümler belirlemektir:

Gerçekten tüm satırlara bakmanız mı gerekiyor yoksa bu yalnızca belirli bir kullanıcının satırları mı?
Listeyi önce Ay'a göre daraltmak ve birden çok sorgu (her ay için bir tane) yapmak uygun olur mu? Veya Yıla göre?
Zaman serisi analizi yapıyorsanız, birkaç seçenek vardır, daha kolay PUThale getirmek için bölüm anahtarını üzerinde hesaplanan bir şeyle değiştirin queryya da kinesis gibi yalnızca ekleme-günlüğe izin veren başka bir aws ürünü kullanın.

Question 4

Bu sorunu çözmek için izlediğim yaklaşım aşağıdaki gibi bir Küresel İkincil Endeks oluşturmaktır. Bunun en iyi yaklaşım olduğundan emin değilim, ama umarım birisi için yararlıdır.

Hash Key                 | Range Key
------------------------------------
Date value of CreatedAt  | CreatedAt

Verilerin alınacağı gün sayısını belirleme için HTTP API kullanıcısına uygulanan sınırlama, varsayılan olarak 24 saattir.

Bu şekilde, HashKey'i her zaman Current date's day olarak belirtebilirim ve RangeKey, alırken> ve <operatörlerini kullanabilir. Bu şekilde veriler birden çok parçaya da yayılır.

Question 5

Hash anahtarınız (sıralamanın birincil) benzersiz olmalıdır (başkalarının belirttiği gibi bir aralığınız yoksa).

Sizin durumunuzda, tablonuzu sorgulamak için ikincil bir dizine sahip olmanız gerekir.

|  ID  | DataID | Created | Data |
|------+--------+---------+------|
| hash | xxxxx  | 1234567 | blah |

Karma Anahtarınız Kimliktir İkincil dizininiz şu şekilde tanımlanır: Veri Kimliği Oluşturulan dizin (DynamoDB'nin kullanacağı ad budur)

Daha sonra şöyle bir sorgu yapabilirsiniz:

var params = {
    TableName: "Table",
    IndexName: "DataID-Created-index",
    KeyConditionExpression: "DataID = :v_ID AND Created > :v_created",
    ExpressionAttributeValues: {":v_ID": {S: "some_id"},
                                ":v_created": {N: "timestamp"}
    },
    ProjectionExpression: "ID, DataID, Created, Data"
};

ddb.query(params, function(err, data) {
    if (err) 
        console.log(err);
    else {
        data.Items.sort(function(a, b) {
            return parseFloat(a.Created.N) - parseFloat(b.Created.N);
        });
        // More code here
    }
});

Esasen sorgunuz şöyle görünür:

SELECT * FROM TABLE WHERE DataID = "some_id" AND Created > timestamp;

İkincil Dizin, gerekli okuma / yazma kapasitesi birimlerini artıracağından, bunu dikkate almanız gerekir. Yine de bir tarama yapmaktan çok daha iyi, okuma ve zaman açısından maliyetli olacak (ve inandığım 100 öğeyle sınırlı).

Bunu yapmanın en iyi yolu bu olmayabilir, ancak RD'ye alışkın biri için (ben de SQL'e alışkınım) üretken olmanın en hızlı yolu budur. Şema ile ilgili herhangi bir kısıtlama olmadığından, çalışan bir şeyi kırbaçlayabilirsiniz ve en verimli şekilde çalışmak için bant genişliğine sahip olduğunuzda, etrafındaki şeyleri değiştirebilirsiniz.

Question 6

Hash anahtarını bir 'ürün kategorisi' kimliğinin satırları boyunca bir şey yapabilir, ardından aralık anahtarını bir zaman damgası ile sonuna eklenen benzersiz bir kimlik kombinasyonu olarak yapabilirsiniz. Bu şekilde, hash anahtarını bilirsiniz ve hala 'dan büyük olan tarihi sorgulayabilirsiniz.

Question 7

Birden çok özdeş karma anahtarınız olabilir; ancak yalnızca değişen bir aralık anahtarınız varsa. Dosya formatları gibi düşünün; Biçimleri farklı olduğu sürece, aynı klasörde aynı ada sahip 2 dosyaya sahip olabilirsiniz. Biçimleri aynıysa, adları farklı olmalıdır. Aynı kavram DynamoDB'nin karma / aralık anahtarları için de geçerlidir; hash'i isim olarak ve aralığı format olarak düşünün.

Ayrıca, OP sırasında bunlara sahip olup olmadıklarını hatırlamıyorum (yaptıklarına inanmıyorum), ancak şimdi Yerel İkincil Endeksler sunuyorlar.

Bunları anladığım, artık tam bir tarama yapmanıza gerek kalmadan istenen sorguları gerçekleştirmenize izin vermesi gerektiğidir. Dezavantajı, bu dizinlerin tablo oluştururken belirtilmesi gerekmesi ve ayrıca (inanıyorum) bir öğe oluştururken boş bırakılamayacak olmasıdır. Ek olarak, ek verim (tipik olarak bir tarama kadar olmasa da) ve depolamaya ihtiyaç duyarlar, bu nedenle bu, bazıları için mükemmel bir çözüm değil, uygulanabilir bir alternatiftir.

Yine de DynamoDB'yi kullanmanın tercih edilen yöntemi olarak Mike Brant'ın yanıtını öneriyorum; ve bu yöntemi kendim kullanıyorum. Benim durumumda, kimliğim olarak yalnızca bir karma anahtarı olan merkezi bir tablom, ardından sorgulanabilen bir karma ve aralığa sahip ikincil tablolar var, ardından öğe kodu doğrudan merkezi tablonun "ilgilenilen öğeye" işaret ediyor .

İkincil dizin ilgili Ek veri Amazon'un DynamoDB belgelerinde bulunabilir burada ilgilenenler için.

Her neyse, umarım bu, bu ileti dizisinde olan başka herkese yardımcı olur.

Question 8

Güncellenmiş Cevap Öngörülebilir verim ile Dynamo DB Sorguları kullanarak bunu yapmanın uygun bir yolu yoktur. Bir (optimal altı) seçenek, yapay bir HashKey ve CreatedAt ile GSI kullanmaktır. Ardından, yalnızca HashKey ile sorgulayın ve sonuçları sıralamak için ScanIndexForward'dan bahsedin. Doğal bir HashKey bulabilirseniz (öğenin kategorisini vb. Söyleyin), o zaman bu yöntem kazanır. Öte yandan, tüm öğeler için aynı HashKey'i tutarsanız, veri kümeniz 10GB'nin üzerine çıktığında (bir bölüm) çoğunlukla verimi etkileyecektir.

Orijinal Cevap: Bunu şimdi GSI kullanarak DynamoDB'de yapabilirsiniz. "CreatedAt" alanını GSI olarak yapın ve (GT some_date) gibi sorgular yayınlayın. Bu tür sorgular için tarihi bir sayı (epoch'tan beri milisaniye) olarak kaydedin.

Ayrıntılar burada mevcuttur: Global Secondary Indexes - Amazon DynamoDB: http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/GSI.html#GSI.Using

Bu çok güçlü bir özellik. Sorgunun (EQ | LE | LT | GE | GT | BEGINS_WITH | BETWEEN) ile sınırlı olduğunu unutmayın - Amazon DynamoDB: http://docs.aws.amazon.com/amazondynamodb/latest/APIReference/API_Condition.html