Öyleyse senaryo şudur:
Azure Storage'a veri bloğu yazan bir web hizmetinin birden çok örneğine sahibim. Ne zaman alındığına bağlı olarak blobları bir kapsayıcıda (veya sanal bir dizinde) gruplayabilmem gerekiyor. Arada bir (en kötü ihtimalle her gün) eski bloblar işlenir ve sonra silinir.
İki seçeneğim var:
seçenek 1
"Blob" (örneğin) adında bir konteyner yapıyorum ve ardından tüm blogları bu konteynerde depoluyorum. Her blob, alındığı zaman olan dizin adı ile birlikte bir dizin stili adı kullanır (ör. "Hr0min0 / data.bin", "hr0min0 / data2.bin", "hr0min30 / data3.bin", "hr1min45 / data.bin ", ...," hr23min0 / dataN.bin ", vb - her X dakikada bir yeni bir dizin ). Bu blob'ları işleyen şey, önce hr0min0 blob'ları işleyecektir, sonra hr0minX vb. (Ve bloblar işlenirken hala yazılmaktadır).
seçenek 2
Her biri varış zamanına göre bir ada sahip birçok kabım var (yani önce blobs_hr0min0, ardından blobs_hr0minX, vb. Adında bir kapsayıcı olacak) ve kapsayıcıdaki tüm bloblar, belirtilen zamanda gelen bloblardır. Bu blogları işleyen şey, her seferinde bir konteyneri işleyecektir.
Yani sorum şu, hangi seçenek daha iyi? Seçenek 2 bana daha iyi paralelleştirme sağlıyor mu (bir kapsayıcı farklı sunucularda olabileceğinden) yoksa seçenek 1 daha mı iyi çünkü birçok kapsayıcı başka bilinmeyen sorunlara neden olabilir?