İnsanların verilerini işlemesine yardımcı olacak birçok araç / çerçeve duydum (büyük veri ortamı).
Birine Hadoop, diğerine noSQL kavramı denir. İşlem noktasındaki fark nedir?
Tamamlayıcı mı?
İnsanların verilerini işlemesine yardımcı olacak birçok araç / çerçeve duydum (büyük veri ortamı).
Birine Hadoop, diğerine noSQL kavramı denir. İşlem noktasındaki fark nedir?
Tamamlayıcı mı?
Yanıtlar:
Hadoop bir veritabanı değil , hadoop tüm bir ekosistemdir.
Çoğu insan sevk edecektir mapreduce Hadoop hakkında konuşurken işler. Bir mapreduce işi, küçük veri kümelerinde büyük veri kümelerini ayırır ve devam etmek için bunları bir düğüm kümesine yayar. Sonunda, her bir düğümün sonucu tekrar bir veri kümesi olarak bir araya getirilecektir.
<String, Integer>
Bir şehir içindeki bazı mahallelerin nüfusu ile bir dizi hadoop'a yüklediğinizi ve her şehrin tüm mahallelerinde ortalama nüfusu elde etmek istediğinizi varsayalım (şekil 1).
Şekil 1
[new york, 40394]
[new york, 134]
[la, 44]
[la, 647]
...
Şimdi hadoop önce her değeri tuşlarını kullanarak eşleyecektir (şekil 2)
şekil 2
[new york, [40394,134]]
[la, [44,647]]
...
Haritalamadan sonra, her bir anahtarın değerlerini yeni bir değere düşürecektir (bu örnekte, her bir anahtarın değer kümesi üzerindeki ortalama) (şekil 3)
Figür 3
[new york, [20264]]
[la, [346]]
...
şimdi hadoop her şeyle yapılırdı. Şimdi sonucu HDFS'ye (hadoop dağıtılmış dosya sistemi) veya herhangi bir DBMS veya dosyaya yükleyebilirsiniz.
Bu , hadoop'un neler yapabileceğine dair çok basit ve basit bir örnek. Haboop'ta çok daha karmaşık görevleri yürütebilirsiniz.
Sorunuzda daha önce de belirttiğiniz gibi, hadoop ve noSQL birbirini tamamlar. Sensörlerden milyarlarca veri kümesinin HBase'de saklandığı ve nihayet bir DBMS'de saklanabilmesi için hadoop aracılığıyla alındığı birkaç kurulum biliyorum.
NoSQL, bir tür ilişki olmasını gerektirmeyen verileri depolamanın bir yoludur. Tasarımının basitliği ve yatay ölçeklendirme yeteneği, veri depolamanın bir yolu key : value
çift tasarımıdır. Bu, Hadoop'a benzer bir işleme izin verir. Bir NoSQL db kullanımı gerçekten bir sonraki sorunun türüne bağlıdır.
İşte iyi bir wikipedia bağlantısı NoSQL
Hadoop devasa veri yığınlarını saklamak ve işlemek için kullanılan bir sistemdir. Bu bir dağıtılmış dosya sistemi dfs olduğunu. Bunu yapmasının nedeni, tasarımının merkezinde donanım arızalarının yaygın olduğu varsayımını oluşturması, böylece aynı bilgi parçasının birden fazla kopyasını çıkarması ve birden fazla makine ve rafa yaymasıdır, bu yüzden biri düşerse sorun olmaz, iki kopyası daha var. İşte wikipedia'dan Hadoop için harika bir bağlantı, bence bunun sadece depolamadan değil, aynı zamanda işlemden de daha fazla olduğunu göreceksiniz: Hadoop