MapReduce : Hataya dayanıklı dağıtılmış hesaplama çerçevesi. MapReduce, donanımdan kaynaklanan arızaları önlemek için çok fazla çalışmayla büyük miktarlarda veri üzerinde çalışmanıza olanak tanır. MapReduce yavaş olduğu için sonuçları anında hesaplamak için kötü bir seçimdir. (Tipik bir MapReduce işi mikrosaniye değil dakikalar veya saatler alır)
MapReduce işi bir dosyayı (veya bazı veri deposunu) girdi olarak alır ve bir sonuç dosyası yazar. Bu sonuçların bir uygulama için kullanılabilir olmasını istiyorsanız, bu verileri erişilebilir bir yere koymak sizin sorumluluğunuzdadır. Bu muhtemelen yavaştır ve görüntüleyebileceğiniz değerler ile sisteminizi geçerli durumunda temsil eden değerler arasında bir gecikme olacaktır.
MapReduce uygulamasını gerçek zamanlı sistemler oluştururken kullanmayı düşünürken yapmanız gereken önemli bir ayrım, modelinizi eğitmek ve modelinizi uygulamaktır. Model parametrelerinizin hızlı bir şekilde değişmediğini düşünüyorsanız, bunları MapReduce ile sığdırabilir ve ardından modelinizi uygulamak istediğinizde bu önceden takılmış parametrelere erişmek için bir mekanizmaya sahip olabilirsiniz.
Fırtına : Gerçek zamanlı, akışlı bir hesaplama sistemi. Fırtına çevrimiçi çerçevedir, yani bu anlamda çalışan bir uygulama ile etkileşime giren bir hizmettir. MapReduce'un aksine, uygulamanızda işlendikçe küçük veri parçaları (bir dosya değil) alır. Veriler üzerinde gerçekleştirilecek işlemlerin bir DAG'sini tanımlarsınız. Storm için yaygın ve basit bir kullanım durumu sayaçları izlemek ve bu bilgileri gerçek zamanlı bir gösterge tablosunu doldurmak için kullanmaktır.
Storm'un verilerinizi devam ettirmeyle ilgisi yoktur. Burada akış, önem verdiğiniz bilgileri saklamanın ve geri kalanını atmanın bir başka yoludur. Gerçekte, muhtemelen uygulamanızda zaten veri kaydeden bir kalıcılık katmanınız vardır ve bu da endişelerin iyi ve haklı bir şekilde ayrılmasıdır.
Daha
fazla bilgi edinmek istiyorsanız ... MR ile parametrelere uyan ve modelleri farklı bir şekilde uygulayan gerçek zamanlı sistemler hakkında daha fazla bilgi edinmek istiyorsanız, gerçek zamanlı öneri motorları oluşturmaya verdiğim bir konuşma için slaytlar HBase.
Gerçek zamanlı sayma ve kalıcılığı ilginç bir şekilde birleştiren mükemmel bir makale Google Haberler Kişiselleştirme: Ölçeklenebilir Çevrimiçi İşbirlikçi Filtreleme
MR ve Fırtına'nın bir başka ilginç evliliği SummingBird . Summingbird, Storm veya MR yoluyla uygulanabilecek veri analizi işlemlerini tanımlamanızı sağlar.