MapReduce'un gücünü göstermede kullanılan ana örneklerden biri Terasort karşılaştırmasıdır . MapReduce ortamında kullanılan sıralama algoritmasının temellerini anlamakta güçlük çekiyorum.
Bana göre sıralama, basitçe bir öğenin diğer tüm öğelerle olan göreceli konumunu belirlemeyi içerir. Yani sıralama, "her şeyi" "her şey" ile karşılaştırmayı içerir. Ortalama sıralama algoritmanız (hızlı, kabarcık, ...) bunu basitçe akıllıca yapar.
Aklımda, veri setini birçok parçaya bölmek, tek bir parçayı sıralayabileceğiniz ve ardından bu parçaları 'tam' tamamen sıralanmış veri kümesine entegre etmeniz gerektiği anlamına geliyor. Binlerce sisteme dağıtılan terabayt veri kümesi göz önüne alındığında, bunun çok büyük bir görev olmasını bekliyorum.
Peki bu gerçekten nasıl yapılır? Bu MapReduce sıralama algoritması nasıl çalışır?
Anlamama yardım ettiğin için teşekkürler.