Jimmy Lin ve Chris Dyer'in MapReduce ile Veri Yoğun Metin Madenciliği kitabındaki ilk bölümde belirttiği gibi, büyük veri ölçeklerinde, farklı algoritmaların performansı, performans farklılıklarının neredeyse ortadan kalkacağı şekilde birleşmektedir. Bu, yeterince büyük bir veri kümesi verildiğinde, kullanmak istediğiniz algoritmanın hesaplamalı olarak daha ucuz olduğu anlamına gelir. Sadece daha küçük veri ölçeklerinde algoritmalar arasındaki performans farkları önemlidir.
Bununla birlikte, kitapları (yukarıda bağlantılı) ve Anand Rajaraman, Jure Leskovec ve Jeffrey D. Ullman'ın Devasa Veri Kümeleri Madenciliği , özellikle doğrudan MapReduce ile ilgili olarak, kontrol etmek isteyeceğiniz iki kitaptır. veri madenciliği amacıyla.