Spark kullanıcı arayüzümden. Atlanmak ne anlama geliyor?
Yanıtlar:
Tipik olarak bu, verilerin önbellekten getirildiği ve belirli bir aşamayı yeniden çalıştırmaya gerek olmadığı anlamına gelir. Bir sonraki aşamanın shuffling ( reduceByKey
) gerektirdiğini gösteren DAG'niz ile tutarlıdır . Karıştırma söz konusu olduğunda, Spark oluşturulan verileri otomatik olarak önbelleğe alır :
Shuffle ayrıca diskte çok sayıda ara dosya oluşturur. Spark 1.3'ten itibaren bu dosyalar, ilgili RDD'ler artık kullanılmayana ve çöp toplanana kadar korunur. Bu, köken yeniden hesaplanırsa karıştırma dosyalarının yeniden oluşturulmasına gerek kalmaması için yapılır.