Apache Spark web kullanıcı arayüzünde "Aşama Atlandı" ne anlama geliyor?


Yanıtlar:


124

Tipik olarak bu, verilerin önbellekten getirildiği ve belirli bir aşamayı yeniden çalıştırmaya gerek olmadığı anlamına gelir. Bir sonraki aşamanın shuffling ( reduceByKey) gerektirdiğini gösteren DAG'niz ile tutarlıdır . Karıştırma söz konusu olduğunda, Spark oluşturulan verileri otomatik olarak önbelleğe alır :

Shuffle ayrıca diskte çok sayıda ara dosya oluşturur. Spark 1.3'ten itibaren bu dosyalar, ilgili RDD'ler artık kullanılmayana ve çöp toplanana kadar korunur. Bu, köken yeniden hesaplanırsa karıştırma dosyalarının yeniden oluşturulmasına gerek kalmaması için yapılır.


23
Mükemmel cevap. Eğer öğrenmek istiyorsanız yolunu semantik hakkında daha ve check out, web arayüzünden aşamaları "beklemede" "atlanan" github.com/apache/spark/pull/3009 , öncelikle bu kavramların tanıtıldı çekme isteğini. Bu PR, atlanan / bekleyen aşamaların iş düzeyinde ilerleme çubuklarıyla nasıl etkileşime girdiğini merak ediyorsanız ilginç bir okuma olacaktır.
Josh Rosen

1
Doğru takip ediyorsam, Spark bunları atlamak, olmadıkları anlamına gelir ve hepsi koddan kaldırılabilir mi? veya kod önbellekte çok verimli, öyleyse bırakın? @ zero323
SparkleGoat

1
@SparkleGoat Hayır. Bu aşamaların daha önce değerlendirildiği ve sonucun tekrar çalıştırılmadan alınabileceği anlamına gelir.
10465355,

başka bir soru, aşamaları önbelleğe almak ve atlamak çıktı verilerini farklı kılabilir mi?
SparkleGoat

1
@SparkleGoat, önbelleğe alma (ve bu nedenle atlama) dahili bir kıvılcım optimizasyonudur ve çıktı verilerini hiçbir şekilde değiştirmez.
Ravi Sanwal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.