«rdd» etiketlenmiş sorular


13
Kıvılcım - repartition () vs coalesce ()
Kıvılcım Öğrenmeye Göre Verilerinizi yeniden bölümlendirmenin oldukça pahalı bir işlem olduğunu unutmayın. Kıvılcım da optimize edilmiş bir sürümü var repartition()denilen coalesce()ama RDD bölüm sayısını azaltarak yalnızca eğer, veri hareketini üstesinden gelinebileceğini. Aldığım bir fark repartition(), bölüm sayısı ile artırılabilir / azaltılabilir, ancak coalesce()bölüm sayısı ile sadece azaltılabilir. Bölümler birden çok …


2
Scala vs Python için kıvılcım performansı
Scala yerine Python'u tercih ederim. Ancak, Spark Scala'da yerel olarak yazıldığından, kodumun Scala'da belirgin nedenlerle Python sürümünden daha hızlı çalışmasını bekliyordum. Bu varsayımla, yaklaşık 1 GB veri için bazı çok yaygın önişleme kodunun Scala sürümünü öğrenmeyi ve yazmayı düşündüm. Veriler, Kaggle'daki SpringLeaf yarışmasından toplandı . Sadece verilere genel bir bakış …

5
(Neden) önbelleği aramamız veya bir RDD'de kalmamız gerekiyor mu
Bir metin dosyasından veya koleksiyondan (veya başka bir RDD'den) esnek dağıtılmış bir veri kümesi (RDD) oluşturulduğunda, RDD verilerini belleğe kaydetmek için "önbellek" veya "kalıcı" yı çağırmamız gerekir mi? Yoksa RDD verileri varsayılan olarak bellekte dağıtılmış bir şekilde mi saklanır? val textFile = sc.textFile("/user/emp.txt") Anladığım kadarıyla, yukarıdaki adımdan sonra, textFile bir …
171 scala  apache-spark  rdd 


3
Apache Spark: Harita ve MapPartitions mı?
RDD'ler map ile mapPartitionsyöntem arasındaki fark nedir ? Ve böyle mi flatMapdavranıyor mu? Teşekkürler.mapmapPartitions (değiştir) yani arasındaki fark nedir (anlamsal olarak veya uygulama açısından) def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) …


3
HashPartitioner nasıl çalışır?
Belgelerini okudum HashPartitioner. Maalesef API çağrıları dışında pek bir şey açıklanmadı. HashPartitionerDağıtılmış kümeyi anahtarların karması temelinde bölümlere ayırdığı varsayımındayım . Örneğin, verilerim şöyle ise (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Böylelikle bölümleyici, bunu aynı bölüme düşen aynı anahtarlarla farklı bölümlere koyacaktır. Ancak yapıcı argümanının önemini anlamıyorum new HashPartitoner(numPartitions) //What does …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.