«apache-spark» etiketlenmiş sorular

Apache Spark, Scala'da yazılmış, kullanıcılara birleşik API ve dağıtılmış veri setleri sağlayan açık kaynaklı dağıtılmış bir veri işleme motorudur. Apache Spark için Kullanım Durumları genellikle makine / derin öğrenme, grafik işleme ile ilgilidir.


13
Kıvılcım - repartition () vs coalesce ()
Kıvılcım Öğrenmeye Göre Verilerinizi yeniden bölümlendirmenin oldukça pahalı bir işlem olduğunu unutmayın. Kıvılcım da optimize edilmiş bir sürümü var repartition()denilen coalesce()ama RDD bölüm sayısını azaltarak yalnızca eğer, veri hareketini üstesinden gelinebileceğini. Aldığım bir fark repartition(), bölüm sayısı ile artırılabilir / azaltılabilir, ancak coalesce()bölüm sayısı ile sadece azaltılabilir. Bölümler birden çok …


12
Spark java.lang.OutOfMemoryError: Java yığın alanı
Kümem: 1 master, 11 slave, her düğümün 6 GB belleği var. Ayarlarım: spark.executor.memory=4g, Dspark.akka.frameSize=512 İşte sorun: İlk olarak , HDFS'den RDD'ye bazı verileri (2.19 GB) okudum: val imageBundleRDD = sc.newAPIHadoopFile(...) İkincisi , bu RDD'de bir şeyler yapın: val res = imageBundleRDD.map(data => { val desPoints = threeDReconstruction(data._2, bg) (data._1, desPoints) …

7
Görev serileştirilemez: java.io.NotSerializableException, işlevi yalnızca nesneler değil sınıflarda kapatma dışında çağırırken
Bir kapatma dışında işlevi çağırırken garip davranışlar alma: işlev bir nesnede olduğunda her şey çalışır işlev bir sınıftayken: Görev serileştirilemez: java.io.NotSerializableException: test Sorun benim kod bir sınıf değil, bir nesne gerekir. Bunun neden olduğu hakkında bir fikrin var mı? Scala nesnesi serileştirilmiş mi (varsayılan?)? Bu bir çalışma kodu örneğidir: object …

2
Spark Standalone kümesinde çalışanlar, uygulayıcılar, çekirdekler nelerdir?
Küme Moduna Genel Bakış'ı okudum ve Kıvılcım Bağımsız kümedeki farklı işlemleri ve paralelliği hala anlayamıyorum . Çalışan bir JVM süreci mi, değil mi? bin\start-slave.shKoştum ve aslında bir JVM olan işçiyi doğurduğunu gördüm . Yukarıdaki bağlantıya göre, bir yönetici, görevleri çalıştıran bir çalışan düğümdeki bir uygulama için başlatılan bir işlemdir. Bir …

13
Bir Spark Veri Çerçevesinde tam sütun içeriği nasıl gösterilir?
Bir DataFrame veri yüklemek için spark-csv kullanıyorum. Basit bir sorgu yapmak ve içeriği görüntülemek istiyorum: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col kesilmiş görünüyor: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …


13
Pyspark'ta veri çerçevesi sütun adları nasıl değiştirilir?
Pandalar arka plan geliyor ve CSV dosyalarından bir veri çerçevesine veri okuma ve daha sonra basit bir komut kullanarak yararlı bir şey sütun adlarını değiştirmeye alışkınım: df.columns = new_column_name_list Ancak, aynı sqlContext kullanılarak oluşturulan pyspark veri çerçevelerinde çalışmaz. Bunu kolayca yapmak için çözebileceğim tek çözüm şudur: df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', …

8
Apache Spark: Çekirdek sayısı ve uygulayıcı sayısı
YARN'de bir Spark işi çalıştırırken çekirdek sayısının ve uygulayıcı sayısının ilişkisini anlamaya çalışıyorum. Test ortamı aşağıdaki gibidir: Veri düğümü sayısı: 3 Veri düğümü makine özellikleri: İşlemci: Core i7-4790 (çekirdek sayısı: 4, iplik sayısı: 8) Rastgele erişimli hafıza: 32GB (8GB x 4) HDD: 8 TB (2 TB x 4) Ağ: 1Gb …

20
Kıvılcım konsolunda INFO mesajlarının görüntülenmesi nasıl durdurulur?
Kıvılcım kabuğuna gelen çeşitli mesajları durdurmak istiyorum. log4j.propertiesBu mesajı durdurmak için dosyayı düzenlemeye çalıştım . İşte içeriği log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO …

10
Tek bir RDD'de birden çok metin dosyası nasıl okunur?
Bir hdfs konumundan bir sürü metin dosyasını okumak ve kıvılcım kullanarak bir yinelemede eşleme yapmak istiyorum. JavaRDD<String> records = ctx.textFile(args[1], 1); aynı anda yalnızca bir dosyayı okuyabilir. Birden fazla dosyayı okumak ve bunları tek bir RDD olarak işlemek istiyorum. Nasıl?
179 apache-spark 

2
Scala vs Python için kıvılcım performansı
Scala yerine Python'u tercih ederim. Ancak, Spark Scala'da yerel olarak yazıldığından, kodumun Scala'da belirgin nedenlerle Python sürümünden daha hızlı çalışmasını bekliyordum. Bu varsayımla, yaklaşık 1 GB veri için bazı çok yaygın önişleme kodunun Scala sürümünü öğrenmeyi ve yazmayı düşündüm. Veriler, Kaggle'daki SpringLeaf yarışmasından toplandı . Sadece verilere genel bir bakış …

5
(Neden) önbelleği aramamız veya bir RDD'de kalmamız gerekiyor mu
Bir metin dosyasından veya koleksiyondan (veya başka bir RDD'den) esnek dağıtılmış bir veri kümesi (RDD) oluşturulduğunda, RDD verilerini belleğe kaydetmek için "önbellek" veya "kalıcı" yı çağırmamız gerekir mi? Yoksa RDD verileri varsayılan olarak bellekte dağıtılmış bir şekilde mi saklanır? val textFile = sc.textFile("/user/emp.txt") Anladığım kadarıyla, yukarıdaki adımdan sonra, textFile bir …
171 scala  apache-spark  rdd 

6
Bir Kıvılcım İşine kavanozlar ekleyin - kıvılcım gönder
Doğru ... çok tartışıldı. Ancak çok fazla belirsizlik ve verilen cevaplardan bazıları var ... kavanoz / yürütücü / sürücü yapılandırmasında veya seçeneklerinde kavanoz referanslarını çoğaltmak da dahil. Belirsiz ve / veya atlanan ayrıntılar Her bir seçenek için aşağıdaki belirsizlik, net olmayan ve / veya atlanan ayrıntılar açıklığa kavuşturulmalıdır: ClassPath nasıl …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.