«apache-spark» etiketlenmiş sorular

Apache Spark, Scala'da yazılmış, kullanıcılara birleşik API ve dağıtılmış veri setleri sağlayan açık kaynaklı dağıtılmış bir veri işleme motorudur. Apache Spark için Kullanım Durumları genellikle makine / derin öğrenme, grafik işleme ile ilgilidir.

19
pyspark'ı python kabuğunda içe aktarma
Bu, başka bir forumda başka birinin sorusunun asla yanıtlanmamış bir kopyasıdır, bu yüzden aynı sorunu yaşadığım için burada tekrar soracağımı düşündüm. (Bkz. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Spark'ı makinemde düzgün bir şekilde kurdum ve python yorumlayıcım olarak ./bin/pyspark'ı kullanırken hatasız pyspark modülleri ile python programlarını çalıştırabiliyorum. Ancak, normal Python kabuğunu çalıştırmayı denediğimde, pyspark …

12
CSV dosyasını Spark ile yükle
Spark'ta yeniyim ve Spark ile bir dosyadan CSV verilerini okumaya çalışıyorum. İşte yaptığım şey: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Bu çağrının bana dosyamın ilk iki sütununun bir listesini vermesini beklerdim ama şu hatayı alıyorum: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range CSV dosyam birden …



8
Spark'da çıktı dizininin üzerine nasıl yazılır
Her dakika için bir veri seti üreten bir kıvılcım akışı uygulamam var. İşlenen verilerin sonuçlarını kaydetmem / üzerine yazmam gerekiyor. Veri kümesinin üzerine yazmaya çalıştığımda org.apache.hadoop.mapred.FileAlreadyExistsException yürütmeyi durduruyor. Spark özelliğini ayarladım set("spark.files.overwrite","true"), ancak şans yok. Kıvılcım dosyalarının üzerine nasıl yazılır veya önceden silinir?
108 apache-spark 

11
Pyspark veri çerçevesi sütununu Yok değeriyle filtrele
NoneSatır değeri olan bir PySpark veri çerçevesini filtrelemeye çalışıyorum : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] ve bir dize değeriyle doğru şekilde filtreleyebilirim: df[df.dt_mvmt == '2016-03-31'] # some results here ancak bu başarısız olur: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ancak her kategoride kesinlikle değerler vardır. Neler …


4
Spark Kill Koşu Uygulaması
Diğer uygulamalarımın herhangi bir kaynak tahsis etmeyeceği tüm çekirdekleri kapladığı çalışan bir Spark uygulamam var. Hızlı bir araştırma yaptım ve insanlar komutu öldürmek için YARN kill veya / bin / spark-class kullanmayı önerdiler. Ancak, CDH sürümünü kullanıyorum ve / bin / spark-class hiç mevcut değil, YARN kill uygulaması da çalışmıyor. …

5
pyspark'ta bir Dataframe sütunu String türünden Double type'a nasıl değiştirilir
String olarak sütun içeren bir veri çerçevem ​​var. PySpark'ta sütun türünü Çift tip olarak değiştirmek istedim. Yolu takip ettim: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Sadece bilmek istedim, Lojistik Regresyondan geçerken bunu yapmanın doğru yolu bu mu, biraz hata alıyorum, bu yüzden merak ediyorum, sorunun nedeni bu mu?

14
Yerel dosya HDFS yerine sc.textFile'da nasıl yüklenir
Harika kıvılcım eğitimini takip ediyorum bu yüzden 46: 00'larda yüklemeye çalışıyorum README.mdama yaptığım şeyde başarısız oluyorum : $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, …



16
Spark - Bir uygulamayı gönderirken "Yapılandırmanızda bir ana URL ayarlanmalıdır" hatası
Yerel modda sorunsuz çalışan bir Spark uygulamam var, ancak Spark kümesine gönderirken bazı sorunlar yaşıyorum. Hata mesajı aşağıdaki gibidir: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at …



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.