Programlama apache-spark

19

Bu, başka bir forumda başka birinin sorusunun asla yanıtlanmamış bir kopyasıdır, bu yüzden aynı sorunu yaşadığım için burada tekrar soracağımı düşündüm. (Bkz. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Spark'ı makinemde düzgün bir şekilde kurdum ve python yorumlayıcım olarak ./bin/pyspark'ı kullanırken hatasız pyspark modülleri ile python programlarını çalıştırabiliyorum. Ancak, normal Python kabuğunu çalıştırmayı denediğimde, pyspark …

111 python apache-spark pyspark

12

CSV dosyasını Spark ile yükle

Spark'ta yeniyim ve Spark ile bir dosyadan CSV verilerini okumaya çalışıyorum. İşte yaptığım şey: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Bu çağrının bana dosyamın ilk iki sütununun bir listesini vermesini beklerdim ama şu hatayı alıyorum: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range CSV dosyam birden …

110 python csv apache-spark pyspark

13

Spark-csv kullanarak tek bir CSV dosyası yazın

Https://github.com/databricks/spark-csv kullanıyorum , tek bir CSV yazmaya çalışıyorum ama yapamıyorum, bir klasör oluşturuyor. Yol ve dosya adı gibi parametreleri alacak ve o CSV dosyasını yazacak bir Scala işlevine ihtiyacınız var.

110 scala csv apache-spark spark-csv

9

Spark DataFrame sütununu python listesine dönüştür

İki sütun, mvv ve sayım içeren bir veri çerçevesi üzerinde çalışıyorum. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | mvv değerleri ve count değeri içeren iki liste elde etmek istiyorum. Gibi bir şey mvv = …

109 python apache-spark pyspark spark-dataframe

8

Spark'da çıktı dizininin üzerine nasıl yazılır

Her dakika için bir veri seti üreten bir kıvılcım akışı uygulamam var. İşlenen verilerin sonuçlarını kaydetmem / üzerine yazmam gerekiyor. Veri kümesinin üzerine yazmaya çalıştığımda org.apache.hadoop.mapred.FileAlreadyExistsException yürütmeyi durduruyor. Spark özelliğini ayarladım set("spark.files.overwrite","true"), ancak şans yok. Kıvılcım dosyalarının üzerine nasıl yazılır veya önceden silinir?

108 apache-spark

11

Pyspark veri çerçevesi sütununu Yok değeriyle filtrele

NoneSatır değeri olan bir PySpark veri çerçevesini filtrelemeye çalışıyorum : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] ve bir dize değeriyle doğru şekilde filtreleyebilirim: df[df.dt_mvmt == '2016-03-31'] # some results here ancak bu başarısız olur: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ancak her kategoride kesinlikle değerler vardır. Neler …

106 python apache-spark dataframe pyspark apache-spark-sql

14

Kıvılcım veri çerçevesinin boş olup olmadığı nasıl kontrol edilir?

Şu anda boş df.count > 0olup olmadığını kontrol etmek için kullanmalıyım DataFrame. Ama biraz verimsiz. Bunu yapmanın daha iyi bir yolu var mı? Teşekkürler. Not: Boş olup olmadığını kontrol etmek istiyorum, böylece yalnızca DataFrameboş değilse kaydediyorum

105 apache-spark apache-spark-sql

4

Spark Kill Koşu Uygulaması

Diğer uygulamalarımın herhangi bir kaynak tahsis etmeyeceği tüm çekirdekleri kapladığı çalışan bir Spark uygulamam var. Hızlı bir araştırma yaptım ve insanlar komutu öldürmek için YARN kill veya / bin / spark-class kullanmayı önerdiler. Ancak, CDH sürümünü kullanıyorum ve / bin / spark-class hiç mevcut değil, YARN kill uygulaması da çalışmıyor. …

102 apache-spark yarn pyspark

5

pyspark'ta bir Dataframe sütunu String türünden Double type'a nasıl değiştirilir

String olarak sütun içeren bir veri çerçevem var. PySpark'ta sütun türünü Çift tip olarak değiştirmek istedim. Yolu takip ettim: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Sadece bilmek istedim, Lojistik Regresyondan geçerken bunu yapmanın doğru yolu bu mu, biraz hata alıyorum, bu yüzden merak ediyorum, sorunun nedeni bu mu?

102 python apache-spark dataframe pyspark apache-spark-sql

14

Yerel dosya HDFS yerine sc.textFile'da nasıl yüklenir

Harika kıvılcım eğitimini takip ediyorum bu yüzden 46: 00'larda yüklemeye çalışıyorum README.mdama yaptığım şeyde başarısız oluyorum : $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, …

100 scala apache-spark

9

Belirli bir şema ile boş bir DataFrame nasıl oluşturulur?

DataFrameScala'da belirli bir şema üzerinde oluşturmak istiyorum . JSON okumayı kullanmayı denedim (boş dosya okumak demek istiyorum) ama bunun en iyi uygulama olduğunu düşünmüyorum.

100 scala apache-spark dataframe apache-spark-sql

5

Apache Spark: Python 3 ile pyspark nasıl kullanılır?

GH geliştirme yöneticisinden Spark 1.4'ü oluşturdum ve yapı iyi gitti. Ama yaptığım zaman bin/pysparkPython 2.7.9 sürümünü alıyorum. Bunu nasıl değiştirebilirim?

95 python python-3.x apache-spark

16

Spark - Bir uygulamayı gönderirken "Yapılandırmanızda bir ana URL ayarlanmalıdır" hatası

Yerel modda sorunsuz çalışan bir Spark uygulamam var, ancak Spark kümesine gönderirken bazı sorunlar yaşıyorum. Hata mesajı aşağıdaki gibidir: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at …

94 scala apache-spark

6

Spark Scala'da bir DataFrame'in sütun adlarını yeniden adlandırma

DataFrameSpark-Scala'daki a'nın tüm başlıklarını / sütun adlarını dönüştürmeye çalışıyorum . şu andan itibaren sadece tek bir sütun adının yerini alan aşağıdaki kodu buldum. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

94 scala apache-spark dataframe apache-spark-sql

2

İlerleme çubuğundaki sayılar spark-shell'de ne anlama geliyor?

Kıvılcım kabuğumda, bir işlevi çalıştırdığımda aşağıdaki gibi girişler ne anlama geliyor? [Stage7:===========> (14174 + 5) / 62500]

93 apache-spark

«apache-spark» etiketlenmiş sorular