Programlama pyspark

13

Pyspark'ta veri çerçevesi sütun adları nasıl değiştirilir?

Pandalar arka plan geliyor ve CSV dosyalarından bir veri çerçevesine veri okuma ve daha sonra basit bir komut kullanarak yararlı bir şey sütun adlarını değiştirmeye alışkınım: df.columns = new_column_name_list Ancak, aynı sqlContext kullanılarak oluşturulan pyspark veri çerçevelerinde çalışmaz. Bunu kolayca yapmak için çözebileceğim tek çözüm şudur: df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', …

201 python apache-spark pyspark pyspark-sql

2

Scala vs Python için kıvılcım performansı

Scala yerine Python'u tercih ederim. Ancak, Spark Scala'da yerel olarak yazıldığından, kodumun Scala'da belirgin nedenlerle Python sürümünden daha hızlı çalışmasını bekliyordum. Bu varsayımla, yaklaşık 1 GB veri için bazı çok yaygın önişleme kodunun Scala sürümünü öğrenmeyi ve yazmayı düşündüm. Veriler, Kaggle'daki SpringLeaf yarışmasından toplandı . Sadece verilere genel bir bakış …

178 scala performance apache-spark pyspark rdd

15

Spark'da INFO günlüğü nasıl kapatılır?

Spark'ı AWS EC2 kılavuzunu kullanarak yükledim bin/pysparkve kıvılcım komut istemine ulaşmak için komut dosyasını kullanarak programı iyi başlatabilirim ve ayrıca Hızlı Başlangıç işlemini başarılı bir şekilde yapabilirim. Ancak, hayatım boyunca INFOher komuttan sonra tüm ayrıntılı günlük kaydını nasıl durduracağımı anlayamıyorum . Ben her uygulamayı yanı sıra her düğüm üzerinde uygulamayı …

144 python scala apache-spark hadoop pyspark

2

Bir Spark DataFrame'e sabit bir sütun nasıl eklenir?

Bir sütun eklemek istiyorum DataFramebazı rasgele değeri olan (her satır için aynıdır). withColumnAşağıdaki gibi kullandığımda bir hata alıyorum : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

138 python apache-spark dataframe pyspark apache-spark-sql

9

Spark DataFrame'e (PySpark kullanarak) nasıl yeni bir sütun eklerim?

Bir Spark DataFrame'im var (PySpark 1.5.1 kullanarak) ve yeni bir sütun eklemek istiyorum. Aşağıdakileri herhangi bir başarı olmadan denedim: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ayrıca bunu kullanırken bir hata var: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Peki PySpark …

129 python apache-spark dataframe pyspark apache-spark-sql

19

pyspark'ı python kabuğunda içe aktarma

Bu, başka bir forumda başka birinin sorusunun asla yanıtlanmamış bir kopyasıdır, bu yüzden aynı sorunu yaşadığım için burada tekrar soracağımı düşündüm. (Bkz. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Spark'ı makinemde düzgün bir şekilde kurdum ve python yorumlayıcım olarak ./bin/pyspark'ı kullanırken hatasız pyspark modülleri ile python programlarını çalıştırabiliyorum. Ancak, normal Python kabuğunu çalıştırmayı denediğimde, pyspark …

111 python apache-spark pyspark

12

CSV dosyasını Spark ile yükle

Spark'ta yeniyim ve Spark ile bir dosyadan CSV verilerini okumaya çalışıyorum. İşte yaptığım şey: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Bu çağrının bana dosyamın ilk iki sütununun bir listesini vermesini beklerdim ama şu hatayı alıyorum: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range CSV dosyam birden …

110 python csv apache-spark pyspark

9

Spark DataFrame sütununu python listesine dönüştür

İki sütun, mvv ve sayım içeren bir veri çerçevesi üzerinde çalışıyorum. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | mvv değerleri ve count değeri içeren iki liste elde etmek istiyorum. Gibi bir şey mvv = …

109 python apache-spark pyspark spark-dataframe

11

Pyspark veri çerçevesi sütununu Yok değeriyle filtrele

NoneSatır değeri olan bir PySpark veri çerçevesini filtrelemeye çalışıyorum : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] ve bir dize değeriyle doğru şekilde filtreleyebilirim: df[df.dt_mvmt == '2016-03-31'] # some results here ancak bu başarısız olur: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ancak her kategoride kesinlikle değerler vardır. Neler …

106 python apache-spark dataframe pyspark apache-spark-sql

4

Spark Kill Koşu Uygulaması

Diğer uygulamalarımın herhangi bir kaynak tahsis etmeyeceği tüm çekirdekleri kapladığı çalışan bir Spark uygulamam var. Hızlı bir araştırma yaptım ve insanlar komutu öldürmek için YARN kill veya / bin / spark-class kullanmayı önerdiler. Ancak, CDH sürümünü kullanıyorum ve / bin / spark-class hiç mevcut değil, YARN kill uygulaması da çalışmıyor. …

102 apache-spark yarn pyspark

5

pyspark'ta bir Dataframe sütunu String türünden Double type'a nasıl değiştirilir

String olarak sütun içeren bir veri çerçevem var. PySpark'ta sütun türünü Çift tip olarak değiştirmek istedim. Yolu takip ettim: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Sadece bilmek istedim, Lojistik Regresyondan geçerken bunu yapmanın doğru yolu bu mu, biraz hata alıyorum, bu yüzden merak ediyorum, sorunun nedeni bu mu?

102 python apache-spark dataframe pyspark apache-spark-sql

5

Spark DataFrame grubu: Azalan düzende sıralama ve sıralama (pyspark)

Pyspark (Python 2.7.9 / Spark 1.3.1) kullanıyorum ve azalan düzende filtrelemem ve sıralamam gereken bir veri çerçevesi GroupObject sahibiyim. Bu kod parçasıyla bunu başarmaya çalışıyorum. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ancak şu hatayı atıyor. sort() got an unexpected keyword argument 'ascending'

90 python apache-spark dataframe pyspark apache-spark-sql

18

Sürücünün python sürümünü kıvılcım olarak nasıl ayarlarım?

Spark 1.4.0-rc2 kullanıyorum, böylece python 3'ü spark ile kullanabiliyorum. Ben eklerseniz export PYSPARK_PYTHON=python3benim Bashrc dosyasına, ben yerel modda tek başına bir programı çalıştırmak istiyorsanız, bir hata alıyorum, ancak etkileşimli piton 3. ile kıvılcım çalıştırabilirsiniz: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run …

88 apache-spark pyspark

2

Spark: Python kullanım durumumda neden Scala'dan daha iyi?

Python ve Scala kullanırken Spark performansını karşılaştırmak için her iki dilde de aynı işi yarattım ve çalışma zamanını karşılaştırdım. Her iki işin de kabaca aynı süreyi almasını bekliyordum, ancak Python işi sadece aldı 27min, Scala işi aldı 37min(neredeyse% 40 daha uzun!). Aynı işi Java'da da uyguladım ve bu da sürdü …

16 python scala apache-spark pyspark

1

Pyspark df'den PostgresSQL'e 50 milyondan fazla yazı yazmak, en verimli yaklaşım

Milyonlarca kayıt eklemenin en etkili yolu, Spark veri çerçevesinden Postgres Tablolarına 50 milyon demek. Ben geçmişte de MSSQL kıvılcımdan çok başarılı olan toplu kopya ve toplu boyut seçeneğini kullanarak yaptım . Postgres için burada bulunabilecek benzer bir şey var mı? Ben denedim kodu ve süreci çalıştırmak için gereken zaman ekleme: …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

«pyspark» etiketlenmiş sorular