«pyspark» etiketlenmiş sorular

Spark Python API (PySpark), apache-spark programlama modelini Python'a sunar.

13
Pyspark'ta veri çerçevesi sütun adları nasıl değiştirilir?
Pandalar arka plan geliyor ve CSV dosyalarından bir veri çerçevesine veri okuma ve daha sonra basit bir komut kullanarak yararlı bir şey sütun adlarını değiştirmeye alışkınım: df.columns = new_column_name_list Ancak, aynı sqlContext kullanılarak oluşturulan pyspark veri çerçevelerinde çalışmaz. Bunu kolayca yapmak için çözebileceğim tek çözüm şudur: df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', …

2
Scala vs Python için kıvılcım performansı
Scala yerine Python'u tercih ederim. Ancak, Spark Scala'da yerel olarak yazıldığından, kodumun Scala'da belirgin nedenlerle Python sürümünden daha hızlı çalışmasını bekliyordum. Bu varsayımla, yaklaşık 1 GB veri için bazı çok yaygın önişleme kodunun Scala sürümünü öğrenmeyi ve yazmayı düşündüm. Veriler, Kaggle'daki SpringLeaf yarışmasından toplandı . Sadece verilere genel bir bakış …

15
Spark'da INFO günlüğü nasıl kapatılır?
Spark'ı AWS EC2 kılavuzunu kullanarak yükledim bin/pysparkve kıvılcım komut istemine ulaşmak için komut dosyasını kullanarak programı iyi başlatabilirim ve ayrıca Hızlı Başlangıç ​​işlemini başarılı bir şekilde yapabilirim. Ancak, hayatım boyunca INFOher komuttan sonra tüm ayrıntılı günlük kaydını nasıl durduracağımı anlayamıyorum . Ben her uygulamayı yanı sıra her düğüm üzerinde uygulamayı …

2
Bir Spark DataFrame'e sabit bir sütun nasıl eklenir?
Bir sütun eklemek istiyorum DataFramebazı rasgele değeri olan (her satır için aynıdır). withColumnAşağıdaki gibi kullandığımda bir hata alıyorum : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

9
Spark DataFrame'e (PySpark kullanarak) nasıl yeni bir sütun eklerim?
Bir Spark DataFrame'im var (PySpark 1.5.1 kullanarak) ve yeni bir sütun eklemek istiyorum. Aşağıdakileri herhangi bir başarı olmadan denedim: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ayrıca bunu kullanırken bir hata var: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Peki PySpark …

19
pyspark'ı python kabuğunda içe aktarma
Bu, başka bir forumda başka birinin sorusunun asla yanıtlanmamış bir kopyasıdır, bu yüzden aynı sorunu yaşadığım için burada tekrar soracağımı düşündüm. (Bkz. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Spark'ı makinemde düzgün bir şekilde kurdum ve python yorumlayıcım olarak ./bin/pyspark'ı kullanırken hatasız pyspark modülleri ile python programlarını çalıştırabiliyorum. Ancak, normal Python kabuğunu çalıştırmayı denediğimde, pyspark …

12
CSV dosyasını Spark ile yükle
Spark'ta yeniyim ve Spark ile bir dosyadan CSV verilerini okumaya çalışıyorum. İşte yaptığım şey: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Bu çağrının bana dosyamın ilk iki sütununun bir listesini vermesini beklerdim ama şu hatayı alıyorum: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range CSV dosyam birden …


11
Pyspark veri çerçevesi sütununu Yok değeriyle filtrele
NoneSatır değeri olan bir PySpark veri çerçevesini filtrelemeye çalışıyorum : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] ve bir dize değeriyle doğru şekilde filtreleyebilirim: df[df.dt_mvmt == '2016-03-31'] # some results here ancak bu başarısız olur: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ancak her kategoride kesinlikle değerler vardır. Neler …

4
Spark Kill Koşu Uygulaması
Diğer uygulamalarımın herhangi bir kaynak tahsis etmeyeceği tüm çekirdekleri kapladığı çalışan bir Spark uygulamam var. Hızlı bir araştırma yaptım ve insanlar komutu öldürmek için YARN kill veya / bin / spark-class kullanmayı önerdiler. Ancak, CDH sürümünü kullanıyorum ve / bin / spark-class hiç mevcut değil, YARN kill uygulaması da çalışmıyor. …

5
pyspark'ta bir Dataframe sütunu String türünden Double type'a nasıl değiştirilir
String olarak sütun içeren bir veri çerçevem ​​var. PySpark'ta sütun türünü Çift tip olarak değiştirmek istedim. Yolu takip ettim: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Sadece bilmek istedim, Lojistik Regresyondan geçerken bunu yapmanın doğru yolu bu mu, biraz hata alıyorum, bu yüzden merak ediyorum, sorunun nedeni bu mu?

5
Spark DataFrame grubu: Azalan düzende sıralama ve sıralama (pyspark)
Pyspark (Python 2.7.9 / Spark 1.3.1) kullanıyorum ve azalan düzende filtrelemem ve sıralamam gereken bir veri çerçevesi GroupObject sahibiyim. Bu kod parçasıyla bunu başarmaya çalışıyorum. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ancak şu hatayı atıyor. sort() got an unexpected keyword argument 'ascending'

18
Sürücünün python sürümünü kıvılcım olarak nasıl ayarlarım?
Spark 1.4.0-rc2 kullanıyorum, böylece python 3'ü spark ile kullanabiliyorum. Ben eklerseniz export PYSPARK_PYTHON=python3benim Bashrc dosyasına, ben yerel modda tek başına bir programı çalıştırmak istiyorsanız, bir hata alıyorum, ancak etkileşimli piton 3. ile kıvılcım çalıştırabilirsiniz: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run …

2
Spark: Python kullanım durumumda neden Scala'dan daha iyi?
Python ve Scala kullanırken Spark performansını karşılaştırmak için her iki dilde de aynı işi yarattım ve çalışma zamanını karşılaştırdım. Her iki işin de kabaca aynı süreyi almasını bekliyordum, ancak Python işi sadece aldı 27min, Scala işi aldı 37min(neredeyse% 40 daha uzun!). Aynı işi Java'da da uyguladım ve bu da sürdü …

1
Pyspark df'den PostgresSQL'e 50 milyondan fazla yazı yazmak, en verimli yaklaşım
Milyonlarca kayıt eklemenin en etkili yolu, Spark veri çerçevesinden Postgres Tablolarına 50 milyon demek. Ben geçmişte de MSSQL kıvılcımdan çok başarılı olan toplu kopya ve toplu boyut seçeneğini kullanarak yaptım . Postgres için burada bulunabilecek benzer bir şey var mı? Ben denedim kodu ve süreci çalıştırmak için gereken zaman ekleme: …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.