«apache-spark-sql» etiketlenmiş sorular

Apache Spark SQL, hızlı ve genel amaçlı bir küme hesaplama sistemi olan Spark üzerinde "SQL ve yapılandırılmış veri işleme" için bir araçtır. Hive, Parquet vb.'den veri almak ve mevcut RDD'ler ve Veri Kümeleri üzerinden SQL sorguları çalıştırmak için kullanılabilir.



8
Her grubun ilk satırı nasıl seçilir?
Aşağıdaki gibi oluşturulan bir DataFrame var: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Sonuçlar şöyle görünür: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

14
Spark - CSV dosyası DataFrame olarak yüklensin mi?
Ben bir CSV kıvılcım okumak ve DataFrame olarak dönüştürmek ve ile HDFS depolamak istiyorum df.registerTempTable("table_name") Denedim: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Aldığım hata: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at …


2
Bir Spark DataFrame'e sabit bir sütun nasıl eklenir?
Bir sütun eklemek istiyorum DataFramebazı rasgele değeri olan (her satır için aynıdır). withColumnAşağıdaki gibi kullandığımda bir hata alıyorum : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …


5
DataFrame'in bölümlenmesi nasıl tanımlanır?
Spark 1.4.0'da Spark SQL ve DataFrames kullanmaya başladım. Scala'da DataFrames üzerinde özel bir bölümleyici tanımlamak istiyorum, ancak bunun nasıl yapılacağını göremiyorum. Üzerinde çalıştığım veri tablolarından biri, aşağıdaki örneğe göre, hesaba göre, silimar işlemlerin bir listesini içeriyor. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 2014-04-05 …

9
Spark DataFrame'e (PySpark kullanarak) nasıl yeni bir sütun eklerim?
Bir Spark DataFrame'im var (PySpark 1.5.1 kullanarak) ve yeni bir sütun eklemek istiyorum. Aşağıdakileri herhangi bir başarı olmadan denedim: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ayrıca bunu kullanırken bir hata var: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Peki PySpark …


11
Pyspark veri çerçevesi sütununu Yok değeriyle filtrele
NoneSatır değeri olan bir PySpark veri çerçevesini filtrelemeye çalışıyorum : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] ve bir dize değeriyle doğru şekilde filtreleyebilirim: df[df.dt_mvmt == '2016-03-31'] # some results here ancak bu başarısız olur: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ancak her kategoride kesinlikle değerler vardır. Neler …


5
pyspark'ta bir Dataframe sütunu String türünden Double type'a nasıl değiştirilir
String olarak sütun içeren bir veri çerçevem ​​var. PySpark'ta sütun türünü Çift tip olarak değiştirmek istedim. Yolu takip ettim: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Sadece bilmek istedim, Lojistik Regresyondan geçerken bunu yapmanın doğru yolu bu mu, biraz hata alıyorum, bu yüzden merak ediyorum, sorunun nedeni bu mu?



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.