«apache-spark-sql» etiketlenmiş sorular

Apache Spark SQL, hızlı ve genel amaçlı bir küme hesaplama sistemi olan Spark üzerinde "SQL ve yapılandırılmış veri işleme" için bir araçtır. Hive, Parquet vb.'den veri almak ve mevcut RDD'ler ve Veri Kümeleri üzerinden SQL sorguları çalıştırmak için kullanılabilir.

5
Spark DataFrame grubu: Azalan düzende sıralama ve sıralama (pyspark)
Pyspark (Python 2.7.9 / Spark 1.3.1) kullanıyorum ve azalan düzende filtrelemem ve sıralamam gereken bir veri çerçevesi GroupObject sahibiyim. Bu kod parçasıyla bunu başarmaya çalışıyorum. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ancak şu hatayı atıyor. sort() got an unexpected keyword argument 'ascending'

10
Dataframe sütun değerlerini Apache Spark'ta Liste olarak çıkarın
Bir veri çerçevesinin dize sütununu listeye dönüştürmek istiyorum. DataframeAPI'den bulabildiğim şey RDD, bu yüzden önce onu RDD'ye dönüştürmeyi ve ardından toArrayRDD'ye işlevi uygulamayı denedim . Bu durumda uzunluk ve SQL gayet iyi çalışıyor. Ancak, RDD'den aldığım sonuç, bunun gibi her öğenin etrafında köşeli parantezler içeriyor [A00001]. Bir sütunu listeye dönüştürmenin …


1
Pyspark df'den PostgresSQL'e 50 milyondan fazla yazı yazmak, en verimli yaklaşım
Milyonlarca kayıt eklemenin en etkili yolu, Spark veri çerçevesinden Postgres Tablolarına 50 milyon demek. Ben geçmişte de MSSQL kıvılcımdan çok başarılı olan toplu kopya ve toplu boyut seçeneğini kullanarak yaptım . Postgres için burada bulunabilecek benzer bir şey var mı? Ben denedim kodu ve süreci çalıştırmak için gereken zaman ekleme: …

1
Spark: UDF birçok kez idam edildi
Aşağıdaki kod ile bir veri çerçevesi var: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Şimdi günlükleri kontrol ederek, her satır için UDF'nin 3 kez yürütüldüğünü öğrendim. Bir …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.