Programlama apache-spark

10

Windows'ta Apache Spark'ı kurmaya çalışıyorum. Biraz araştırdıktan sonra, istediğim şeyin bağımsız mod olduğunu anlıyorum. Apache spark'ı Windows'ta çalıştırmak için hangi ikili dosyaları indirmeliyim? Spark indirme sayfasında hadoop ve cdh ile dağıtımlar görüyorum. İnternette buna referansım yok. Bunun için adım adım bir rehber çok takdir edilmektedir.

93 windows apache-spark

12

java.io.IOException: Hadoop ikili dosyalarında çalıştırılabilir null \ bin \ winutils.exe bulunamadı. Windows 7'de Tutulma kıvılcımı

(Maven kıvılcım projesinde) yüklü basit bir sparkişi çalıştıramıyorumScala IDEWindows 7 Spark çekirdek bağımlılığı eklendi. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Hata: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed to locate the winutils …

92 eclipse scala apache-spark

10

Apache spark hadoop olmadan çalışabilir mi?

Spark ve Hadoop arasında herhangi bir bağımlılık var mı? Eğer değilse, çalıştırdığınızda ben özleyeceğim herhangi özellikler vardır Spark olmadan Hadoop'un ?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame grubu: Azalan düzende sıralama ve sıralama (pyspark)

Pyspark (Python 2.7.9 / Spark 1.3.1) kullanıyorum ve azalan düzende filtrelemem ve sıralamam gereken bir veri çerçevesi GroupObject sahibiyim. Bu kod parçasıyla bunu başarmaya çalışıyorum. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ancak şu hatayı atıyor. sort() got an unexpected keyword argument 'ascending'

90 python apache-spark dataframe pyspark apache-spark-sql

12

SparkContext başlatılırken Mac spark-shell hatası

Mac OS Yosemite 10.10.5'te spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) uygulamasını kullanarak "./bin/spark-shell". Aşağıdaki hata var. Ayrıca Spark'ın farklı sürümlerini kurmaya çalıştım ama hepsinde aynı hata var. Spark'ı ikinci kez çalıştırıyorum. Önceki çalışmam iyi çalışıyor. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. log4j:WARN See …

89 apache-spark

1

Apache Spark web kullanıcı arayüzünde "Aşama Atlandı" ne anlama geliyor?

Spark kullanıcı arayüzümden. Atlanmak ne anlama geliyor?

88 apache-spark rdd

18

Sürücünün python sürümünü kıvılcım olarak nasıl ayarlarım?

Spark 1.4.0-rc2 kullanıyorum, böylece python 3'ü spark ile kullanabiliyorum. Ben eklerseniz export PYSPARK_PYTHON=python3benim Bashrc dosyasına, ben yerel modda tek başına bir programı çalıştırmak istiyorsanız, bir hata alıyorum, ancak etkileşimli piton 3. ile kıvılcım çalıştırabilirsiniz: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run …

88 apache-spark pyspark

8

Spark işleri neden org.apache.spark.shuffle.MetadataFetchFailedException ile başarısız oluyor: Spekülasyon modunda karıştırma 0 için bir çıktı konumu eksik?

Spekülasyon modunda bir Spark işi yürütüyorum. Yaklaşık 500 görevim ve sıkıştırılmış 1 GB gz'lik yaklaşık 500 dosyam var. Her işe girmeye devam ediyorum, 1-2 görev için, daha sonra düzinelerce kez yeniden çalıştığı ekli hata (işin tamamlanmasını engelliyor). org.apache.spark.shuffle.MetadataFetchFailedException: Karıştırma 0 için bir çıktı konumu eksik Problemin anlamı nedir ve nasıl …

88 apache-spark

10

Dataframe sütun değerlerini Apache Spark'ta Liste olarak çıkarın

Bir veri çerçevesinin dize sütununu listeye dönüştürmek istiyorum. DataframeAPI'den bulabildiğim şey RDD, bu yüzden önce onu RDD'ye dönüştürmeyi ve ardından toArrayRDD'ye işlevi uygulamayı denedim . Bu durumda uzunluk ve SQL gayet iyi çalışıyor. Ancak, RDD'den aldığım sonuç, bunun gibi her öğenin etrafında köşeli parantezler içeriyor [A00001]. Bir sütunu listeye dönüştürmenin …

87 scala apache-spark apache-spark-sql

11

DataFrame'i doğrudan Hive'a nasıl kaydedebilirim?

DataFrameKıvılcımdan doğrudan Hive'a kaydetmek mümkün müdür ? Ben dönüştürerek ile çalıştık DataFrameetmek Rddve daha sonra bir metin dosyası olarak kaydetme ve sonra kovan yüklemede. Ama merak ediyorum doğrudan dataframekovana kurtarabilir miyim?

85 scala apache-spark hive apache-spark-sql

3

HashPartitioner nasıl çalışır?

Belgelerini okudum HashPartitioner. Maalesef API çağrıları dışında pek bir şey açıklanmadı. HashPartitionerDağıtılmış kümeyi anahtarların karması temelinde bölümlere ayırdığı varsayımındayım . Örneğin, verilerim şöyle ise (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Böylelikle bölümleyici, bunu aynı bölüme düşen aynı anahtarlarla farklı bölümlere koyacaktır. Ancak yapıcı argümanının önemini anlamıyorum new HashPartitoner(numPartitions) //What does …

82 scala apache-spark rdd partitioning

5

Ortalama yol hızını hesapla [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 3 gün önce kapalı . Bir veri mühendisi iş görüşmesine gittim. Görüşmeci bana bir soru sordu. Bana biraz durum …

20 apache-spark apache-kafka stream-processing

2

Birçok kıvılcım işi eşzamanlı olarak zamanlandığında kilitlenme

Kıvılcım FIFO zamanlayıcı ile YARN küme modunda çalışan kıvılcım 2.4.4 kullanma. Değişken sayıda iş parçacığı havuzu yürütücü kullanarak birden çok kıvılcım veri çerçevesi işlemleri (yani veri S3 yazma) gönderiyorum. ~ 10 iş parçacığım varsa bu iyi çalışır, ancak yüzlerce iş parçacığı kullanırsam, Spark UI'ye göre hiçbir iş planlanmadan bir kilitlenme …

17 apache-spark

2

Spark: Python kullanım durumumda neden Scala'dan daha iyi?

Python ve Scala kullanırken Spark performansını karşılaştırmak için her iki dilde de aynı işi yarattım ve çalışma zamanını karşılaştırdım. Her iki işin de kabaca aynı süreyi almasını bekliyordum, ancak Python işi sadece aldı 27min, Scala işi aldı 37min(neredeyse% 40 daha uzun!). Aynı işi Java'da da uyguladım ve bu da sürdü …

16 python scala apache-spark pyspark

1

Pyspark df'den PostgresSQL'e 50 milyondan fazla yazı yazmak, en verimli yaklaşım

Milyonlarca kayıt eklemenin en etkili yolu, Spark veri çerçevesinden Postgres Tablolarına 50 milyon demek. Ben geçmişte de MSSQL kıvılcımdan çok başarılı olan toplu kopya ve toplu boyut seçeneğini kullanarak yaptım . Postgres için burada bulunabilecek benzer bir şey var mı? Ben denedim kodu ve süreci çalıştırmak için gereken zaman ekleme: …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

«apache-spark» etiketlenmiş sorular