«apache-spark» etiketlenmiş sorular

Apache Spark, Scala'da yazılmış, kullanıcılara birleşik API ve dağıtılmış veri setleri sağlayan açık kaynaklı dağıtılmış bir veri işleme motorudur. Apache Spark için Kullanım Durumları genellikle makine / derin öğrenme, grafik işleme ile ilgilidir.

10
Windows'ta Spark nasıl kurulur?
Windows'ta Apache Spark'ı kurmaya çalışıyorum. Biraz araştırdıktan sonra, istediğim şeyin bağımsız mod olduğunu anlıyorum. Apache spark'ı Windows'ta çalıştırmak için hangi ikili dosyaları indirmeliyim? Spark indirme sayfasında hadoop ve cdh ile dağıtımlar görüyorum. İnternette buna referansım yok. Bunun için adım adım bir rehber çok takdir edilmektedir.

12
java.io.IOException: Hadoop ikili dosyalarında çalıştırılabilir null \ bin \ winutils.exe bulunamadı. Windows 7'de Tutulma kıvılcımı
(Maven kıvılcım projesinde) yüklü basit bir sparkişi çalıştıramıyorumScala IDEWindows 7 Spark çekirdek bağımlılığı eklendi. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Hata: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed to locate the winutils …


5
Spark DataFrame grubu: Azalan düzende sıralama ve sıralama (pyspark)
Pyspark (Python 2.7.9 / Spark 1.3.1) kullanıyorum ve azalan düzende filtrelemem ve sıralamam gereken bir veri çerçevesi GroupObject sahibiyim. Bu kod parçasıyla bunu başarmaya çalışıyorum. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ancak şu hatayı atıyor. sort() got an unexpected keyword argument 'ascending'

12
SparkContext başlatılırken Mac spark-shell hatası
Mac OS Yosemite 10.10.5'te spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) uygulamasını kullanarak "./bin/spark-shell". Aşağıdaki hata var. Ayrıca Spark'ın farklı sürümlerini kurmaya çalıştım ama hepsinde aynı hata var. Spark'ı ikinci kez çalıştırıyorum. Önceki çalışmam iyi çalışıyor. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. log4j:WARN See …


18
Sürücünün python sürümünü kıvılcım olarak nasıl ayarlarım?
Spark 1.4.0-rc2 kullanıyorum, böylece python 3'ü spark ile kullanabiliyorum. Ben eklerseniz export PYSPARK_PYTHON=python3benim Bashrc dosyasına, ben yerel modda tek başına bir programı çalıştırmak istiyorsanız, bir hata alıyorum, ancak etkileşimli piton 3. ile kıvılcım çalıştırabilirsiniz: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run …

8
Spark işleri neden org.apache.spark.shuffle.MetadataFetchFailedException ile başarısız oluyor: Spekülasyon modunda karıştırma 0 için bir çıktı konumu eksik?
Spekülasyon modunda bir Spark işi yürütüyorum. Yaklaşık 500 görevim ve sıkıştırılmış 1 GB gz'lik yaklaşık 500 dosyam var. Her işe girmeye devam ediyorum, 1-2 görev için, daha sonra düzinelerce kez yeniden çalıştığı ekli hata (işin tamamlanmasını engelliyor). org.apache.spark.shuffle.MetadataFetchFailedException: Karıştırma 0 için bir çıktı konumu eksik Problemin anlamı nedir ve nasıl …

10
Dataframe sütun değerlerini Apache Spark'ta Liste olarak çıkarın
Bir veri çerçevesinin dize sütununu listeye dönüştürmek istiyorum. DataframeAPI'den bulabildiğim şey RDD, bu yüzden önce onu RDD'ye dönüştürmeyi ve ardından toArrayRDD'ye işlevi uygulamayı denedim . Bu durumda uzunluk ve SQL gayet iyi çalışıyor. Ancak, RDD'den aldığım sonuç, bunun gibi her öğenin etrafında köşeli parantezler içeriyor [A00001]. Bir sütunu listeye dönüştürmenin …


3
HashPartitioner nasıl çalışır?
Belgelerini okudum HashPartitioner. Maalesef API çağrıları dışında pek bir şey açıklanmadı. HashPartitionerDağıtılmış kümeyi anahtarların karması temelinde bölümlere ayırdığı varsayımındayım . Örneğin, verilerim şöyle ise (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Böylelikle bölümleyici, bunu aynı bölüme düşen aynı anahtarlarla farklı bölümlere koyacaktır. Ancak yapıcı argümanının önemini anlamıyorum new HashPartitoner(numPartitions) //What does …

5
Ortalama yol hızını hesapla [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 3 gün önce kapalı . Bir veri mühendisi iş görüşmesine gittim. Görüşmeci bana bir soru sordu. Bana biraz durum …

2
Birçok kıvılcım işi eşzamanlı olarak zamanlandığında kilitlenme
Kıvılcım FIFO zamanlayıcı ile YARN küme modunda çalışan kıvılcım 2.4.4 kullanma. Değişken sayıda iş parçacığı havuzu yürütücü kullanarak birden çok kıvılcım veri çerçevesi işlemleri (yani veri S3 yazma) gönderiyorum. ~ 10 iş parçacığım varsa bu iyi çalışır, ancak yüzlerce iş parçacığı kullanırsam, Spark UI'ye göre hiçbir iş planlanmadan bir kilitlenme …

2
Spark: Python kullanım durumumda neden Scala'dan daha iyi?
Python ve Scala kullanırken Spark performansını karşılaştırmak için her iki dilde de aynı işi yarattım ve çalışma zamanını karşılaştırdım. Her iki işin de kabaca aynı süreyi almasını bekliyordum, ancak Python işi sadece aldı 27min, Scala işi aldı 37min(neredeyse% 40 daha uzun!). Aynı işi Java'da da uyguladım ve bu da sürdü …

1
Pyspark df'den PostgresSQL'e 50 milyondan fazla yazı yazmak, en verimli yaklaşım
Milyonlarca kayıt eklemenin en etkili yolu, Spark veri çerçevesinden Postgres Tablolarına 50 milyon demek. Ben geçmişte de MSSQL kıvılcımdan çok başarılı olan toplu kopya ve toplu boyut seçeneğini kullanarak yaptım . Postgres için burada bulunabilecek benzer bir şey var mı? Ben denedim kodu ve süreci çalıştırmak için gereken zaman ekleme: …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.