«apache-spark» etiketlenmiş sorular

Apache Spark, Scala'da yazılmış, kullanıcılara birleşik API ve dağıtılmış veri setleri sağlayan açık kaynaklı dağıtılmış bir veri işleme motorudur. Apache Spark için Kullanım Durumları genellikle makine / derin öğrenme, grafik işleme ile ilgilidir.

3
Spark 2.4.4 yüklendikten sonra pyspark'ı çalıştırmaya çalışırken 'TypeError: bir tamsayı gerekli (tip bayt var)' hatası nasıl düzeltilir?
OpenJDK 13.0.1 ve python 3.8 ve kıvılcım 2.4.4'ü yükledim. Yüklemeyi sınamak için yönergeler, kıvılcım yüklemesinin kökünden. \ Bin \ pyspark çalıştırmaktır. Kıvılcım kurulumunda bazı ortam değişkenlerini ayarlamak gibi bir adımı kaçırıp kaçırmadığımdan emin değilim, ancak daha ayrıntılı talimatlar bulamıyorum. Makinemde python yorumlayıcısını çalıştırabilirim, bu yüzden doğru bir şekilde kurulduğundan ve …

1
pandasUDF ve pyarrow 0.15.0
Son zamanlarda pysparkEMR kümelerinde çalışan bir dizi işte bir sürü hata almaya başladım . Errolar java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Hepsi applybir panda serisinin işlevlerinde gerçekleşiyor …

1
Apache Spark: yeniden bölümlendirme, sıralama ve önbelleğe almanın birleştirme üzerindeki etkisi
Kendine bir masaya katılırken Spark'ın davranışını araştırıyorum. Veritabanları kullanıyorum. Kukla senaryom: Harici bir tabloyu veri çerçevesi A olarak okuyun (temel alınan dosyalar delta biçimindedir) Veri çerçevesi B'yi yalnızca belirli sütunlar seçili olarak veri çerçevesi A olarak tanımlayın Sütun1 ve sütun2'deki A ve B veri çerçevelerine katılın (Evet, pek mantıklı değil, …

3
Pandas gruplandırılmış DataFrame'e Python işlevi uygulamak - hesaplamaları hızlandırmak için en etkili yaklaşım nedir?
Oldukça büyük Pandalar DataFrame ile uğraşıyorum - veri setim aşağıdaki dfdüzene benziyor : import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( repeats = …

1
Spark: UDF birçok kez idam edildi
Aşağıdaki kod ile bir veri çerçevesi var: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Şimdi günlükleri kontrol ederek, her satır için UDF'nin 3 kez yürütüldüğünü öğrendim. Bir …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.