«pyspark» etiketlenmiş sorular

Spark Python API (PySpark), apache-spark programlama modelini Python'a sunar.

3
Spark 2.4.4 yüklendikten sonra pyspark'ı çalıştırmaya çalışırken 'TypeError: bir tamsayı gerekli (tip bayt var)' hatası nasıl düzeltilir?
OpenJDK 13.0.1 ve python 3.8 ve kıvılcım 2.4.4'ü yükledim. Yüklemeyi sınamak için yönergeler, kıvılcım yüklemesinin kökünden. \ Bin \ pyspark çalıştırmaktır. Kıvılcım kurulumunda bazı ortam değişkenlerini ayarlamak gibi bir adımı kaçırıp kaçırmadığımdan emin değilim, ancak daha ayrıntılı talimatlar bulamıyorum. Makinemde python yorumlayıcısını çalıştırabilirim, bu yüzden doğru bir şekilde kurulduğundan ve …

1
pandasUDF ve pyarrow 0.15.0
Son zamanlarda pysparkEMR kümelerinde çalışan bir dizi işte bir sürü hata almaya başladım . Errolar java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Hepsi applybir panda serisinin işlevlerinde gerçekleşiyor …

1
Apache Spark: yeniden bölümlendirme, sıralama ve önbelleğe almanın birleştirme üzerindeki etkisi
Kendine bir masaya katılırken Spark'ın davranışını araştırıyorum. Veritabanları kullanıyorum. Kukla senaryom: Harici bir tabloyu veri çerçevesi A olarak okuyun (temel alınan dosyalar delta biçimindedir) Veri çerçevesi B'yi yalnızca belirli sütunlar seçili olarak veri çerçevesi A olarak tanımlayın Sütun1 ve sütun2'deki A ve B veri çerçevelerine katılın (Evet, pek mantıklı değil, …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.