Apache Spark: Python 3 ile pyspark nasıl kullanılır?


95

GH geliştirme yöneticisinden Spark 1.4'ü oluşturdum ve yapı iyi gitti. Ama yaptığım zaman bin/pysparkPython 2.7.9 sürümünü alıyorum. Bunu nasıl değiştirebilirim?


7
Bunun nasıl yapılacağını arayanlar için:, PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pysparkbu durumda IPython 3 dizüstü bilgisayarı çalıştırır.
tchakravarty

Yanıtlar:


145

Sadece ortam değişkenini ayarlayın:

export PYSPARK_PYTHON=python3

bunun kalıcı bir değişiklik olmasını istiyorsanız bu satırı pyspark betiğine ekleyin.


Ortam değişkenleri / etc / profile altında düzenlenebilir. Profili kaydettikten sonra "source / etc / profile" komutunu çalıştırmayı unutmayın, böylece değişiklikler hemen eyleme geçirilebilir.
Phyticist

1
Açıkçası, kullanmak export PYSPARK_PYTHON=python3.5Python 3.5 için
Phyticist

4
Bunu eklemek daha iyidir, $SPARK_HOME/conf/spark-env.shböylece spark-submitaynı tercümanı da kullanır.
flow2k

@ flow2k bu daha iyi bir fikir. Tnx
mohammad RaoofNia

32
PYSPARK_PYTHON=python3 
./bin/pyspark

IPython Not Defterinde çalıştırmak istiyorsanız şunu yazın:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

Eğer python3erişilebilir değil, bunun yerine kendisine yolunu geçmesi gerekiyor.

Aklınızda bulundurun (1.4.1 gibi) güncel belgeler outdate talimatlar bulunur. Neyse ki yamalandı .


1
IPython Not Defteri için komutunuzun doğru olmadığını düşünüyorum. Şöyle olmalı: PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = ipython3 PYSPARK_DRIVER_PYTHON_OPTS = "notebook" ./bin/pyspark
SpiderRico

@ChrisNielsen Terminalde.
Piotr Migdal

@ChrisNielsen Linux veya OS X'te bir terminal / konsoldur. Windows altında nasıl çalıştığı hakkında hiçbir fikrim yok (Windows'dayken Spark'ı yalnızca bir Docker konteynerinde kullandım).
Piotr Migdal

@SpiderRico Bunlar Mac'imde çalışmıyor gibi görünüyor. Jupyter Notebook'un Spark'ta çalışması için aşağıdakileri kullanın. PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = jupyter PYSPARK_DRIVER_PYTHON_OPTS = "notebook" ./bin/pyspark
Hank Chan,

9

1, profili düzenleyin:vim ~/.profile

2, kodu dosyaya ekleyin: export PYSPARK_PYTHON=python3

3, komutu çalıştırın: source ~/.profile

4, ./bin/pyspark


4

Dosyaya bir göz atın. Shebang satırı, muhtemelen ilk uyumlu çalıştırılabilir dosyanın yolunu arayan 'env' ikilisine işaret edilmiştir.

Python'u python3 olarak değiştirebilirsiniz. Env'yi doğrudan kodlanmış python3 ikilisini kullanmak için değiştirin. Veya ikiliyi doğrudan python3 ile çalıştırın ve shebang satırını atlayın.


1
Evet, dosyaya bakmak yardımcı oldu. PYSPARK_PYTHONOrtam değişkenini ayarlamanız gerekiyor .
tchakravarty

4

Jupyter Notebook için, spark-env.shdosyayı komut satırından aşağıda gösterildiği gibi düzenleyin

$ vi $SPARK_HOME/conf/spark-env.sh

Dosyanın altına gidin ve bu satırları kopyalayıp yapıştırın

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

Ardından, not defterinde pyspark'ı başlatmak için aşağıdaki komutu çalıştırın

$ pyspark
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.