Spark üzerinde IPython / Jupyter ile ilgili sorun (Tanınmayan takma ad)


11

Ben dışarı çıkmak ve bazı donanım ile bir küme oluşturmak için para harcamak önce Spark ile denemek için bir dizi VM kurmak üzerinde çalışıyorum. Kısa not: Uygulamalı makine öğreniminde geçmişe sahip bir akademisyenim ve veri biliminde işten biraz çıktım. Araçları bilgisayar için kullanıyorum, nadiren kurmam gerekirdi.

3 VM (1 master, 2 slave) oluşturdum ve Spark'ı başarıyla yükledim. Her şey olması gerektiği gibi çalışıyor. Benim sorunum kümedeki bir makinede çalışan bir tarayıcıdan bağlanabilen bir Jupyter sunucusu oluşturmak yatıyor.

Ben yükledim Jupyter dizüstü başarıyla ... ve çalıştırır. Spark ile uzak bir sunucuya bağlanan yeni bir IPython profili ekledim .

şimdi problem

Komuta

$ ipython --profile=pyspark iyi çalışır ve kıvılcım kümesine bağlanır. Ancak,

$ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. varsayılan defaultprofil değil pysparkprofildir.

Dizüstü bilgisayar yapılandırmamın içeriği pyspark:

c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'


Aşağıdakiler işe yarayabilir mi? $ ipython --profile=pyspark notebook? Sorun sadece argümanların sırası ile olabilir.
Gábor Bakos

Yanıtlar:


12

IPython şimdi 4.0 sürümüne taşındı , yani onu kullanıyorsanız, yapılandırmasını ~/.jupyterdeğil de okuyacak demektir ~/.ipython. İle yeni bir yapılandırma dosyası oluşturmanız gerekir.

jupyter notebook --generate-config

ve sonuçta ortaya çıkan ~/.jupyter/jupyter_notebook_config.pydosyayı ihtiyaçlarınıza göre düzenleyin .

Daha fazla kurulum talimatı burada .


Sık sık neden jpyyter ipython bölme ipython dizüstü bilgisayar komutunu korumak merak ediyorum. Bu yüzden gerçekten kafa karıştırıcı oluyor. Profil uyumsuzluğunu belirttiğiniz için ve kau zsh sayesinde Bu, ipython notebook komutunu kullanırken ipython profilini ve bu komutu kullanırken jupyter-notebook profilini kullanmaları gerektiği gibi.
AN6U5

4

Yapılandırma dosyanızın ~ / .ipython / profile_pyspark / ipython_notebook_config.py olduğunu varsayalım, bu yapılandırma dosyasını yine de kullanabilirsiniz:

ipython notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

veya

jupyter-notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

1

Sorun, pyspark'ın varsayılan olarak os sys yolunda olmamasıdır. Yapılandırma dosyaları / yolları / vb. Manuel olarak eklemek için birkaç başarısız denemeden sonra, findspark adı verilen bu GitHub deposuyla karşılaştım.

https://github.com/minrk/findspark

Bu havuzu git clone kullanarak klonladım https://github.com/minrk/findspark.git

Sonra findspark kökünden "pip install findspark" koştu.

Bir Jupyter not defteri başlattı, yeni bir Python3 not defteri oluşturdu ve ekledi

ithalat findspark
ithalat os
findspark.init ()
ithalat pyspark
sc = pyspark.SparkContext ()

Findspark.init () 'den önce, import pyspark bir hatayla geri döndü.

Test etmek için sc
yazdım ve geri döndüm: 0x4526d30'da pyspark.context.SparkContext

Şimdi hepsi benim için çalışıyor.


Anahita sitesine hoş geldiniz :)
Dawny33
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.