Spark'ı Windows 10'a yüklemek ve python'dan çalıştırmak için yedi adım:
Adım 1: spark 2.2.0 tar (teyp Arşivi) gz dosyasını bu bağlantıdan herhangi bir F klasörüne indirin - https://spark.apache.org/downloads.html . Sıkıştırılmış dosyayı açın ve sıkıştırılmış klasörü istenen klasöre kopyalayın. Spark-2.2.0-bin-hadoop2.7 klasörünü spark için yeniden adlandırın.
Kıvılcım klasörünün yolu C: \ Kullanıcılar \ Masaüstü \ A \ spark olsun
Adım 2: hardoop 2.7.3 tar gz dosyasını bu bağlantıdan aynı F klasörüne indirin - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Sıkıştırılmış klasörü açın ve sıkıştırılmış klasörü aynı klasöre kopyalayın A. Klasör adını Hadoop-2.7.3.tar'dan hadoop olarak yeniden adlandırın. Hadoop klasörünün yolu C: \ Users \ Desktop \ A \ hadoop olsun
3. Adım: Yeni bir not defteri metin dosyası oluşturun. Bu boş not defteri dosyasını winutils.exe olarak kaydedin (Kayıt türü: Tüm dosyalar ile). Bu O KB winutils.exe dosyasını spark'daki bin klasörünüze kopyalayın - C: \ Users \ Desktop \ A \ spark \ bin
Adım 4: Şimdi bu klasörleri Sistem ortamına eklememiz gerekiyor.
4a: Bir sistem değişkeni oluşturun (kullanıcı değişkeni sistem değişkeninin tüm özelliklerini devralacağı için kullanıcı değişkeni değil) Değişken adı: SPARK_HOME Değişken değeri: C: \ Kullanıcılar \ Masaüstü \ A \ spark
Path sistem değişkenini bulun ve düzenle'yi tıklayın. Birden çok yol göreceksiniz. Yolların hiçbirini silmeyin. Bu değişken değerini ekleyin -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Bir sistem değişkeni oluşturun
Değişken adı: HADOOP_HOME Değişken değeri: C: \ Kullanıcılar \ Masaüstü \ A \ hadoop
Path sistem değişkenini bulun ve düzenle'yi tıklayın. Bu değişken değerini ekleyin -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Bir sistem değişkeni oluşturun Değişken adı: JAVA_HOME Java'yı pencerelerde arayın. Sağ tıklayın ve dosya konumunu aç seçeneğini tıklayın. Java dosyalarından herhangi birine tekrar sağ tıklamanız ve dosya konumunu aç seçeneğine tıklamanız gerekecektir. Bu klasörün yolunu kullanacaksınız. VEYA C: \ Program Files \ Java'yı arayabilirsiniz. Sistemde yüklü olan Java sürümüm jre1.8.0_131. Değişken değeri: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Path sistem değişkenini bulun ve düzenle'yi tıklayın. Bu değişken değerini ekleyin -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Adım 5: Komut istemini açın ve spark bin klasörünüze gidin (cd C: \ Users \ Desktop \ A \ spark \ bin yazın). Kıvılcım kabuğu yazın.
C:\Users\Desktop\A\spark\bin>spark-shell
Zaman alabilir ve bazı uyarılar verebilir. Son olarak, kıvılcım 2.2.0 sürümüne hoş geldiniz gösterecektir.
Adım 6: exit () yazın veya komut istemini yeniden başlatın ve kıvılcım kutusu klasörüne tekrar gidin. Pyspark yazın:
C:\Users\Desktop\A\spark\bin>pyspark
Bazı uyarıları ve hataları gösterecek, ancak görmezden gelecektir. İşe yarıyor.
7. Adım: İndirme işleminiz tamamlandı. Spark'ı doğrudan python kabuğundan çalıştırmak istiyorsanız: python klasörünüzdeki Scripts'e gidin ve şunu yazın:
pip install findspark
komut isteminde.
Python kabuğunda
import findspark
findspark.init()
gerekli modülleri içe aktar
from pyspark import SparkContext
from pyspark import SparkConf
Findspark'ı içe aktarma ve başlatma adımlarını atlamak istiyorsanız, lütfen pyspark'ı python kabuğuna içe aktarmada verilen prosedürü izleyin.