Spark - Bir uygulamayı gönderirken "Yapılandırmanızda bir ana URL ayarlanmalıdır" hatası

Question 1

Yerel modda sorunsuz çalışan bir Spark uygulamam var, ancak Spark kümesine gönderirken bazı sorunlar yaşıyorum.

Hata mesajı aşağıdaki gibidir:

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: org.apache.spark.SparkException: A master URL must be set in your configuration
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)
    at GroupEvolutionES$.<init>(GroupEvolutionES.scala:37)
    at GroupEvolutionES$.<clinit>(GroupEvolutionES.scala)
    ... 14 more

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 5.0 in stage 0.0 (TID 5, cluster-node-02): java.lang.NoClassDefFoundError: Could not initialize class GroupEvolutionES$
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

Yukarıdaki kodda GroupEvolutionESana sınıftır. Hata mesajı "Yapılandırmanızda bir ana URL ayarlanmalıdır" diyor, ancak "--master" parametresini için sağladım spark-submit.

Bu sorunu nasıl çözeceğini bilen var mı?

Spark sürümü: 1.6.1

Question 2

SparkContext nesnesi nerede tanımlanır, ana işlevin içinde mi?

Ben de aynı sorunla karşılaştım, yaptığım hata, sparkContext'i ana işlevin dışında ve sınıf içinde başlatmamdı.

Ana işlevin içinde başlattığımda iyi çalıştı.

Question 3

TLDR:

.config("spark.master", "local")

spark 2.2.1'deki spark.master seçeneklerinin listesi

Yerel modda basit bir Spark SQL java programını çalıştırmayı denedikten sonra bu sayfaya geldim. Bunu yapmak için, spark.master'ı kullanarak ayarlayabileceğimi öğrendim:

SparkSession spark = SparkSession
.builder()
.appName("Java Spark SQL basic example")
.config("spark.master", "local")
.getOrCreate();

Cevabım için bir güncelleme:

Açık olmak gerekirse, üretim ortamında yapmanız gereken bu değil. Bir üretim ortamında, spark.master başka birkaç yerden birinde belirtilmelidir: ya $ SPARK_HOME / conf / spark-defaults.conf (bu, cloudera yöneticisinin koyacağı yerdir) veya gönderdiğinizde komut satırında uygulama. (kıvılcım gönder - ana iplik).

Spark.master'ı bu şekilde 'yerel' olarak belirtirseniz, spark aşağıdaki yorumlarda belirtildiği gibi tek bir jvm'de çalışmayı deneyecektir. Daha sonra --deploy-mode kümesini belirtmeye çalışırsanız, "Küme dağıtım modu ana" yerel "ile uyumlu değil" hatası alırsınız. Bunun nedeni, spark.master = local ayarının küme modunda çalışmadığınız anlamına gelmesidir.

Bunun yerine, bir üretim uygulaması için, ana işlevinizin içinde (veya ana işleviniz tarafından çağrılan işlevlerde), şunları kullanmanız yeterlidir:

SparkSession
.builder()
.appName("Java Spark SQL basic example")
.getOrCreate();

Bu, komut satırında / yapılandırma dosyalarında belirtilen yapılandırmaları kullanacaktır.

Ayrıca, bu konuda da açık olmak gerekirse: --master ve "spark.master", sadece farklı şekillerde belirtilen tam olarak aynı parametrelerdir. Yukarıdaki cevabımdaki gibi spark.master'ı kodda ayarlamak --master ayarlama girişimlerini geçersiz kılacak ve spark-defaults.conf içindeki değerleri geçersiz kılacaktır, bu yüzden bunu üretimde yapmayın. Yine de testler için harika.

ayrıca, bu yanıta bakın . hangi bağlantılar spark.master için seçenekler listesinden ve her birinin gerçekten oluyor.

spark 2.2.1'deki spark.master seçeneklerinin listesi

Question 4

Değiştirdikten sonra benim için çalıştı

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME");

ile

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[2]").set("spark.executor.memory","1g");

Bu çözümü stackoverflow'daki başka bir iş parçacığında buldum.

Question 5

Şekilde çalıştıran bağımsız kümeden bir oturum almak için PORT ve aşağıdaki kod çalışır: // HOST: "spark.master" varsayılan değeri kıvılcımı HOST: PORT ve HOST bekler: PORT değeri olmak spark yapılandırma dosyası.

SparkSession spark = SparkSession
    .builder()
    .appName("SomeAppName")
    .getOrCreate();

" org.apache.spark.SparkException: Yapılandırmanızda bir ana URL ayarlanmalıdır " , spark yapılandırma dosyasında HOST: PORT'un ayarlanmadığını belirtir .

": PORT ANA", ayarlanan değeri hakkında rahatsız etmek spark.master olarak yerel

SparkSession spark = SparkSession
    .builder()
    .appName("SomeAppName")
    .config("spark.master", "local")
    .getOrCreate();

İşte ana URL'nin spark.master'a aktarılabileceği biçimlerin listesi için bağlantı.

Referans: Spark Eğitimi - Spark Ekosistemini Kurun

Question 6

.setMaster("local")kodunuza aşağıda gösterildiği gibi eklemeniz yeterlidir:

val conf = new SparkConf().setAppName("Second").setMaster("local")

Benim için çalıştı! Mutlu kodlamalar!

Question 7

Bağımsız bir uygulama çalıştırıyorsanız, SparkContextbunun yerine kullanmanız gerekirSparkSession

val conf = new SparkConf().setAppName("Samples").setMaster("local")
val sc = new SparkContext(conf)
val textData = sc.textFile("sample.txt").cache()

Question 8

Uygulamanızdaki spark context, spark master değerini nasıl seçiyor?

Ya SC'yi oluştururken açık bir şekilde sağlarsınız SparkConf.
Ya da System.getProperties(SparkSubmit'in --masterargümanınızı okuduktan sonra koyduğu yer ).

Şimdi, SparkSubmitsürücü üzerinde çalışıyor - bu sizin durumunuzda, spark-submitkomut dosyasını çalıştırdığınız makinedir . Ve bu muhtemelen sizin için de beklendiği gibi çalışıyor.

Ancak, gönderdiğiniz bilgilerden, yürütücüye gönderilen kodda bir kıvılcım bağlamı oluşturuyormuşsunuz gibi görünüyor - ve orada kullanılabilir bir spark.mastersistem özelliği olmadığı göz önüne alındığında , başarısız oluyor. (Ve eğer durum buysa, bunu gerçekten yapmamalısınız.)

Lütfen gönderebilir misin GroupEvolutionES kodu (özellikle yarattığınız yere SparkContext(s)) misiniz?

Question 9

Değiştiriliyor:

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME");
WITH
SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[2]").set("spark.executor.memory","1g");

Sihir yaptım.

Question 10

Aynı sorunu yaşadım, İşte değişiklikten önceki kodum:

package com.asagaama

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD

/**
  * Created by asagaama on 16/02/2017.
  */
object Word {

  def countWords(sc: SparkContext) = {
    // Load our input data
    val input = sc.textFile("/Users/Documents/spark/testscase/test/test.txt")
    // Split it up into words
    val words = input.flatMap(line => line.split(" "))
    // Transform into pairs and count
    val counts = words.map(word => (word, 1)).reduceByKey { case (x, y) => x + y }
    // Save the word count back out to a text file, causing evaluation.
    counts.saveAsTextFile("/Users/Documents/spark/testscase/test/result.txt")
  }

  def main(args: Array[String]) = {
    val conf = new SparkConf().setAppName("wordCount")
    val sc = new SparkContext(conf)
    countWords(sc)
  }

}

Ve değiştirdikten sonra:

val conf = new SparkConf().setAppName("wordCount")

İle :

val conf = new SparkConf().setAppName("wordCount").setMaster("local[*]")

İyi çalıştı!

Question 11

var appName:String ="test"
val conf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory","1g");
val sc =  SparkContext.getOrCreate(conf)
sc.setLogLevel("WARN")

Question 12

bunu dene

özellik yapmak

import org.apache.spark.sql.SparkSession
trait SparkSessionWrapper {
   lazy val spark:SparkSession = {
      SparkSession
        .builder()
        .getOrCreate()
    }
}

uzatır

object Preprocess extends SparkSessionWrapper {

Question 13

Ayarlanacak setMaster ("yerel [*]") eksik . Ekledikten sonra sorun çözülür.

Sorun:

val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .getOrCreate()

çözüm:

val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .master("local[*]")
      .getOrCreate()

Question 14

Aşağıdaki kodu kullanıyorsanız

 val sc = new SparkContext(master, "WordCount", System.getenv("SPARK_HOME"))

Ardından aşağıdaki satırlarla değiştirin

  val jobName = "WordCount";
  val conf = new SparkConf().setAppName(jobName);
  val sc = new SparkContext(conf)

Spark 2.0'da aşağıdaki kodu kullanabilirsiniz

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .config("spark.some.config.option", "some-value")
  .master("local[*]")// need to add
  .getOrCreate()

.Master ("local [*]") eklemeniz gerekir, eğer burada yerel çalıştırıyorsanız * tüm düğüm anlamına geliyorsa, 8 1,2 vb.

Küme üzerindeyse Ana URL'yi ayarlamanız gerekir

Question 15

JavaSparkContext'te Spark yapılandırması sağlamazsanız, bu hatayı alırsınız. Yani: JavaSparkContext sc = new JavaSparkContext ();

Çözüm: JavaSparkContext sc = new JavaSparkContext (conf) sağlayın;

Question 16

Bu seçeneği, yerel makinede Spark bağlamını ayarlayarak Spark işlemeyi öğrenirken denedim. Gereksinim 1) Spark oturumunun yerelde çalışmasını sağlayın 2) Spark maven bağımlılığı ekleyin 3) Giriş dosyasını kök \ girdi klasöründe tutun 4) çıktı \ çıktı klasörüne yerleştirilecektir. Yıl için maksimum hisse değeri elde etmek. yahoo finansından herhangi bir CSV'yi indirin https://in.finance.yahoo.com/quote/CAPPL.BO/history/ Maven bağımlılığı ve aşağıdaki Scala kodu -

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.4.3</version>
            <scope>provided</scope>
        </dependency>
    </dependencies>   

object MaxEquityPriceForYear {
  def main(args: Array[String]) {
    val sparkConf = new SparkConf().setAppName("ShareMaxPrice").setMaster("local[2]").set("spark.executor.memory", "1g");
    val sc = new SparkContext(sparkConf);
    val input = "./input/CAPPL.BO.csv"
    val output = "./output"
    sc.textFile(input)
      .map(_.split(","))
      .map(rec => ((rec(0).split("-"))(0).toInt, rec(1).toFloat))
      .reduceByKey((a, b) => Math.max(a, b))
      .saveAsTextFile(output)
  }

Question 17

Bunun yerine bu SparkContext yapıcısını kullandım ve hatalar gitti:

val sc = new SparkContext("local[*]", "MyApp")