«apache-spark» etiketlenmiş sorular

Apache Spark, Scala'da yazılmış, kullanıcılara birleşik API ve dağıtılmış veri setleri sağlayan açık kaynaklı dağıtılmış bir veri işleme motorudur. Apache Spark için Kullanım Durumları genellikle makine / derin öğrenme, grafik işleme ile ilgilidir.


9
Veri Kümesinde özel nesneler nasıl saklanır?
Spark Veri Kümelerini Tanıtmaya Göre : Spark 2.0'ı dört gözle beklerken, Veri Kümelerinde bazı heyecan verici iyileştirmeler planlıyoruz, özellikle: ... Özel kodlayıcılar - şu anda çok çeşitli türler için kodlayıcıları otomatik olarak oluştururken, özel nesneler için bir API açmak istiyoruz. ve Datasetaşağıdaki gibi bir hataya neden olacak şekilde özel türü …

8
Her grubun ilk satırı nasıl seçilir?
Aşağıdaki gibi oluşturulan bir DataFrame var: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Sonuçlar şöyle görünür: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

15
Spark'da INFO günlüğü nasıl kapatılır?
Spark'ı AWS EC2 kılavuzunu kullanarak yükledim bin/pysparkve kıvılcım komut istemine ulaşmak için komut dosyasını kullanarak programı iyi başlatabilirim ve ayrıca Hızlı Başlangıç ​​işlemini başarılı bir şekilde yapabilirim. Ancak, hayatım boyunca INFOher komuttan sonra tüm ayrıntılı günlük kaydını nasıl durduracağımı anlayamıyorum . Ben her uygulamayı yanı sıra her düğüm üzerinde uygulamayı …

3
Spark'daki aşamalar görevlere nasıl ayrılır?
Aşağıdakiler için, zamanın her noktasında yalnızca bir Spark işinin çalıştığını varsayalım. Şimdiye kadar aldığım şey İşte Spark'da neler olduğunu anlıyorum: A SparkContextoluşturulduğunda, her çalışan düğüm bir yürütücü başlatır. Yürütücüler, sürücü programına geri bağlanan ayrı işlemlerdir (JVM). Her yürütücü, sürücü programının kavanozuna sahiptir. Bir sürücüden vazgeçerek, uygulayıcıları kapatır. Her yürütücü bazı …
143 apache-spark 

14
Spark - CSV dosyası DataFrame olarak yüklensin mi?
Ben bir CSV kıvılcım okumak ve DataFrame olarak dönüştürmek ve ile HDFS depolamak istiyorum df.registerTempTable("table_name") Denedim: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Aldığım hata: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at …


2
Bir Spark DataFrame'e sabit bir sütun nasıl eklenir?
Bir sütun eklemek istiyorum DataFramebazı rasgele değeri olan (her satır için aynıdır). withColumnAşağıdaki gibi kullandığımda bir hata alıyorum : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …


3
Apache Spark: Harita ve MapPartitions mı?
RDD'ler map ile mapPartitionsyöntem arasındaki fark nedir ? Ve böyle mi flatMapdavranıyor mu? Teşekkürler.mapmapPartitions (değiştir) yani arasındaki fark nedir (anlamsal olarak veya uygulama açısından) def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) …

5
DataFrame'in bölümlenmesi nasıl tanımlanır?
Spark 1.4.0'da Spark SQL ve DataFrames kullanmaya başladım. Scala'da DataFrames üzerinde özel bir bölümleyici tanımlamak istiyorum, ancak bunun nasıl yapılacağını göremiyorum. Üzerinde çalıştığım veri tablolarından biri, aşağıdaki örneğe göre, hesaba göre, silimar işlemlerin bir listesini içeriyor. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 2014-04-05 …

9
Spark DataFrame'e (PySpark kullanarak) nasıl yeni bir sütun eklerim?
Bir Spark DataFrame'im var (PySpark 1.5.1 kullanarak) ve yeni bir sütun eklemek istiyorum. Aşağıdakileri herhangi bir başarı olmadan denedim: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ayrıca bunu kullanırken bir hata var: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Peki PySpark …

12
Apache Spark Executor belleği nasıl ayarlanır
Apache kıvılcım yürütme düğümleri için kullanılabilir belleği nasıl artırabilirim? Apache Spark'a yüklenmeye uygun 2 GB'lık bir dosyam var. Şu an 1 makinede apache spark çalıştırıyorum, bu yüzden sürücü ve uygulayıcı aynı makinede. Makinenin 8 GB belleği vardır. Belleğe alınacak dosyayı ayarladıktan sonra dosyanın satırlarını saymayı denediğimde şu hataları alıyorum: 2014-10-25 …

10
RDD'nin içeriği nasıl yazdırılır?
Bir koleksiyonun içeriğini Spark konsoluna yazdırmaya çalışıyorum. Bir tipim var: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Ve şu komutu kullanıyorum: scala> linesWithSessionId.map(line => println(line)) Ancak bu basılmıştır: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4], haritada: 19 RDD'yi konsola nasıl yazabilirim veya içeriğini görüntüleyebilmek için diske nasıl kaydedebilirim?


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.