«pyspark» etiketlenmiş sorular


4
CSV dosya içeriklerini pyspark veri çerçevelerine aktarın
Bir .csv dosyasını pyspark veri çerçevelerine nasıl alabilirim? Hatta Pandas csv dosyasını okumaya ve daha sonra createDataFrame kullanarak bir kıvılcım dataframe dönüştürmek çalıştı, ama yine de bazı hata gösteriyor. Birisi bana bu konuda rehberlik edebilir mi? Ayrıca, lütfen bana bir xlsx dosyasını nasıl alabilirim? Panda veri çerçeveleri içine csv içeriği …
13 pyspark 

1
Kaç LSTM hücresi kullanmalıyım?
Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


2
Pyspark'ta kategorik verileri sayısal verilere dönüştürme
Pyspark uygulamaları ile çalışmak için Ipython dizüstü bilgisayar kullanıyorum. Gelir 50k aralığının altında veya altında olup olmadığını belirlemek için çok sayıda kategorik sütun içeren bir CSV dosyası var. Gelir aralığını belirlemek için tüm girdileri alarak bir sınıflandırma algoritması yapmak istiyorum. Eşlenen değişkenler için değişkenler sözlüğü oluşturmak ve değişkenleri işlemek için …

1
Spark ALS: yeni kullanıcılar için tavsiye
Soru Spark'da eğitilmiş bir ALS modelinde yeni bir kullanıcının derecelendirmesini nasıl tahmin edebilirim? (Yeni = eğitim süresi boyunca görülmez) Sorun Burada resmi Spark ALS eğitimini takip ediyorum: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html İyi bir MSE ile iyi bir danışman oluşturabilirim, ancak modele yeni verilerin nasıl girileceği ile mücadele ediyorum. Eğitici, eğitimden önce ilk kullanıcının …

1
Kıvılcım, tek bir RDD'yi ikiye en iyi şekilde böler
Belirli parametrelere göre gruplara ayırmak için gereken büyük bir veri kümesi var. İşin mümkün olduğunca verimli bir şekilde işlenmesini istiyorum. Bunu yapmanın iki yolunu hayal edebilirim Seçenek 1 - Orijinal RDD'den harita oluşturma ve filtreleme def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.