Veri Bilimi r

15

Daha yeni akademik amaçlı bir makine öğrenme uygulaması geliştirmeye başladım . Şu anda R kullanıyorum ve kendimi eğitiyorum. Ancak birçok yerde Python'u kullanan insanlar gördüm . Akademi ve endüstride insanlar ne kullanıyor ve tavsiye nedir?

101 machine-learning r python

1

İki kategorik değişken ile kategorik değişken ve sürekli değişken arasındaki ilişki nasıl elde edilir?

Bir regresyon modeli yapıyorum ve korelasyonları kontrol etmek için aşağıdakileri hesaplamam gerekiyor 2 Çok seviyeli kategorik değişken arasındaki korelasyon Çok seviyeli kategorik değişken ile sürekli değişken arasındaki korelasyon Çok seviyeli kategorik değişkenler için VIF (varyans enflasyon faktörü) Yukarıdaki senaryolarda Pearson korelasyon katsayısının kullanılmasının yanlış olduğuna inanıyorum çünkü Pearson sadece 2 …

63 r statistics correlation

9

R dili Büyük Veriler için uygun mu

R, Veri Analizini amaçlayan birçok kütüphaneye sahiptir (örneğin JAGS, BUGS, ARULES vb.) Ve aşağıdaki gibi popüler ders kitaplarında bahsedilmiştir: J.Krusche, Bayesian Veri Analizi yapmak; B.Lantz, "R ile Makine Öğrenmesi". Bir veri kümesinin Büyük Veri olarak kabul edilmesi için 5 TB'lık bir kılavuz gördüm. Sorum şu: R tipik olarak Büyük Veri …

48 bigdata r

9

R programlama için IDE alternatifleri (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

R programlama için RStudio kullanıyorum. Visual Studio veya Eclipse gibi diğer teknoloji yığınlarından gelen katı IDE'leri hatırlıyorum. İki sorum var: RStudio'dan başka IDE'ler kullanılıyor (lütfen bunlarla ilgili kısa bir açıklama yapmayı düşünün). Herhangi birinin RStudio'ya göre belirgin avantajları var mı? Ben çoğunlukla kodlamanın yanı sıra, hata ayıklama / derleme / …

45 r tools rstudio programming

7

Verileri temizlemek için organize süreçler

R'yi kullanan veri bilimi ile sınırlı uğraşımdan, kötü verileri temizlemenin analiz için veri hazırlamanın çok önemli bir parçası olduğunu anladım. Verileri işlemeden önce temizlemek için en iyi yöntemler veya işlemler var mı? Öyleyse, bu en iyi uygulamaların bazılarını uygulayan otomatik veya yarı otomatik araçlar var mı?

34 r data-cleaning

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Hypertuning XGBoost parametreleri

XGBoost, hem kategorik hem de sürekli bağımlı değişkenlerle uğraşmak konusunda mükemmel bir iş çıkarıyor. Ancak, bir XGBoost problemi için optimize edilmiş parametreleri nasıl seçerim? Son Kaggle problemi için parametreleri şöyle uyguladım: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed …

27 r python xgboost

5

Veri bilimi projeleri için VM görüntüsü

Veri bilimi görevleri için çok sayıda araç bulunduğundan ve her şeyi kurmak ve mükemmel bir sistem oluşturmak zordur. İnsanların hemen kullanabileceği Python, R ve diğer açık kaynaklı veri bilim araçlarının kurulu olduğu bir Linux / Mac OS görüntüsü var mı? Bir Ubuntu veya en son Python, R (IDE'ler dahil) ve …

24 python r tools

9

Herhangi bir Çevrimiçi R konsolu var mı?

R dili için çevrimiçi bir konsol arıyorum. Kodu yazdığım gibi, sunucunun çalıştırıp bana çıktı vermesi gerekir. Web sitesine benzer Datacamp.

24 r statistics

3

R tidyr aracına benzer python / pandalar için veri toplama aracı var mı?

Bazı değişkenler sütunlar (Telstra ağ kesintisi) yerine satırlarla temsil edilen bir Kaggle meydan okuma üzerinde çalışıyorum. Şu anda R tidyr aracında bulunan gather (), separa () ve spread () 'nin eşdeğerini arıyorum.

18 r python dataset data-cleaning pandas

4

Pandalar artık verilerden daha mı hızlı?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Data.table kıyaslamaları 2014'ten beri güncellenmemiştir. PandasŞimdi daha hızlı bir yerde duydum data.table. Bu doğru mu? Herhangi bir kıyaslama yapan var mı? Daha önce hiç Python kullanmadım ama pandasyenebilirse geçiş yapmayı düşünürdüm data.table?

18 python r pandas data data.table

6

R'de bir gösterge tablosu oluşturmak için ne kullanıyorsunuz?

Periyodik (günlük, aylık) web analizi gösterge tablosu raporları oluşturmam gerekiyor. Statik olacaktır ve etkileşim gerektirmez, bu nedenle hedef çıktı olarak bir PDF dosyası hayal edin. Raporlar tabloları ve grafikleri (esas olarak ggplot2 ile oluşturulan mini grafik ve madde işareti grafikleri) karıştıracaktır. Stephen Few / Perceptual Edge tarzı panoları düşünün, örneğin: …

17 r visualization

2

Ortak filtreleme kullanarak ek özelliklere sahip filmler önerme

Ortak filtreleme kullanarak bir öneri sistemi oluşturmaya çalışıyorum. Her zamanki [user, movie, rating]bilgilerim var. 'Dil' veya 'film süresi' gibi ek bir özellik eklemek istiyorum. Böyle bir problem için hangi teknikleri kullanabileceğimden emin değilim. Lütfen python / R'deki referansları veya paketleri önerin.

17 python r recommender-system

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Xgboost'taki olasılıklar nasıl tahmin edilir?

Aşağıdaki tahmin fonksiyonu -ve değerleri de vermektedir, bu yüzden olasılık olamaz. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Google & denedim pred_s <- predict(bst, x_mat_s2,type="response") ama işe yaramadı. Soru Bunun yerine olasılıklar nasıl …

16 machine-learning r predictive-modeling decision-trees

«r» etiketlenmiş sorular