İstatistikler ve Büyük Veri classification

2

Hassas hatırlama eğrisinde "taban çizgisi" nedir

Hassas hatırlama eğrisini anlamaya çalışıyorum, hassasiyet ve hatırlamanın ne olduğunu anlıyorum ama anlamadığım şey "temel" değer. Bu bağlantıyı okuyordum https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ ve "Mükemmel bir sınıflandırıcının bir Hassas-Geri Çağırma eğrisi" bölümünde gösterildiği gibi taban kısmını anlamıyorum, ne işe yarar? ve bunu nasıl hesaplıyoruz? Sadece seçtiğimiz rastgele bir başlangıç noktası mı? Örneğin, retweet,status_countvb …

15 r machine-learning classification precision-recall

1

Karar ağacının derinliği

Karar ağacı algoritması her adımda bir özniteliğe bölündüğünden, karar ağacının maksimum derinliği verilerin öznitelik sayısına eşittir. Bu doğru mu?

14 classification cart

1

Lojistik regresyon ve destek vektör makineleri arasındaki fark nedir?

Lojistik regresyonun, eğitim örneklerini ayıran bir hiper düzlem bulduğunu biliyorum. Ayrıca destek vektör makinelerinin hiper düzlemi maksimum marjla bulduğunu da biliyorum. Benim sorum: lojistik regresyon (LR) ve destek vektör makineleri (SVM) arasındaki fark, SVM hiper düzlemi maksimum marjla bulurken LR'nin eğitim örneklerini ayıran herhangi bir hiper düzlem bulması mı? Yoksa …

14 machine-learning classification svm data-mining

1

Makine öğrenimi sınıflandırıcıları big-O veya karmaşıklık

Yeni bir sınıflandırıcı algoritması performansını değerlendirmek için, doğruluk ve karmaşıklığı karşılaştırmaya çalışıyorum (eğitim ve sınıflandırmada big-O). Gönderen Machine Learning: Bir yorum Ben algoritmalar arasında ayrıca bir doğruluk tablosunu tam denetimli sınıflandırıcılar listesini almak ve 44 test problemi UCI veri repositoy . Ancak, gibi ortak sınıflandırıcılar için big-O ile bir inceleme, …

14 machine-learning classification multiple-comparisons algorithms time-complexity

3

Random Forest modelinde daha yeni verilerin ağırlıklandırılması

6 kategori arasında ayrım yapmak için Random Forest ile bir sınıflandırma modeli eğitimi alıyorum. İşlem verilerim yaklaşık 60k + gözlem ve 35 değişkene sahip. İşte yaklaşık olarak nasıl göründüğüne bir örnek. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | …

14 r machine-learning classification random-forest

1

Rasgele ormanda LASSO kullanımı

Aşağıdaki işlemi kullanarak rastgele bir orman oluşturmak istiyorum: Bölmeleri belirlemek için bilgi kazancı kullanarak rastgele veri ve özellik örnekleri üzerinde bir ağaç oluşturun Bir yaprak düğümünü önceden tanımlanmış bir derinliği aşarsa YA DA herhangi bir ayrım, önceden tanımlanmış minimum değerden daha az bir yaprak sayısıyla sonuçlanır Her ağaç için bir …

14 classification random-forest lasso ensemble

1

RandomForest - MDS çizim yorumu

RandomForest'i 6 hayvan davranışını (örneğin Ayakta, Yürüme, Yüzme vb.) 8 değişkene (farklı vücut duruşları ve hareket) göre sınıflandırmak için kullandım. RandomForest paketindeki MDSplot bana bu çıktıyı verir ve sonucu yorumlamada sorun yaşıyorum. Aynı veriler üzerinde bir PCA yaptım ve zaten PC1 ve PC2'deki tüm sınıflar arasında güzel bir ayrım yaptım, …

14 r classification random-forest multidimensional-scaling

5

Bir sınıf metin sınıflandırması nasıl yapılır?

Bir metin sınıflandırma problemiyle uğraşmak zorundayım. Bir web tarayıcısı, belirli bir alanın web sayfalarını tarar ve yalnızca bir belirli sınıfa ait olup olmadığını öğrenmek istediğim her web sayfası için. Yani, bu sınıfı Pozitif olarak adlandırırsam , taranan her web sayfası Pozitif sınıfına veya Pozitif Olmayan sınıfına aittir . Pozitif sınıfı …

14 classification text-mining naive-bayes binary-data

3

Yapay sinir ağı gizli aktivasyon fonksiyonu seçimi

Başka bir yerde bir NN gizli katman aktivasyon fonksiyonu seçim kişinin ihtiyacına dayanmalıdır , yani -1 ila 1 aralığındaki değerlere ihtiyacınız varsa tanh kullanın ve 0 ila 1 aralığı için sigmoid kullanın okudum. Sorum şu ki, kişinin neye ihtiyacı olduğunu nasıl bilebilir ? Giriş katmanının aralığına mı dayanıyor, örneğin, giriş …

14 machine-learning classification neural-networks

1

Dengesiz sınıfları fazla / az örnekleme yaparken, doğruluğu en üst düzeye çıkarmak yanlış sınıflandırma maliyetlerini en aza indirmekten farklı mıdır?

Her şeyden önce, Veri Madenciliği kitaplarının Dengesiz Veri Kümeleri ile nasıl başa çıkılacağını açıklayan bazı ortak düzenleri tanımlamak istiyorum . Genellikle ana bölüm Dengesiz Veri Kümeleri olarak adlandırılır ve bu iki alt bölümü kapsar: Maliyete Duyarlı Sınıflandırma ve Örnekleme Teknikleri. Nadir bir sınıfla ilgili bir sorunla karşı karşıya kaldığınızda hem …

14 machine-learning classification unbalanced-classes

2

Seçilen özellik sayısı azaldığında, rastgele orman OOB hata tahmini neden iyileşiyor?

1000 özellikli bilinen iki gruba ayrılan bir mikrodizi veri kümesine sınıflandırıcı olarak rastgele bir orman algoritması uyguluyorum. İlk çalıştırmadan sonra özelliklerin önemine bakıyorum ve 5, 10 ve 20 en önemli özellik ile ağaç algoritmasını tekrar çalıştırıyorum. Tüm özellikler için, ilk 10 ve 20'de OOB hata oranı tahmini% 1.19, burada ilk …

14 r machine-learning classification random-forest

3

CART modelleri sağlam hale getirilebilir mi?

Ofisimdeki bir meslektaşım bugün bana "Ağaç modelleri iyi değil çünkü aşırı gözlemlere yakalandılar" dedi. Burada yapılan bir arama , temelde iddiayı destekleyen bu konu ile sonuçlandı . Bu da beni şu soruya yönlendiriyor - hangi durumda bir CART modeli sağlam olabilir ve bu nasıl gösterilir?

14 regression classification robust cart

1

Değerlendirme olarak neden AUC yerine Normalize Gini Skoru kullanılmalı?

Kaggle'ın yarışması Porto Seguro'nun Güvenli Sürücü Tahmini , değerlendirme metriği olarak Normalize Gini Puanını kullanıyor ve bu da bu seçimin nedenlerini merak ediyordu. Değerlendirme için AUC gibi en alışılmış metrikler yerine normalleştirilmiş gini skoru kullanmanın avantajları nelerdir?

14 classification auc model-evaluation gini

1

Caret glmnet vs cv.glmnet

Optimal bir lambda aramak için glmnetiçeride caretkullanma cv.glmnetve aynı görevi yapmak için kullanma karşılaştırmasında çok fazla karışıklık var gibi görünüyor . Birçok soru yöneltildi, örneğin: Sınıflandırma modeli train.glmnet mi cv.glmnet mi? Glmnet'i caret ile kullanmanın doğru yolu nedir? "Caret" kullanarak çapraz onaylama "glmnet" ancak sorunun tekrarlanabilirliğinden kaynaklanabilecek hiçbir cevap verilmemiştir. …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

GAM vs LOESS vs spline

Bağlam : Bu yüzden ben kullanıyorum, parametrik görünmeyen bir ScatterPlot bir çizgi çizmek istiyorum geom_smooth()içinde ggplotde R. geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.Genelleştirilmiş katkı modelleri için GAM …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

«classification» etiketlenmiş sorular