«unbalanced-classes» etiketlenmiş sorular

Her bir sınıfa ait gözlem sayısı ( ) sınıflar arasında sabit değilse, ayrı kategoriler veya * sınıflar * şeklinde düzenlenmiş veriler belirli analizler için sorun yaratabilir . Eşit olmayan sınıfları * dengesizdir *. nn

2
Dengesiz veriler için lojistik regresyona ağırlık ekleme
Dengesiz verilerle lojistik bir regresyon modellemek istiyorum (9: 1). glmR işlevindeki ağırlıklar seçeneğini denemek istedim , ancak ne yaptığından% 100 emin değilim. Çıktı değişkenimin olduğunu söyleyelim c(0,0,0,0,0,0,0,0,0,1). şimdi "1" e 10 kat daha fazla ağırlık vermek istiyorum. bu yüzden ağırlık tartışmasını yapıyorum weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Bunu yaptığımda, maksimum olasılığın hesaplanmasında dikkate alınacaktır. …

2
ANOVA'daki değişkenlerin sırası önemlidir, değil mi?
Çok faktörlü bir ANOVA'da değişkenlerin hangi sırayla belirtildiğinin bir fark yarattığını ancak çoklu doğrusal regresyon yaparken sıralamanın önemli olmadığını anlamak doğru muyum? Böylece ölçülen kan kaybı y ve iki kategorik değişken gibi bir sonuç varsayarsak adenoidektomi yöntemi a , tonsillektomi yöntemi b . Model y~a+b, modelden farklıdır y~b+a(veya R'deki uygulamamın …

2
Aşırı Örneklenmiş Dengesizlik Verilerinde Sınıflandırmanın Test Edilmesi
Ciddi dengesiz veriler üzerinde çalışıyorum. Literatürde, yeniden örnekleme (aşırı veya düşük örnekleme) kullanarak verileri yeniden dengelemek için çeşitli yöntemler kullanılmaktadır. İki iyi yaklaşım: SMOTE: Sentetik Azınlık Aşırı Örnekleme Teknikleri ( SMOTE ) ADASYN: Dengesiz Öğrenme için Uyarlanabilir Sentetik Örnekleme Yaklaşımı ( ADASYN ) ADASYN'i uyarladım çünkü uyarlanabilir yapısı ve çok …


2
GBM sınıflandırması dengesiz sınıf boyutlarından muzdarip mi?
Denetimli bir ikili sınıflandırma sorunuyla ilgileniyorum. GBM paketini bireyleri virüs bulaşmamış / virüs bulaşmış olarak sınıflandırmak için kullanmak istiyorum. Enfekte olmuş bireylerden 15 kat daha fazla enfekte olmuşum var. Dengesiz sınıf boyutlarında GBM modellerinin acı çekip çekmediğini merak ediyordum. Bu soruyu cevaplayan bir referans bulamadım. Enfekte olmamış kişilere 1, enfekte …

3
Dengesiz bir ortamda maliyete duyarlı öğrenme için öneriler
Birkaç milyon satır ve ~ 100 sütun içeren bir veri kümem var. Ortak bir sınıfa ait veri kümesindeki örneklerin yaklaşık% 1'ini tespit etmek istiyorum. Minimum hassasiyet kısıtlamam var, ancak çok asimetrik maliyet nedeniyle belirli bir geri çağırma konusunda çok hevesli değilim (10 olumlu maçla kalmadığım sürece!) Bu ortamda önerebileceğiniz bazı …

3
Dengesiz veriler için SVM
Veri kümemde Destek Vektör Makineleri'ni (SVM'ler) kullanmayı denemek istiyorum. Sorunu denemeden önce, SVM'lerin son derece dengesiz veriler üzerinde iyi performans göstermedikleri konusunda uyarıldım. Benim durumumda,% 95-98 0 ve% 2-5 1'e kadar sahip olabilirim. Seyrek / dengesiz verilerde SVM'lerin kullanımı hakkında konuşulan kaynakları bulmaya çalıştım, ancak bulabildiğim tek şey 'seyrekSVM'ler' (az …

1
Dengeli doğruluk vs F-1 skoru
Herkesin dengeli doğruluk arasındaki farkı açıklayabileceğini merak ediyordum. b_acc = (sensitivity + specificity)/2 ve f1 puanı: f1 = 2*precision*recall/(precision + recall)


1
Dengesiz sınıfları fazla / az örnekleme yaparken, doğruluğu en üst düzeye çıkarmak yanlış sınıflandırma maliyetlerini en aza indirmekten farklı mıdır?
Her şeyden önce, Veri Madenciliği kitaplarının Dengesiz Veri Kümeleri ile nasıl başa çıkılacağını açıklayan bazı ortak düzenleri tanımlamak istiyorum . Genellikle ana bölüm Dengesiz Veri Kümeleri olarak adlandırılır ve bu iki alt bölümü kapsar: Maliyete Duyarlı Sınıflandırma ve Örnekleme Teknikleri. Nadir bir sınıfla ilgili bir sorunla karşı karşıya kaldığınızda hem …


2
P> 0.5 kesmesi neden lojistik regresyon için “optimal” değildir?
ÖNSÖZ: Bir kesme kullanmanın ya da kullanmamanın yararları ya da nasıl bir kesme seçmesi gerektiği umurumda değil. Benim sorum tamamen matematiksel ve meraktan kaynaklanıyor. Lojistik regresyon, A sınıfı ile B sınıfı arasındaki arka koşullu olasılığı modellemektedir ve posterior koşullu olasılıkların eşit olduğu bir hiper düzleme uymaktadır. Teorik olarak, 0.5 sınıflandırma …

1
Yanlış pozitif sayısı nasıl azaltılır?
Yaya tespiti olarak adlandırılan görevi çözmeye çalışıyorum ve iki kategori pozitif - insanlar, negatifler - arka plan üzerinde ikili clasifer eğitiyorum. Veri setim var: pozitif sayısı = 3752 negatif sayısı = 3800 Train \ test split 80 \ 20% ve RandomForestClassifier form scikit-learn parametrelerini kullanıyorum: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) Puanı …


3
Yüksek hassasiyetli veya yüksek hatırlanabilir ikili sınıflandırıcı elde etmek için hangi kayıp fonksiyonu kullanılmalıdır?
Sürgülü / yeniden boyutlandırılmış bir pencerede uygulanan bir CNN ikili sınıflandırıcı kullanmayı planlayan, çok nadiren (görüntülerde) oluşan nesnelerin bir dedektör yapmaya çalışıyorum. Dengeli 1: 1 pozitif negatif eğitim ve test setleri oluşturdum (bu durumda btw yapmak doğru bir şey mi?) Ve sınıflandırıcı doğruluk açısından bir test seti üzerinde iyi çalışıyor. …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.