«classification» etiketlenmiş sorular

İstatistiksel sınıflandırma, alt popülasyonunun kimliğinin bilinmediği yeni gözlemlerin ait olduğu alt popülasyonu, alt popülasyonu bilinen gözlemleri içeren veri içeren bir eğitim seti temelinde tanımlama sorunudur. Bu nedenle bu sınıflandırmalar istatistiklerle incelenebilen değişken bir davranış gösterecektir.

3
Saf Bayesian sınıflandırıcıları neden bu kadar iyi performans gösteriyor?
Naive Bayes sınıflandırıcıları sınıflandırma problemleri için popüler bir seçimdir. Bunun da dahil birçok nedeni var: "Zeitgeist" - yaklaşık on yıl önce spam filtrelerinin başarısından sonra yaygın bir farkındalık Yazması kolay Sınıflandırıcı model kurmak hızlı Model, yeni bir eğitim verisi ile modeli yeniden oluşturmak zorunda kalmadan değiştirilebilir Ancak, bunlar 'naif' - …


3
Bir özellik vektörü elde etmek için kelime gömme işlemlerini tüm belgeye uygulayın
Denetimli öğrenme ile kullanıma uygun bir belgeyi özellik vektörüne eşlemek için gömme kelimesini nasıl kullanırım? Bir kelime gömme her kelime haritalar bir vektör burada, , bazı değil çok sayıda (örneğin, 500) 'dir. Popüler kelime kalıplamaların dahil word2vec ve Eldiven .v ∈ R d dwwwv ∈ Rdv∈Rdv \in \mathbb{R}^dddd Belgeleri sınıflandırmak …

6
Birçok kategorik değişkenle sınıflandırmayı iyileştirin
200.000'den fazla örnek ve bir örnek başına yaklaşık 50 özellik içeren bir veri kümesi üzerinde çalışıyorum: 10 sürekli değişken ve diğerleri ~ 40 kategorik değişkenlerdir (ülkeler, diller, bilimsel alanlar vb.). Bu kategorik değişkenler için, örneğin 150 farklı ülke, 50 dil, 50 bilimsel alan vb. Var. Şimdiye kadar benim yaklaşımım: Mümkün …

3
SVM, Overfitting, boyutsallık laneti
Veri setim küçük (120 örnek), ancak özelliklerin sayısı büyük (1000-200.000) arasında değişiyor. Özellik alt kümesini seçmek için özellik seçimi yapmama rağmen, yine de uygun olabilir. İlk sorum şu, eğer SVM, eğer varsa, aşırı yüklenmeyi nasıl ele alıyor? İkincisi, sınıflandırma durumunda fazladan takma hakkında daha fazla çalıştıkça, az sayıda özelliğe sahip …

2
İki sınıflı sınıflandırıcı olarak LDA'ya göre lojistik regresyon
Kafamı Lineer diskriminant analizi ve Lojistik regresyon arasındaki istatistiksel farkın etrafına sarmaya çalışıyorum . Anladığım kadarıyla, bir iki sınıflandırma problemi için, LDA kesiştikleri yerde lineer bir sınır oluşturan iki normal yoğunluk fonksiyonunu (her bir sınıf için bir tane) tahmin eder, oysa lojistik regresyon sadece iki sınıf arasındaki tek günlük fonksiyonu …

3
PCA ve tren / test bölümü
Birden fazla ikili etiket setine sahip olduğum bir veri setim var. Her bir etiket kümesi için, bir sınıflandırıcı hazırlıyorum, çapraz onaylama yaparak değerlendiriyorum. Temel bileşen analizi (PCA) kullanarak boyutsallığı azaltmak istiyorum. Sorum şu: PCA'nın tüm veri kümesi için bir kez yapılması ve daha sonra yukarıda açıklandığı gibi çapraz doğrulama için …

3
Rastgele orman için OOB ve konfüzyon matrisi nasıl yorumlanır?
Rastgele bir orman modeli çalıştırmak için birinden bir R betiği aldım. Bazı çalışan verileriyle değiştirdim ve çalıştırdım. Gönüllü ayrılıkları tahmin etmeye çalışıyoruz. İşte bazı ek bilgiler: bu bir sınıflandırma modelidir 0 = çalışan kaldı, 1 = çalışan sonlandı, şu anda sadece bir düzine yordayıcı değişkenine bakıyoruz, veriler "dengesiz" ifadesiyle 7’deki …

5
Çok yüksek boyutlu sınıflandırma için ücretsiz veri seti [kapalı]
1000'den fazla özelliğe (veya eğriler varsa örnek noktalara) sahip sınıflandırma için serbestçe kullanılabilir veriler nelerdir? Ücretsiz veri setleri hakkında zaten bir topluluk wiki'si var: Serbestçe kullanılabilir veri örneklerini bulma Ancak burada daha rahat kullanılabilecek daha odaklanmış bir listeye sahip olmak güzel olurdu , ayrıca aşağıdaki kuralları öneriyorum: Veri kümesi başına …

3
Neden t-SNE kümeleme veya sınıflandırma için bir boyutluluk azaltma tekniği olarak kullanılmıyor?
Yakın zamanda yapılan bir atamada, boyutları 64'ten (8 x 8 görüntüler) 2'ye düşürmek için MNIST rakamlarında PCA kullanmamız söylendi. Daha sonra rakamları bir Gauss Karışım Modeli kullanarak kümelemek zorunda kaldık. Yalnızca 2 ana bileşen kullanan PCA, farklı kümeler vermez ve sonuç olarak, model yararlı gruplar oluşturamaz. Bununla birlikte, 2 bileşenli …

3
Rastgele Orman modellerinde Doğrulukta Ortalama Düşüş ve GINI'de Ortalama Düşüş Nasıl Yorumlanır?
Rastgele Orman paketinden değişken önem taşıyan çıktıları nasıl yorumlayacağımı anlamakta güçlük çekiyorum. Doğruluktaki ortalama düşüş genellikle "her bir özellikteki değerlere izin verilmesinden model doğruluğunda azalma" olarak tanımlanır. Bu, özellik hakkında bir bütün olarak mı yoksa özellik içindeki belirli değerler hakkında mı? Her iki durumda da, Doğruluktaki Ortalama Düşüş söz konusu …

3
Neden bir lojistik regresyonun% 95 güven aralığında manuel olarak hesaplanması ile R'deki confint () fonksiyonunun kullanılması arasında bir fark var?
Sevgili millet - Açıklayamayacağım tuhaf bir şey fark ettim, ya sen? Özetle: bir lojistik regresyon modelinde bir güven aralığı hesaplamaya yönelik manuel yaklaşım ve R işlevi confint()farklı sonuçlar verir. Hosmer ve Lemeshow'un Applied Logistic Regresyon (2. Basım) bölümünden geçiyorum . 3. bölümde, oran oranını ve% 95 güven aralığını hesaplama örneği …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
'Zayıf öğrenen' ile ne kastedilmektedir?
Biri bana 'zayıf öğrenen' ifadesinin ne anlama geldiğini söyleyebilir mi? Zayıf bir hipotez olması mı gerekiyor? Zayıf bir öğrenici ile zayıf bir sınıflandırıcı arasındaki ilişki konusunda kafam karıştı. İkisi de aynı mı yoksa bir fark var mı? Adaboost algoritmasında T=10,. Bununla ne kastedilmektedir? Neden seçiyoruz T=10?


6
Metnin istatistiksel sınıflandırması
İstatistiki altyapısı olmayan bir programcıyım ve şu anda önceden tanımlanmış kategorilerde sınıflandırmak istediğim çok sayıda farklı belge için farklı sınıflandırma yöntemlerine bakıyorum. KNN, SVM ve NN hakkında okuyorum. Ancak, başlamakta biraz zorlanıyorum. Hangi kaynakları önerirsiniz? Tek değişkenli ve çok değişkenli hesabı oldukça iyi biliyorum, bu yüzden matematiğim yeterince güçlü olmalı. …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.