«classification» etiketlenmiş sorular

İstatistiksel sınıflandırma, alt popülasyonunun kimliğinin bilinmediği yeni gözlemlerin ait olduğu alt popülasyonu, alt popülasyonu bilinen gözlemleri içeren veri içeren bir eğitim seti temelinde tanımlama sorunudur. Bu nedenle bu sınıflandırmalar istatistiklerle incelenebilen değişken bir davranış gösterecektir.

1
Rasgele orman algoritması adımlarının ardındaki motivasyon
Rasgele bir orman inşa etmek için bildiğim yöntem şöyledir: ( http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Ormanda bir ağaç inşa etmek için: Bootstrap N boyutunda bir örnek, burada N egzersiz setimizin boyutudur. Bu önyüklemeli örneği bu ağaç için eğitim seti olarak kullanın. Ağacın her bir düğümünde M özelliklerimizden rastgele m seçin. Bölünecek bu m …

1
Sınıflandırıcıların değerlendirilmesi: öğrenme eğrileri ve ROC eğrileri
Büyük eğitim veri kümeleri kullanan çok sınıflı bir metin sınıflandırma sorunu için 2 farklı sınıflandırıcıyı karşılaştırmak istiyorum. 2 sınıflandırıcıyı karşılaştırmak için ROC eğrilerini mi yoksa öğrenme eğrilerini mi kullanmam gerektiğinden şüpheliyim. Bir yandan, öğrenme eğrileri, eğitim veri kümesinin boyutuna karar vermek için yararlıdır, çünkü sınıflandırıcının öğrenmeyi durdurduğu (ve belki de …

4
AUC, her sınıftan rastgele seçilen bir örneği doğru bir şekilde sınıflandırma olasılığı mıdır?
Bu yazıyı bir makalede okudum ve AUC'nin başka hiçbir yerde bu şekilde tanımlandığını görmedim. Bu doğru mu? Bunu görmenin bir kanıtı veya basit bir yolu var mı? Şekil 2, alıcı-çalışma karakteristik eğrisinin (AUC) altındaki alan olarak ifade edilen, her bir sınıftan (örneğin, erkek ve kadın) rastgele seçilen iki kullanıcının doğru …

2
F-ölçü doğrulukla eşanlamlı mı?
F-tedbirinin (hassasiyet ve hatırlamaya dayalı olarak) bir sınıflandırıcının ne kadar doğru olduğunun bir tahmini olduğunu anlıyorum. Ayrıca, dengesiz bir veri setimiz olduğunda , f-ölçüsü doğruluktan daha fazla tercih edilir . Basit bir sorum var (teknolojiden çok doğru terminolojiyi kullanmakla ilgili). Dengesiz bir veri kümem var ve deneylerimde f-ölçü kullanıyorum. Bir …

5
Binning her ne pahasına olursa olsun kaçınılmalıdır?
Bu yüzden binning neden her zaman kaçınılması gerektiği hakkında birkaç yazı okudum . Bu iddia için popüler bir referans bu bağlantıdır . Ana kaçamak, binleşme noktalarının (veya kesme noktalarının) ve sonuçta ortaya çıkan bilgi kaybının oldukça keyfi olması ve spline'ların tercih edilmesidir. Bununla birlikte, şu anda birçok özelliği için bir …

3
Sınıflandırmada ne zaman LDA yerine PCA kullanırsınız?
İlke Bileşen Analizi ve Çoklu Diskriminant Analizi (Doğrusal Diskriminant Analizi) arasındaki fark üzerine bu makaleyi okuyorum ve neden MDA / LDA yerine PCA kullanacağınızı anlamaya çalışıyorum. Açıklama aşağıdaki gibi özetlenmiştir: kabaca PCA'da verinin en fazla yayıldığı maksimum varyanslı eksenleri bulmaya çalışıyoruz (bir sınıf içinde, PCA tüm veri setini bir sınıf …

3
RBF SVM kullanım örnekleri (lojistik regresyon ve rastgele orman vs)
Radyal tabanlı işlev çekirdeğine sahip Vektör Makinelerini Destekleyin , genel amaçlı denetimli bir sınıflandırıcıdır. Bu SVM'lerin teorik temellerini ve güçlü noktalarını bilsem de, tercih edilen yöntem oldukları durumların farkında değilim. Peki, RBF SVM'lerinin diğer ML tekniklerinden daha üstün olduğu bir sorun sınıfı var mı? (Ya skor, ya da diğer - …

4
Doğrusal Sınıflandırıcılarla Aşırı Uyum
Bugün profesörümüz sınıfta "lineer sınıflandırıcılar ile aşırı uyumun mümkün olmadığını" belirtti. Yanlış olduğunu düşünüyorum, çünkü lineer sınıflandırıcılar bile eğitim setindeki aykırı değerlere duyarlı olabilir - örneğin sert bir marj alın Destek Vektör Makinesi: Tek bir gürültülü veri noktası, veri kümelerini ayırmak için hangi hiper düzlemin kullanılacağını değiştirebilir. Yoksa yanılıyor muyum? …

2
Sınıflandırma amacıyla verileri test etmek için PCA uygulama
Geçenlerde harika PCA'yı öğrendim ve scikit-öğren belgelerinde ana hatlarıyla verilen örneği yaptım . Sınıflandırma amacıyla PCA'yı yeni veri noktalarına nasıl uygulayabileceğimi bilmek istiyorum. PCA'yı 2 boyutlu bir düzlemde (x, y ekseni) görselleştirdikten sonra, muhtemelen bir tarafı bir sınıflandırma diğeri başka bir sınıflandırma olacak şekilde veri noktalarını ayırmak için bir çizgi …

1
Dengesiz veri kümeleri için ROC eğrileri
Bir giriş matrisi ve bir ikili çıkış düşünün .XXXyyy Bir sınıflandırıcının performansını ölçmenin yaygın bir yolu, ROC eğrilerini kullanmaktır. Bir ROC grafiğinde diyagonal, rastgele bir sınıflandırıcıdan elde edilecek sonuçtur. Dengesiz bir çıktı olması durumunda, rasgele bir sınıflandırıcının performansı, farklı olasılıklarla veya seçilerek geliştirilebilir .yyy000111 Böyle bir sınıflandırıcının performansı bir ROC …

2
R randomForests'ta sınıflandırma eşiği nasıl değiştirilir?
Tüm Türler Dağıtım Modellemesi literatürü, olasılıkları (örneğin, RandomForests) çıkaran bir model kullanarak bir türün varlığını / yokluğunu tahmin ederken, bir türün varlığını veya yokluğunu gerçekte sınıflandırabilme eşik olasılığının seçilmesinin önemli olduğunu ve her zaman 0,5 varsayılanına bağlı değildir. Bu konuda yardıma ihtiyacım var! İşte benim kod: library(randomForest) library(PresenceAbsence) #build model …

3
Lojistik regresyon için Bayesli uyum iyiliği nasıl görselleştirilir
Bayes lojistik regresyon problemi için posterior bir prediktif dağılım oluşturdum. Tahmin dağılımından örnek alıyorum ve sahip olduğum her gözlem için binlerce (0,1) örnek alıyorum. Uyumun iyiliğini görselleştirmek ilginç olmaktan daha azdır, örneğin: Bu grafik, 10.000 örneği + gözlenen referans noktasını gösterir (soldaki yol kırmızı bir çizgi oluşturabilir: evet bu gözlemdir). …

1
Anova () ve drop1 () neden GLMM'ler için farklı cevaplar verdi?
Formun bir GLMM var: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kullandığımda , araç paketinden veya drop1(model, test="Chi")kullandığımdan farklı sonuçlar alıyorum . Bu son ikisi aynı cevapları verir.Anova(model, type="III")summary(model) Bir grup uydurma veri kullanarak, bu iki yöntemin normalde farklı olmadığını gördüm. Dengeli doğrusal …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
“Bir model öğren” terimi nereden geldi?
Genellikle buradaki veri madencilerinin bu terimi kullandığını duydum. Sınıflandırma problemleri üzerinde çalışan bir istatistikçi olarak, "bir sınıflandırıcı yetiştir" terimine aşinayım ve "bir model öğren" in aynı şey olduğunu varsayıyorum. "Sınıflandırıcı yetiştir" terimini umursamıyorum. Bu, eğitim verileri model parametrelerinin iyi veya "geliştirilmiş" tahminlerini almak için kullanıldığından bir modelin takılması fikrini tasvir …

1
Dendrogram kümelemesi için kojenetik korelasyon hakkında
Bir dendrogram kümelemesi bağlamını düşünün. Bireyler arasındaki mesafeleri orijinal farklılıklar olarak adlandıralım . Dendrogramı oluşturduktan sonra, iki birey arasındaki kojenetik farklılığı , bu bireylerin ait olduğu kümeler arasındaki mesafe olarak tanımlarız . Bazı insanlar, orijinal farklılıklar ile kojenetik farklılıklar ( kofenetik korelasyon olarak adlandırılır) arasındaki korelasyonun , sınıflandırmanın "uygunluk endeksi" …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.