«classification» etiketlenmiş sorular

İstatistiksel sınıflandırma, alt popülasyonunun kimliğinin bilinmediği yeni gözlemlerin ait olduğu alt popülasyonu, alt popülasyonu bilinen gözlemleri içeren veri içeren bir eğitim seti temelinde tanımlama sorunudur. Bu nedenle bu sınıflandırmalar istatistiklerle incelenebilen değişken bir davranış gösterecektir.

2
SVM optimal C ve gama parametrelerini belirlemek için hangi arama aralığı?
Sınıflandırma için SVM kullanıyorum ve doğrusal ve RBF çekirdekleri için en uygun parametreleri belirlemeye çalışıyorum. Doğrusal çekirdek için C'yi belirlemek için çapraz doğrulanmış parametre seçimini, RBF çekirdeği için ise C ve gama belirlemek için ızgara aramasını kullanın. 20 (sayısal) özellik ve 7 sınıfa ayrılması gereken 70 eğitim örneğim var. C …

3
Naive Bayes Doğrusal Sınıflandırıcı Nasıl?
Diğer konuyu burada gördüm ama cevabın asıl soruyu tatmin ettiğini sanmıyorum. Sürekli okuduğum, Naive Bayes'ın log odds gösterimini kullanarak doğrusal bir sınıflandırıcı (örneğin: burada ) (doğrusal bir karar sınırı çizecek şekilde) olduğu. Ancak, iki Gauss bulutunu simüle ettim ve bir karar sınırı taktım ve sonuçları aldım (n. Kitaplık e1071, naiveBayes …

2
R'de rastgele bir orman sınıflandırmasında bir dizi yordayıcının göreceli önemi
Değişkenlerin kümelerinin randomForestR'deki bir sınıflandırma modeline göre göreceli önemini belirlemek isterim . importanceİşlev, MeanDecreaseGiniher bir yordayıcı için metrik sağlar - bunu bir kümedeki her yordayıcı arasında toplamak kadar basit midir? Örneğin: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # …

1
Rastgele bir ormandaki ağaç sayısını ayarlamak zorunda mıyız?
Rastgele orman sınıflandırıcılarının yazılım uygulamaları, kullanıcıların ormandaki ağaç sayısı da dahil olmak üzere algoritmanın davranışını hassas bir şekilde ayarlayabilmesi için bir dizi parametreye sahiptir. Bu , her bölmede denenecek özellik sayısının aynı şekilde ayarlanması gereken bir parametre midir (Leo Breiman'ın çağırdığı )?mmmmtry

3
Sınıf dengesizliği probleminin kök nedeni nedir?
Son zamanlarda makine / istatistik öğreniminde "sınıf dengesizliği sorunu" hakkında çok fazla düşündüm ve neler olup bittiğini anlamadığım bir duyguyu daha da derinleştiriyorum. İlk önce, terimlerimi tanımlamama (veya tanımlamaya çalışmama) izin verin: Sınıf dengesizliği bir sorun makinesi / istatistiksel öğrenme 1 sınıflara 0 sınıfların oranı çok eğik olduğu zaman, bazı …


7
İstatistiğin dalları nedir?
Matematikte cebir, analiz, topoloji vb. Dallar vardır. Makine öğrenmesinde denetimli, denetimsiz ve pekiştirici öğrenme vardır. Bu dalların her birinde, yöntemleri daha da bölen daha ince dallar vardır. İstatistiklerle paralel çizim yapmakta zorlanıyorum. İstatistiğin ana dalları (ve alt dalları) ne olurdu? Mükemmel bir bölüm mümkün değildir, ancak her şey büyük ve …

4
Bir eğitim veri setinde sınıfları ne zaman dengelemeliyim?
Eğitim verilerindeki dengesiz sınıfların sorunlara yol açabileceğini öğrendiğim çevrimiçi bir kurs aldım, çünkü sınıflandırma algoritmaları dengesizliğin çok fazla olması halinde iyi sonuçlar verdiği için çoğunluk kuralı için de geçerlidir. Bir ödevde kişi çoğunluk sınıfını örnekleyerek verileri dengelemek zorundaydı. Ancak bu blogda, birileri dengeli verilerin daha da kötü olduğunu iddia ediyor: …

4
ROC eğrisi altındaki alan - genel doğruluk
ROC'nin Eğri Altındaki Alanı (AUC) ve genel doğruluğu hakkında biraz kafa karıştırıcıyım. AUC, genel doğrulukla orantılı olacak mı? Başka bir deyişle, genel olarak daha büyük bir doğruluk elde ettiğimizde, kesinlikle daha büyük bir AUC olacaktır? Yoksa tanım olarak pozitif korelasyon gösteriyorlar mı? Olumlu bir korelasyon varsa, neden ikisini de bazı …

2
Saf Bayes ve multinomial saf Bayes arasındaki fark
Daha önce Naive Bayes sınıflandırıcı ile çalıştım . Son zamanlarda Multinomial Naive Bayes hakkında okudum . Ayrıca Posterior Olasılık = (Önceki * Olabilirlik) / (Kanıt) . Naive Bayes ve Multinomial Naive Bayes arasında bulduğum tek önemli fark (bu sınıflandırıcıları programlarken) Multinominal Naif Bayes olasılık olarak hesaplar bir kelime / jeton …

6
İkili sınıflandırma için değişken seçim prosedürü
Ne tercih ettiğiniz değişken / özellik seçimi çok daha fazla değişken olduğunda öğrenme kümesindeki gözlemler daha / ikili sınıflandırma için özellik? Buradaki amaç, sınıflandırma hatasını en iyi azaltan özellik seçim prosedürünün ne olduğunu tartışmaktır. Biz yapabilirsiniz gösterimler düzeltmek tutarlılık için: için , let olmak gözlemlerin öğrenme seti grubundan . Yani …

2
Makine öğrenmesi sınıflandırıcılarının performansını istatistiksel olarak nasıl karşılaştırabilirim?
Tahmini sınıflandırma doğruluğuna dayanarak, bir sınıflandırıcının başka bir sınıflandırıcıya göre ayarlanan bir temelde istatistiksel olarak daha iyi olup olmadığını test etmek istiyorum. Her sınıflandırıcı için, temel setten rastgele bir eğitim ve test örneği seçiyorum, modeli eğitiyorum ve modeli test ediyorum. Bunu her sınıflandırıcı için on kez yapıyorum. Bu nedenle her …

3
AUC neden daha doğru olan bir sınıflayıcı için daha doğru bir sınıflayıcıya göre daha yüksektir?
İki sınıflandırıcım var A: saf Bayesian ağı B: ağaç (tek başına bağlı) Bayesian ağı Doğruluk ve diğer önlemler bakımından A, B'den daha kötü performans gösterir. Ancak, ROC analizi yapmak için RR ROCR ve AUC paketlerini kullandığımda, A için AUC'nin B için AUC'den daha yüksek olduğu ortaya çıktı. olay? Gerçek pozitif …

1
Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması
Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Serbestlik dereceleri tam sayı olmayan bir sayı olabilir mi?
GAM kullandığımda, artık DF (kodun son satırı) olduğunu gösteriyor. Bu ne anlama geliyor? GAM örneğinin ötesine geçmek, Genel olarak, serbestlik derecelerinin sayısı tam sayı olmayan bir sayı olabilir mi?26,626,626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.