«classification» etiketlenmiş sorular

İstatistiksel sınıflandırma, alt popülasyonunun kimliğinin bilinmediği yeni gözlemlerin ait olduğu alt popülasyonu, alt popülasyonu bilinen gözlemleri içeren veri içeren bir eğitim seti temelinde tanımlama sorunudur. Bu nedenle bu sınıflandırmalar istatistiklerle incelenebilen değişken bir davranış gösterecektir.

1
“İstatistiksel Öğrenmenin Unsurları” ndan tablo 18.1'in çoğaltılması
İstatistiksel Öğrenme Unsurları'ndaki Tablo 18.1, 14 sınıflı bir veri seti üzerindeki çeşitli sınıflandırıcıların performansını özetler. Bu tür çok sınıflı sınıflandırma problemleri için yeni bir algoritmayı kement ve elastik ağ ile karşılaştırıyorum. glmnetSürüm 1.5.3'ü (R 2.13.0) kullanarak , kullanılan gen sayısının 269 olduğu ve test hatasının 13 olduğu bildirildiği tabloda 7. …

1
GBM kullanarak GBM paketi ve Caret
Model kullanarak ayar yapıyordum caret, ancak gbmpaketi kullanarak modeli yeniden çalıştırıyorum . Anladığım kadarıyla caretpaketin kullandığı gbmve çıktı aynı olmalı. Bununla birlikte, sadece hızlı bir test çalıştırması data(iris), değerlendirme metriği olarak RMSE ve R ^ 2 kullanılarak modelde yaklaşık% 5 tutarsızlık gösterir. Kısmi bağımlılık grafiklerini kullanmak için en iyi model …

3
Regresyon için kısıtlı Boltzmann Makineleri?
Daha önce RBM'lerde sorduğum soruyu takip ediyorum . Onları tanımlayan birçok literatür görüyorum ama hiçbiri gerçekte regresyondan söz etmiyor (etiketli verilerle sınıflandırma bile değil). Yalnızca etiketlenmemiş veriler için kullanıldığını hissediyorum. Regresyonla başa çıkmak için herhangi bir kaynak var mı? Yoksa gizli katmanın üstüne başka bir katman eklemek ve CD algoritmasını …

2
Lojistik regresyon ne zaman uygundur?
Şu anda kendime sınıflandırma yapmayı öğretiyorum ve özellikle üç yönteme bakıyorum: destek vektör makineleri, sinir ağları ve lojistik regresyon. Anlamaya çalıştığım, lojistik regresyonun neden diğer ikisinden daha iyi performans göstereceğidir. Lojistik regresyon anlayışımdan buradaki fikir, lojistik fonksiyonun tüm verilere uymasıdır. Dolayısıyla verilerim ikiliyse, 0 etiketine sahip tüm verilerim 0 değerine …

2
N-gram neden kelimeler yerine metin dili tanımlamasında kullanılıyor?
İki popüler dil tanımlama kütüphanesinde, C ++ için Compact Language Detector 2 ve java için dil dedektörü , her ikisi de metin özelliklerini ayıklamak için (karakter tabanlı) n-gram kullandı. Neden bir kelime torbası (tek kelime / sözlük) kullanılmaz ve kelime torbası ve n-gramın avantajı ve dezavantajı nedir? Ayrıca, n-gram modelinin …

2
Fisher kriter ağırlıkları nasıl hesaplanır?
Örüntü tanıma ve makine öğrenimi üzerine çalışıyorum ve aşağıdaki soru ile karşılaştım. Eşit önceki sınıf olasılığına sahip iki sınıflı bir sınıflandırma problemi düşününP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} ve verilen her sınıftaki örneklerin dağılımı p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
HMM'leri sınıflandırma için nasıl eğitebilirim?
Bu yüzden sınıflandırma için HMM'leri eğittiğinizde standart yaklaşımın: Veri kümelerinizi her sınıf için veri kümelerine ayırın Sınıf başına bir HMM eğitin Test setinde, her pencerenin her pencereyi sınıflandırma olasılığını karşılaştırın Ama HMM'yi her sınıfta nasıl eğitebilirim? Sadece bir sınıfa ait verileri birleştirir miyim? Ama zaman serisi verileri sıralı olması anlamına …

3
Naif Bayes olasılıkları içerir: kelimeleri iki kez saymalı mıyım?
Kendi Naive Bayes çanta modelimi prototiplendiriyorum ve özellik olasılıklarını hesaplamakla ilgili bir sorum vardı. Diyelim ki iki dersim var, herkesin kullandığı için spam değil spam kullanacağım. Örnek olarak "viagra" kelimesini ele alalım. Eğitim setimde 10 e-posta var, 5 spam ve 5 spam olmayan. "spam", 5 spam dokümanın tamamında görünür. Eğitim …

2
Özellik sayısının artırılması neden performansı düşürüyor?
Neden özellik sayısının artırılmasının performansı düşürebileceğine dair bir sezgi kazanmaya çalışıyorum. Şu anda belirli özellikler arasında daha iyi iki değişkenli ancak daha fazla özelliğe bakarken daha kötü performans gösteren bir LDA sınıflandırıcı kullanıyorum. Sınıflandırma doğruluğum tabakalı 10 kat xval kullanılarak gerçekleştirilir. Bir sınıflandırıcının bu yüksek boyutlarda neler olduğuna dair bir …


2
PCA ve rastgele ormanlar
Yakın zamanda Kaggle yarışması için, eğitim setim için daha sonra rastgele bir orman sınıflandırıcısını eğitmek için kullanılacak 10 ek özellik tanımladım. PCA'yı yeni özelliklerle veri kümesinde çalıştırmaya karar verdim, birbirleriyle nasıl karşılaştırıldıklarını görmek için. Varyansın ~% 98'inin birinci bileşen (ilk özvektör) tarafından taşındığını buldum. Daha sonra sınıflandırıcıyı birçok kez eğittim, …


1
Seyrek bir eğitim seti SVM'yi olumsuz etkiler mi?
İletileri bir SVM kullanarak farklı kategorilere ayırmaya çalışıyorum. Eğitim setinden istenen kelimelerin / simgelerin bir listesini derledim. Bir mesajı temsil eden her vektör için, 1kelime varsa karşılık gelen satırı ayarladım : "corpus": [mary, küçük, kuzu, yıldız, parıltı] ilk mesaj: "mary'nin küçük bir kuzusu vardı" -> [1 1 1 0 0] …

2
Birden fazla hedefi veya sınıfı öngörüyor musunuz?
Birden fazla olayı tahmin etmeye çalıştığım bir tahmin modeli oluşturduğumu varsayalım (örneğin, hem bir paranın rulosu hem de bir madalyonun atımı). Bildiğim çoğu algoritma tek bir hedefle çalışır, bu yüzden bu tür şeylere standart bir yaklaşım olup olmadığını merak ediyorum. İki olası seçenek görüyorum. Belki de en naif yaklaşım, onlara …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.