İstatistikler ve Büyük Veri classification

3

Saf Bayesian sınıflandırıcıları neden bu kadar iyi performans gösteriyor?

Naive Bayes sınıflandırıcıları sınıflandırma problemleri için popüler bir seçimdir. Bunun da dahil birçok nedeni var: "Zeitgeist" - yaklaşık on yıl önce spam filtrelerinin başarısından sonra yaygın bir farkındalık Yazması kolay Sınıflandırıcı model kurmak hızlı Model, yeni bir eğitim verisi ile modeli yeniden oluşturmak zorunda kalmadan değiştirilebilir Ancak, bunlar 'naif' - …

38 classification naive-bayes

2

ImageNet: ilk 1 ve ilk 5 hata oranı nedir?

ImageNet sınıflandırma kâğıtlarında ilk 1 ve ilk 5 hata oranları, bazı çözümlerin başarısını ölçmek için önemli birimlerdir, ancak bu hata oranları nedir? In Deep Evrişimsel Sinir Ağları ile ImageNet Sınıflandırma Krizhevsky ark. Tek bir CNN (sayfa 7) temelli her bir çözümde ilk 5 hata oranına sahip değilken, 5 ve 7 …

38 classification neural-networks error measurement-error image-processing

3

Bir özellik vektörü elde etmek için kelime gömme işlemlerini tüm belgeye uygulayın

Denetimli öğrenme ile kullanıma uygun bir belgeyi özellik vektörüne eşlemek için gömme kelimesini nasıl kullanırım? Bir kelime gömme her kelime haritalar bir vektör burada, , bazı değil çok sayıda (örneğin, 500) 'dir. Popüler kelime kalıplamaların dahil word2vec ve Eldiven .v ∈ R d dwwwv ∈ Rdv∈Rdv \in \mathbb{R}^dddd Belgeleri sınıflandırmak …

38 classification natural-language supervised-learning word2vec word-embeddings

6

Birçok kategorik değişkenle sınıflandırmayı iyileştirin

200.000'den fazla örnek ve bir örnek başına yaklaşık 50 özellik içeren bir veri kümesi üzerinde çalışıyorum: 10 sürekli değişken ve diğerleri ~ 40 kategorik değişkenlerdir (ülkeler, diller, bilimsel alanlar vb.). Bu kategorik değişkenler için, örneğin 150 farklı ülke, 50 dil, 50 bilimsel alan vb. Var. Şimdiye kadar benim yaklaşımım: Mümkün …

37 machine-learning classification categorical-data random-forest many-categories

3

SVM, Overfitting, boyutsallık laneti

Veri setim küçük (120 örnek), ancak özelliklerin sayısı büyük (1000-200.000) arasında değişiyor. Özellik alt kümesini seçmek için özellik seçimi yapmama rağmen, yine de uygun olabilir. İlk sorum şu, eğer SVM, eğer varsa, aşırı yüklenmeyi nasıl ele alıyor? İkincisi, sınıflandırma durumunda fazladan takma hakkında daha fazla çalıştıkça, az sayıda özelliğe sahip …

37 classification svm

2

İki sınıflı sınıflandırıcı olarak LDA'ya göre lojistik regresyon

Kafamı Lineer diskriminant analizi ve Lojistik regresyon arasındaki istatistiksel farkın etrafına sarmaya çalışıyorum . Anladığım kadarıyla, bir iki sınıflandırma problemi için, LDA kesiştikleri yerde lineer bir sınır oluşturan iki normal yoğunluk fonksiyonunu (her bir sınıf için bir tane) tahmin eder, oysa lojistik regresyon sadece iki sınıf arasındaki tek günlük fonksiyonu …

36 regression logistic classification discriminant-analysis

3

PCA ve tren / test bölümü

Birden fazla ikili etiket setine sahip olduğum bir veri setim var. Her bir etiket kümesi için, bir sınıflandırıcı hazırlıyorum, çapraz onaylama yaparak değerlendiriyorum. Temel bileşen analizi (PCA) kullanarak boyutsallığı azaltmak istiyorum. Sorum şu: PCA'nın tüm veri kümesi için bir kez yapılması ve daha sonra yukarıda açıklandığı gibi çapraz doğrulama için …

35 machine-learning classification pca cross-validation

3

Rastgele orman için OOB ve konfüzyon matrisi nasıl yorumlanır?

Rastgele bir orman modeli çalıştırmak için birinden bir R betiği aldım. Bazı çalışan verileriyle değiştirdim ve çalıştırdım. Gönüllü ayrılıkları tahmin etmeye çalışıyoruz. İşte bazı ek bilgiler: bu bir sınıflandırma modelidir 0 = çalışan kaldı, 1 = çalışan sonlandı, şu anda sadece bir düzine yordayıcı değişkenine bakıyoruz, veriler "dengesiz" ifadesiyle 7’deki …

35 r classification error random-forest

5

Çok yüksek boyutlu sınıflandırma için ücretsiz veri seti [kapalı]

1000'den fazla özelliğe (veya eğriler varsa örnek noktalara) sahip sınıflandırma için serbestçe kullanılabilir veriler nelerdir? Ücretsiz veri setleri hakkında zaten bir topluluk wiki'si var: Serbestçe kullanılabilir veri örneklerini bulma Ancak burada daha rahat kullanılabilecek daha odaklanmış bir listeye sahip olmak güzel olurdu , ayrıca aşağıdaki kuralları öneriyorum: Veri kümesi başına …

35 machine-learning classification dataset large-data

3

Neden t-SNE kümeleme veya sınıflandırma için bir boyutluluk azaltma tekniği olarak kullanılmıyor?

Yakın zamanda yapılan bir atamada, boyutları 64'ten (8 x 8 görüntüler) 2'ye düşürmek için MNIST rakamlarında PCA kullanmamız söylendi. Daha sonra rakamları bir Gauss Karışım Modeli kullanarak kümelemek zorunda kaldık. Yalnızca 2 ana bileşen kullanan PCA, farklı kümeler vermez ve sonuç olarak, model yararlı gruplar oluşturamaz. Bununla birlikte, 2 bileşenli …

34 classification clustering pca dimensionality-reduction tsne

3

Rastgele Orman modellerinde Doğrulukta Ortalama Düşüş ve GINI'de Ortalama Düşüş Nasıl Yorumlanır?

Rastgele Orman paketinden değişken önem taşıyan çıktıları nasıl yorumlayacağımı anlamakta güçlük çekiyorum. Doğruluktaki ortalama düşüş genellikle "her bir özellikteki değerlere izin verilmesinden model doğruluğunda azalma" olarak tanımlanır. Bu, özellik hakkında bir bütün olarak mı yoksa özellik içindeki belirli değerler hakkında mı? Her iki durumda da, Doğruluktaki Ortalama Düşüş söz konusu …

34 r machine-learning classification random-forest

3

Neden bir lojistik regresyonun% 95 güven aralığında manuel olarak hesaplanması ile R'deki confint () fonksiyonunun kullanılması arasında bir fark var?

Sevgili millet - Açıklayamayacağım tuhaf bir şey fark ettim, ya sen? Özetle: bir lojistik regresyon modelinde bir güven aralığı hesaplamaya yönelik manuel yaklaşım ve R işlevi confint()farklı sonuçlar verir. Hosmer ve Lemeshow'un Applied Logistic Regresyon (2. Basım) bölümünden geçiyorum . 3. bölümde, oran oranını ve% 95 güven aralığını hesaplama örneği …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

3

'Zayıf öğrenen' ile ne kastedilmektedir?

Biri bana 'zayıf öğrenen' ifadesinin ne anlama geldiğini söyleyebilir mi? Zayıf bir hipotez olması mı gerekiyor? Zayıf bir öğrenici ile zayıf bir sınıflandırıcı arasındaki ilişki konusunda kafam karıştı. İkisi de aynı mı yoksa bir fark var mı? Adaboost algoritmasında T=10,. Bununla ne kastedilmektedir? Neden seçiyoruz T=10?

34 classification svm terminology adaboost pac-learning

4

CRF'nin python'a uygulanması

Popüler bir uygulama var mı Şartlı Rastgele Fields de Python ? Yaygın olarak kullanılan ve popüler bir şey bulamıyorum!

32 machine-learning classification python conditional-random-field

6

Metnin istatistiksel sınıflandırması

İstatistiki altyapısı olmayan bir programcıyım ve şu anda önceden tanımlanmış kategorilerde sınıflandırmak istediğim çok sayıda farklı belge için farklı sınıflandırma yöntemlerine bakıyorum. KNN, SVM ve NN hakkında okuyorum. Ancak, başlamakta biraz zorlanıyorum. Hangi kaynakları önerirsiniz? Tek değişkenli ve çok değişkenli hesabı oldukça iyi biliyorum, bu yüzden matematiğim yeterince güçlü olmalı. …

32 classification information-retrieval text-mining

«classification» etiketlenmiş sorular