«classification» etiketlenmiş sorular

İstatistiksel sınıflandırma, alt popülasyonunun kimliğinin bilinmediği yeni gözlemlerin ait olduğu alt popülasyonu, alt popülasyonu bilinen gözlemleri içeren veri içeren bir eğitim seti temelinde tanımlama sorunudur. Bu nedenle bu sınıflandırmalar istatistiklerle incelenebilen değişken bir davranış gösterecektir.

2
Çok sorulu bir sınavda hile biçimlerinin tespiti
SORU: Sınav sorularına ilişkin ikili veri var (doğru / yanlış) Bazı kişiler, bir soru alt kümesine ve doğru cevaplarına önceden erişebilmiş olabilir. Kim, kaç veya hangisi olduğunu bilmiyorum. Hiçbir hile olsaydı, ben öğe için doğru bir tepki olasılığını modellemek herhalde olarak , nerede soru zorluk temsil eder ve bireyin gizli …


4
Aşırı örnekleme, yetersiz örnekleme ve SMOTE hangi sorunu çözüyor?
Yakın geçmişteki iyi alınan söz konusu Tim sorar dengesiz veriler gerçekten Makine Öğrenmesi bir sorun olduğunda ? Sorunun önermesi, sınıf dengesini ve dengesiz sınıflar sorununu tartışan bir çok makine öğrenimi literatürü olmasıdır . Fikir, pozitif ve negatif sınıf arasında bir dengesizliğe sahip veri kümelerinin, bazı makine öğrenimi sınıflandırma (buraya olasılıklı …

2
Metin Sınıflandırması için Sözcük Torbası: Neden TFIDF yerine sadece kelime frekanslarını kullanmıyorsunuz?
Metin sınıflandırma için ortak bir yaklaşım, bir “sözcük çantası” ndan bir sınıflandırıcı yetiştirmektir. Kullanıcı sınıflandırılacak metni alır ve her nesnedeki kelimelerin sıklıklarını sayar, ardından elde edilen matrisi yönetilebilir bir büyüklükte tutmak için bir çeşit düzeltme yapılır. Genellikle kullanıcıların TFIDF kullanarak kendi özellik vektörlerini oluşturduklarını görüyorum. Başka bir deyişle, yukarıda belirtilen …

1
boyutlarındaki rastgele noktaların doğrusal olarak ayrılabilmesi olasılığı nedir ?
Verilen nnn veri noktası, her bir ddd özellikleri, n/2n/2n/2 olarak etiketlenir 000 , diğer n/2n/2n/2 olarak işaretlenmiştir 111 . Her özellik rastgele [0,1] arasında bir değer alır [0,1][0,1][0,1](tekdüze dağılım). İki sınıfı ayırabilen bir hiper düzlemin bulunma olasılığı nedir? İlk önce en kolay durumu ele alalım, yani d=1d=1d = 1 .

3
Sınıflandırma performansını değerlendirmek için çapraz onaylama mı yoksa önyükleme mi?
Bir sınıflandırıcının belirli bir veri setindeki performansını değerlendirmek ve diğer sınıflayıcılarla karşılaştırmak için en uygun örnekleme yöntemi nedir? Çapraz onaylama standart bir uygulama gibi görünmektedir, ancak .632 önyükleme gibi yöntemlerin daha iyi bir seçim olduğunu okudum. Bir takip olarak: Performans ölçütü seçimi cevabı etkiler mi (doğruluk yerine AUC kullanırsam)? Nihai …

2
Ne kadar büyük bir eğitim seti gereklidir?
Minimum bir eşik genelleme doğruluğu elde etmek için bir sınıflandırıcı (bu durumda bir LDA) yetiştirmek için kaç eğitim örneğinin gerekli olduğunu belirlemek için kullanılan yaygın bir yöntem var mı? Soruyorum çünkü genellikle bir beyin-bilgisayar arayüzünde gerekli olan kalibrasyon süresini en aza indirmek istiyorum.


2
Test setinin dağılımı ile eğitim seti arasındaki fark nasıl ele alınır?
Makine öğrenmesi ya da parametre tahmininin temel varsayımlarından biri, görünmeyen verilerin eğitim seti ile aynı dağıtımdan geldiğidir. Bununla birlikte, bazı pratik durumlarda, test setinin dağılımı eğitim setinden neredeyse farklı olacaktır. Ürün tanımlarını yaklaşık 17.000 sınıfa sınıflandırmaya çalışan büyük ölçekli bir çok sınıflandırma problemi için söyleyin. Eğitim seti, eğrilmiş bir sınıf …

3
Bir model için öngörülen olasılık kalibrasyonunun görselleştirilmesi
Her sınıf için her sınıf için bir olasılık üreten öngörücü bir modelim olduğunu varsayalım. Şimdi, sınıflandırma için bu olasılıkları kullanmak istersem böyle bir modeli değerlendirmenin pek çok yolu olduğunu kabul ediyorum (hassasiyet, hatırlama, vb.). Ayrıca, bir ROC eğrisinin ve altındaki alanın, modelin sınıflar arasında ne kadar iyi farklılaştığını belirlemek için …

5
Sınıflandırma ağaçlarına alternatifler, daha iyi tahmine dayalı (örneğin: CV) performans?
Daha iyi tahmin gücü sağlayabilecek Sınıflandırma Ağaçlarına bir alternatif arıyorum. Ele aldığım verilerin hem açıklayıcı hem de açıklanmış değişkenler için faktörleri var. Bu bağlamda rastgele ormanlara ve sinir ağlarına rastladığımı hatırlıyorum, daha önce hiç denememiş olmama rağmen, böyle bir modelleme görevi için başka iyi bir aday var mı (açıkça R'de)?

4
Araştırmacılar neden bir doğrulama setinde test yapmak yerine 10 kat çapraz doğrulama kullanıyor?
Duygusal sınıflandırma ve ilgili konular hakkında birçok araştırma makalesi okudum. Çoğu, sınıflandırıcıları eğitmek ve test etmek için 10 kat çapraz doğrulama kullanır. Bu, ayrı bir test / doğrulama yapılmadığı anlamına gelir. Neden? Özellikle araştırma yapanlar için bu yaklaşımın avantajları / dezavantajları nelerdir?

6
Test doğruluğu eğitimden daha yüksek. Nasıl yorumlanır?
Birçok özelliğe sahip (1000'den yüksek) en fazla 150 örnek (eğitim ve teste bölünmüş) içeren bir veri setine sahibim. Sınıflayıcıları karşılaştırmalı ve veriler üzerinde iyi performans gösteren özellik seçme yöntemlerini kullanmalıyım. Bu nedenle, farklı sınıflandırma yöntemleri (Greedy, BestFirst) ile üç sınıflandırma yöntemi (J48, NB, SVM) ve 2 özellik seçim yöntemi (CFS, …

4
Shao'nun dışarıda bırakılma çapraz onaylama sonuçları ne zaman geçerlidir?
Çapraz Doğrulama ile Doğrusal Model Seçimi adlı makalesinde , Jun Shao, çok değişkenli doğrusal regresyonda değişken seçimi problemi için, bir kez dışarıda bırakılma çapraz doğrulama yönteminin (LOOCV) 'asimptotik olarak tutarsız' olduğunu göstermektedir. Düz İngilizce olarak, çok değişkenli modelleri seçme eğilimindedir. Bir simülasyon çalışmasında, Shao, en az 40 gözlem için bile, …

1
Uygun puanlama kuralları arasında seçim yapma
Uygun puanlama kurallarıyla ilgili çoğu kaynak, log kaybı, Brier puanı veya küresel puanlama gibi farklı puanlama kurallarından bahseder. Ancak, genellikle aralarındaki farklar hakkında çok fazla rehberlik yapmazlar. (Sergi A: Vikipedi .) Logaritmik skoru maksimize eden modelin seçilmesi, logaritmik skorlamanın kullanılması için iyi bir argüman gibi görünen maksimum olabilirlik modelinin seçilmesine …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.