«model-evaluation» etiketlenmiş sorular

Örnekleri değerlendirirken, örnek içi veya örnek dışı.

7
Sınıflandırma modellerini değerlendirmek için doğruluk neden en iyi önlem değildir?
Bu, dolaylı olarak burada defalarca sorulan genel bir sorudur, ancak tek bir yetkili cevaptan yoksundur. Referans için bu konuda ayrıntılı bir cevap almak çok iyi olurdu. Tüm sınıflandırmalar arasında doğru sınıflandırmaların oranı olan doğruluk , çok basit ve “sezgisel” bir önlemdir, ancak dengesiz veriler için zayıf bir ölçü olabilir . …

7
Çok sayıda özellik (> 10K) için en iyi PCA algoritması?
Bunu daha önce StackOverflow'ta sormuştum, ancak SO'da yanıt alamadığı için burada daha uygun olabilir gibi görünüyor. İstatistik ve programlama arasındaki kesişme noktasında. PCA (Asıl Bileşen Analizi) yapmak için bazı kodlar yazmam gerekiyor. Ben tanınmış algoritmalar aracılığıyla göz ve uyguladık bu bir bildiğim kadarıyla söyleyebilirim NIPALS algoritması eşdeğerdir. İlk 2-3 ana …

5
Random Forest algoritmasının optimize edilmiş uygulamaları
ALGLIB, Gofretler ve benzeri bazı R paketleri gibi birkaç rastgele ormanın uygulaması olduğunu fark ettim randomForest. Biri bana bu kütüphanelerin yüksek düzeyde optimize edilmiş olup olmadığını söyleyebilir mi? Temel olarak İstatiksel Öğrenim Öğeleri'nde ayrıntılandırıldığı gibi rastgele ormanlara eşdeğer mi veya çok fazla ilave numara eklenmiş mi? Umarım bu soru yeterince …

3
Bir kümeleme yöntemi nasıl seçilir? Bir küme çözümü nasıl doğrulanır (yöntem seçimini garanti etmek için)?
Küme analizi ile ilgili en büyük sorunlardan biri, kullanılan farklı kümeleme yöntemlerine (hiyerarşik kümelemede farklı bağlantı yöntemleri dahil) dayandığında farklı sonuçlar çıkarmamız gerektiğidir . Bu konudaki fikrinizi bilmek istiyorum - hangi yöntemi seçeceksiniz ve nasıl. Biri “en iyi kümeleme yöntemi, size doğru cevabı verendir”; ancak küme analizinin denetimsiz bir teknik …

1
Çapraz doğrulama yanlış kullanımı (en iyi hiperparametre değeri için raporlama performansı)
Son zamanlarda , belirli bir veri setinde bir k-NN sınıflandırıcısının kullanılmasını öneren bir makale ile karşılaştım . Yazarlar, farklı k değerleri için k-kat çapraz doğrulama yapmak ve mevcut en iyi hiperparametre konfigürasyonunun çapraz doğrulama sonuçlarını bildirmek için mevcut tüm veri örneklerini kullandı . Bildiğim kadarıyla, bu sonuç önyargılı ve hiperparametre …

3
Lojistik regresyonun değerlendirilmesi ve Hosmer-Lemeshow Uyum İyiliği'nin yorumlanması
Hepimizin bildiği gibi, lojistik regresyon modelini değerlendirmek için 2 yöntem var ve çok farklı şeyler test ediyorlar. Öngörü gücü: Bağımsız değişkenleri temel alarak bağımlı değişkeni ne kadar iyi tahmin edebileceğinizi ölçen bir istatistik edinin. Tanınmış Sahte R ^ 2, McFadden (1974) ve Cox ve Snell'dir (1989). Uygunluk istatistikleri Test, modeli …

3
Dengesiz veriler için sınıflandırma / değerlendirme ölçütleri
Dolandırıcılık tespiti (kredi puanlama benzeri) sorunu ile ilgileniyorum. Dolayısıyla, hileli ve hileli olmayan gözlemler arasında oldukça dengesiz bir ilişki vardır. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html , farklı sınıflandırma ölçümlerine harika bir genel bakış sağlar. Precision and Recallya da kappaher ikisi de iyi bir seçim gibi görünüyor: Bu tür sınıflandırıcıların sonuçlarını haklı göstermenin bir yolu, …



1
ROC eğrileri birbirini geçtiğinde iki modelin karşılaştırılması
İki veya daha fazla sınıflandırma modelini karşılaştırmak için kullanılan yaygın bir önlem, ROC eğrisi (AUC) altındaki alanı, performanslarını dolaylı olarak değerlendirmenin bir yolu olarak kullanmaktır. Bu durumda, daha büyük bir AUC'ye sahip bir model genellikle daha küçük bir AUC'ye sahip bir modelden daha iyi performans olarak yorumlanır. Ancak, Vihinen, 2012'ye …


3
Muhafaza yöntemi (verileri eğitim ve teste bölme) neden klasik istatistiklerde kullanılmıyor?
Sınıfta veri madenciliğine maruz kalmamda, tutma yöntemi model performansını değerlendirmenin bir yolu olarak tanıtıldı. Ancak, birinci sınıfımı doğrusal modeller üzerine aldığımda, bu model onaylama veya değerlendirme aracı olarak tanıtılmadı. Çevrimiçi araştırmam da herhangi bir kavşak göstermiyor. Muhafaza yöntemi klasik istatistiklerde neden kullanılmıyor?

1
Fisher Kesin Testi ve Hipergeometrik Dağılım
Balıkçı testini daha iyi anlamak istedim, bu yüzden f ve m erkek ve kadına karşılık gelen ve n ve y "soda tüketimine" karşılık gelen aşağıdaki oyuncak örneğini tasarladım: > soda_gender f m n 0 5 y 5 0 Açıkçası, bu büyük bir basitleştirme, ama bağlamın önüne geçmesini istemedim. Burada sadece …



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.