Lojistik regresyonda model seçimi ve model performansı hakkında bir sorum var. Üç farklı hipoteze dayanan üç modelim var. İlk iki modelin (z ve x adını verelim) her modelde sadece bir açıklayıcı değişken vardır ve üçüncüsü (w adını verelim) daha karmaşıktır. W modeli için değişken seçimi için AIC ve sonra bağımlı değişkeni en iyi açıklayan üç model hangisini karşılaştırmak için AIC kullanıyorum. W modelinin en düşük AIC'ye sahip olduğunu buldum ve şimdi modelin tahmin gücü hakkında fikir edinmek için bu modelde bazı performans istatistikleri yapmak istiyorum. Tek bildiğim bu modelin diğer ikisinden daha iyi olduğu, ancak ne kadar iyi olduğu değil.
Modeli öğrenmek için tüm verileri kullandığımdan (üç modelin tümünü karşılaştırabilmek için) model performansıyla nasıl devam edebilirim? Topladığım şeyden, AIC kullanarak model seçiminden aldığım son model üzerinde sadece bir k-kat çapraz doğrulaması yapamam, ancak tüm açıklayıcı değişkenler dahil olmak üzere baştan başlamam gerekiyor, bu doğru mu? Ne kadar iyi performans gösterdiğini bilmek istediğim AIC ile seçtiğim son model olduğunu düşünürüm, ancak modelin önyargılı olabilmesi için tüm veriler üzerinde eğitim aldığımı fark ettim. Bu yüzden, tüm kıvrımlardaki tüm açıklayıcı değişkenlerle baştan başlamam gerekirse, bazı kıvrımlar için farklı son modeller elde edeceğim, sadece en iyi tahmin gücünü veren kattan modeli seçebilir ve bunu karşılaştırmak için tam veri setine uygulayabilir miyim AIC diğer iki modelle (z ve x)? Veya nasıl çalışır?
Sorumun ikinci kısmı aşırı parametrelendirme hakkında temel bir soru. Ben 156 veri noktaları var, 52 1 olduğunu geri kalanı 0's. Ben w modeli için seçim 14 açıklayıcı değişkenleri var, ben aşırı parametreleştirme nedeniyle hepsini dahil edemezsiniz, sadece en az gözlem ile bağımlı değişken grubunun sadece% 10 kullanmanız gerektiğini okudum sadece benim için 5 olurdu. Ekolojide bir soruyu cevaplamaya çalışıyorum, bence bağımlılığı en iyi şekilde açıklayan ekolojiyi en iyi açıklayan başlangıç değişkenlerini seçmek iyi mi? Veya başlangıç açıklayıcı değişkenlerini nasıl seçerim? Bazı değişkenleri tamamen dışlama hakkı yoktur.
Bu yüzden gerçekten üç sorum var:
- Tam veri seti üzerinde eğitilmiş bir modelde performansı çapraz doğrulamayla test etmek uygun olabilir mi?
- Değilse, çapraz doğrulama yaparken son modeli nasıl seçerim?
- Aşırı parametreleştirmek istediğim için başlangıç değişkenlerini nasıl seçerim?
Dağınık sorularım ve cehaletim için özür dilerim. Benzer soruların sorulduğunu biliyorum ama yine de biraz karışık hissediyorum. Düşüncelerinizi ve önerilerinizi takdir edin.