Benim durumum:
- küçük örneklem büyüklüğü: 116
- ikili sonuç değişkeni
- Açıklayıcı değişkenlerin uzun listesi: 44
- açıklayıcı değişkenler başımın tepesinden gelmedi; onların seçimi literatüre dayanıyordu.
- örnekteki çoğu durum ve değişkenlerin çoğu eksik değerlere sahiptir.
Seçilen özellik seçimine yaklaşım: LASSO
R'nin glmnet paketi, görünüşe göre veri kümemdeki eksik değerlerin varlığı nedeniyle glmnet rutinini çalıştırmama izin vermiyor. Eksik verileri işlemek için çeşitli yöntemler var gibi görünüyor, bu yüzden bilmek istiyorum:
- LASSO kullanabileceğim impütasyon yöntemi açısından herhangi bir kısıtlama getiriyor mu?
- Imputation yöntemi için en iyi bahis hangisidir? İdeal olarak, SPSS (tercihen) veya R üzerinde çalışabileceğim bir yönteme ihtiyacım var.
GÜNCELLEME1: Aşağıdaki cevaplardan, impütasyon yöntemlerini düşünmeden önce daha temel konularla uğraştığım anlaşıldı. Burada bununla ilgili yeni sorular eklemek istiyorum. 'Geçerli olmayan' değerler ve grup kement kullanımı ile başa çıkmak için kodlamanın sabit değer olduğunu ve yeni bir değişkenin oluşturulmasını öneren cevapta:
- Eğer LASSO grubunu kullanırsam, sürekli öngörücülere önerilen yaklaşımı kategorik öngörücülere de kullanabileceğimi söyleyebilir misiniz? Eğer öyleyse, yeni bir kategori oluşturmaya eşdeğer olacağını varsayıyorum - bunun önyargı getirebileceğinden eminim.
- R'nin glmnet paketinin LASSO grubunu destekleyip desteklemediğini bilen var mı? Değilse, bunu lojistik regresyon ile birlikte yapan başka birini önerebilir mi? LASSO grubundan bahseden birkaç seçenek CRAN deposunda bulunabilir, benim durumum için en uygun olan herhangi bir öneriniz var mı? Belki SGL?
Bu, önceki bir sorumun takibi. ( Lojistik regresyon analizi yapmak için orijinal uzun listemden değişkenlerin bir alt kümesini nasıl seçerim? ).
OBS: Ben istatistikçi değilim.