Bir proje üzerinde çalışıyorum ve beni hızlandırmak için kaynaklara ihtiyacım var.
Veri seti 30 ya da daha fazla değişken üzerinde 35000 civarında gözlemdir. Değişkenlerin yaklaşık yarısı kategoriktir ve bazıları çok sayıda farklı olası değere sahiptir, yani kategorik değişkenleri kukla değişkenlere ayırırsanız 30'dan fazla değişkene sahip olursunuz. Ama yine de muhtemelen birkaç yüz max. (N> s).
Tahmin etmek istediğimiz yanıt, 5 seviye (1,2,3,4,5) ile sıralıdır. Tahminler, her birinin yaklaşık yarısının sürekli ve kategorik bir karışımıdır. Şimdiye kadar düşüncelerim / planlarım: 1. Yanıtı sürekli olarak ele alın ve vanilya doğrusal regresyonunu çalıştırın. 2. Nominal ve ordinal lojistik ve probit regresyonunu çalıştırın 3. MARS ve / veya lineer olmayan regresyonun başka bir çeşidini kullanın
Doğrusal regresyona aşinayım. MARS, Hastie ve Tibshirani tarafından yeterince iyi tanımlanmıştır. Ama sıralı logit / probit söz konusu olduğunda, özellikle çok sayıda değişken ve büyük bir veri seti ile kaybım var.
R paket glmnetcr şimdiye kadar benim en iyi bahis gibi görünüyor, ama belgeler neredeyse olmam gereken yere ulaşmak için yeterli.
Daha fazla bilgi edinmek için nereye gidebilirim?