Temel Veriler : Değerlendirmelerle işaretlenmiş ~ 1.000 kişi var: '1,' [iyi] '2,' [orta] veya '3' [kötü] - bunlar gelecekte insanlar için tahmin etmeye çalıştığım değerler . Buna ek olarak, bazı demografik bilgilerim var: cinsiyet (kategorik: E / K), yaş (sayısal: 17-80) ve ırk (kategorik: siyah / beyaz / latino).
Başlıca dört sorum var:
Başlangıçta yukarıda açıklanan veri kümesini çoklu regresyon analizi olarak çalıştırmaya çalışıyordum. Ancak yakın zamanda öğrendim ki bağımlım sürekli bir değişken değil düzenli bir faktör olduğundan, böyle bir şey için sıralı lojistik regresyon kullanmalıyım. Başlangıçta şöyle bir şey kullanıyordum
mod <- lm(assessment ~ age + gender + race, data = dataset)
, kimse beni doğru yönde gösterebilir mi?Oradan, kendimi rahat hissettiğim katsayıları aldığımı varsayarsak, x1, x2 vb. İçin yalnızca sayısal değerleri nasıl ekleyeceğimi anlıyorum - ama örneğin birden fazla yanıtı olan yarışla nasıl başa çıkacağımı anlıyorum: siyah / beyaz / latino? Bu yüzden bana beyaz katsayının 0.289 olduğunu ve tahmin etmeye çalıştığım birinin beyaz olduğunu söylerse, değer sayısal olmadığından bunu nasıl takarım?
Ayrıca eksik olan rastgele değerlerim var - bazıları ırk, bazıları cinsiyet vb. Bunun bir şey eğrilmediğinden emin olmak için ek bir şey yapmam gerekiyor mu? (Veri kümem R-Studio'ya yüklendiğinde, eksik veriler yüklendiğinde
NA
, R gibi bir şey söylediğinde fark ettim(162 observations deleted due to missingness)
- ancak boşluk olarak yüklenirse hiçbir şey yapmaz.)Tüm bunların işe yaradığını ve tahmin etmek istediğim cinsiyet, yaş ve ırkla ilgili yeni verilerim olduğunu varsayarsak, R'de yeni katsayıları olan formülüm ne olursa olsun bunları çalıştırmak için daha kolay bir yol var mı, manuel olarak yapmak yerine? (Bu soru burada uygun değilse, R forumuna geri götürebilirim.)