R'de ordinal regresyonu öğrenmek?


10

Bir proje üzerinde çalışıyorum ve beni hızlandırmak için kaynaklara ihtiyacım var.

Veri seti 30 ya da daha fazla değişken üzerinde 35000 civarında gözlemdir. Değişkenlerin yaklaşık yarısı kategoriktir ve bazıları çok sayıda farklı olası değere sahiptir, yani kategorik değişkenleri kukla değişkenlere ayırırsanız 30'dan fazla değişkene sahip olursunuz. Ama yine de muhtemelen birkaç yüz max. (N> s).

Tahmin etmek istediğimiz yanıt, 5 seviye (1,2,3,4,5) ile sıralıdır. Tahminler, her birinin yaklaşık yarısının sürekli ve kategorik bir karışımıdır. Şimdiye kadar düşüncelerim / planlarım: 1. Yanıtı sürekli olarak ele alın ve vanilya doğrusal regresyonunu çalıştırın. 2. Nominal ve ordinal lojistik ve probit regresyonunu çalıştırın 3. MARS ve / veya lineer olmayan regresyonun başka bir çeşidini kullanın

Doğrusal regresyona aşinayım. MARS, Hastie ve Tibshirani tarafından yeterince iyi tanımlanmıştır. Ama sıralı logit / probit söz konusu olduğunda, özellikle çok sayıda değişken ve büyük bir veri seti ile kaybım var.

R paket glmnetcr şimdiye kadar benim en iyi bahis gibi görünüyor, ama belgeler neredeyse olmam gereken yere ulaşmak için yeterli.

Daha fazla bilgi edinmek için nereye gidebilirim?


R etiketini de eklemenizi öneririm.
Christopher Louden

1
Bunun istatistiksel model hakkında bir soru olduğu göz önüne alındığında, CrossValidated web sitesine gitmek isteyebilirsiniz , ancak soruları çapraz olarak göndermenin korkunç bir uygulama olduğunu unutmayın: Ya da metodolojik sorunları vurgulamak için formüle etmek istersiniz. tüm soruyla yüzleşiyor veya göç ediyor.
StasK

Gerçekten nedenini açıklamadan, ISL , ayrımcı analizin (LDA, QDA gibi) lojistik regresyonun çoklu sınıf uzantılarından daha sık kullanıldığını not eder (s. 137). Cezalandırılmış LDA gibi paketler bu nedenle incelenmeye değer olabilir.
MattBagg

Yanıtlar:



6

Sıralı kategorik tepki ile regresyon için oldukça güçlü bir R paketi, CRAN'da VGAM'dir. Vinyet, ordinal regresyonun bazı örneklerini içeriyor, ancak kuşkusuz bunu böyle büyük bir veri kümesinde hiç denemedim, bu yüzden ne kadar sürebileceğini tahmin edemiyorum. Yazarın sayfasında VGAM hakkında ek materyaller bulabilirsiniz . Alternatif olarak, Laura Thompson'ın Agresti'nin "Kategorik Veri Analizi" adlı kitabına eşlik edebilirsin. Thompson'ın kitabının 7. Bölümünde, sıralı yanıtlarda sıklıkla kullanılan kümülatif logit modelleri açıklanmaktadır.

Bu yardımcı olur umarım!


3

Ordinal regresyona tamamen aşina değilseniz, önce konuyla ilgili Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) bölümünü okumaya çalışacağım - R için yazılmamış olsa da, kitap genel mantığı ve "yapılacaklar" ve "yoklar" u iletmede çok iyidir.

Soru olarak: Yanıtlarınız tam olarak nelerdir? Eğer "iyi - kötü" gibi bir çeşit ölçeklerse, doğrusal bir regresyon kullanmak iyi olur (pazar araştırması her zaman yapar ...), ancak eşyalar daha ayrıksa, sıralı bir regresyon daha iyi olabilir . Yapısal eşitlik modellemesi hakkındaki bazı kitapların doğrusal regresyonun iyi ölçekler için probit - bit'ten daha üstün olduğunu belirttiğini hatırlıyorum, şu anda kitabı hatırlayamıyorum, üzgünüm!

En ciddi sorun, kukla değişkenlerin sayısı olabilir - birkaç yüz kukla değişken, analizi yavaş, yorumlaması zor ve muhtemelen kararsız hale getirecektir - her kukla / kukla kombinasyonu için yeterli vaka var mı?


3

Sosyal bilimler perspektifinden yazılmış standart bir referans, J Scott Long'un Sınırlı Bağımlı Değişkenler kitabıdır. Tabachnik'in başka bir cevapta önerdiğinden çok daha derine iniyor : Tabachnik, en iyi "neden" hakkında çok az açıklamaya veya hiçbir açıklamaya sahip olmayan bir yemek kitabı ve Long'un içinde bulabileceğiniz daha ayrıntılı bir şekilde anlamanızdan fayda sağlayacak gibi görünüyor. kitap. Sıradan regresyon çoğu giriş ekonometri dersinde (Wooldridge'in Kesit ve Panel Verileri yüksek lisans düzeyinde bir kitaptır) yanı sıra niceliksel sosyal bilim derslerinde (sosyoloji, psikoloji) ele alınmalıdır , ancak ikincisinin geri döneceğini hayal ediyorum Long'un kitabına.

Değişken sayınızın örneklem büyüklüğünden daha düşük olduğu düşünüldüğünde, bakmanız gereken R paketi muhtemelen ordinaldaha doğrudur glmnetcr. Başka bir yanıt , bu işlevselliği daha genel bir MASSpakette bulabileceğinizi belirtti .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.