Sonucu kategorik yerine sıralı olarak görürsem ne kazanırım?


12

Sıralı ve kategorik değişkenlerin tahmininde farklı yöntemler vardır.

Anlamadığım şey, bu ayrımın önemi. Siparişi düşürürsem neyin yanlış gittiğini netleştirebilecek basit bir örnek var mı? Hangi koşullar altında önemli değil? Örneğin, bağımsız değişkenlerin hepsi kategorik / sıralıysa, bir fark olur mu?

Bu ilgili soru bağımsız değişkenlerin türüne odaklanmaktadır. Burada sonuç değişkenlerini soruyorum.

Düzenleme: Sipariş yapısını kullanmanın model parametrelerinin sayısını azalttığı noktasını görüyorum, ancak yine de gerçekten ikna olmadım.

İşte bir örnek ( sıralı lojistik regresyonunun görebildiğim kadarıyla, çok uluslu lojistik regresyondan daha iyi performans göstermediği sıralı lojistik regresyonuna girişten alınmıştır :

library(nnet)
library(MASS)
gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric"))

ordered_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- polr(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

multinomial_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- multinom(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

n <- 100

polr_res <- replicate(n, ordered_result())
multinom_res <- replicate(n, multinomial_result())
boxplot(data.frame(polr=polr_res, multinom=multinom_res))

her iki algoritmanın doğru tahmin sayısının (40 üzerinden) dağılımını gösterir.

polr_vs_multinom

Edit2: Puanlama yöntemi olarak kullandığımda aşağıdakiler

return(sum(abs(as.numeric(pred)-as.numeric(test_data$apply)))

ve "çok yanlış" tahminleri cezalandırır, polr hala kötü görünür, yani yukarıdaki çizim çok fazla değişmez.


1
Örneğiniz, genel olarak tahmin kümelerini karşılaştırmak için iyi bir temel olmayan kesintili uygunsuz bir puanlama kuralı kullanır (keyfi ve güç ve hassasiyetten yoksundur).
Frank Harrell

Çıktı değişkenini bir olmak zorunda kalacağınızı varsaydım ordered factor, bu da sonuçları iyileştirir: gradapply$apply <-factor(gradapply$apply, levels= c('unlikely', 'somewhat likely', 'very likely') , ordered = TRUE)ama hiçbir fark yaratmaz. Doğruluğa bakarsanız, ikisi birbirine oldukça benzer. Doğruluk, yalnızca güvenmek için iyi bir metrik değildir.
Zhubarb

Yanıtlar:


10

Uygun olduğunda Y'yi sıralı olarak işlemekten büyük güç ve hassasiyet kazanımları vardır. Bu, modeldeki çok daha düşük parametre sayısından kaynaklanır (burada k faktörü, Y'nin kategorilerinin sayısından bir azdır). Birkaç sıralı model var. En yaygın olarak kullanılan orantılı olasılıklar ve devam oranı sıralı lojistik modelleridir.


1
+1 Parametrelerin azaltılması sıralı modellerin takılmasının çok daha kolay olabileceği anlamına gelir.
JMS

4

Değişkenlerin sıralı yapısını göz ardı ederseniz, uygun yöntemler hala doğru analiz sağlayacaktır, ancak sıralı veriler için yöntem kullanmanın avantajı, önemli değişkenlerin sırası ve büyüklüğü hakkında daha fazla bilgi sağlamasıdır.


Siparişle ilgili hangi bilgilerin sağlandığını göremiyorum.
Karsten W.

1
Bir değişkenin üç seviyesi vardır, düşük, med, yüksek. Bir ordinal analiz, düşük ve med arasında bir fark olmadığını, ancak yüksek için önemini gösterebilir. Parametre tahmini, 'değişken X yüksek olduğunda, etkinin düşük veya orta seviyeden 2,5 kat daha büyük olduğu tahmin edilir - dolayısıyla yön ve büyüklük gibi bilgiler sağlayabilir.
Murray

2

Verileri modellemek istiyorsanız ve bağımlı kategorik değişkenin herhangi bir sıralaması (nominal) yoksa, çok terimli bir logit modeli kullanmanız gerekir. Bağımlı değişkenin bir sıralaması (sıralı) varsa, kümülatif bir logit modeli (orantılı olasılık modeli) kullanabilirsiniz.

Şahsen benim için, özellikle sonuçları istatistiksel olarak bilgili olmayan birine rapor etmek istediğinizde, sonuçları çok oranlı bir modele kıyasla orantılı bir oran modeli için daha kolay yorumluyorum.

Bunlar kullanabileceğiniz tek model değil, aynı zamanda çok tipik.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.