Sıralı bir lojistik regresyon modeli verilen bir yanıt kategorisini nasıl tahmin edersiniz?


13

Bir sağlık sorunu tahmin etmek istiyorum. Sipariş edilen 3 sonuç kategorim var: 'normal', 'hafif' ve 'şiddetli'. Bunu iki tahmin değişkeninden, bir test sonucu (sürekli, aralıklı bir değişken) ve bu problemle birlikte aile öyküsünden (evet veya hayır) tahmin etmek istiyorum. Örneğimde olasılıklar% 55 (normal),% 35 (hafif) ve% 10 (şiddetli). Bu anlamda, her zaman sadece 'normal'i tahmin edebilirim ve zamanın% 55'ini haklı çıkarabilirim, ancak bu bana bireysel hastalar hakkında hiçbir bilgi vermeyecekti. Aşağıdaki modele uyuyorum:

the cut point for (y1)^=2.18the cut point for (y2)^=4.27β^test=0.60β^family history=1.05

Hiçbir etkileşim olmadığını ve modelle ilgili her şeyin yolunda olduğunu varsayın. Uyum, c,% 60.5'tir, ki bu modelin sağladığı maksimum tahmin doğruluğu olduğunu anlıyorum.

Aşağıdaki verileri içeren iki yeni hasta ile karşılaşıyorum: 1. test = 3.26, aile = 0; 2. test = 2.85, aile = 1. Prognozlarını tahmin etmek istiyorum. Formülü kullanarak: (ve sonra kümülatif olasılıklar arasındaki farkları alarak), modele bağlı olarak yanıt kategorileri üzerinde olasılık dağılımını hesaplayabilirim. R kodu (nb, yuvarlama sorunları nedeniyle, çıktı mükemmel eşleşmiyor):

exp(XβcutPoint)(1+exp(XβcutPoint))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

Yani: 1. 0 =% 55.1, 1 =% 35.8, 2 =% 9.1; ve 2. 0 =% 35.6, 1 =% 46.2, 2 =% 18.2. Sorum şu: Olasılık dağılımından tahmini bir cevap kategorisine nasıl geçebilirim?

Sonucun bilindiği örnek verileri kullanarak birkaç olasılık denedim. Sadece max (olasılıklar) seçersem, doğruluk% 57'dir, null üzerinde hafif bir iyileşme, ancak uyumun altında. Dahası, örnekte, bu yaklaşım asla 'şiddetli' seçmez, ki bu gerçekten bilmek istiyorum. Boş ve model olasılıkları oranlara dönüştürüp sonra maksimum (oran oranını) seçerek Bayesci bir yaklaşım denedim. Bu bazen 'şiddetli' seçer, ancak% 49.5 daha kötü doğruluk sağlar. Ayrıca olasılıklar ve yuvarlama ile ağırlıklandırılmış kategorilerin bir toplamını denedim. Bu, bir daha asla 'şiddetli' seçmez ve% 51.5'lik düşük bir doğruluğa sahiptir.

Yukarıdaki bilgileri alan ve optimal doğruluk sağlayan denklem nedir (% 60.5)?

Yanıtlar:


11

Yrmslrmpredict.lrm


1
Yardımın için teşekkürler. Şiddetin düşük sıklığının sorunun bir parçası olduğundan şüphelendim. Bence ham Y, 0 1 2, yetersiz eşit aralık. Topladığım hedef yanlış. Ne yazık ki, düşünüyorum ben yeni bir hasta tamamen amacım anlamıyorum / düşecek hangi kategoriye bilmek istiyorum gerektiğini olun. Biraz daha içgörü sağlamak mümkün mü? (Aslında, şüpheli CV tam bir ders için forum değildir; alternatif olarak, ben Agresti en giriş ve Hosmer & Lemeshow en Lojistik bölümler okuyan var ama boşuna ben bu konuda bilgi verebilir nerede olduğunu biliyor musunuz?.)
gung - Monica'yı eski durumuna getirin

1
Amaç, gerekli karara veya konuya göre belirlenir. Nihai hedefi belirtirseniz yorum yapabilirim.
Frank Harrell

Netlik eksikliğim için üzgünüm, yukarıda da bir sorun var gibi görünüyor. Şu anda, yeni vakaların sonuçlarını tahmin edebilmek istiyorum. Uzun vadede, ord log reg'i daha iyi anlamak istiyorum, örneğin, tahmin edilen kategorileriniz yoksa artıklar nasıl elde edilir? Biraz daha iyi doğruluk elde etmek mümkün, ancak nasıl elde edeceğimi bilmiyorum. Eminim her şeyi açıklamak için zamanınız yok, ama ne Agresti ne de H&L tahminler veya artıklar vb. Hakkında bir şey söylemiyor ve google ile hiçbir şey bulamadım. Böylece CV'ye sordum. Sürekli yardımın için minnettarım.
gung - Monica'yı eski durumuna getirin

Yjj

-1

Uyum, maksimum puan değil ortalama puan kontrol edilerek tanımlanır.

Örnekleriniz için 1 için ortalama puanlar 0 * 55.1% + 1 * 35.8% + 2 * 9.1% = 0.54 ve 2 (benzer hesaplamalar yoluyla) 0.826'dır.

Uyum veya diğer ilişkilendirme istatistiklerini elde etmek için karşılaştırmanız gereken bu değerdir.

Ref - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm


3
YXβDxy

2
SAS PROC LOGISTY
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.