Bir sağlık sorunu tahmin etmek istiyorum. Sipariş edilen 3 sonuç kategorim var: 'normal', 'hafif' ve 'şiddetli'. Bunu iki tahmin değişkeninden, bir test sonucu (sürekli, aralıklı bir değişken) ve bu problemle birlikte aile öyküsünden (evet veya hayır) tahmin etmek istiyorum. Örneğimde olasılıklar% 55 (normal),% 35 (hafif) ve% 10 (şiddetli). Bu anlamda, her zaman sadece 'normal'i tahmin edebilirim ve zamanın% 55'ini haklı çıkarabilirim, ancak bu bana bireysel hastalar hakkında hiçbir bilgi vermeyecekti. Aşağıdaki modele uyuyorum:
Hiçbir etkileşim olmadığını ve modelle ilgili her şeyin yolunda olduğunu varsayın. Uyum, c,% 60.5'tir, ki bu modelin sağladığı maksimum tahmin doğruluğu olduğunu anlıyorum.
Aşağıdaki verileri içeren iki yeni hasta ile karşılaşıyorum: 1. test = 3.26, aile = 0; 2. test = 2.85, aile = 1. Prognozlarını tahmin etmek istiyorum. Formülü kullanarak: (ve sonra kümülatif olasılıklar arasındaki farkları alarak), modele bağlı olarak yanıt kategorileri üzerinde olasılık dağılımını hesaplayabilirim. R kodu (nb, yuvarlama sorunları nedeniyle, çıktı mükemmel eşleşmiyor):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
Yani: 1. 0 =% 55.1, 1 =% 35.8, 2 =% 9.1; ve 2. 0 =% 35.6, 1 =% 46.2, 2 =% 18.2. Sorum şu: Olasılık dağılımından tahmini bir cevap kategorisine nasıl geçebilirim?
Sonucun bilindiği örnek verileri kullanarak birkaç olasılık denedim. Sadece max (olasılıklar) seçersem, doğruluk% 57'dir, null üzerinde hafif bir iyileşme, ancak uyumun altında. Dahası, örnekte, bu yaklaşım asla 'şiddetli' seçmez, ki bu gerçekten bilmek istiyorum. Boş ve model olasılıkları oranlara dönüştürüp sonra maksimum (oran oranını) seçerek Bayesci bir yaklaşım denedim. Bu bazen 'şiddetli' seçer, ancak% 49.5 daha kötü doğruluk sağlar. Ayrıca olasılıklar ve yuvarlama ile ağırlıklandırılmış kategorilerin bir toplamını denedim. Bu, bir daha asla 'şiddetli' seçmez ve% 51.5'lik düşük bir doğruluğa sahiptir.
Yukarıdaki bilgileri alan ve optimal doğruluk sağlayan denklem nedir (% 60.5)?