Sipariş edilen lojistik regresyonun daha iyi açıklanması ve anlaşılması için kategorik veri analizi (bkz. Alan Agresti's Kategorik Veri Analizi, 2002) ile ilgili kitaplara göz atmanızı öneririm . İstediğiniz tüm sorular temelde bu tür kitaplarda birkaç bölüm tarafından cevaplandırılmıştır. Sadece R
ilgili örneklerle ilgileniyorsanız, Julian Faraway (CRC Press, 2008) tarafından R'deki Doğrusal Modelleri Genişletmek harika bir referanstır.
Sorularınıza cevap vermeden önce, sipariş edilen lojistik regresyon , kategorilerin sipariş edildiği multinomyal logit modellerinin bir halidir . Elimizdeki varsayalım kategorileri sipariş ve birey için bu i sıra tepki ile, Y i ,
p ı j = P ( Y i = j ) için j = 1 , . . . , J . Sıralı bir yanıtla, kümülatif olasılıklarla çalışmak çoğu zaman daha kolaydır, γ i j = PJiYipij=P(Yi=j)j=1,...,J . Kümülatif olasılıklar, bitişik kategorileri birleştirmede artmakta ve değişmemektedir. Ayrıca, γ i J = 1 , bu yüzden sadece model J - 1 olasılıklarına ihtiyacımız var.γij=P(Yi≤j)γiJ=1J–1
Şimdi bağlamak istediğiniz ler için covariates x . Senin durumunda, 3 sıralı düzeyi vardır: , , . Onlara sırasız değil sıralı olarak davranmak daha anlamlı olur. Kalan değişkenler ortak değişkenlerinizdir. Düşündüğünüz model , orantılı olasılık modelidir ve matematiksel olarak şuna eşittir:γijxSat
low
medium
high
burada γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
Buna denir çünkü için x 1 ve x 2'yi karşılaştıran göreceli oranlar :Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
Dikkat, yukarıdaki ifade bağlı değildir . Tabii ki, orantılı olasılık varsayımının belirli bir veri seti için kontrol edilmesi gerekir.j
Şimdi bazı (1, 2, 4) soruları cevaplayacağım.
Modelin iyi oturduğunu nasıl anlayabilirim? özeti (house.plr), 3495.149'un Artık Sapma 3479.149'u ve AIC'yi (Akaike Information Criterion?) gösterir. İyi mi? Bunların yalnızca göreceli önlemler olarak yararlı olması durumunda (yani başka bir modelle karşılaştırmak için), iyi bir kesin ölçü nedir? Artık sapma yaklaşık olarak ki-kare olarak dağılmış mı? Orijinal verilerde "doğru tahmin edilen%" ifadesi veya çapraz doğrulama kullanılabilir mi? Bunu yapmanın en kolay yolu nedir?
Uygun bir model polr
özeldir glm
, bu yüzden glm
burada geleneksel bir tutuma yönelik tüm varsayımlar geçerlidir . Parametreleri düzgün bir şekilde değerlendirirseniz, dağılımı hesaplayabilirsiniz. Özellikle, test etmek modelin iyi olup olmadığını etmek için , aşağıdaki boşluğu test eden bir uygunluk testi yapmak isteyebilirsiniz (bunun ince olduğunu unutmayın, çoğunlukla boşluğu reddetmek istersiniz, ancak burada istemezsiniz). iyi bir uyum için reddetmek):
Ho: current model is good enough
Bunun için ki-kare testini kullanırsınız. P değeri şu şekilde elde edilir:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Çoğu zaman 0,05'ten büyük bir p değeri elde etmeyi umuyorsunuz, böylece modelin iyi bir şekilde oturduğu sonucuna varmazsınız (burada felsefi doğruluk yok sayılır).
AIC, çok sayıda parametreye sahip olmak istemediğiniz sırada, aynı zamanda iyi bir uyum için yüksek olmalıdır. stepAIC
Bunu kontrol etmek için iyi bir yoldur.
Evet, tahminlerin geçerli olup olmadığını görmek için kesinlikle çapraz doğrulama kullanabilirsiniz. predict
İşlev gör (seçenek:type = "probs"
) içinde ?polr
. Tek yapmanız gereken eş değişkenler.
Pr hangi bilgileri içerir? Profildeki yardım sayfası geneldir ve polr için yol gösterici değildir.
@Chl ve diğerleri tarafından işaret edildiği gibi, CI'lerin pr
elde edilmesi için gereken tüm bilgileri ve bunun olabilirliği ile ilgili diğer bilgileri içerir polr fit
. Herşeyglm
, log olasılığı için yinelemeli ağırlıklı en küçük kareler kestirim yöntemine uygundur. Bu optimizasyonda, Varyans Kovaryansı Matrisi, CI, t-değeri vb. Hesaplamalarında ihtiyaç duyulacak birçok bilgi (lütfen referanslara bakınız) elde edersiniz. Bunların hepsini içerir.
Kişi her katsayı için t değerlerini nasıl yorumluyor? Bazı model> uyarlardan farklı olarak, burada P değeri yoktur.
Normal lineer modelin aksine (özel glm
) diğer glm
ler regresyon katsayıları için iyi bir t dağılımına sahip değildir. Bu nedenle elde edebileceğiniz tek şey, maksimum olasılık teorisini kullanarak parametre tahminleri ve asimptotik varyans kovaryansı matrisidir. Bu nedenle:
Variance(β^)=(XTWX)−1ϕ^
Tahmin, standart hataya bölünerek BDR ve WV'nin t-değeri dediği şeydir ( MASS
burada sözleşmeyi kabul ediyorum ). Normal lineer regresyondan t değerine eşdeğerdir, ancak t dağılımını izlemez. CLT kullanarak, normalde asimptotik olarak dağıtılır. Fakat bunu yaklaşık (sanırım) kullanmamayı tercih ediyorlar, dolayısıyla p-değerleri yok. (Umarım hatalı değilimdir ve öyleysem, BDR'nin bu forumda olmadığını umuyorum. Ayrıca, yanlış yaparsam birisinin beni düzelteceğini umuyorum.)
methods("profile")
size bir Rprofile
nesnesine ilişkin (bu durumda S3) yöntemlerini verecek, daha sonrapolr
göz atabileceğiniz özel bir yöntem olduğunu göreceksiniz.getAnywhere("profile.polr")
R isteminde yazarak on-line .