McFadden'ın Sözde-R2 Yorumlanması


29

McFadden'in takma adı 0.192 olan ve R1 karesinin ödemeli denilen bağımlı değişkenli (1 = ödeme ve 0 = ödeme yok) olan ikili bir lojistik regresyon modeline sahibim. Bu sözde R-kare'nin yorumlanması nedir?

Yuvalanmış modeller için göreceli bir karşılaştırma mı (örn. 6 değişkenli bir modelde, McFadden'ın 0.192 karesi olan R-karesi var, 5 değişkenli modelde (yukarıda belirtilen 6 değişkenli modelden bir değişkeni çıkardıktan sonra), bu 5 değişkenli modelde bir sahte R var. 0.131 değerine sahip. Modeldeki 6. değişkeni saklamak ister miyiz?) veya mutlak bir miktar mı (örneğin, McFadden'in sözde R-karesi olan bir McFadden'in R-karesi olan belirli bir model, bir McFadden'ın sözde olan mevcut modelinden daha iyidir.) 0.180'lerin R-karesi (iç içe olmayan modeller için bile) Bunlar McFadden'in sözde R-karesine bakmanın sadece olası yolları, ancak bu iki görüntünün yolunun kapalı olduğunu ve bu nedenle bu soruyu burada sormamın sebebi olduğunu düşünüyorum.

Bu konuda çok araştırma yaptım ve henüz bir McFadden'ın sözde R-karesi olan 0.192'yi yorumlayabilmek için aradığım cevabı bulamadım. Herhangi bir fikir ve / veya referanslar büyük beğeni topluyor! Bu soruyu cevaplamadan önce, bunun bir lojistik regresyon modelini tanımlamak için en iyi önlem olmadığını biliyorum, ama ne olursa olsun bu istatistiği daha iyi anlamak istiyorum!

Yanıtlar:


34

Bu yüzden McFadden'in sözde R2'si hakkında öğrendiklerimi doğru bir cevap olarak özetleyeceğimi düşündüm.

McFadden'in sözde R2'si için görebileceğim seminal referans: McFadden, D. (1974) “Nitel seçim davranışının koşullu logit analizi.” Sf. 105-142, P. Zarembka (ed.), Ekonometride Sınırlar. Akademik Basın. http://eml.berkeley.edu/~mcfadden/travel.html Şekil 5.5, OLS'den rho-square ve geleneksel R2 ölçüleri arasındaki ilişkiyi göstermektedir. Benim yorumum, rho-square'in (McFadden's sözde R2) daha büyük değerlerinin daha küçük olanlardan daha iyi olduğu yönünde.

McFadden'in sahte R2'sinin 0.2-0.4 arasında yorumlanması, katkıda bulunan bir kitap bölümünden geliyor: Bahvioural Travel Modeling. David Hensher ve Peter Stopher tarafından düzenlenmiştir. 1979. McFadden, Ch. 15 "Bireylerde Seyahat Davranışının Analizinde Nicel Yöntemler: Bazı Son Gelişmeler". Model değerlendirmesinin tartışılması (multinomyal logit modelleri bağlamında), kargaşalı kareyi (McFadden'ın sahte R2'si) tanıttığı sayfa 306'da başlar. McFadden, "R2 endeksi, OLS'de deneyimli planlamacıya daha aşina bir kavram olmasına rağmen, ML tahmini için, rho-kare ölçüsü kadar iyi davranılmamıştı. R2 indeksinkinden oldukça düşük olması ... Örneğin, eşkenar dörtgen kareler için 0,2 ila 0,4 değerleri EXCELLENT fit'i temsil eder.

Yani temel olarak, rho-kare R2 gibi yorumlanabilir, ancak büyük olmasını beklemeyin. Ve 0.2-0.4 arasındaki değerler (McFadden'in sözleriyle) mükemmel model uyumu olduğunu gösterir.


İyi sarma, Chris. Çabalarınız için teşekkürler!
Matt Reichenbach

13

McFadden'in R karesi 1-l_mod / l_null olarak tanımlanmıştır, burada l_mod takılı model için log olabilirlik değeridir ve l_null boş model için log olabilirliktir, sadece öngörücü olarak bir kesişim içerir (böylece her bireyin aynı olasılığı tahmin etmesi beklenir) başarı').

Lojistik regresyon modeli için log olabilirlik değeri her zaman negatiftir (çünkü her bir gözlemdeki olabilirlik katkısı 0 ile 1 arasında bir olasılıktır). Eğer modeliniz sonucu null modelden daha iyi tahmin etmiyorsa, l_mod l_null'dan çok daha büyük olmayacaktır ve bu nedenle l_mod / l_null yaklaşık 1'dir ve McFadden'in R karesi 0'a yakındır (modelinizin öngörü değeri yoktur) .

Tersine, modeliniz gerçekten iyi olsaydı, sonuçta başarılı olan (1) sonuçta ortaya çıkan bireyler, 1'e yakın bir olasılık kazanacaktı ve sonuçta (0) sonuç atamayanlar için bunun tersi olur. Bu durumda olasılık hesaplamasını yaparsanız, modeliniz için her bir bireyin olasılık katkısı sıfıra yakın olacak, l_mod sıfıra yakın olacak ve McFadden'in R karesi 1'e yakın olacak ve bu da çok iyi tahminde bulunabileceğini göstermektedir.

Neyin iyi bir değer olarak kabul edilebileceği konusundaki kişisel görüşüm, istatistiklerdeki benzer soruların (ör. Büyük bir korelasyonu neyin oluşturduğu gibi) olduğu gibi, bunun asla kesin bir cevap olamayacağıdır. Geçen yıl McFadden'in R karesi hakkında lojistik regresyonda bir blog yazısı yazdım .


5

Bu konuda biraz daha yoğun araştırmalar yaptım ve McFadden'in sözde R-karesinin (olasılık-oran endeksi olarak da bilinir) yorumlarının net olmadığını; ancak, 0 ile 1 arasında değişebilir, ancak hesaplanması sonucunda 1'e asla ulaşamaz veya bu değeri aşmaz.

Oldukça faydalı bulduğum bir kural, McFadden’in sahte R-karesinin 0,2’den 0,4’e kadar değiştiğini gösteriyor. Bu nedenle, McFadden’in 0.192’lik sahte R-karesi ile yukarıda belirtilen model, muhtemelen en azından bu metrik tarafından korkunç bir model değil, fakat özellikle de güçlü değil.

McFadden'in sahte R-karesinin en iyi aynı modelin (yani iç içe modeller) farklı özelliklerini karşılaştırmak için kullanıldığını not etmek de önemlidir. Yukarıda bahsedilen örneğe referansla, 6 değişken modeli (McFadden'in sahte R-karesi = 0.192), log-olabilirlik oranı testi kullanılarak resmi olarak test ettiğim 5 değişken modelden (McFadden'in sahte R-karesi = 0.131) daha iyi uyuyor İki model arasında anlamlı bir fark olduğunu ( p <0.001) gösterir ve bu nedenle verilen veri seti için 6 değişken modeli tercih edilir.


1
McFadden’in R2’nin 0.2 - 0.4’e göre “çok iyi” bir uyum olduğunu iddia ettiğini belirten referans nedir?
Chris

BTW ... burada sahte R2 ölçüsünü tanımladığı orijinal McFadden makalesine bir referans ve link. McFadden, D. (1974) “Nitel seçim davranışının koşullu logit analizi.” Sf. 105-142, P. Zarembka (ed.), Ekonometride Sınırlar. Akademik Basın. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris

1
Referanslar için teşekkürler. Berkeley web sitesinde McFadden'ın birçok çalışmasının bulunabileceği anlaşılıyor. Aşağıda, yukarıda bahsettiğiniz kitabın tamamı için bir link bulunmaktadır: elsa.berkeley.edu/users/mcfadden/travel.html Tüm bölümler PDF olarak görünmektedir. Rho-square (McFadden'in sözde R2'si) 5. Bölümde belirtilmiştir. Sayfa 122 ve üstü (denklem 5.33 ve hemen ardından gelen grafik). 0.2-0.4 = "VG model uyumu" dan bahsetmiyorum. Bu "temel kural" nın seminal görünüşünü aramaya devam edeceğim. Yardımın için teşekkürler!
Chris

1
Sorun değil! Merakını ve titizliğini takdir ediyorum. Kesin cümle, lifesciencesite.com/lsj/life1002/… adresinde bulunabilir ; burada yazarlar, "Tüm modele uydurma için McFadden’in sözde karesi (ρ2) kullanılarak bir uyumluluğun kullanıldığını belirtirler." Modelin çok iyi uyduğunu göstermek için 0.2 ile 0.4 arasındaki değerler alınmalıdır (Louviere vd., 2000). ”
Matt Reichenbach

4
Kurumumun Louviere ve arkadaşlarının (2000) elektronik bir kopyası vardır. "Belirtilen Seçim Yöntemleri: Analiz ve Uygulamalar". Cambridge Üniversitesi Basını. Bu, Lee'nin (Yaşam Bilimleri Dergisi) rho-kare için {0.2-0.4} = "VG fit" ifadesinde gösterdiği referanstır. Louviere'in 55. sayfasında (denklem 3.32 ile ilişkili) şu alıntıyı görüyoruz: "0.2-0.4 arasındaki rho-kare değerlerinin, son derece iyi model uyuşumlarının göstergesi olduğu kabul edilir. Doğrusal bir işlev için 0,7 ila 0,9 ".
Chris

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.