Hangi sahte-


55

SPSSLojistik bir regresyon modeli için çıktı aldım . Çıktı, model uyumu için iki önlem olduğunu bildirir Cox & Snellve Nagelkerke.

Genel bir kural olarak, bu R² ölçümlerinden hangisini model olarak rapor edersiniz?

Veya bu uygunluk indekslerinden hangisi, genellikle dergilerde bildirilenlerden biridir?


Bazı Geçmiş: Regresyon, bazı çevresel değişkenlerden (örneğin, diklik, bitki örtüsü, ...) bir kuşun (capercaillie) varlığını veya yokluğunu tahmin etmeye çalışır. Maalesef, kuş çok sık görünmedi (35 vuruş, 468 özledim), bu yüzden gerileme oldukça zayıf bir performans gösterdi. Cox & Snell, 09, Nagelkerke, 23'tür.

Konu çevre bilimleri veya ekolojidir.


3
Mükemmel UCLA istatistikleri sitenin çeşitli sahte 2'ler ve bunların birbirleriyle nasıl ilişkili olduğunu açıklayan mükemmel bir sayfaya sahiptir . R2
gung - Monica 'ya geri dön

İşte lojistik regresyon modellerinin doğruluğunu en üst düzeye çıkaran parametrik olmayan bir algoritmayı tartışan iki bağlantı. Bu yöntemi verilerinizle kullanırsanız, numuneye uygulandığında lojistik regresyon modelinizin sınıflandırma performansını artıracaktır. Örnek 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Örnek 2: epm.sagepub.com/content/54/1/73.abstract
user31256

Yanıtlar:


74

Normalde hiç bildirmezdim . Hosmer ve Lemeshow, Applied Logistic Regression (2nd Ed.) Ders kitaplarında nedenini açıklıyor:R2

Genel olarak, [ önlemleri], takılan modelden [temel model] olanlara kadar öngörülen değerlerin, hiçbir veri olmayan veya sadece modelin kestirdiği çeşitli sonuçların karşılaştırmasına dayanır ve sonuç olarak iyiliğini değerlendirmez. -Uygun. Gerçek bir uyum ölçüsünün, takılı modelden tahmin edilen değerlerle gözlemlenen değerlerin kesin olarak karşılaştırılmasına dayandığını düşünüyoruz.R2

[S. 164.]

Çeşitli sürümleri ile ilgili olarak , "sözde " stat, "rutin kullanım için tavsiye edilmediğini, açıklamak sezgisel olarak kolay olmadığı için" olmadığını, ancak bunu tanımlamak zorunda olduğunu düşündüklerini çünkü yazılım paketleri bildirir.R 2R2R2

Bu tartışmayı yazılı olarak sonlandırırlar.

... lojistik regresyondaki düşük değerleri normdur ve bu, değerleri doğrusal regresyon değerlerini görmeye alışkın bir kitleye rapor ederken bir sorun sunar. ... Bu nedenle [metinde çalışan örneklere atıfta bulunarak], değerlerinin rutin yayınlanmasını takılı lojistik modellerin sonuçları ile önermiyoruz . Bununla birlikte, model oluşturma durumunda rakip modelleri değerlendirmek için bir istatistik olarak yardımcı olabilirler.R 2R2R2

[S. 167.]

Bazı büyük lojistik modellerle (100k - 300k kayıt, 100 - 300 açıklayıcı değişkenler) deneyimim tam olarak H & L'nin tarif ettiği gibi oldu. Verilerimde göreceli olarak yüksek elde edebilirim , yaklaşık 0.40. Bunlar% 3 ile% 15 arasındaki sınıflandırma hata oranlarına tekabül ediyordu (% 50 tutma veri setleri kullanılarak doğrulandığı gibi dengeli, yanlış negatifler ve yanlış pozitifler). H & L’nin belirttiği gibi, müşteriyi ( aşina olan sofistike bir danışman olan ) bırakmak ve analizde neye önem verdiğine odaklanmasını sağlamak için çok zaman harcamak zorunda kaldım. hızları). Analizinizin sonuçlarını, yanıltmayacak şekilde yanlış yönlendirilmesi daha muhtemel olan referansı olmadan açıklamayı tavsiye ederim .R 2 R 2 R 2R2R2R2R2


1
(+1) Başlangıçta cevabımı genişletmeyi düşünüyordum (sizinkilerden hemen sonra geldi), ama kesinlikle cevabınız kendi kendine yeterli.
chl

Bunun için teşekkürler, şu an üzerinde de çalıştığım bir projeye yardımcı oluyor - ve tamamen mantıklı.
Brandon Bertelsen

1
@whuber: Ayrıca doğru sınıfa doğru çekim yapma eğilimindeyim. oranlar, ancak ders kitaplarında ve web sitelerinde analistleri kendilerine güvenmemeleri konusunda uyaran ve sözde rsq'nin sınırlamalarına rağmen daha adil bir ölçüt olduğunu vurgulayan çok sayıda referans gördüm. Sık sık kendi analizlerimde bir dereceye kadar gözüken bir şey okudum: belirli bir tahmincinin sözde rsq ile birlikte yukarı doğru çıkabileceğini (ve diğer metrikler ilaveden fayda sağlayacağını belirtirken) doğru sınıflandırma oranı başarısız olur ve bu ikincisine güvenmemeliydi. Bu düşünceyi verdin mi?
rolando2

4
@ rolando2 Evet, var. Bu , değişkenlerin dahil edilmesini haklı çıkarmak için yalancı ne kadar devam etmesi gerektiği sorusunu gündeme getirmektedir . "Doğru sınıflandırma oranınızın" , tabi ki önyargılı olduğu örneklem içi oranı ifade edebileceğinden şüpheleniyorum . Eğer bu doğruysa, okuduğunuz şey sadece iki alt istatistiği karşılaştırır. Örnek üzerinden oranı sözde daha bir gösterge çok daha yararlıdır . R 2R2R2
whuber

1
+1. Ayrıca, cevabınızın ince bir bölümünü genişletmek için , çoğul olan ve doğrulukla karıştırılmaması gereken sınıflandırma hata oranlarından bahsediyorsunuz . Karışıklık matrisinden ortaya çıkabilecek birçok farklı hesaplama türü vardır - doğruluk , yanlış pozitif oran , hassasiyet vb. - ve umursadığımız şey uygulamaya bağlıdır. Ayrıca, çapraz onaylamadan farklı , ancak bazen bununla karıştırılan örnek dışı ayrımını yaparsınız .
Wayne

27

Her iki endeks de birleşme gücünün ölçütleridir (yani herhangi bir öngörücünün bir LR testi için olduğu gibi sonuçla ilişkili olup olmadığı) ve öngörücü yeteneği veya model performansını ölçmek için kullanılabilir. Tek bir tahmincinin sonuç üzerinde önemli bir etkisi olabilir, ancak bireysel yanıtı tahmin etmek için bu kadar faydalı olmayabilir , bu nedenle model performansını bir bütün olarak değerlendirmek gerekir (boş model). Nagelkerke kullanışlıdır çünkü Srikant'ın dediği gibi maksimum değeri 1.0. Bu sadece olabilirlik oranından hesaplanan normalize edilmiş bir sürümüdür ,R, 2 R, 2 LR = 1 - exp ( - LR / n )R2R2RLR2=1exp(LR/n), aslında Cox ve Snell tarafından önerilen genel ilişkilendirme için Wald istatistiği ile bağlantılıdır. Tahmini kabiliyetin diğer endeksleri, Brier skoru, C endeksi (uygunluk olasılığı veya ROC alanı) veya Somers 'D'dir, ikincisi, tahminsel ayrımcılığın daha iyi ölçülmesini sağlar.

Lojistik regresyonda yapılan tek varsayımlar doğrusallık ve katkı maddesidir (+ bağımsızlık). Birçok küresel iyilik-of-fit testleri (Hosmer & Lemeshow gibi olsa da testinde, ama benim bkz yorumunu @onestop kadar) önerilmiştir, genel olarak güç eksikliği. Model uyumunu değerlendirmek için, tahmin edilen ve gözlenen sonuçlar arasındaki yerel veya küresel ayrılışını (örn lineer olmama veya etkileşimi) nokta yardımcı görsel kriterlere (tabakalı tahminlere, parametrik olmayan yumuşatma) güvenmek iyidir ve bu Harrell'in büyük ölçüde ayrıntılı RMS sadaka . İlgili bir konuda (kalibrasyon testleri), Steyerberg ( Klinik Tahmin Modelleri)χ2, 2009), gözlemlenen sonuçlar ile öngörülen olasılıklar arasındaki anlaşmanın değerlendirilmesinde aynı yaklaşıma işaret eder:

Kalibrasyon, bir modelin belirli bir veri kümesine sığma kabiliyeti ile ilgili olan uyumsuzluk ile ilgilidir. Tipik olarak, bir tahmin modelinin her türlü uyumsuzluğuna karşı iyi güce sahip tek bir uygunluk testi yoktur. Uyumsuzluk örnekleri, doğrusal öngörücü ile etkileşimler veya doğrusal öngörücü ile sonuç arasındaki uygunsuz bir bağlantı işlevidir. Uygunluk durumu bir istatistiği ile test edilebilir . (s. 274)χ2

Ayrıca, düzeltilmiş gözlemlenen sonuçlar ile öngörülen olasılıklar arasındaki mutlak farka ya da görsel olarak ya da Harrell E denen istatistikle güvenmeyi öneriyor.

Daha fazla ayrıntı Harrell'in Regresyon Modelleme Stratejileri adlı kitabında bulunabilir (pp. 203-205, 230-244, 247-249). Daha yeni bir tartışma için ayrıca

Steyerberg, EW, Vickers, AJ, Aşçı, NR, Gerds, T, Gönen, M, Obuchowski, N, Pencina, MJ ve Kattan, MW (2010). Tahmin Modellerinin Performansının Değerlendirilmesi, Geleneksel ve Yeni Ölçüler için Bir Çerçeve . Epidemiyoloji , 21 (1) , 128-138.


"Uyum iyiliği" ile birliktelik gücü veya tahminde bulunma kabiliyeti arasındaki ayrımdan bahsedebilir misiniz?
Andy,

@Andy Buna işaret ettiğiniz için teşekkür ederiz. Daha sonra ilk cümlenin gerçekten kulağa hoş gelmediğini farkettim. Cevabımı güncelleyeceğim, pls bu size uygunsa haberim olsun.
chl

Güncelleme için teşekkürler ve ayrımı netleştiriyor.
Andy,

21

Lojistik regresyon için her türlü ölçüsüyle ilgili asıl sorunun, bilinen bir gürültü değerine sahip bir model ile uğraşıyor olduğunuzu düşünürdüm . Bu, gürültü seviyesinin genellikle bilinmeyen olarak değerlendirildiği standart lineer regresyondan farklıdır. Glm olasılık yoğunluğu fonksiyonunu şöyle yazabiliriz:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Burada Fonksiyonlar bilinmektedir ve ters bağlantı fonksiyonu . Alışılmış GLM sapma artıklarını tanımladıysakb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Biz (olasılık oranı ile chi-square, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Burada boyutudur . Lojistik regresyon için bilinen . Bu yüzden, bunu “kabul edilebilir” veya “makul” olan kesin bir kalıntı seviyesine karar vermek için kullanabiliriz. Bu genellikle OLS regresyonu için yapılamaz (gürültü hakkında önceden bilgi sahibi değilseniz). Yani her sapma kalıntısının yaklaşık olmasını bekliyoruz . Çok fazla ve modelde önemli bir etkisinin eksik olması muhtemel; Çok fazla ve modelde fazladan veya sahte etkileri olması muhtemeldir (fazla uydurma). (bunlar aynı zamanda modelin yanlış tanımlanması anlamına da gelebilir).pβϕ=11di21di21

Şimdi bu demek oluyor ki, sözde problemi , binom değişkenliği seviyesinin tahmin edilebilir olduğunu hesaba katmamasıdır (binom hata yapısının sorgulanmaması şartıyla). Bu nedenle Nagelkerke ila arasında değişse de, hala düzgün bir şekilde ölçeklendirilmemiştir. Ek olarak, bir kimlik bağlantısı ve normal hata ile bir "GLM" taktığınızda normal eşit olmadıklarında neden sahte olarak adlandırıldığını anlayamıyorum . Örneğin, normal hata için (REML varyansı tahminini kullanarak) eşdeğer koko-kabuğu R-karesi:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Bu kesinlikle garip görünüyor.

Bence daha iyi "Uyum İyiliği" ölçüsü, sapma artıklarının toplamıdır, . Bunun temel nedeni, hedeflememiz gereken bir hedefimizdir.χ2


+1 Srikant'ın cevabını izleyen yorumlarda konuların güzel bir şekilde anlatılması .
whuber

Binom bir GLM'nin yinelemeli en az kareleri kullanarak uygun olacağı göz önüne alındığında, neden bir uyumun kalitesinin bir ölçüsü olarak, GLM'nin uygun olduğu en son IRLS yinelemesine uygun en küçük karelerin R2'sini rapor etmedi? Gibi stats.stackexchange.com/questions/412580/... ?
Tom Wenseleers

16

Tue Tjur'un “Lojistik Regresyon Modellerinde Belirleme Katsayıları - Yeni Bir Teklif: Ayrımcılık Katsayısı” (2009, Amerikan İstatistiği ) adlı kısa makalesini oldukça aydınlatıcı lojistik modellerinde belirleme katsayısı için buldum. Artılarını ve eksilerini vurgulayarak iyi bir iş çıkarır - ve elbette yeni bir tanım sunar. Çok tavsiye edilir (gerçi kendimde favori yok).


1
Bu kağıdı not ettiğiniz için teşekkürler; bir şekilde kaçırdım (ve büyük bir lojistik regresyon projesinin ortasındayken ortaya çıktı!).
whuber

3
Kayıt için bu yeni tanım olup, yanıt için ortalama öngörülen değer eksi yanıt için ortalama öngörülen değerdir . ile arasında değişebilir . Tjur, Nagelkerke sözde reddetmez , ancak nin "sezgisel çekiciliğinin" bulunmadığını ileri sürer . 1 0 0 1 R, 2 DD=π^¯1π^¯01001R2D
whuber

8

Ben de 'ikisi de' diyecektim, o yüzden whuber'nin cevabını değiştirdim.

R ^ 2 eleştirisinin yanı sıra, Hosmer ve Lemeshow, bazen yararlı olan lojistik regresyon için alternatif bir uyumluluk ölçütü önerdi. Bu, tahmin edilen olasılık (veya eşdeğer olarak doğrusal tahmin edici) sipariş edilip ardından her bir gruptaki gözlemlenen olumlu cevap sayısını karşılaştırarak, verilerin (örneğin) eşit büyüklükteki 10 gruba (veya mümkün olduğunca yakın) bölünmesine dayanır. ve ki-kare testi yapılır. Bu 'Hosmer-Lemeshow uyumluluk testi' çoğu istatistiksel yazılım paketinde uygulanmaktadır.


3
Orijinal HL GoF testi, sürekli kestirici ölçeğini rasgele sayıda gruba ayırmaya dayandığı için çok güçlü değildir; H & L, decill'i düşünmeyi teklif etti, ancak açıkça belli ki, örneklem büyüklüğüne bağlı ve bazı koşullar altında (örneğin IRT modelleri), ölçeğin bir veya her iki ucunda, kesikler eşit olmayan bir şekilde aralıklı olacak şekilde çok az sayıda insana sahip oluyorsunuz. Lojistik regresyon modeli için uygunluk testlerinin karşılaştırılması, Stat. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl

Teşekkürler chi, bu yararlı bir ref, ancak j.mp bağlantınız beni BiblioInserm giriş istemine götürdü. İşte doi tabanlı bir bağlantı: dx.doi.org/10.1002/…
onestop

Yanlış bağlantı için üzgünüm ... Frank Harrell'in Designpaketinde H&L 1 df testinin bir özelliği olduğunu hatırlıyor gibiyim .
chl

3

Nagelkerke'yi tercih ederim, çünkü model mükemmel bir uyum sağladığında, model okuyucuya mükemmel bir uyum sağladığında bir fikir verir. Cox & Shell mükemmel model uyumu için 1'e ulaşmıyor ve bu nedenle 0.09 değerinin yorumlanması biraz daha zor. Çeşitli uyum türlerinin açıklaması için Pseudo RSquared hakkında daha fazla bilgi için bu url'ye bakın .


8
“Mükemmel bir uyum”, gerçekçi bir lojistik regresyonda elde edilemeyecek kadar uzakta olduğundan, onu referans ya da standart olarak kullanmak haksız görünüyor.
whuber

1
@whuber Doğru, ancak iki rakip modelin göreceli performansını karşılaştırmak için standardı kullanabilirsiniz. Cevabınızdaki düşük R ^ 2 puanlarınız ve bunun sonuçları iyi puanlardır, ancak bir tür R ^ 2 formu kullanmak istemeniz durumunda (ör. Hakemler vb.) Nagelkerke tercih edilir.

1
@Skridant Evet, hâlâ her yerde ve Bonferroni düzeltmesini görmek isteyen hakemlerin sorunu ...R2
chl

@Srikant, @chl: Bu konunun alaycı bir okuması, tüm yazılım raporları arasında sadece en büyük R ^ 2 seçilmesini önerir ;-).
whuber

2
@chl Gözden geçirenlere / müşterilere geri bildirim sunmak elbette gerekli ama bazen pragmatik olmak zorundayız. Okuyucular düşük R ^ 2'yi yeterli model performansı olmadığı için yanlış yorumlamazlarsa, @whuber tarafından gündeme getirilen sorunlar bir dereceye kadar azaltılacaktır.

3

Sahte kare r'leri kullanmayla ilgili argümanlara rağmen, bazı insanlar çeşitli nedenlerden dolayı en azından belirli zamanlarda kullanmaya devam etmek isteyeceklerdir. Okumalarımdan içselleştirdiğim şey (ve üzgünüm şu anda alıntı yapamam)

  • eğer hem C&S hem de Nag. .5 altında, C&S daha iyi bir gösterge olacak;
    eğer ikisi de üzerinde ise, 5, Nag. niyet; ve
    eğer .5.

Ayrıca, Applied Logistic Regression Analysis (Sage) 'te Scott Menard tarafından belirtilen sonuçları genellikle bu ikisi arasında kalan bir formül,

[-2LL0 - (-2LL1)]/-2LL0.

Bu, aşağıdaki tabloda "L" olarak belirtilmiştir.

görüntü tanımını buraya girin


Bu resim neyi gösteriyor (yatay eksen ne anlama geliyor)? Ayrıca, son formül (ölçeklenmiş olabilirlik oranı istatistiğine benzeyen gibi) Nagelkerke tam olarak nasıl farklıdır ? R2
chl

Analiz #: Farklı veri setleriyle çeşitli analizler denedim. Nagelkerke formülünü elinizde bulundurmayın, ancak eminim hazır.
rolando2

Paul Allison, yukarı doğru düzeltilmiş bir Cox & Snell formülü olan Nagelkerke formülünü, istatistikhorizons.com/2013/02 adresinde kapsar . Bu blogu okuduktan sonra ve genellikle bu tartışmanın çoğunun gerçekleştiğinden 2-3 yıl sonra, Cox & Snell'in küçümseyeceklerinin varyans açıkladığına ve C & S ile Nagelkerke sonucunun ortalamasından daha iyi olduğuma ikna oldum.
rolando2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.