büyük olduğunda iç içe ikili lojistik regresyon modellerinin karşılaştırılması


10

Daha iyi sorumu sormak için, bir 16 değişken modeli (hem çıktıların bazı sağladı fit) ve 17 değişken modeli ( fit2aşağıda) (bu modellerde tüm belirleyici değişkenler bu modeller arasındaki tek fark nerede olduğunu, sürekli olan fityapmaz değişken 17 (var17)) içerir:

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

rmsBu lrmmodelleri oluşturmak için Frank Harrell'in paketini kullandım . Gördüğünüz gibi, bu modeller, Ayrımcılık Endeksleri ve Sıra Ayrımcılığı arasında çok fazla değişiklik göstermiyor gibi görünüyor . Endeksler ; ancak, kullanarak lrtest(fit,fit2), aşağıdaki sonuçlar elde edildi:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Bu nedenle, bu olabilirlik oranı testinin sıfır hipotezini reddederiz; Ancak, bu modellerin benzer bir şekilde performans gösterdiği için bunun büyük örneklem büyüklüğünden ( n = 102849) kaynaklandığını varsayacağım . Ayrıca, n büyük olduğunda iç içe ikili lojistik regresyon modellerini resmi olarak karşılaştırmanın daha iyi bir yolunu bulmakla ilgileniyorum .

Bu tür iç içe modellerin karşılaştırılması açısından beni doğru yönde yönlendirebilecek geri bildirimleri, R komut dosyalarını veya belgeleri çok takdir ediyorum! Teşekkürler!


Değişken 17'yi kaldırmanın amacı nedir?
Michael M

Bu bir oyuncak örneğidir; ancak, genellikle 8-12 değişkenli modeller oluşturmam isteniyor ve bir modele katkıda bulunmayan değişkenleri kaldırmak benim için birincil ilgi alanı. Değişken 17 sadece bir bütün olarak model için çok az anlam ifade ediyor gibi görünüyor (öngörülebilirlik açısından), ancak olasılık oranı testi iki model arasında önemli bir fark olduğunu söylüyor (muhtemelen bunlar arasındaki gerçek farktan ziyade büyük n'den dolayı) iki model). Bu nedenle, bu iki modeli karşılaştırmanın bir yolunu bulmayı umuyorum (bu iki model arasında bir farkı göstermeyen bir yöntem bulmak)
Matt Reichenbach

(1) aradığınızı tam olarak anladığımdan emin değilim. Ancak tıpta c-istatistik gibi ayrımcılık kullanma sorunu iyi kurulmuş, c-statik önemli değişkenlerin eklenmesiyle bile değişebilir ve yeniden sınıflandırma endekslerinin gelişmesine yol açmıştır ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) AIC / BIC benzer mi? bazı değişken bilgi kazanma kriterleri, ayrımcılık kriterlerinden daha yararlı olabilir.
charles

1
Bence 1. paragrafta bir yazım hatası var. Belirtilmektedir fit2bir 17 değişken modeldir, ama aynı zamanda ihmal etmesi modelidir V17. Bunu düzeltmek isteyebilirsiniz.
tomka

1
@tomka, ben değiştim fit2için fitsenin düzeltme gereği yukarıdaki örnekte. Teşekkürler!
Matt Reichenbach

Yanıtlar:


6

(1) Tam modelleri neden sınırlı / cimri modellere tercih etmek gerektiğine dair kapsamlı bir literatür vardır. Benim anlayışım, parsimonious modeli tercih etmek için birkaç neden. Bununla birlikte, daha büyük modeller birçok klinik uygulama için uygun olmayabilir.

(2) Bildiğim kadarıyla, Ayrımcılık / Ayrımcılık endeksleri model / değişken seçim parametresi olarak kullanılmıyor (? Kullanılmamalıdır). Bu kullanım için tasarlanmamışlardır ve sonuç olarak neden model oluşturma için kullanılmamaları gerektiğine dair bir literatür olmayabilir.

(3) Cimri modellerde, açıkça görülmeyen sınırlamalar olabilir. Daha büyük modellere göre daha az kalibre edilmiş olabilirler, harici / dahili geçerliliği azaltılabilir.

(4) c istatistiği gelecekteki riski tahmin eden veya bireyleri risk kategorilerine ayıran modelleri değerlendirmede optimal olmayabilir. Bu ortamda, kalibrasyon, riskin doğru değerlendirilmesi için önemlidir. Örneğin, olasılık oranı 3 olan bir biyobelirteç, statistik üzerinde çok az etkiye sahip olabilir, ancak artan bir seviye, bireysel bir hasta için tahmini 10 yıllık kardiyovasküler riski% 8'den% 24'e değiştirebilir.

Cook NR; Tıbbi literatürde ROC eğrisinin kullanımı ve yanlış kullanımı. Sirkülasyon. 115 2007: 928-935.

(5) AUC / c-istatistiği / ayrımcılığının, anlamlı yordayıcı değişkenlere duyarsız olduğu bilinmektedir. Bu, yukarıdaki Cook referansında ve net yeniden sınıflandırma endeksinin geliştirilmesinin arkasındaki motive edici güçte tartışılmıştır. Ayrıca yukarıda Cook'ta tartışılmıştır.

(6) Standart değişken seçim yöntemleri kullanılırsa, büyük veri setleri yine de istenenden daha büyük modellere yol açabilir. Kademeli seçim prosedürlerinde genellikle 0.05'lik bir p-değeri kesimi kullanılır. Ancak bu değerle ilgili hiçbir şey yoktur, bu da bu değeri seçmeniz gerektiği anlamına gelir. Daha küçük veri kümelerinde daha büyük bir p değeri (0.2) daha uygun olabilir, daha büyük veri kümelerinde daha küçük bir p değeri uygun olabilir (bu nedenle GUSTO I veri kümesi için 0.01 kullanılmıştır).

(7) AIC genellikle model seçimi için kullanılır ve literatür tarafından daha iyi desteklenirken, BIC daha büyük veri kümelerinde geçerli bir alternatif olabilir. BIC modeli seçimi için ki kare, log (n) değerini geçmelidir, bu nedenle daha büyük veri setlerinde daha küçük modellerle sonuçlanır. (Ebegümeci benzer özelliklere sahip olabilir)

(8) Ancak en fazla 10 veya 12 değişken istiyorsanız, daha kolay çözüm şudur bestglmveya leapspaketler sadece dikkate almak istediğiniz maksimum değişken sayısını ayarlamış olsaydınız.

(9) sadece iki modelin aynı görünmesini sağlayacak ve ayrıntılar hakkında çok endişelenmeyecek bir test istiyorsanız, muhtemelen iki modelin AUC'sini karşılaştırabilirsiniz. Bazı paketler karşılaştırma için size bir p değeri verecektir. Tavsiye edilmiyor gibi görünüyor.

Ambler G (2002) Prognostik bir modelin basitleştirilmesi: klinik verilere dayanan bir simülasyon çalışması
Cook NR; Tıbbi literatürde ROC eğrisinin kullanımı ve yanlış kullanımı. Sirkülasyon. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Mutlak risk modellerini değerlendirme kriterleri üzerine. Biostat. 6 2005: 227-239.

(10) Model oluşturulduktan sonra, c-istatistik / decimation indeksleri modelleri karşılaştırmak için en iyi yaklaşım olmayabilir ve iyi belgelenmiş sınırlamaları olabilir. Karşılaştırmalar muhtemelen en azından kalibrasyon, yeniden sınıflandırma indeksini de içermelidir.

Steyerber (2010) Tahmin modellerinin performansının değerlendirilmesi: bazı geleneksel ve yeni tedbirler için bir çerçeve

(11) Yukarıdakilerin ötesine geçmek ve karar analitik tedbirlerini kullanmak iyi bir fikir olabilir.

Vickers AJ, Elkin EB. Karar eğrisi analizi: tahmin modellerini değerlendirmek için yeni bir yöntem. Med Karar Verme. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Risk tahminini değerlendirmek için göreceli fayda eğrilerini kullanma. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Belirteçlerin ve Risk Tahmin Modellerinin Değerlendirilmesi: NRI ve Karar-Analitik Önlemler Arasındaki İlişkilere Genel Bakış. Med Karar Verme. 2013; 33: 490-501

--- Güncelleme --- Vickers makalesini en ilginç buluyorum. Ancak, birçok başyazıya rağmen bu hala geniş çapta kabul görmedi. Bu yüzden çok pratik bir kullanım olmayabilir. Cook ve Steyerberg makaleleri çok daha pratiktir.

Kimse kademeli seçimi sevmez. Kesinlikle bunu savunmayacağım. Adım adım eleştirilerin çoğunun EPV <50 olduğunu ve tam veya önceden belirlenmiş bir model ile azaltılmış bir model arasında bir seçim olduğunu varsayabilirim. EPV> 50 ise ve bir model azaltma taahhüdü varsa maliyet-fayda analizi farklı olabilir.

C-istatistiklerini karşılaştırmanın arkasındaki zayıf düşünce, farklı olmayabilir ve bu testin önemli ölçüde yetersiz olduğunu hatırlıyorum. Ama şimdi referansı bulamıyorum, bu yüzden bu temelden uzak olabilir.


(1) Tam modellerin tercih edildiğinin farkındayım, ancak seçim için 1k'dan fazla vars var ve sektöre özgü gereksinimler nedeniyle bu daha küçük modelleri oluşturmam gerekiyor. (2) Bu mantıklı! (3) Kabul etti! (4) Gerçek (5) İlginç
Matt Reichenbach

(6) Kabul edildi; bununla birlikte, aşamalı prosedürler olduğu gibi çok tartışmalıdır ve p değeri kesimi ne kadar düşük olursa, örnek boyutundan bağımsız olarak bu tip modeller o kadar eğilimli hale gelir. (7) “BIC modeli seçimi için ki kare, log (n) değerini geçmelidir”, bu çok faydalı görünüyor. Teşekkürler! (8) bestglmve leapspaketler çok hesaplı olarak pahalıdır ve birlikte çalıştığım gibi veri kümeleriyle çalışmak günler sürüyor, ancak potansiyel fikirler için teşekkür ederim.
Matt Reichenbach

(9) Bu p -değerleri, sadece büyük örneklem büyüklüğü nedeniyle modeller hemen hemen aynı olsa bile anlamlı olacaktır. (10) Kalibrasyon ve yeniden sınıflandırma endeksini daha fazla araştırmam gerekiyor, teşekkürler! (11) Bu makaleleri okumakla çok ilgileniyorum, Vickers ile başlamamı tavsiye eder misiniz? Teşekkürler!
Matt Reichenbach

5

Bir seçenek, her iki model için sözde R-kare önlemleri kullanmaktır. Yalancı R-karesinde güçlü bir fark, model uyumunun V17'yi atlayarak güçlü bir şekilde azaldığını gösterir.

Farklı Pseudo R-kareleri mevcuttur. Bir genel bakışı burada bulabilirsiniz, örneğin:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Popüler bir önlem Nagelkerke R-kare. 0 ile 1 arasında değişir ve dikkatle, basit bir doğrusal regresyon modelinden R-kare gibi yorumlanabilir. Tam modelin tahmini olasılıklarının sadece kesişme modeline dönüştürülmüş bir oranına dayanmaktadır.

Sırasıyla fitve için tahmin edebilir ve fit2probleminiz hakkında bir gösterge almak için göreceli boyutu karşılaştırabilirsiniz. Oldukça yüksek bir Nagelkerke R-kare , V17'nin ihmal edilmesiyle çok fazla tahmin gücünü kaybettiğini fitdüşündürecektir fit2.

In değeri Nagelkerke Ar-kare sağlar. Yani vermek size bir tahminde bulunmalıdır. Ayrıca bakınız .lrmstatsfit$stats?lrm


Nagelkerke'nin R-karesine aşinayım; ancak, sorum "önemli ölçüde daha yüksek bir Nagelkerke R-Square fit" ne? Biz 0.173 ve 0.174 için Nagelkerke R-kare sahip yukarıdaki örnekte, 0.001 bir fark vardır fitve fit2sırasıyla. "Oldukça yüksek bir Nagelkerke R-Meydanı" nın ne olduğuna dair referanslarınız var mı? Teşekkürler!
Matt Reichenbach

@Matt: Nagelkerke'nin R²'sini veya diğer sahte R² önlemlerini yorumlamak için genel bir kılavuz olmadığını düşünüyorum. Bununla birlikte, değişkenlerin sadece kesişim modeline dahil edilmesiyle 'olasılık azalmasının' dönüştürülmüş bir ölçüsü olduğuna dikkat edin, bu da onu lineer regresyonda standart R² ile gösterilen 'açıklanan varyansa' benzer hale getirir. Bu anlamda .173 / .174 farkını çok küçük olarak yorumlardım. Daha güçlü bir fark sth olurdu. köprüleme ondalıkları. Bununla birlikte, bu sonucun sağlamlığını kontrol etmek için McFadden veya Cox / Snell gibi diğer sahte R² ölçümlerini tahmin etmenizi öneririm.
tomka

Farkın çok küçük olduğuna katılıyorum, ama keşke "küçük" farkın ne olduğunu belirten bir referans bulabilseydim ... Düşüncelerinizi takdir ediyorum. Tekrar teşekkürler!
Matt Reichenbach

1
sorun değil! daha önce seni oylamadığım için üzgünüm! Pseduo R kare açısından "küçük" bir farkın ne olduğuna dair bir cevap bulursam, tekrar göndereceğim! Teşekkürler!
Matt Reichenbach

-1

Ben sadece bunu okudum. Bunu yapmanın uygun yolu, R'nin glm's finalmodel çıktısını kullanmak ve "Artık sapma:" araması yapmak ve iki model arasındaki deltayı türetmek ve bu değeri, bırakılan öngörücü # terimine eşit df kullanarak bir ki kare testinde kullanmaktır. Ve bu senin p değerin.

Uygulamalı Regresyon Modelleme Iaian Pardoe 2. baskı 2012 sf 270

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.