Lojistik Regresyon Kalıntılarının Diğer Regresörlere Regresyonu


9

Sürekli yanıta uygulanan OLS regresyonu ile, her bir ortak değişken üzerinde artıkların regresyonlarını sırayla çalıştırarak çoklu regresyon denklemi oluşturulabilir. Benim sorum, bunu lojistik regresyon artıklarıyla lojistik regresyon ile yapmanın bir yolu var mı?

Yani, tahmin etmek istersem Pr(Y=1|x,z)standart genelleştirilmiş doğrusal modelleme yaklaşımını kullanarak, karşı lojistik regresyonu çalıştırmanın ve sahte kalıntılarını elde etmenin bir yolu var , daha sonra lojistik regresyon katsayılarının tarafsız bir tahmincisini elde etmek için üzerinde basın . Ders kitaplarına veya literatüre yapılan atıflar takdir edilecektir.xR1R1z


Benim tahminim, bu REML'nin GLM'lere uzanmadığı için işe yaramayacak; en küçük karelerin büyüsü kaybolur. Gizli değişkenin sim'in bir parçası olarak örneklendiği tam bir bayes bağlamında çalışıp çalışmayacağını merak ediyorum. Bunu yapmak istememin nedeni, farklı değişken sınıfları üzerinde glmnet çalıştırabilmem ve sınıflar için farklı miktarlarda düzenlileştirme yapabilmemdi - tabii ki bu etkiyi elde etmenin başka yolları da var.
Ben Ogorek

Bu, lojistik regresyon için arkaya oturan bir algoritma kullanmaya çok benzer mi?
usεr11852

Aşağıda bir yorumda bundan bahsettim, ancak birçok uygulamada bir 'temel' tahmin (glmnet'te ofset parametresi) geçebilirsiniz, bu yüzden belki de bu, bağımlı değişkenler gerilendikten sonra mümkün olabilir. @BenOgorek ana metne amaç eklemek istiyor
musunuz

@ seanv507 Düzenleme bölümüne eklemenin kapsamı çok fazla artıracağından endişe ediyorum, özellikle de aşağıda bazı iyi cevaplar var. Bu soru-cevap tamamlandıktan sonra, ofsetin gerçekten de arkadaşımız olabileceği ayrı bir soru oluşturacağım.
Ben Ogorek

Bu bir cevap değil ama yorum yapmak için yeterli itibarım yok. Soru diğer regresör üzerinde (yani artık gerileme hakkındadır yordayıcılarını ) ziyade üzerinde kalıntı gerileme artıkların . Cevaplarım karıştı.
T Wu

Yanıtlar:


3

Standart çoklu doğrusal regresyonda, normal-en küçük kareler (OLS) tahminlerini iki adımda sığdırma yeteneği Frisch-Waugh-Lovell teoreminden gelir . Bu teorem, çok doğrusal bir modelde belirli bir yordayıcı için bir katsayı tahmininin, yanıt kalıntılarının (yanıt değişkeninin diğer açıklayıcı değişkenlere karşı regresyonundan kalan artıklar ) yordayıcı kalıntılarına (kalıntılar) gerilemesi ile elde edilen tahmine eşit olduğunu gösterir. yordayıcı değişkenin diğer açıklayıcı değişkenlere karşı gerilemesinden ). Açıkçası, lojistik regresyon modelinde kullanılabilecek bu teorime bir benzetme arayışındasınız.

Bu soru için, lojistik regresyonun gizli-değişken karakterizasyonunu hatırlamakta fayda vardır :

Yi=I(Yi>0)Yi=β0+βXxi+βZzi+εiεiIID Logistic(0,1).

Modelin bu karakterizasyonunda gizli yanıt değişkeni Yi* gözlemlenemez ve bunun yerine göstergeyi gözlemleriz Ybenbu da bize gizli yanıtın olumlu olup olmadığını söyler. Modelin bu formu, birden fazla doğrusal regresyona benziyor, ancak biraz farklı bir hata dağılımı (normal dağılım yerine lojistik dağıtım) kullanıyoruz ve daha da önemlisi, sadece gizli yanıtın olumlu olup olmadığını gösteren bir gösterge gözlemliyoruz .

Bu, modelin iki adımlı uyumunu oluşturma girişimleri için bir sorun oluşturur. Bu Frisch-Waugh-Lovell teoremi, diğer açıklayıcı değişkenlere karşı alınan ilginin yanıtı ve öngörücüsü için ara artıklar elde etme yeteneğine dayanır. Mevcut durumda, artıkları sadece "kategorize edilmiş" bir cevap değişkeninden elde edebiliriz. Lojistik regresyon için iki aşamalı bir uyum süreci oluşturmak, temel gizli yanıta erişim olmadan bu kategorize edilmiş yanıt değişkeninden yanıt kalıntılarını kullanmanızı gerektirir. Bu bana büyük bir engel gibi görünüyor ve imkansızlığı kanıtlamasa da, modele iki adımda sığması mümkün görünmüyor.

Aşağıda size, lojistik regresyona uyacak iki adımlı bir süreç bulmak için neyin gerekli olacağına dair bir açıklama vereceğim. Bu soruna bir çözüm olup olmadığından veya imkansızlığın bir kanıtı olup olmadığından emin değilim, ancak buradaki malzeme size neyin gerekli olduğunu anlamanız için bir yol bulmalıdır.


İki adımlı bir lojistik regresyon uyumu nasıl olurdu? Her bir adımda parametrelerin maksimum olabilirlik tahmini ile tahmin edildiği bir lojistik regresyon modeli için iki aşamalı bir uyum oluşturmak istediğimizi varsayalım. Sürecin, aşağıdaki iki modele uyan bir ara adım içermesini istiyoruz:

Yben=ben(Yben**>0)Yben**=α0+αXxben+τbenτben~IID Lojistik(0,1),  Zben=γ0+γXxben+δbenδben~IID g.

Bu modellerin katsayılarını (MLE'ler aracılığıyla) tahmin ediyoruz ve bu ara uyum değerleri sağlıyor α^0,α^X,γ^0,γ^X. Sonra ikinci adımda modele uyuyoruz:

Yben=lojistik(α^0+α^1xben)+βZ(zben-γ^0-γ^Xxben)+εbenεben~IID f.

Belirtildiği gibi, prosedürün birçok sabit elemanı vardır, ancak yoğunluk fonksiyonları g ve fbu adımlarda belirtilmemiş bırakılır (yine de verilere bağlı olmayan sıfır ortalama dağılımlar olmalıdır). Bu kısıtlamalar altında iki aşamalı bir montaj yöntemi elde etmek için seçmemiz gerekirg ve f MLE sağlamak için βZ bu iki aşamalı modele uyum algoritması, yukarıdaki tek aşamalı lojistik regresyon modelinden elde edilen MLE ile aynıdır.

Bunun mümkün olup olmadığını görmek için, ilk önce tüm tahmini parametreleri yazıyoruz:

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

İzin Vermek ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi) böylece ikinci adım için günlük olabilirlik işlevi:

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

Bu işlevin maksimize edici değerinin çoklu lojistik regresyon modelinin MLE'si olmasını istiyoruz. Başka bir deyişle, şunlara ihtiyacımız var:

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

Bu soruna bir çözüm olup olmadığını veya çözüm olmadığını gösteren bir kanıt olup olmadığını belirlemek için başkalarına bırakıyorum. Bir lojistik regresyonda gizli yanıt değişkeninin "kategorileştirilmesinin" iki aşamalı bir süreç bulmayı imkansız hale getireceğinden şüpheleniyorum.


1
Merhaba @Ben, bana Frisch – Waugh – Lovell teoremini öğrettiğiniz için teşekkürler. Ödül patladı - "süresi doldu" düşünce sadece reklamı durdu anlamına geliyordu. Bunun için üzgünüm. Olasılık temelli fikrinizi seviyorum. Bunu deneyebilir ya da benzer bir şey ve aşağıya gönderebilir.
Ben Ogorek

@ Ben Ogorek: Ödül için endişelenme. Cevaptan memnunum.
Ben - Monica

@ Ben Ogorek: (Eter içine kaybolan 25 ödül ödülünü telafi etmek için, sitenin etrafına gidin ve 3 cevabı oylayın. Sonra karmanız geri yüklenir!)
Ben - Monica'yı

1
Bitti! (Önce ben okudum).
Ben Ogorek

3

Soruyu yanlış yorumluyor olabilirim. Şüpheliyim OP'nin belirttiği şekilde artıklar üzerindeki gerileme ile lineer regresyon denklemini oluşturabilirsiniz . OP'nin yöntemi sadece öngörücüler birbirinden bağımsızsa işe yarayacaktır.

Çalışmasını sağlamak için, y sonuç vektörü, X zaten modelde olan öngörücüler için model matrisidir ve x1. Regresyonun kalanını geri almanız gerekiry üzerinde X regresyon kalıntısına karşı x1 üzerinde X için OLS katsayısının elde edilmesi x1.

İşte basit bir örnek:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

OLS ile uyumlu model:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

Kalanlar üzerindeki gerileme:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

Bu yanlış, uymanız gerekiyor:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

Bu, x2 için doğru katsayıyı döndürür; bu, x1'de sabit tutarak (hem y hem de x1'den çıkarılırsa) x2'deki farklılıklar göz önüne alındığında y'de beklenen farklılıklar ile hizalanır.

Bunun yanı sıra, lojistik regresyonda, daha da sorunlu olacaktır çünkü lojistik regresyon katsayıları, karışık ilişkilerin yokluğunda bile atlanan değişken önyargıdan muzdariptir, buraya bakın ve buraya bakın , bu nedenle sonucun tüm tahmincileri modelde değilse, elde edilemez gerçek popülasyon parametrelerinin tarafsız tahminleri. Dahası, tüm değerlerin 0 ile 1 arasında olduğu ikinci bir lojistik gerilemeye uygun olan modelden herhangi bir artık bilmiyorum.

Artıklarda gerileme ile ilgili bazı referanslar:

  • Maxwell, SE, Delaney, HD ve Manheimer, JM (1985). Artıklar ve Ancova Anovaları: Model Karşılaştırma ve Grafikler Kullanarak Bir Yanılsamayı Düzeltmek. Eğitim İstatistikleri Dergisi, 10 (3), 197-209. AlınanHttp://journals.sagepub.com/doi/pdf/10.3102/10769986010003197 adresinden
  • Freckleton, RP (2002), Artıkların ekolojide kötüye kullanılması üzerine: artıkların gerilemesi ve çoklu regresyon. Hayvan Ekolojisi Dergisi, 71 , 542-545. DOI: 10,1046 / j.1365-2656.2002.00618.x

İlk paragrafınızın biraz yanıltıcı / belirsiz olduğunu düşünüyorum ... aslında 'artıklarla doğrusal regresyon' nasıl yaptığınızla başlasanız daha iyi olurdu .. (+ 1) ve bunu istatistiksel öğrenme unsurlarında bulabilirsiniz ( tek regresyon altbölümünden çoklu regresyon?)
seanv507

Birçok uygulamada, bir 'temel' tahmin (glmnet içinde ofset parametresi) iletebilirsiniz, bu nedenle bu, bağımlı değişkenler geriletildikten sonra mümkün olabilir.
seanv507

@ seanv507 Cevabımı zaten ekliyorum. Sahip olduğum son kod gösterisi. OP'nin tarif ettiği şekilde, bir belirleyicideki kalıntılara gerileyerek mümkün değildir. Ama demek istediğin buysa, en baştan doğru yolu göstermek için yeniden yazabilirim.
Heteroskedastic Jim

Evet en baştan doğru yolu göstermek için yeniden yazmak istedim,
istedim seanv507

@ seanv507 ne demek istediğini bilmiyorsun bir temel tahmin geçebilir? Ve bağımlı değişkenlerin gerilemesi?
Heteroskedastic Jim

1

Umarım sorunuzu yanlış yorumlamıyorum, çünkü cevabım konunuzu nasıl ifade ettiğinizle ilgili ifadeyi biraz değiştirecek.

Sanırım yapmaya çalıştığınız şey, bir seferde bir bağımsız değişken ekleyerek regresyon modelinizi oluşturmaktır. Ve bunu, hangi prospektif değişkenin Y ve X1 arasındaki ilk regresyonunuzun kalıntısı ile en yüksek korelasyona sahip olduğunu gözlemleyerek yaparsınız. Bu nedenle, bu ilk artık ile en yüksek korelasyona sahip değişken X2 olacaktır. Şimdi, iki bağımsız değişkeni X1 ve X2 olan bir modeliniz var. Ve X3, X4 vb. Seçmek için bu işleme devam edersiniz. Bu adım adım ileri bir işlemdir.

Lojistik Regresyonun, bağımlı değişkenin tek (veya logit) günlüğü olduğu hemen hemen bir OLS Regresyonu olmasının basit bir nedeni için Lojistik Regresyon ile aynı şeyi yapabilirsiniz. Ancak, Y'nin bir logit olup olmadığı, yukarıda belirtilen aşamalı ileri işlemi etkilemez.

OLS, gerçek verilere uyacak şekilde kare hatalarının toplamını en aza indirir. Logit regresyonu, OLS'den farklı olmayan bir uyum üreten bir maksimum olasılık süreci kullanır. Ve bu da (montaj mekanizması), ister bir OLS Regresyonu ister bir Logit Regresyonu olsun, çoklu regresyon modelinizi oluşturmanıza izin veren adım adım ileri süreci etkilememelidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.