Standart çoklu doğrusal regresyonda, normal-en küçük kareler (OLS) tahminlerini iki adımda sığdırma yeteneği Frisch-Waugh-Lovell teoreminden gelir . Bu teorem, çok doğrusal bir modelde belirli bir yordayıcı için bir katsayı tahmininin, yanıt kalıntılarının (yanıt değişkeninin diğer açıklayıcı değişkenlere karşı regresyonundan kalan artıklar ) yordayıcı kalıntılarına (kalıntılar) gerilemesi ile elde edilen tahmine eşit olduğunu gösterir. yordayıcı değişkenin diğer açıklayıcı değişkenlere karşı gerilemesinden ). Açıkçası, lojistik regresyon modelinde kullanılabilecek bu teorime bir benzetme arayışındasınız.
Bu soru için, lojistik regresyonun gizli-değişken karakterizasyonunu hatırlamakta fayda vardır :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
Modelin bu karakterizasyonunda gizli yanıt değişkeni Y∗ben gözlemlenemez ve bunun yerine göstergeyi gözlemleriz Ybenbu da bize gizli yanıtın olumlu olup olmadığını söyler. Modelin bu formu, birden fazla doğrusal regresyona benziyor, ancak biraz farklı bir hata dağılımı (normal dağılım yerine lojistik dağıtım) kullanıyoruz ve daha da önemlisi, sadece gizli yanıtın olumlu olup olmadığını gösteren bir gösterge gözlemliyoruz .
Bu, modelin iki adımlı uyumunu oluşturma girişimleri için bir sorun oluşturur. Bu Frisch-Waugh-Lovell teoremi, diğer açıklayıcı değişkenlere karşı alınan ilginin yanıtı ve öngörücüsü için ara artıklar elde etme yeteneğine dayanır. Mevcut durumda, artıkları sadece "kategorize edilmiş" bir cevap değişkeninden elde edebiliriz. Lojistik regresyon için iki aşamalı bir uyum süreci oluşturmak, temel gizli yanıta erişim olmadan bu kategorize edilmiş yanıt değişkeninden yanıt kalıntılarını kullanmanızı gerektirir. Bu bana büyük bir engel gibi görünüyor ve imkansızlığı kanıtlamasa da, modele iki adımda sığması mümkün görünmüyor.
Aşağıda size, lojistik regresyona uyacak iki adımlı bir süreç bulmak için neyin gerekli olacağına dair bir açıklama vereceğim. Bu soruna bir çözüm olup olmadığından veya imkansızlığın bir kanıtı olup olmadığından emin değilim, ancak buradaki malzeme size neyin gerekli olduğunu anlamanız için bir yol bulmalıdır.
İki adımlı bir lojistik regresyon uyumu nasıl olurdu? Her bir adımda parametrelerin maksimum olabilirlik tahmini ile tahmin edildiği bir lojistik regresyon modeli için iki aşamalı bir uyum oluşturmak istediğimizi varsayalım. Sürecin, aşağıdaki iki modele uyan bir ara adım içermesini istiyoruz:
Yben= Ben(Y∗ ∗ben> 0 )Y∗ ∗ben=α0+αXxben+τben Zben=γ0+γXxben+δbenτben∼ IID Lojistik ( 0 , 1 ) ,δben∼ IID g.
Bu modellerin katsayılarını (MLE'ler aracılığıyla) tahmin ediyoruz ve bu ara uyum değerleri sağlıyor α^0,α^X,γ^0,γ^X. Sonra ikinci adımda modele uyuyoruz:
Yben= lojistik (α^0+α^1xben) +βZ(zben-γ^0-γ^Xxben)+εbenεben∼ IID f.
Belirtildiği gibi, prosedürün birçok sabit elemanı vardır, ancak yoğunluk fonksiyonları g ve fbu adımlarda belirtilmemiş bırakılır (yine de verilere bağlı olmayan sıfır ortalama dağılımlar olmalıdır). Bu kısıtlamalar altında iki aşamalı bir montaj yöntemi elde etmek için seçmemiz gerekirg ve f MLE sağlamak için βZ bu iki aşamalı modele uyum algoritması, yukarıdaki tek aşamalı lojistik regresyon modelinden elde edilen MLE ile aynıdır.
Bunun mümkün olup olmadığını görmek için, ilk önce tüm tahmini parametreleri yazıyoruz:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
İzin Vermek ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi) böylece ikinci adım için günlük olabilirlik işlevi:
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Bu işlevin maksimize edici değerinin çoklu lojistik regresyon modelinin MLE'si olmasını istiyoruz. Başka bir deyişle, şunlara ihtiyacımız var:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Bu soruna bir çözüm olup olmadığını veya çözüm olmadığını gösteren bir kanıt olup olmadığını belirlemek için başkalarına bırakıyorum. Bir lojistik regresyonda gizli yanıt değişkeninin "kategorileştirilmesinin" iki aşamalı bir süreç bulmayı imkansız hale getireceğinden şüpheleniyorum.