Lojistik regresyon konusunda varsayım var mı?


18

Lojistik regresyonun tepki değişkeni üzerinde iid varsayımı var mı?

Örneğin, 1000 veri noktamız olduğunu varsayalım . Görünüşe göre yanıtı , ile Bernoulli dağılımından geliyor . Bu nedenle, farklı parametre ile Bernoulli dağılımımız olmalıdır .p i = logit ( β 0 + β 1 x i ) 1000 pYipi=logit(β0+β1xi)1000p

Yani "bağımsız" fakat "özdeş" değiller.

Haklı mıyım?


PS. Varsayım hakkında çok fazla konuşmadan, objektif fonksiyonu optimize ettiğimiz ve verilerin test edilmesinde iyi olup olmadığını kontrol ettiğimiz "makine öğrenimi" literatüründen lojistik regresyon öğrendim.

Benim sorum bu yazıyla başladı Genelleştirilmiş Doğrusal Modelde Bağlantı İşlevini Anlayın İstatistiksel varsayımlar hakkında daha fazla bilgi edinmeye çalıştığım yer.


1
"Varsayım" bir teoremin sahip olabileceği bir şeydir. Doğrusal regresyon, Gauss-Markov teoreminin bu varsayımı taşıması bakımından, iid hatalarının "varsayımına" sahiptir ( doğrusal regresyonda "varsayıldığı" y " değildir ! Hatalar). Şimdi kişinin lojistik regresyon için aklı olduğu teoremi var mı? Değilse, hiçbir "varsayım" yoktur.
amip, Reinstate Monica'yı

7
@Amoeba, hxd, dağılımların aynı olmadığını belirterek doğrudur : "iid" uygulanmaz. Eğer bir kişi lojistik regresyonu sadece uygunluğu için kullanıyorsa, (siz yazarken) belki de birkaç varsayım gereklidir; ancak en kısa sürede bir markaları yapı tahmini aralıkları için katsayılar veya isteklerine tahmini kovaryans matrisinin kullandıkça (ya da bu konuda, çapraz doğrulamak değerleri tahmin edilen), daha sonra bu olasılık çıkarımı gerektirmektedir. Alışılmış olan cevapların bağımsız olmasıdır.
whuber

4
@amoeba, parametrelerin tahminlerini hesaplamak yerine çıkarım (hipotez testleri, güven aralıkları vb.) yapmak istediğinizde, ilgili null dağılımı İstenilen kapsama alanına sahip bir aralık için istatistik veya gerekli hesaplamaları test edin. Nispeten düşük varsayım prosedürlerinin bile hala varsayımları vardır ve çıkarımlarımızı önemsersek, nominal özelliklerine yakın bir şeyleri olup olmadıklarına dikkat edeceğiz.
Glen_b-Monica

1
@ amiba, MLE'nin asimptotik normalliklerini gösteren bir teoremi seviyorum. Ayrıca olasılık oranı testini de seviyorum.
gammer

2
Hepsi aynı öngörücü değere sahip olmadıkça marjinal dağılımları aynı değildir, bu durumda sadece IID bernoulli denemeleri yaparsınız. Koşullu dağılımları (öngörücü göz önüne alındığında) hepsi aynıdır, ancak normalde bu durumda IID olduğunu söyleyeceğinizi düşünmüyorum . Yi
gammer

Yanıtlar:


11

Önceki sorunuza itibaren size GLM olasılık dağılımı, doğrusal tahmin açısından anlatılmıştır öğrendik ve bağlantı fonksiyonu g ve olarak tarif edilirηg

η=XβE(Y|X)=μ=g1(η)

burada bir logit bağlantı fonksiyonudur ve Y'nin bir Bernoulli dağılımını takip ettiği varsayılırgY

YiB(μi)

her Bernoulli dağılımını kendi ortalaması ile takip ederYi şartına bağlıdır X . Biz edilirdeğil, her varsayarak Y, i aynı ortalama, aynı dağıtım gelir (bu kesişme tek model olur Y i = g - 1 ( μ ) ), ancak hepsi farklı araçlara sahip olduğu. Y i 'ninbağımsızolduğunu varsayıyoruz, yani sonraki Y i değerleriarasındaki otokorelasyon gibi şeyler hakkında endişelenmemiz gerekmiyor.μiXYiYi=g1(μ)YiYi

İid varsayım modeli lineer regresyon (örneğin Gauss GLM), hatalar ile ilgilidir

yi=β0+β1xi+εi=μi+εi

burada , bu yüzden μ i civarında iid gürültüsü var . Bu nedenle artıkların teşhisi ile ilgilenir ve kalanlara karşı yerleştirilmiş arsaya dikkat edin . Şimdi, GLM'nin lojistik regresyonu durumunda, o kadar basit değil, çünkü Gauss modelinde olduğu gibi ek bir gürültü terimi yoktur ( buraya , buraya ve buraya bakınız)εiN(0,σ2)μi). Artıkların sıfır civarında "rastgele" olmasını istiyoruz ve içlerinde herhangi bir eğilim görmek istemiyoruz, çünkü modelde hesaba katılmayan bazı efektler olduğunu öne sürüyorlar, ancak bunların normal ve / veya iid . Ayrıca bkz . İstatistiksel öğrenme dizisinde iid varsayımının önemi hakkında .

Bir sidenote olarak, her bir aynı tür dağıtımdan geldiği varsayımını bile düşürebileceğimizi fark edin . Farklı varsayılmaktadır (non-GLM) modeli vardır Y i 'nin farklı parametreler, yani veri bir geldiğini farklı dağılımlar olabilir farklı dağılımların karışımı . Bu durumda biz de varsayılabilir Y i değerleridir bağımsız farklı parametrelere sahip farklı dağılımlar (yani tipik gerçek dünya verileri) gelen bağımlı değerler beri, çoğu durumda çok modeli (genellikle imkansızdır) karmaşık olacağı bir şeydir .YiYiYi


6

Belirtildiği gibi, çoğu zaman doğrusal regresyondaki iid hataları örneğini düşünürken , bunun çoğu genelleştirilmiş doğrusal modelde (lojistik regresyon dahil) doğrudan bir eşdeğeri yoktur. Lojistik regresyonda, tipik olarak hepsinin çok sıkı bir ilişkisi olan sonuçların bağımsızlığı varsayımını kullanırız (yani log olasılıkları üzerinde doğrusal etkiler). Ancak bunlar, aynı olmayan ve değişken bir terim ile doğrusal regresyonda olduğu gibi sabit bir terim ve bir iid hatasına ayrıştırılamayan rasgele değişkenlerle sonuçlanır.

Yanıtların bir tür iid ilişkisi olduğunu gerçekten göstermek istiyorsanız, bir sonraki paragraf için beni takip edin. Sadece bu fikrin gittiği yoldan biraz uzakta olduğunu bilin; profesörünüz sabırsızsa finalde bu yanıt için tam kredi alamayabilirsiniz.

Rastgele değişkenler oluşturmak için ters cdf yöntemini biliyor olabilirsiniz. Değilse, burada bir tazeleme: if kümülatif dağılım fonksiyonu vardır F X , o zaman rastgele gelen çizer üretebilir XXFXX çizer birinci rasgele alınarak daha sonra hesaplama X = F - 1 x ( k )quniform(0,1)X=FX1(q). Bunun lojistik regresyon ile ilişkisi nedir? Yanıtlarımız için üretim sürecinin iki kısmı olduğunu düşünebiliriz; ortak değişkenleri başarı olasılıklarıyla ilişkilendiren sabit bir bölüm ve sabit bölüm üzerinde koşullu rastgele değişkenin değerini belirleyen rastgele bir bölüm. Sabit parça lojistik regresyon, yani bağlantı fonksiyonu ile tanımlanır . Rastgele kısım için, F Y ( y | p ) ' yi p olasılıklı Bernoulli dağılımı için cdf olarak tanımlayalım . O zaman Y yanıt değişkenini düşünebilirizp=expit(βo+β1x)FY(y|p)p Aşağıdaki üç adım oluşturulur:Yi

1.) pi=expit(βo+β1xi)

2.) qiuniform(0,1)

3.) Yi=F1(qi|pi)

O zaman lojistik regresyondaki standart varsayım, iid olduğudur.qi


1
qiYiB(pi)Yipiqi

@Tim: evet, cevabın ikinci kısmı kısa bir cevaptan daha ilginç bir yan not. Ancak ona bakmak için yararlı bir yol olabilir; sonuçta, bu temelde bilgisayarınız bu modellerden veri simülasyonu!
Cliff AB
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.