Önceki sorunuza itibaren size GLM olasılık dağılımı, doğrusal tahmin açısından anlatılmıştır öğrendik ve bağlantı fonksiyonu g ve olarak tarif edilirηg
ηE(Y|X)=Xβ=μ=g−1(η)
burada bir logit bağlantı fonksiyonudur ve Y'nin bir Bernoulli dağılımını takip ettiği varsayılırgY
Yi∼B(μi)
her Bernoulli dağılımını kendi ortalaması ile takip ederYi şartına bağlıdır X . Biz edilirdeğil, her varsayarak Y, i aynı ortalama, aynı dağıtım gelir (bu kesişme tek model olur Y i = g - 1 ( μ ) ), ancak hepsi farklı araçlara sahip olduğu. Y i 'ninbağımsızolduğunu varsayıyoruz, yani sonraki Y i değerleriarasındaki otokorelasyon gibi şeyler hakkında endişelenmemiz gerekmiyor.μiXYiYi=g−1(μ)YiYi
İid varsayım modeli lineer regresyon (örneğin Gauss GLM), hatalar ile ilgilidir
yi=β0+β1xi+εi=μi+εi
burada , bu yüzden μ i civarında iid gürültüsü var . Bu nedenle artıkların teşhisi ile ilgilenir ve kalanlara karşı yerleştirilmiş arsaya dikkat edin . Şimdi, GLM'nin lojistik regresyonu durumunda, o kadar basit değil, çünkü Gauss modelinde olduğu gibi ek bir gürültü terimi yoktur ( buraya , buraya ve buraya bakınız)εi∼N(0,σ2)μi). Artıkların sıfır civarında "rastgele" olmasını istiyoruz ve içlerinde herhangi bir eğilim görmek istemiyoruz, çünkü modelde hesaba katılmayan bazı efektler olduğunu öne sürüyorlar, ancak bunların normal ve / veya iid . Ayrıca bkz . İstatistiksel öğrenme dizisinde iid varsayımının önemi hakkında .
Bir sidenote olarak, her bir aynı tür dağıtımdan geldiği varsayımını bile düşürebileceğimizi fark edin . Farklı varsayılmaktadır (non-GLM) modeli vardır Y i 'nin farklı parametreler, yani veri bir geldiğini farklı dağılımlar olabilir farklı dağılımların karışımı . Bu durumda biz de varsayılabilir Y i değerleridir bağımsız farklı parametrelere sahip farklı dağılımlar (yani tipik gerçek dünya verileri) gelen bağımlı değerler beri, çoğu durumda çok modeli (genellikle imkansızdır) karmaşık olacağı bir şeydir .YiYiYi