Bence bunu genelleştirilmiş doğrusal bir model olarak düşünmeye çalışmak aşırıya kaçıyor. Elinizde eski bir regresyon modeli var. Daha spesifik olarak, bazı kategorik açıklayıcı değişkenleriniz ve sürekli bir EV'niz olduğundan, bunlar arasında etkileşim olmadığından, buna klasik ANCOVA da denebilir.
# 3'ün burada endişelenmeniz gereken bir varsayım olmadığını söyleyebilirim. Ayrıca, bu konuda # 2 için gerçekten endişelenmenize gerek yok. Bunun yerine, bunları iki farklı varsayımla değiştirirdim:
2' . Varyansın homojenliği
3 '. Kalıntıların normalliği
Dahası, # 4 kontrol etmek için önemli bir şey, ama bunu gerçekten bir varsayım olarak düşünmüyorum . Varsayımların nasıl kontrol edilebileceğini düşünelim.
Bağımsızlık genellikle ilk olarak verinin neyi temsil ettiğini ve nasıl toplandığını düşünerek 'kontrol edilir' . Buna ek olarak, bir run testi , Durbin-Watson testi veya otokorelasyon paternini inceleyerek kontrol edilebilir - kısmi otokorelasyonlara da bakabilirsiniz . (Bunların yalnızca sürekli ortak değişkeninize göre değerlendirilebileceğini unutmayın.)
Öncelikle kategorik açıklayıcı değişkenlerle, faktörlerinizin her seviyesindeki varyans hesaplanarak varyans homojenliği kontrol edilebilir. Bunları hesapladıktan sonra, öncelikle Levene testi değil , aynı zamanda Brown-Forsyth testi gibi , aynı olup olmadıklarını kontrol etmek için kullanılan birkaç test vardır . da Hartley testi denilen bir test, bir değil önerilir; bunun hakkında biraz daha bilgi almak isterseniz burada tartışıyorumFmax. (Bu testlerin yukarıdaki gibi kategorik ortak değişkenlerinize uygulanabileceğini unutmayın.) Sürekli bir EV için, artıklarımı sürekli ortak değişkene karşı çizmek ve bir tarafa mı yoksa diğer tarafa mı yayıldıklarını görmek için görsel olarak incelemek istiyorum.
Artıkların normalliği gibi bazı testler aracılığıyla değerlendirilebilir Shapiro-Wilk veya Kolmogorov-Smirnov testler , ama çoğu zaman iyi bir yolu ile görsel olarak değerlendirilir qq-arsa . (Bu varsayımın genellikle kümenin en az önemli olduğunu unutmayın ; karşılanmazsa, beta tahminleriniz yine de tarafsız olacaktır , ancak p-değerleriniz yanlış olacaktır.)
Bireysel gözlemlerinizin etkisini değerlendirmenin birkaç yolu vardır . Bunu indeksleyen sayısal değerler elde etmek mümkündür, ancak en sevdiğim yol, eğer yapabilirseniz, verilerinizi jackknife etmektir. Yani, her veri noktasını sırayla bırakır ve modelinize yeniden sığarsınız. Ardından, bu gözlem veri kümenizin bir parçası değilse, betalarınızın ne kadar zıpladığını inceleyebilirsiniz. Bu ölçüye dfbeta denir . Bu biraz programlama gerektirir, ancak yazılımın sizin için otomatik olarak hesaplayabileceği standart yollar vardır. Bunlar kaldıraç ve Cook mesafesini içerir .
Sorunuzu başlangıçta belirtildiği gibi ele alırsak, bağlantı fonksiyonları ve genelleştirilmiş doğrusal model hakkında daha fazla bilgi edinmek istiyorsanız, bunu burada oldukça kapsamlı bir şekilde tartıştım . Temel olarak, uygun bir bağlantı işlevi seçmek için dikkate alınması gereken en önemli şey, yanıt dağılımınızın doğasıdır; Gauss olduğunu düşündüğünüz için kimlik bağlantısı uygundur ve bu durumu regresyon modelleri hakkında standart fikirler kullanarak düşünebilirsiniz. Y
"Açıklayıcı değişkenlerin doğru ölçüm ölçeği" ile ilgili olarak, sizi Steven'ın ölçüm düzeylerine (yani kategorik, sıralı, aralık ve oran) değinmeye yönlendiriyorum. Gerçekleştirilecek ilk şey, regresyon yöntemlerinin (GLiM'ler dahil) açıklayıcı değişkenler hakkında varsayımlar yapmaması , bunun yerine açıklayıcı değişkenlerinizi modelinizde kullanma şekliniz onlar hakkındaki inançlarınızı yansıtmasıdır . Dahası, Steven'ın seviyelerinin fazla abartıldığını düşünüyorum; bu konunun daha teorik bir tedavisi için buraya bakınız .