Genelleştirilmiş doğrusal modelin varsayımları


14

Tek bir cevap değişkeni (sürekli / normal olarak dağılmış) ve 4 açıklayıcı değişkeni (3'ü faktör, dördüncüsü bir tamsayı) olan genelleştirilmiş doğrusal bir model yaptım. Kimlik bağlantısı işleviyle Gauss hata dağıtımı kullandım. Şu anda modelin genelleştirilmiş doğrusal modelin varsayımlarını karşıladığını kontrol ediyorum:

  1. Y'nin bağımsızlığı
  2. doğru bağlantı fonksiyonu
  3. Açıklayıcı değişkenlerin doğru ölçüm ölçeği
  4. etkili gözlem yok

Sorum şu: Modelin bu varsayımları karşılayıp karşılamadığını nasıl kontrol edebilirim? En iyi başlangıç ​​noktası, yanıt değişkenini her açıklayıcı değişkene göre çiziyor gibi görünmektedir. Ancak, açıklayıcı değişkenlerin 3'ü kategoriktir (1-4 seviyeli), bu yüzden parsellerde ne aramalıyım?

Ayrıca, açıklayıcı değişkenler arasında çoklu doğrusallık ve etkileşimleri kontrol etmem gerekir mi? Evet ise, bunu kategorik açıklayıcı değişkenlerle nasıl yapabilirim?

Yanıtlar:


20

Bence bunu genelleştirilmiş doğrusal bir model olarak düşünmeye çalışmak aşırıya kaçıyor. Elinizde eski bir regresyon modeli var. Daha spesifik olarak, bazı kategorik açıklayıcı değişkenleriniz ve sürekli bir EV'niz olduğundan, bunlar arasında etkileşim olmadığından, buna klasik ANCOVA da denebilir.

# 3'ün burada endişelenmeniz gereken bir varsayım olmadığını söyleyebilirim. Ayrıca, bu konuda # 2 için gerçekten endişelenmenize gerek yok. Bunun yerine, bunları iki farklı varsayımla değiştirirdim:

2' . Varyansın homojenliği
3 '. Kalıntıların normalliği

Dahası, # 4 kontrol etmek için önemli bir şey, ama bunu gerçekten bir varsayım olarak düşünmüyorum . Varsayımların nasıl kontrol edilebileceğini düşünelim.

Bağımsızlık genellikle ilk olarak verinin neyi temsil ettiğini ve nasıl toplandığını düşünerek 'kontrol edilir' . Buna ek olarak, bir run testi , Durbin-Watson testi veya otokorelasyon paternini inceleyerek kontrol edilebilir - kısmi otokorelasyonlara da bakabilirsiniz . (Bunların yalnızca sürekli ortak değişkeninize göre değerlendirilebileceğini unutmayın.)

Öncelikle kategorik açıklayıcı değişkenlerle, faktörlerinizin her seviyesindeki varyans hesaplanarak varyans homojenliği kontrol edilebilir. Bunları hesapladıktan sonra, öncelikle Levene testi değil , aynı zamanda Brown-Forsyth testi gibi , aynı olup olmadıklarını kontrol etmek için kullanılan birkaç test vardır . da Hartley testi denilen bir test, bir değil önerilir; bunun hakkında biraz daha bilgi almak isterseniz burada tartışıyorumFmax. (Bu testlerin yukarıdaki gibi kategorik ortak değişkenlerinize uygulanabileceğini unutmayın.) Sürekli bir EV için, artıklarımı sürekli ortak değişkene karşı çizmek ve bir tarafa mı yoksa diğer tarafa mı yayıldıklarını görmek için görsel olarak incelemek istiyorum.

Artıkların normalliği gibi bazı testler aracılığıyla değerlendirilebilir Shapiro-Wilk veya Kolmogorov-Smirnov testler , ama çoğu zaman iyi bir yolu ile görsel olarak değerlendirilir qq-arsa . (Bu varsayımın genellikle kümenin en az önemli olduğunu unutmayın ; karşılanmazsa, beta tahminleriniz yine de tarafsız olacaktır , ancak p-değerleriniz yanlış olacaktır.)

Bireysel gözlemlerinizin etkisini değerlendirmenin birkaç yolu vardır . Bunu indeksleyen sayısal değerler elde etmek mümkündür, ancak en sevdiğim yol, eğer yapabilirseniz, verilerinizi jackknife etmektir. Yani, her veri noktasını sırayla bırakır ve modelinize yeniden sığarsınız. Ardından, bu gözlem veri kümenizin bir parçası değilse, betalarınızın ne kadar zıpladığını inceleyebilirsiniz. Bu ölçüye dfbeta denir . Bu biraz programlama gerektirir, ancak yazılımın sizin için otomatik olarak hesaplayabileceği standart yollar vardır. Bunlar kaldıraç ve Cook mesafesini içerir .

Sorunuzu başlangıçta belirtildiği gibi ele alırsak, bağlantı fonksiyonları ve genelleştirilmiş doğrusal model hakkında daha fazla bilgi edinmek istiyorsanız, bunu burada oldukça kapsamlı bir şekilde tartıştım . Temel olarak, uygun bir bağlantı işlevi seçmek için dikkate alınması gereken en önemli şey, yanıt dağılımınızın doğasıdır; Gauss olduğunu düşündüğünüz için kimlik bağlantısı uygundur ve bu durumu regresyon modelleri hakkında standart fikirler kullanarak düşünebilirsiniz. Y

"Açıklayıcı değişkenlerin doğru ölçüm ölçeği" ile ilgili olarak, sizi Steven'ın ölçüm düzeylerine (yani kategorik, sıralı, aralık ve oran) değinmeye yönlendiriyorum. Gerçekleştirilecek ilk şey, regresyon yöntemlerinin (GLiM'ler dahil) açıklayıcı değişkenler hakkında varsayımlar yapmaması , bunun yerine açıklayıcı değişkenlerinizi modelinizde kullanma şekliniz onlar hakkındaki inançlarınızı yansıtmasıdır . Dahası, Steven'ın seviyelerinin fazla abartıldığını düşünüyorum; bu konunun daha teorik bir tedavisi için buraya bakınız .


1
Op bir bağlantı fonksiyonu içerdiğinden, gerçekten Y'ye bir bağlantı fonksiyonunun uygulandığı genelleştirilmiş doğrusal bir model anlamına geldiğini düşünüyorum. Ayrıca Y'nin bağımsızlığını bir varsayım olarak adlandırırdım. Bence varsayım, modeldeki hata bileşenlerinin bağımsız olduğu yönündedir. Gung'un yazdıklarının geri kalanının doğru olduğunu düşünüyorum.
Michael R. Chernick

@MichaelChernick, sana katılıyorum. Bu sorunları ele almak için cevabımı biraz düzenledim. Hala daha fazla çalışmaya ihtiyacı olduğunu düşünüyorsanız bana bildirin.
gung - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.