GLM ailesi cevap değişkeninin veya artıkların dağılımını temsil eder mi?


13

Bunun hakkında birkaç laboratuvar üyesi ile tartışıyordum ve birkaç kaynağa gittik, ancak yine de tam olarak cevabımız yok:

Bir GLM'nin bir poisson ailesine sahip olduğunu söylediğimizde, diyelim ki artıkların dağılımı veya cevap değişkeni hakkında mı konuşalım?

Çekişme noktaları

  1. Okuma bu o GLM varsayımlar gözlemlerin istatistiksel bağımsızlık, olduğunu bildiren makale bağlantı ve varyans fonksiyonunun doğru şartname tepki değişkeni için, ölçüm doğru ölçeği (me artıkların değil tepki değişken hakkında düşündürüyor) ve tek noktaların gereksiz etkisinin olmaması

  2. Bu sorunun her biri iki noktadan oluşan iki cevabı var, ilk ortaya çıkan artıklar hakkında konuşuyor ve ikincisi yanıt değişkeni hakkında, öyle mi?

  3. Bu blog yazısında , varsayımlar hakkında konuşurken, " Artıkların dağılımı diğer olabilir, örneğin binom "

  4. Bu bölümün başında hataların yapısının Poisson olması gerektiğini söylüyorlar, ancak artıklar mutlaka pozitif ve negatif değerlere sahip olacaklar, bu nasıl Poisson olabilir?

  5. Bu gibi sorularda sıklıkla tekrarlanan sorulara değinilen bu sorunun kabul edilmiş bir cevabı yoktur.

  6. Bu soru cevaplar artıklardan değil yanıttan bahsediyor

  7. Gelen bu Pensilvania Üniversitesi'nden ders açıklamalar bunlar varsayımlar değil kalıntılar yanıt değişkeni hakkında konuşmak

Yanıtlar:


18

Aile glm modeller için argüman için dağıtım ailesini belirleyen tepkinin koşullu dağılımı değil artıkların (haricinde, yarı -Modelleri).

Şu şekilde bakın: Her zamanki doğrusal regresyon için, modeli

Yben~Normal(β0+xbenTβ,σ2).
olarak yazabiliriz . Bu, yanıtının normal bir dağılıma (sabit varyansla) sahip olduğu, ancak her için beklentinin farklı olduğu anlamına gelir . Bu nedenle, yanıtın koşullu dağılımı normal bir dağılımdır (ancak her için farklıdır ). Bu modeli yazmanın başka bir yolu, her bir dağıtıldığıYbenbenben
Yben=β0+xbenTβ+εben
εbenNormal(0,σ2) .

Dolayısıyla normal dağıtım ailesi için her iki tanım da doğrudur (doğru yorumlandığında). Bunun nedeni, normal doğrusal model için, sistematik bölümün modelinde ( ) ve basitçe eklenen rahatsızlık kısmında ( ) temiz bir . Ancak diğer aile işlevleri için bu ayrılık mümkün değildir ! Artıklığın ne anlama geldiğine dair net bir tanım bile yoktur (ve bu nedenle "artık" nın birçok farklı tanımı).β0+xbenTβεben

Yani diğer tüm aileler için, yukarıda gösterilen ilk denklem tarzında bir tanım kullanıyoruz. Yani, yanıtın koşullu dağılımı. Yani, hayır, Poisson regresyonundaki kalıntıların (ne tanımlanırsa tanımlansın) bir Poisson dağılımı yoktur.


13

Kjetil'in mükemmel cevabına ek olarak, anlaşılması zor bir kavram olabilecek koşullu bir dağılımın anlamını açıklığa kavuşturmak için bazı spesifik örnekler eklemek istedim .

Diyelim ki bir gölden 100 balık rastgele bir örnek aldınız ve balık yaşının çeşitli sonuç değişkenlerini nasıl etkilediğini görmek istiyorsunuz:

  1. Balık ağırlığı (Ağırlık);
  2. Balıkların 30 cm'den uzun olup olmadığı;
  3. Balık pullarının sayısı.

İlk sonuç değişkeni süreklidir, ikincisi ikiliktir (0 = balık 30 cm'den uzun DEĞİL; 1 = balık 30 cm'den uzun) ve üçüncüsü bir sayı değişkendir.

Basit Doğrusal Regresyon

Yaş Ağırlığı nasıl etkiler? Formun basit bir doğrusal regresyon modelini formüle edeceksiniz:

Ağırlık=β0+β1*Yaş+ε

εσβ0+β1*Yaş

Basit İkili Lojistik Regresyon

Yaş, balığın 30 cm'den uzun olup olmadığını nasıl etkiler? Formun basit bir ikili lojistik regresyon modelini formüle edeceksiniz:

lÖg(p1-p)=β0+β1*Yaş

pβ0+β1*Yaşpp*(1-p)

Basit Poisson Regresyonu

Yaş balık pulu sayısını nasıl etkiler? Formun basit bir Poisson regresyon modelini formüle edeceksiniz:

lÖg(μ)=β0+β1*Yaş

μβ0+β1*Yaş

Özetle, koşullu dağılım, modele dahil edilen öngörücü değişken (ler) in belirli değerleri için sonuç değerlerinin dağılımını temsil eder . Yukarıda gösterilen her bir regresyon modeli, Yaş verilen sonuç değişkeninin koşullu dağılımı hakkında belirli dağılımsal varsayımlar getirir. Bu dağılımsal varsayımlara dayanarak, model, (1) koşullu dağılımın ortalamasının yaşın bir fonksiyonu olarak nasıl değiştiğini (basit doğrusal regresyon), (2) koşullu dağılımın logit dönüşümlü ortalamasının bir fonksiyonu olarak nasıl değiştiğini formüle etmeye devam eder. yaş (basit ikili lojistik regresyon) veya (3) koşullu dağılımın log dönüşümlü ortalaması, yaşın bir fonksiyonu olarak değişir.

Her bir model türü için, model kontrolü amacıyla ilgili kalıntılar tanımlanabilir. Özellikle Pearson ve sapma kalıntıları lojistik ve Poisson regresyon modelleri için tanımlanabilir.


2
MÜKEMMEL cevaplar. İkinize de teşekkürler. "Gerçek" artıkların, normal dağıtım durumunda olduğu gibi genel GLM çerçevesinde hiçbir zaman gerçekten açık olmadığını asla fark etmedim.
mlofton

1
@mlofton: Nazik sözlerin için teşekkür ederim. Mükemmel bir soru mükemmel cevapları davet etti. Hepimiz bu bilgi alışverişinden faydalanıyoruz.
Isabella Ghement

4
GLM'leri uzun süre kullandım (10 yıl önce bir veya iki yıl boyunca) ve bu her zaman karışıklığımdı, ancak bu kadar net bir şekilde sorulana ve açık bir şekilde açıklanana kadar bunun karışıklığım olduğunu bilmiyordum. Bu yüzden bazen kafa karışıklığı, doğru soruyu bile sormamak anlamına gelir. Tekrar teşekkürler.
mlofton

1
Kesinlikle haklısın! Karışıklık öğrenmenin bir parçasıdır - bir süre bir şeyle mücadele ettiğimizde, aniden açık bir açıklama üzerine tökezlediğimizde onu daha iyi anlamaya hazırız.
Isabella Ghement

1
Benim zevk ve mükemmel cevap için teşekkür @IsabellaGhement
Patrick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.