Hangi glm ailesinin kullanılacağına nasıl karar verilir?


17

Birkaç farklı toplama teknikleri arasında karşılaştırmaya çalıştığım balık yoğunluğu verileri var, veriler çok sayıda sıfır var ve histogram yoğunlukları tamsayı olmadığı dışında bir poisson dağılımı için uygun vaugley görünüyor. GLM'ler için nispeten yeniyim ve son birkaç günü hangi dağıtımın kullanılacağını nasıl anlayacağımı öğrenmek için çevrimiçi olarak geçirdim, ancak bu kararı vermeye yardımcı olan kaynakları bulmada tamamen başarısız oldum. Verilerin örnek bir histogramı şuna benzer:Örnek Histogram

GLM için kullanılacak uygun aileye nasıl karar vereceğimi bilmiyorum. Herkes herhangi bir tavsiye var ya da bana kontrol etmeliyim bir kaynak verebilir, bu harika olurdu.


1
"Balık yoğunluğu" tam olarak nedir? Gölün birim hacmi başına bir miktar balık midir?
gung - Monica'yı

Birim alandaki balık sayısıdır (bu durumda metrekare). Görsel anket araçlarını kullandık, bu yüzden gözlemlenen balık sayısının araç tarafından incelenen alana bölünmesiyle hesaplandı. Araçlar arasında standartlaştırmak için yoğunluk kullanmak zorunda kaldık çünkü çok farklı miktarlarda alan araştırıyorlar, aksi takdirde sayım verilerini kullanabilir ve bir poisson dağılımına bağlı kalabilirdim.
C. Denney

7
Benim tavsiyem - sayım verilerine geri dön ve bir günlük bağlantısı olan bir modelde ofset olarak "alanı" kullan --- ama Poisson'un çok iyi uyduğunu bilmiyorum (tahmin etmek biraz zor histogramınız GLM'nin modelleyeceği koşullu dağılımlar yerine sadece marjinal dağılımı gösteriyor ... ve her durumda çok fazla kullanım için çok az sayıda bölme var). Poisson yeterince ağır değilse / 0-
ish'de yeterince yükselmiyorsa

Poisson modelini her gün her gün yapıyorum ve Glen_b'in yorumu kanonik cevap.
Paul

2
Bir ek - Poisson modelleme, gözlem birimleri (bu durumda, bireysel balıkları saydığınızı tahmin ediyorum?) Rasgele mayınlı kum taneleri gibi gözlem alanı boyunca bağımsız olarak dağıtıldığında teorik olarak iyi bir şekilde haklıdır. Bu varsayım altında yoğunlukta bir miktar değişiklik olabilir, ancak bir balığın konumu diğer balıkların konumları hakkında hiçbir şey ifade etmez. Ancak uyarılmalıdır ki bu varsayım pratikte ihlal edilebilir çünkü balıklar örneğin okullara kümelenir ve pozisyonları artık bağımsız değildir.
Paul

Yanıtlar:


8

GLM familyaları, ortalama-varyans ilişkisinin yanı sıra bir bağlantı fonksiyonu da içerir. Poisson GLM'ler için, link fonksiyonu bir log ve ortalama varyans ilişkisi kimliktir. Çoğu istatistiksel yazılımın size verdiği uyarılara rağmen, iki değişken arasındaki ilişkinin log ölçeğinde doğrusal olduğu ve varyansın ortalamaya göre arttığı sürekli verilerdeki bir ilişkiyi modellemek tamamen mantıklıdır.

Bu, esasen, bir GLM'de bağlantı ve varyans fonksiyonunun seçilmesinin mantığıdır. Tabii ki, bu sürecin arkasında birkaç varsayım var. Quasilikelihood (bkz. ?quasipoisson) Veya sağlam standart hataları (bkz. Pakete sandwichveya gee) kullanarak daha sağlam bir model oluşturabilirsiniz .

Verilerinizde birçok yoğunluğun 0 olduğunu doğru bir şekilde kaydettiniz. Poisson olasılık modelleri altında, verilerde zaman zaman 0'ları örneklemek uygundur, bu nedenle bu gözlemlerin oran tahminlerinizde yanlılığa yol açması şart değildir.

GLM'lerin arkasındaki varsayımları incelemek için Pearson kalıntılarına bakmak genellikle yararlıdır. Bunlar ortalama varyans ilişkisini açıklar ve istatistikçilere bu 0'lar gibi belirli gözlemlerin tahmin ve sonuçları korkunç bir şekilde etkileyip etkilemediğini gösterir.


22

Genelleştirilmiş doğrusal model doğrusal öngörücü olarak tanımlanır

η=Xβ

g

g(E(Y|X))=η

YX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

böylece model olasılıkla şu şekilde tanımlanabilir:

Y|Xf(μ,σ2)

ffYYXYX

Diğer bir yandan, pratikte, öngörülü bir model oluşturmakla ilgileniyorsanız, birkaç farklı dağılımı test etmekle ilgilenebilirsiniz ve sonunda, bunlardan birinin size olmasa bile, birinden daha doğru sonuçlar verdiğini öğrenin teorik değerlendirmeler açısından en uygun olanıdır (örneğin teoride Poisson kullanmalısınız, ancak pratikte standart doğrusal regresyon verileriniz için en iyi sonucu verir).


2

Bu biraz geniş bir soru, nasıl modelleme yapacağınızı soruyorsunuz ve buna adanmış tüm kitaplar var. Örneğin, sayım verileriyle uğraşırken aşağıdakileri göz önünde bulundurun:

Bir dağıtım seçmeye ek olarak, bir bağlantı işlevi seçmeniz gerekir. Sayım verileri ile poisson veya negatif binom dağılımı ve log link fonksiyonunu deneyebilirsiniz. Günlük bağlantısının bir nedeni burada verilmiştir: Uyum iyiliği ve doğrusal regresyon veya Poisson'u seçmek için hangi model? Yamalarınız çok farklı alanlara sahipse, belki de alanın logaritmasını birim alan başına sayıları modellemek ve mutlak değil modellemeniz gerekir. sayar. Sayım verileri Regresyondaki ofset bir açığa çıkartma için, bkz bir Poisson regresyon içinde ofset bir zaman kullanılmalı?

EDIT 

Bu cevap ilk olarak bu soru ile birleştirilen başka bir soruya gönderildi. Cevap genel olmakla birlikte, artık söz konusu olmayan bir veri kümesinin ve sorunun ayrıntılarını yorumladı. Orijinal soru aşağıdaki bağlantıda bulunabilir: GLM'de aile - doğru olanı nasıl seçersiniz?


Soruları birleştiremeyiz, @kjetil, sadece geliştiriciler bunu yapabilir (ve gerçekten sevmezler). Yine de orijinal Q'ya erişebiliyorum. 1 olasılık, yeni bir Q (içeriği benim tarafımdan yazılır) içine kopyalamak olabilir, bu A yeni iş parçacığına kopyalayabilirsiniz, ve sonra bu iş parçacığı bunun bir kopyası olarak kapatabilirsiniz. Bunun çılgın bir fikir olup olmadığını veya zahmete değip değmeyeceğini söylemek zor, ama yapabileceğim bu. Bir tercihin varmı?
gung - Monica'yı eski durumuna döndürün

@gung: Bunu yapabilirsin ya da bu sorudaki bilgiyi buradaki cevaba kopyalayabilirim. Belki de en iyisi budur? (Düzenleme geçmişinden göründüğünü düzenleyebilirim)
kjetil b halvorsen

1
@kjetilbhalvorsen her şeyden önce, neredeyse aynı gibi görünüyordu ve her ikisi de iyi cevaplar içeriyor gibi konuları birleştirmek benim fikrim olduğu için berbat için üzgünüm. İlk izlenimim, ipliklerin birleştirilmesinin hiçbir zararı olmayacağıydı. Belki de ikinci paragrafınıza "Örneğin, sayım verileriyle uğraşırken ..." ekleyebilirsiniz. Cevabınız genel "Aile nasıl seçilir?" soru, belki de genel iş parçacığında bırakmaya değer mi?
Tim

1
@Tim Dediğin gibi düzenleyeceğim!
kjetil b halvorsen

Düzenlemeyi deneyelim. Q'yu tekrar göndermemi istiyorsan, bana tekrar ping at. Şimdi bayrağı kapatacağım.
gung - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.