Büyük bir veri kümesiyle çalışıyorum (gizli, bu yüzden fazla paylaşamıyorum),
Değişken adları veya gerçek değerlerin hiçbiri olmadan, gerçek verilerin genel özelliklerinden bazılarına sahip küçük bir veri seti oluşturmak mümkün olabilir.
ve sonuçlandığında negatif bir binom regresyonun gerekli olacağı sonucuna varıldı. Daha önce hiç glm regresyonu yapmamıştım ve varsayımların ne olduğu hakkında net bir bilgi bulamıyorum. MLR için aynı mılar?
Açıkça değil! Yanıtın şartlı olarak normal değil, koşullu olarak negatif binom olduğunu varsaydığınızı zaten biliyorsunuz. ( Bazı varsayımlar paylaşılmaktadır. Örneğin, bağımsızlık.)
Önce GLM'ler hakkında konuşayım.
GLM'ler çoklu regresyon içerir ancak birkaç şekilde genelleştirilir:
1) cevabın koşullu dağılımı (bağımlı değişken), Poisson, binom, gama, normal ve sayısız başka dağılımları içeren üssel ailedendir .
2) ortalama cevap bir link fonksiyonu aracılığıyla tahmin edicilere (bağımsız değişkenler) ilişkindir . Dağılımların Her aile ilişkili sahiptir kurallı bağlantı fonksiyonu - Poisson durumunda örneğin, kanonik link günlüğü . Kurallı bağlantılar hemen hemen her zaman varsayılandır, ancak çoğu yazılımda her dağıtım seçiminde genellikle birkaç seçeneğiniz vardır. Binom için kanonik bağ logit'tir (doğrusal yordayıcı modellemesidir , başarının log oranları veya bir "1") ve Gamma için kanoniktir. link tersidir - ancak her iki durumda da diğer link işlevleri sıklıkla kullanılır.günlük( p1 - p)
Cevabınız olsaydı Yani ve prediktörlerdir ve size ortalama nasıl tanımını yaparken sahip olabilir günlük bağlantısını içeren bir Poisson regresyon ile, ile ilgilidir 'ler:YX1X2YX
E ( Y)ben) = μben
günlükμben= ηben ( 'doğrusal öngörücü' olarak adlandırılır ve burada link işlevi , sembolü genellikle bağlantı işlevini temsil etmek için kullanılır)ηgünlükg
ηben= β0+ β1x1 ben+ β2x2 ben
3) cevabın varyansı sabit değildir, ancak bir varyans fonksiyonu aracılığıyla çalışır (ortalamanın bir fonksiyonu, muhtemelen bir ölçekleme parametresinin katıdır). Örneğin, bir Poisson varyansı ortalamasına eşittir, bir gama için ise ortalamanın karesiyle orantılıdır . (Yarı dağılımlar, varyans fonksiyonunun bir dereceye kadar varsayılan dağılımdan ayrılmasına izin verir)
-
Öyleyse hangi varsayımlar MLR'den hatırladıklarınızla ortaktır?
Bağımsızlık hala orada.
Homoskedasticity artık kabul edilmez; varyans açıkça ortalamanın bir fonksiyonudur ve genel olarak tahmincilere göre değişir (bu nedenle model genellikle heteroskedastik iken, heteroskedastiklik belirli bir form alır).
Doğrusallık: Model parametrelerde hala doğrusaldır (yani doğrusal öngörücü ), ancak beklenen yanıt onlarla doğrusal olarak ilişkili değildir (kimlik bağlantı işlevini kullanmadığınız sürece!).Xβ
Cevabın dağılımı esasen daha geneldir
Çıktının yorumlanması birçok açıdan oldukça benzerdir; Örneğin, standart hatalarına bölünmüş tahmini katsayılara bakabilir ve bunları benzer şekilde yorumlayabilirsiniz (asimptotik olarak normaldirler - bir Wald z testi) - ama insanlar hala teorik bir teori bile olmasa bile, onlara t-oranları diyorlar. onları genel olarak dağıtılmış).t
İç içe modeller arasındaki karşılaştırmalar (“anova-table” benzeri kurulumlar aracılığıyla) biraz farklı, ancak benzer (asimptotik ki-kare testleri içeren). AIC ve BIC'de rahat ederseniz, bunlar hesaplanabilir.
Genellikle benzer teşhis ekranları kullanılır, ancak yorumlanması zor olabilir.
Farklılıkları aklınızda tutarsanız, çoklu doğrusal regresyon sezgilerinizin çoğu devam edecektir.
İşte normal regresyonda yapamayacağınız bir glm ile yapabileceğiniz bir şeye bir örnek: (aslında çoğu insan bunun için doğrusal olmayan regresyon kullanır, ancak GLM normal durumda daha kolay ve daha güzeldir) - normal , bir işlevi olarak modellenmiştir :Yx
E ( Y)) = exp( η) = exp( Xβ) = exp( β0+ β1x ) (yani, bir günlük bağlantısı)
Var ( Y) = σ2
Yani, en küçük kareler ve arasındaki üstel bir ilişkiye uyuyor .xYx
Değişkenleri aynı şekilde dönüştürebilir miyim (Zaten doğal bir sayı olması gerektiğinden bağımlı değişkeni dönüştürmenin kötü bir çağrı olduğunu keşfettim)?
Siz (genellikle) yanıtı dönüştürmek istemezsiniz (DV). Bazen olabilir lineer öngörücü doğrusallığını ulaşmak için yordayıcılarını (IV enzimlerini) dönüştürmek istiyor.
Negatif binom dağılımının verilerimdeki aşırı dağılmaya yardımcı olacağını zaten belirledim (varyans 2000 civarında, ortalama 48).
Evet, aşırı dağılma ile başa çıkabilir. Ancak koşullu dağılımın koşulsuz dağılım ile karıştırılmamasına özen gösterin.
Başka bir ortak yaklaşım - aklıma biraz daha ağır ve biraz daha az aklıma tatmin edici ise - yarı-Poisson gerilemesi (fazla dağılmış Poisson gerilimi).
Negatif binom ile, parametrelerinden belirli bir tanesini belirtirseniz (üstel ailede, en azından GLMS için genellikle reparametre edildiği şekilde). Parametreyi belirtirseniz bazı paketler sığacak, bazıları ise bu parametreye ilişkin ML tahminini (profil olasılığı ile söyleyebilecek) bir GLM rutininin etrafına saracak ve işlemi otomatikleştirecektir. Bazıları sizi daha küçük bir dağıtım kümesiyle sınırlar; Hangi yazılımı kullanabileceğinizi söylemediğiniz için orada daha fazla şey söylemek zor.
Genelde log-link'in negatif binom regresyon ile kullanılma eğiliminde olduğunu düşünüyorum.
Bazı temel Poisson GLM'leri ve daha sonra negatif binom GLM verilerini analiz eden, bazı temel Poisson GLM'leri içeren bir başlangıç düzeyi belgeleri vardır (ancak google üzerinden kolayca bulunur), ancak önce GLM'lerle ilgili bir kitaba bakmayı ve belki de önce biraz Poisson regresyonu yapmayı tercih edebilirsiniz. Sadece buna alışmak için.