Bağımlı değişkenimi dönüştürdüğümde log tuttum, LOG link fonksiyonu ile GLM normal dağılımını kullanabilir miyim?


10

Genelleştirilmiş Doğrusal Modeller (GLM) ile ilgili bir sorum var. Bağımlı değişkenim (DV) sürekli ve normal değil. Bu yüzden log dönüştürdüm (hala normal değil ama geliştirdim).

DV'yi iki kategorik değişken ve bir sürekli değişkenle ilişkilendirmek istiyorum. Bunun için bir GLM yapmak istiyorum (SPSS kullanıyorum), ancak dağıtım ve seçim işlevine nasıl karar vereceğinden emin değilim.

Levene'nin parametrik olmayan testini yaptım ve varyansların homojenliğine sahibim, bu yüzden normal dağılımı kullanmaya meyilliyim. Doğrusal regresyon için verilerin normal olması gerekmediğini, artıkların da okuduğunu okudum. Bu nedenle, her bir GLM'den tek tek standartlaştırılmış Pearson kalıntıları ve öngörülen değerleri yazdırdım (GLM normal kimlik fonksiyonu ve normal log fonksiyonu). Normallik testleri (histogram ve Shapiro-Wilk) yaptım ve kalıntıları, her ikisi için ayrı ayrı öngörülen değerlere (rasgelelik ve varyans kontrolü için) karşı çizdim. Kimlik işlevinden kalanlar normal değildir, ancak günlük işlevinden kalanlar normaldir. Pearson kalıntıları normal olarak dağıtıldığı için log link fonksiyonu ile normal seçmeye meyilliyim.

Yani sorularım:

  • Zaten günlük dönüştürülmüş bir DV'de LOG bağlantı işlevi ile GLM normal dağıtımını kullanabilir miyim?
  • Varyans homojenliği testi normal dağılım kullanılarak gerekçelendirmek için yeterli mi?
  • Kalan kontrol prosedürü, link fonksiyon modelini seçmeyi haklı göstermek için doğru mu?

Soldaki DV dağılımının ve sağdaki log link fonksiyonu ile GLM normalindeki artıkların görüntüsü.

Solda DV dağılımı ve GLM'den kalanlar sağda normal


Bununla ne demek istediğiniz pek net değil: " Yani,
GLM'den

Yorumun için teşekkür ederim. Her bir GLM'den (kimlik ve log) kalıntıları ve öngörülen değerleri ayrı ayrı yazdırdım ve normallik açısından kontrol ettim ve her model için ayrı ayrı öngörülen değerlere karşı standart Pearson kalıntılarını çizdim. Kimlik fonksiyonu için artıklar normal değildir, log fonksiyonu için artıklar normaldir.
Bilim Adamı

Öngörülen değerlere göre standartlaştırılmış Pearson kalıntılarının bir grafiği, verilerin gerçekten normal olup olmadığını nasıl gösterir?
Glen_b-Monica

Kalıntıların histogramını çizerek ve Shapiro-Wilk (log fonksiyonu için P> 0.05) yaparak normalliği kontrol ettim. Sonra, rasgele dağıtılmış olup olmadıklarını görmek ve varyansı kontrol etmek için kalıntıları öngörülen değerlere göre çizdim. (önemli bilgileri söylemediğim için özür dilerim, ilk kez gönderiyorum)
Scientist

Sanırım "kimlik fonksiyonu" burada "yoğunluk fonksiyonu" için bir homophone kaymasıdır.
Nick Cox

Yanıtlar:


7

Zaten günlük dönüştürülmüş bir DV'de LOG bağlantı işlevi ile GLM normal dağıtımını kullanabilir miyim?

Evet; varsayımlar bu ölçekte tatmin edildiyse

Varyans homojenliği testi normal dağılım kullanılarak gerekçelendirmek için yeterli mi?

Neden varyans eşitliği normallik anlamına gelir?

Kalan kontrol prosedürü, link fonksiyon modelini seçmeyi haklı göstermek için doğru mu?

Varsayımlarınızın uygunluğunu kontrol etmek için hem histogramları hem de uyum iyiliği testlerini kullanmaya dikkat etmelisiniz:

1) Normalliği değerlendirmek için histogramı kullanmaya dikkat edin . (Ayrıca buraya bakın )

Kısacası, binwidth seçiminizde küçük bir değişiklik kadar basit bir şeye, hatta sadece bin sınırının bulunduğu yere bağlı olarak, verilerin şeklinin oldukça farklı izlenimlerini elde etmek mümkündür:

Kalıntıların iki histogramı

Aynı veri kümesinin iki histogramı. İzlenimin buna duyarlı olup olmadığını görmek için birkaç farklı binwidth kullanmak yararlı olabilir.

2) Normallik varsayımının makul olduğu sonucuna varmak için uyum iyiliği testlerini kullanmaya dikkat edin. Biçimsel hipotez testleri gerçekten doğru soruyu cevaplamaz.

örneğin, 2. madde altındaki bağlantılara bakın . burada

Varyans hakkında, benzer veri kümeleri kullanan bazı makalelerde bahsedildi "çünkü dağılımlar homojen varyanslara sahipti, çünkü Gauss dağılımına sahip bir GLM kullanıldı." Bu doğru değilse, dağıtımı nasıl doğrulayabilir veya karar verebilirim?

Normal koşullarda, soru 'hatalarım (veya koşullu dağılımlar) normal mi?' - olmayacaklar, kontrol etmemiz bile gerekmiyor. Daha alakalı bir soru 'mevcut olan normal olmayanlık derecesi çıkarımlarımı ne kadar kötü etkiliyor?'

Bir çekirdek yoğunluğu tahmini veya normal QQplot (kalıntıların grafiği ve normal skorlar) öneririm. Dağılım makul derecede normal görünüyorsa, endişelenecek çok az şeyiniz var. Aslında, açıkça normal olmadığında bile , ne yapmak istediğinize bağlı olarak hala çok önemli olmayabilir (normal tahmin aralıkları gerçekten normalliğe dayanır, ancak diğer birçok şey büyük örnek boyutlarında çalışma eğiliminde olacaktır )

Büyük örneklerde, normallik genellikle daha az ve daha az önemli hale gelir (yukarıda belirtildiği gibi PI'lerin dışında), ancak normalliği reddetme yeteneğiniz gittikçe artar.

Düzenleme: Varyans eşitliği nokta gerçekten olmasıdır olabilir hatta büyük bir örneklem boyutlarında, senin çıkarımlar etkileyebilir. Ama muhtemelen bunu hipotez testleriyle de değerlendirmemelisiniz. Varyans varsayımını yanlış yapmak, varsayılan dağıtımınız ne olursa olsun bir sorundur.

İyi uyum için model için ölçekli sapmanın Np civarında olması gerektiğini okudum değil mi?

Normal bir model taktığınızda bir ölçek parametresi vardır, bu durumda dağılımınız normal olmasa bile ölçek sapması Np hakkında olacaktır.

sizce log link ile normal dağılım iyi bir seçimdir

Neyi ölçtüğünüzü veya neyin çıkarımını kullandığınızı bilmenin devam etmesine rağmen, GLM için başka bir dağıtım önerip önermediğinizi veya çıkarımlarınız için ne kadar önemli olabileceğini yargılayamıyorum.

Bununla birlikte, diğer varsayımlarınız da makulse (doğrusallık ve varyans eşitliği en azından kontrol edilmeli ve potansiyel bağımlılık kaynakları göz önünde bulundurulmalıdır), çoğu durumda CI'leri kullanmak ve katsayılar veya kontrastlar üzerinde testler yapmak gibi şeyler yapmaktan çok rahat olurum - bu kalıntılarda, gerçek bir etki olsa bile, bu tür çıkarımlar üzerinde önemli bir etkisi olmaması gereken çok az bir çarpıklık izlenimi vardır.

Kısacası, iyi olmalısın.

(Başka bir dağıtım ve bağlantı fonksiyonu iken olabilir onlar da daha mantıklı edebilecekleri tek kısıtlı koşullarda, uyum açısından daha iyi bir az şey yapın.)


Tekrar teşekkürler! Varyans hakkında, benzer veri kümeleri kullanan bazı makalelerde bahsedildi "çünkü dağılımlar homojen varyanslara sahipti, çünkü Gauss dağılımına sahip bir GLM kullanıldı." Bu doğru değilse, dağıtımı nasıl doğrulayabilir veya karar verebilirim? Kalan normal dağılım ile ilgili olarak, bunun daha uygun olduğu anlamına gelir değil mi? İyi uyum için model için ölçekli sapmanın Np civarında olması gerektiğini okudum değil mi? Değer hem GLM'ler hem de Np civarında aynıdır. AIC kriterlerini kullanarak modeldeki en uygun modeli de belirledim. Ne demek istediğinden emin değilim.
Bilim Adamı

yukarıdaki düzenlemelerimdeki tartışmaya bakın
Glen_b -Restate Monica

Güzel açıklama için @ @ Glen_b teşekkürler. Shapiro-Wilk kullanarak da test ettiğim histogram, bu her şeyi dikkate almayacak mı? QQ'nun beklenen normal ve Gözlenen Pearson kalıntı değerlerini ve noktaları + - çizgiye uyacak şekilde çizdim, biraz yukarı doğru gittikleri ipuçları hariç. Demek istediğin bu mu? Artıkların dağılımı normal görünüyor, bu yüzden devam edebilir miyim? (kaydedilen DV normal olmasa bile) (Hala bağlantıları okuyorum ama bunu sormak istedim)
Bilim Adamı

1
" normal QQ grafiği normalde bu model için dağıtıldığı için mi? " ... diyebilirim ki "QQ artıklarının grafiği normallik varsayımının makul olduğunu gösteriyor" ya da "artıklar makul olarak normale yakın görünüyor". Kitleniz hipotez testleri beklerse, yine de bir tane teklif verebilirsiniz (ancak bu özellikle yararlı olmadıkları gerçeğini değiştirmez). " Veri seti ile ilgili sorun DV histogramında " ... koşulsuz DV veya IV'lerin dağılımı hakkında herhangi bir varsayım yoktur.
Glen_b-Monica

1
Cevabımın altındaki ek tartışmaya bakın. Üzgünüm, daha önce cevap vermedim, ama uyuyordum. Diğer soruda, sordumun nedeni, iki modelin varsayımlarının çoğunu paylaşmasıydı ve bu tartışmanın hemen hemen hepsi bu soru ile ilgilidir - DV farklı olsa bile. O değil tam olarak aynı durum (ve bu nedenle yeni bir soru olmalıdır), ancak böyle herhangi farklı veya ilave sorunlar vardır olmadığı gibi bu tartışmanın bağlamında soruyu sorabilirsin nedenle bu soru, ondan bağlantılı olmalıdır.
Glen_b -Manica Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.