Kütle dönüşümlü cevaplı doğrusal model ve kütük bağlantılı genelleştirilmiş doğrusal model


46

In Bu yazıda başlıklı "Genelleştirilmiş Lineer Modeller UYGULAMALI İÇİN TIBBİ BİLGİ ARASINDA SEÇİMİ" yazarlar yazın:

Genelleştirilmiş bir doğrusal modelde, ortalama, yanıtın kendisini dönüştürmek yerine, bağlantı işlevi tarafından dönüştürülür. İki dönüşüm yöntemi oldukça farklı sonuçlara yol açabilir; örneğin, log-dönüştürülmüş tepkilerin ortalaması, ortalama cevabın logaritması ile aynı değildir . Genel olarak, birincisi kolayca ortalama bir cevaba dönüştürülemez. Böylece, ortalamanın dönüştürülmesi çoğu zaman sonuçların daha kolay yorumlanmasına izin verir, özellikle bu ortalama parametrelerde ölçülen yanıtlarla aynı ölçekte kalır.

Görünüşe göre, genelleştirilmiş bir doğrusal modelin (GLM), log-dönüştürülmüş yanıtı olan doğrusal bir model (LM) yerine log bağlantısı ile kullanılmasını tavsiye ettikleri görülmektedir. Bu yaklaşımın avantajlarını anlamıyorum ve bu bana çok sıradışı geliyor.

Yanıt değişkenim günlük normal dağılmış görünüyor. Her iki yaklaşımla da katsayılar ve standart hataları açısından benzer sonuçlar alıyorum.

Yine de merak ediyorum: Eğer bir değişken log-normal bir dağılıma sahipse , ortalama normal bir dağılımın doğal özeti ve ortalama log olduğu için ortalama dönüştürülmemiş değişkenin logu yerine tercih edilen log-dönüşümlü değişkenin ortalaması değil -Transforme değişken normal olarak dağıtılır, oysa değişken kendisi değil midir?


3
Log-normal dağılmış bir değişkenimiz varsa ipucunuza katılıyorum. Ancak, orjinal veri ölçeğine göre kolayca anlaşılabilir bir istatistik elde etmek için ortalamanın "geri dönüştürülmesi" gerekir. Bu, makalenin sonucunu açıklayabilir. Ayrıca, log dönüşümünden sonra normal dağılmış bir değişken elde edemeyebiliriz ve bu durumda hangi yaklaşımın daha iyi olacağını bilmiyorum.
soufanom

Yanıtlar:


46

Her ne kadar log-dönüştürülmüş değişkenlerin ortalamasının tercih edilebilir olduğu görülse de (bu, log-normalin tipik olarak nasıl parametreleştirildiği içindir), pratik bir bakış açısıyla, ortalamanın logu tipik olarak çok daha faydalıdır.

Bu, özellikle modeliniz tam olarak doğru olmadığında ve George Box'tan alıntı yapmak için geçerlidir: "Tüm modeller yanlış, bazıları yararlıdır".

Bazı miktarların günlüklerin normal dağıldığını varsayalım, kan basıncının (ben bir ilaç değilim!) Olduğunu söylüyor ve iki popülasyonumuz var, erkekler ve kadınlar. Biri, ortalama tansiyonun kadınlarda erkeklerden daha yüksek olduğunu varsayabilir. Bu tam olarak, ortalama tansiyon kütüğünün kadınlarda erkeklerden daha yüksek olup olmadığını sormaya karşılık gelir. Günlük kan basıncı ortalamasının erkeklerde kadınlarda daha yüksek olup olmadığını sormak aynı değildir .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Açıkçası, bunu yapmak cebiri korkunç derecede karmaşıklaştırıyor, ama yine de çalışıyor ve aynı şeyi ifade ediyor.

ln(μ)σln2μln

μln

Şimdiye kadar, kan basıncının gerçekten log-normal olduğunu varsaydık. Eğer gerçek dağılımlar normal bir günlük değilse, verileri dönüştürmek (tipik olarak) yukarıdakilerden daha da kötü bir şey yapacaktır - çünkü "ortalama" parametremizin gerçekte ne anlama geldiğini tam olarak bilemeyiz. Yani, yukarıda verdiğim ortalama ve varyans için bu iki denklemin doğru olduğunu bilmiyoruz. İleri geri dönüştürmek için bunları kullanmak daha sonra ek hatalara neden olacaktır.



2
Corone, cevabında iki önemli cümleyi vurguladım. Umarım sakıncası yoktur. Kabul etmiyorsanız lütfen geri dönün.
Stefan,

17

Biyoistatistik okurken aldığım ileri bir veri analizi dersinden iki kuruş (profesörümün notlarından başka referans almamama rağmen):

Verilerinizdeki doğrusallığı ve heteroscedastikliği (eşit olmayan varyanslar) ya da sadece doğrusallığı ele almanız gerekip gerekmediğine karar verir.

Verileri dönüştürmenin bir modelin hem doğrusallık hem de varyans varsayımlarını etkilediğini belirtti. Örneğin, artıklarınız her ikisinde de sorun varsa, her ikisini de düzeltebilecek verileri dönüştürmeyi düşünebilirsiniz. Dönüşüm, hataları ve dolayısıyla sapmalarını dönüştürür.

Buna karşılık, link işlevini kullanmak, varyansı değil yalnızca doğrusallık varsayımını etkiler. Tomruk ortalamadan (beklenen değer) alınır ve bu nedenle artıkların varyansı etkilenmez.

Özetle, sürekli değişmeyen varyans ile ilgili bir sorununuz yoksa, dönüşüm işlevinde link işlevini kullanmanızı önerir, çünkü bu durumda varyansınızı değiştirmek istemezsiniz (varsayımı zaten karşılıyorsunuz).


6
Link fonksiyonu sadece ortalamayı etkilese de, link fonksiyonu bir GLM'nin sadece bir kısmıdır. Yorumlarınız log linkli bir Gauss glm için çalışıyor. Günlük bağlantısına sahip bir gama GLM, günlükleri alırken ve bu günlük ölçeğinde sabit bir varyansa uyduğuyla aynı varyans işlev varsayımına (ortalama kare ile orantılı varyans) sahip olacaktır. GLM çerçevesindeki diğer ailelerin başka varyans fonksiyonları olacaktır. Maalesef, GLM'ler için wikipedia sayfasındaki tablo, verdiği dağıtım aileleri için varyans fonksiyonlarını atlamaktadır.
Glen_b

2
Burada bazı örneklerden bahsettiler . İşte gamma
Glen_b

-1

Eğer doğrulanabilir cevap simetrik değilse (normal olarak dağıtılmamışsa) ancak log dönüştürülmüş cevap normalse, dönüştürülmüş cevapta doğrusal regresyon kullanılır ve üs katsayısı bize geometrik ortalamanın rasyonunu verir.

Eğer doğrulanabilir cevap simetrik ise (normal olarak dağıtılmış) ancak açıklayıcı (X) ve cevap arasındaki ilişki doğrusal değilse de log beklenen değer X'in lineer fonksiyonudur, o zaman log linkli GLM kullanılır ve exponent katsayısı bize aritmetik ortalamanın oranını verir.


Bu cevap açık değil. "Doğrulanabilir" yerine "değişken" mi demek istediniz?
Michael Chernick

Bu bir cevabın bir parçası. Bunun soruyla nasıl ilişkili olduğunu ve sorunun cevabının gerçekte bu kavrayışa dayandığını açıkça belirtmeniz gerekir.
ReneBt
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.