Gama GLM'lerini ne zaman kullanmalı?


88

Gama dağılımı oldukça geniş bir şekil aralığında olabilir ve ortalama ile varyans arasındaki iki parametre ile arasındaki bağlantıya bakıldığında, negatif olmayan verilerde heteroskedasticity ile başa çıkmak için, log-dönüştürülmüş OLS'nin yapabileceği şekilde WLS veya bir tür heteroskedasticity-tutarlı VCV tahmincisi olmadan yapmayın.

Olumsuz, rutin olmayan veri modellemesi için daha fazla kullanırdım, ama onu kullanan başka birini tanımıyorum, resmi bir sınıf ortamında öğrenmedim ve okuduğum literatürden hiç yararlanmıyor. Ne zaman Google’a "gamma GLM’nin pratik kullanımları" gibi bir şey yapsam, Poisson olayları arasındaki bekleme sürelerinde kullanma önerisini buldum. TAMAM. Ancak bu kısıtlayıcı görünüyor ve tek kullanım alanı olamaz.

Doğal olarak, gama GLM'sinin, gama esnekliği göz önüne alındığında, negatif olmayan verileri modellemenin göreceli olarak varsayımsal bir aracı olduğu görülüyor. Elbette herhangi bir model gibi QQ grafiklerini ve kalıntı grafiklerini kontrol etmeniz gerekir. Ama kaçırdığım herhangi bir ciddi sakınca var mı? "Sadece OLS işleten" insanlarla iletişimin ötesinde mi?

Yanıtlar:


57

Gama lognormal tarafından paylaşılan bir özelliğe sahiptir; yani, ölçek parametresi değişirken (genellikle her iki modelde de yapılırken olduğu gibi) shape parametresi sabit tutulduğunda, varyansın ortalama kareye orantılıdır (sabit varyasyon katsayısı).

Buna yaklaştığı bir şey, genellikle finansal verilerle veya gerçekten de birçok başka tür verilerle gerçekleşir.

Sonuç olarak, sürekli, pozitif, sağa doğru eğrili ve varyansın log ölçeğinde sabit olduğu yerlerde veriler için uygundur, ancak bunlarla birlikte iyi bilinen diğer birçok (ve genellikle oldukça uygun) seçenekler vardır. özellikleri.

Ayrıca, gamma GLM ile bir log-linke uymak yaygındır (doğal link kullanmak nispeten daha nadirdir). Normal bir lineer modelin veri kütüklerine uymasından biraz farklı kılan şey , log ölçeğinde gama eğriliğinin değişken derecelerde kalması , normal (lognormal kütüğünün) simetrik olmasıdır. Bu, onu (gama) çeşitli durumlarda faydalı kılar.

Jong & Heller ve Frees ile birlikte birçok makalede tartışılan (gerçek veri örnekleriyle) gamma GLM'lerin pratik kullanımlarını gördüm (kafamın üstünden) ; Diğer alanlarda da uygulamalar gördüm. Oh, ve doğru hatırlıyorsam Venables ve Ripley MASS okulun devamsızlığı üzerine kullanıyor (quine veri; Düzen: aslında MASS'a Tamamlayıcı İstatistikler'de , pdf'in 14. sayfasında p11'e bakınız. DV küçük bir vardiya var). Uh, ve McCullagh ve Nelder kan pıhtılaşması örneği yaptı, belki de doğal bağlantı olabilir.

Sonra Faraway'in bir araba sigortası örneği ve yarı iletken üretim verileri örneği yaptığı bir kitap var .

İki seçenekten birini seçmenin bazı avantajları ve bazı dezavantajları vardır. Bu günlerde her ikisinin de sığması kolay olduğundan; genellikle en uygun olanı seçme meselesidir.

Tek seçenek olmaktan uzak; örneğin, aynı Gaussian GLM'leri de vardır; bunlar ya gamma ya da lognormal'den daha eğri / daha ağır kuyruklu (ve hatta daha fazla heteroskedastik).

Dezavantajları ise, tahmin aralıklarını yapmak zordur. Bazı teşhis ekranlarının yorumlanması daha zordur. Doğrusal tahmin edicinin ölçeğinde hesaplama beklentileri (genellikle log ölçeği), eşdeğer lognormal modelden daha zordur. Hipotez testleri ve aralıkları genellikle asimptotiktir. Bunlar genellikle nispeten küçük sorunlardır.

Log-link lognormal regresyona göre bazı avantajları vardır (logları almak ve sıradan bir lineer regresyon modeline uymak); birincisi, ortalama tahminin kolay olmasıdır.


3
"Gama" mı, yoksa "gama" mı olmalı? Birinin ismini olmadığını biliyoruz. Küçük harf "g" yi çok daha sık gördüm. Açıkça dağılımı, 18. yüzyıla kadar uzanan fonksiyon için adlandırılmış.
Nick Cox

2
notasyonu O kullanılmak üzere gördüğüm tek nedenidir. Genel olarak dağılımlarda, büyük harf, bildiğiniz gibi genellikle soyadı, örneğin Poisson veya Gaussian gibi yankılar ekler. Γ
Nick Cox,

@NickCox İstediğiniz gibi değiştirdim ve ben de "Ters Gauss" kelimesini düzelttim.
Glen_b

1
@Gleb_b: Log bağlantısını hala ters Gauss ailesiyle mi kullanıyorsunuz?
Dimitriy V. Masterov

@ DimitriyV.Masterov Daha az kullanılıyor, bu yüzden genellemesi zor. Gördüklerime göre, ters Gaussian ile bir log-link kullanmak oldukça yaygındır, ancak diğer linkler, ters link gibi bazı durumlarda uygun olabilir.
Glen_b

28

Bu iyi bir soru. Aslında, neden insanlar genelleştirilmiş doğrusal modelleri (GLM) daha fazla kullanmıyorlar da iyi bir soru.

Uyarı notu: Bazı insanlar burada akılda tutulanları değil, genel doğrusal model için GLM'yi kullanır.

  • Nereye bakacağına bağlı. Örneğin, gama dağılımları birkaç on yıl boyunca çevre bilimlerinin birçoğunda popüler olmuştur ve tahmin değişkenleri ile modelleme de doğal bir uzatmadır. İçinde bulunduğum bazı alanları isimlendirmek için hidroloji ve jeomorfolojide pek çok örnek var.

  • Ne zaman en iyi çalıştığını, boş bir cevabın ötesinde ne zaman kullanacağınızı belirlemek zor. Eğik pozitif veriler göz önüne alındığında, kendimi genellikle gama ve lognormal modellerle (GLM bağlamı log bağlantısı, normal veya Gauss ailesi) deniyor ve hangisinin daha iyi çalışacağını seçiyordum.

  • Gama modellemesi, çok fazla kod yazmadan, kesinlikle günlük kaydetme ve doğrusal regresyon uygulamalarına kıyasla, oldukça yakın zamana kadar yapılması oldukça zordu. Şimdi bile, tüm önemli istatistiksel yazılım ortamlarında eşit derecede kolay olmadığını tahmin ediyorum.

  • Neyin ne kullanıldığını ve neyin kullanılmadığını açıklarken, liyakatlere ve aşağılıklara rağmen, her zaman tam olarak belirlediğiniz faktörlere indiğinizi düşünüyorum: ne öğretilir, ne okur yazar, ne insanlar hakkında konuşurlar iş ve konferanslarda. Bu yüzden, açıklamak için bir çeşit amatör bilim sosyolojisine ihtiyacınız var. Çoğu insan kendi alanlarında düz ve dar yolları takip ediyor gibi görünmektedir. Gevşek bir şekilde, modelleme teknikleriyle ilgili herhangi bir alandaki iç literatür ne kadar büyükse, o alandaki daha az eğimli insanlar farklı bir şeyler deniyor gibi görünmektedir.


1
Hangisinin daha iyi çalıştığını nasıl belirlersiniz?
Dimitriy V. Masterov

7
Olasılıklara, R-karelere (insanların söylediklerine rağmen), parametre tahminlerine ilişkin güven aralıklarını, gözlemlenen rakiplerin arsalarını, kalanların yerine oturduğunu vb. Şeyleri inceliyorum. Tecrübelerime göre bilim o kadar iyi oluşmuyor. Başka nasıl yapılabilir?
Nick Cox

@NickCox Analiz yapıldığında, monte edilmiş, artıklar ve monte edilmiş normal qq arsa gözlemlendiğinde nelere dikkat etmeliyiz? Bunun modeller arasında farklılık gösterebileceğini biliyorum. Gama, poisson ve negatif binom için bir örnek verebilir misiniz? Thanks
tatami

@tatami Bu tamamen yeni bir soru ya da daha fazlası, sanırım. Eğer sorarsan, kimin ısırdığını göreceksin. Bir gama modelinin ve negatif binom modelinin herhangi bir projede rakip olduğunu hiç düşünmedim, ancak bu hayal gücü veya deneyimin başarısızlığı olabilir.
Nick Cox

13

Gama gerilemesi GLM'dedir ve bu nedenle sapma artıkları, kaldıraçlar, Cook'un mesafesi vb. Gibi tanısal amaçlar için birçok yararlı miktar elde edebilirsiniz. Belki de log-dönüştürülmüş veri için karşılık gelen miktarlar kadar hoş değillerdir.

Gama regresyonunun lognormal ile karşılaştırıldığında önlediği bir şey, dönüşüm yanlılığıdır. Jensen eşitsizliği lognormal regresyondan gelen tahminlerin sistematik olarak önyargılı olacağına işaret ediyor, çünkü dönüştürülmüş beklenen değerden ziyade dönüştürülmüş verileri modelliyor.

Ayrıca, gama regresyonu (veya negatif olmayan veriler için diğer modeller), gamadaki üstel dağılımda olduğu gibi 0'da bir moda sahip olması nedeniyle lognormal'den daha geniş bir veri dizisi ile başa çıkabilir. Lognormal için imkansız olan aile.

Poisson olasılığını yarı olasılıklı olarak kullanmanın daha istikrarlı olduğu yönünde önerilerde bulundum. Onlar birbirlerinin eşleniği. Yarı-Poisson, hem gama hem de özellikle lognormal sorun yaratan tam 0 değerle başa çıkmanın önemli bir yararına sahiptir.


11

Benim düşünceme göre, hataların bir gamma dağılım ailesinde, aynı şekillerde ve ölçeklerin ilgili formüle göre değiştiği varsayılmaktadır.

Ancak model tanısı koymak zor. Basit QQ grafiğinin burada uygun olmadığına dikkat edin, çünkü bizimki aynı dağılımdır, bizimki ise farklı varyanslara sahip bir dağıtım ailesidir.

Doğal olarak, artıklar grafiği, farklı ölçeklere sahip olduklarını ancak genellikle uzun kuyrukları olan aynı şekle sahip olduklarını görmek için kullanılabilir.

Tecrübelerime göre, gama GLM bazı uzun kuyruklara dağılmış problemler için denenebilir ve sigorta ve çevre sektörlerinde vb. Yaygın olarak kullanılır. Fakat varsayımların test edilmesi zordur ve model genellikle iyi performans göstermez. Diğer aile dağıtımlarını, aynı Gaussian tersi gibi, aynı sorunla kullanmayı iddia ediyorlar. Bu, gamma GLM'nin kullanımını sınırlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.