GAM vs GLM ne zaman kullanılır?


15

Bunun potansiyel olarak geniş bir soru olabileceğini fark ettim, ama bir GLM (Genelleştirilmiş doğrusal model) üzerinde bir GAM (Genelleştirilmiş katkı modeli) kullanımını gösteren genelleştirilebilir varsayımlar olup olmadığını merak ediyordum.

Birisi kısa süre önce bana GAM'ların yalnızca veri yapısının "katkı maddesi" olduğunu düşündüğümde kullanılması gerektiğini söyledi, yani x eklemelerinin y'yi tahmin etmesini bekliyorum. Başka bir kişi, bir GAM'ın bir GLM'den farklı bir regresyon analizi yaptığını ve doğrusallık varsayıldığında bir GLM'nin tercih edildiğine dikkat çekti.

Geçmişte ekolojik veriler için bir GAM kullanıyordum, örneğin:

  • sürekli zaman çizelgeleri
  • verinin doğrusal bir şekli olmadığında
  • İstatistiksel bir testle birlikte "yüzey grafikleri" kullanarak görselleştirebileceğim doğrusal olmayan bir etkileşime sahip olduğumu düşündüğüm y'yi tahmin etmek için birden fazla x vardı

Bir GAM'ın bir GLM'den ne yaptığını çok iyi anlayamıyorum. Bunun geçerli bir istatistiksel test olduğuna inanıyorum (ve en azından ekolojik dergilerde GAM'ların kullanımında bir artış görüyorum), ancak kullanımının diğer regresyon analizlerine göre ne zaman belirtildiğini daha iyi bilmem gerekiyor.


GAM'ler, doğrusal öngörücü bazı öngörücü değişkenlerin bilinmeyen düzgün işlevlerine doğrusal olarak bağlı olduğunda kullanılır.
user2974951

1
Sayısal değişkeni temsil edebileceğiniz için ayrım bulanıkdır, örneğin bir GLM'de de bir spline ile.
Michael M

3
Ayrım bulanık olsa da, gamlar etkileşimleri de temsil edebilir, çünkü glm'ler çok katı bir eklentiye ihtiyaç duyulmaz, büyük fark çıkarımdadır: oyunun özel yöntemlere ihtiyacı vardır, çünkü tahmin projeksiyon yoluyla değil, yumuşatma yoluyla yapılır. Bunun pratikte ne anlama geldiğini anlamıyorum.
kjetil b halvorsen

GLM GAM'ı.
usεr11852

Yanıtlar:


14

Ana fark imho, lineer veya genelleştirilmiş lineer "klasik" formlar, modellerin bağımlı değişken ve ortak değişkenler arasındaki ilişkinin sabit bir lineer veya başka bir parametrik biçimini alırken, GAM bunun herhangi bir özel biçimini önceden kabul etmemesidir. ve değişkenin bağımlı değişken üzerindeki doğrusal olmayan etkilerini ortaya çıkarmak ve tahmin etmek için kullanılabilir. Daha ayrıntılı olarak, (genelleştirilmiş) doğrusal modellerde, doğrusal öngörücü değişkenlerin ağırlıklı toplamı iken , , GAM'larda bu terimin yerine yumuşak bir işlev, örneğin; ; buradani=1nβixii=1nj=1qβisj(xi)s1(),,sq()düzgün temel fonksiyonlardır (örneğin kübik spline) ve temel boyuttur. Temel işlevleri birleştirerek GAM'ler çok sayıda işlevsel ilişkiyi temsil edebilir (bunu yapmak için gerçek ilişkinin kıvrımdan ziyade pürüzsüz olacağı varsayımına güvenirler). Onlar sahip oldukları esasen onlar ve HASTIE ve Tibshirani orijinal makaleden ( "otomatik" moda Bunu yaparken sayısal kovaryatların doğrusal olmayan etkilerini ortaya çıkarılması için özellikle yararlı hale şekilde tasarlanmıştır ancak GLMs bir uzantısı vardır ' tamamen otomatik olma avantajı, yani istatistikçinin "dedektif" çalışmasına gerek yoktur ' ).q


2
Peki, ama yorumlarda belirtildiği gibi, tüm bunlar glm'ler ile de yapılabilir ... Ana farkın pragmatik olduğundan şüpheleniyorum. R uygulaması mgcv, yapamayacağınız birçok şey yapıyor glm, ancak bu çerçevede de yapılabilirdi ...
kjetil b halvorsen

Evet, sana katılıyorum, GAM'lar GLM'lerin bir uzantısı. Ancak soru, GAM'ın ne zaman ve GLM'nin ne zaman kullanılacağıyla ilgiliydi ve bana göre op, genellikle yordayıcı olarak bir dizi temel işlev içermeyen ve ortaya çıkarmak için kullanılmayan "klasik" GLM formları anlamına geliyordu. yaklaşık bilinmeyen doğrusal olmayan ilişki.
matteo

teşekkürler - bu yardımcı olur. ve evet, klasik GLM'lerden bahsediyordum
mluerig

@ matteo sadece iki şey daha: i) "gerçek ilişkinin wiggly yerine pürüzsüz olması" ile tam olarak ne demek istiyorsun? ve ii) "sayısal eş değişkenlerin doğrusal olmayan etkilerini ortaya çıkarmak için özellikle yararlıdır" - doğrusal olmayanlığı nasıl tanımlayabilir / ölçebiliriz (ör. ile mgcv)?
mluerig

Gerçek ilişki aslında pürüzsüz olmayabilir, ancak GAM'ler tipik olarak olasılık maksimizasyonu sürecinde (genellikle tahmini işlevin ikinci türevinin entegre karesinin bir oranı olarak uygulanır) bir "kıvrım" cezası ekleyerek model karmaşıklığını kontrol eder. Sayısal ortak değişkenlerin doğrusal olmayan etkileri, belirli bir sayısal değişkenin bağımlı değişken üzerindeki etkisinin, örneğin, değişken değerle monoton olarak artamayacağı / azalmayabileceği, ancak bilinmeyen bir şekle sahip olabileceği, örneğin lokal maksima, minima, bükülme noktaları olduğu anlamına gelir. ..
matteo

14

GAM'ların GLM'lerden çok daha esnek olduğunu ve bu nedenle kullanımlarında daha fazla bakıma ihtiyaç duyduklarını vurgulamak isterim. Daha fazla güçle daha büyük sorumluluk gelir.

Onların da fark ettiğim ekolojideki kullanımlarından bahsediyorsunuz. Kosta Rika'daydım ve bir yağmur ormanında, bazı mezun öğrencilerin bir GAM'a bazı veriler attığı ve yazılımın böyle söylediği için çılgın karmaşık düzelticilerini kabul ettiği bir tür çalışma gördüm. Esprili / takdire şayan gerçeği dışında, bir GAM ve sonuçta ortaya çıkan yüksek dereceli yumuşatıcıları kullandıklarını belgeleyen bir dipnot içerdiklerinden oldukça iç karartıcıydı.

GAM'lerin bunları kullanmak için nasıl çalıştığını tam olarak anlamak zorunda değilsiniz, ancak verilerinizi, eldeki sorunu, yazılımınızın daha yumuşak siparişler, seçimleriniz (hangi düzleştiricileri, etkileşimleri, daha pürüzsüz bir haklıysa, vb.) ve sonuçlarınızın makul olması.

Çok sayıda çizim yapın ve yumuşatma eğrilerinize bakın. Verileri az olan alanlarda deliriyorlar mı? Düşük dereceli bir pürüzsüz belirttiğinizde veya düzleştirmeyi tamamen kaldırdığınızda ne olur? Bir derece 7 bu değişken için daha gerçekçi mi, seçimlerini çapraz doğruladığına dair güvencelere rağmen aşırı uyuyor mu? Yeterli veri var mı? Yüksek kaliteli veya gürültülü mü?

GAMS'ı seviyorum ve veri keşfi için takdir edilmediğini düşünüyorum. Sadece süper esnektirler ve kendinize titizlik olmadan bilime izin verirseniz, sizi istatistiksel vahşi doğaya GLM'ler gibi daha basit modellerden daha fazla götürürler.


1
Çoğu zaman bu yüksek lisans öğrencilerinin yaptıklarını yaptığımı hayal ediyorum: verilerimi bir oyuna atın ve mgcvverilerimi ne kadar iyi ele aldığına göz atın . Parametrelerim ile cimri olmaya çalışıyorum ve tahmin edilen değerlerin verilerimle ne kadar iyi eşleştiğini kontrol ediyorum. yorumlarınız biraz daha titiz olmak için iyi bir hatırlatmadır - ve belki de nihayet simon woods kitabı edinin!
mluerig

Heck, bir değişkeni keşfetmek için daha pürüzsüz bir şekilde kullanacağım ve daha sonra ya serbestlik derecelerini düşük bir değere sabitleyeceğim ya da pürüzsüz ve temelde ikinci dereceden ise kare bir terimi kullanacağım. Örneğin, ikinci dereceden bir yaş etkisi için mantıklıdır.
Wayne

@Wayne, buraya tam olarak GAM'lerle ilgili veri keşfi hakkında bir cevap için geldim ve bunu işaret ettiğinizi gördüm. GAM'ları veri araştırması için nasıl kullanıyorsunuz? Ve bir GAM'in gerekli olup olmadığına veya bir GLM'nin yeterli olup olmadığına nasıl karar verirsiniz? Sadece yanıtı ve potansiyel tahmin edicilerin her birini çalıştırdığınız basit bir GAM çalıştırmak mantıklı mıdır, bunu çizin ve ilişkinin bir GAM (örn. Doğrusal olmayan ve monotonik olmayan ilişki) gerektirip gerektirmediğini görün?
Tilen

6

Sadece bir yorum eklemek için hiçbir üne sahip değilim. Wayne'in yorumuna tamamen katılıyorum: Daha fazla güçle daha büyük sorumluluk gelir . GAM'lar çok esnek olabilir ve genellikle çılgın karmaşık düzelticiler alır / görüriz . Daha sonra, araştırmacılara düzgün işlevlerin serbestlik derecelerini (düğüm sayısı) kısıtlamalarını ve farklı model yapılarını (etkileşimler / etkileşim yok vb.) Test etmelerini şiddetle tavsiye ederim.

GAM'lar, modele dayalı yaklaşımlar (sınır bulanık olmasına rağmen, bu gruba GLM'yi dahil edeceğim) ve veriye dayalı yaklaşımlar (örneğin, tam etkileşimli doğrusal olmayan değişkenlerin etkilerini varsayan Yapay Sinir Ağları veya Rastgele Ormanlar) arasında düşünülebilir. Buna göre, Hastie ve Tibshirani ile tamamen aynı fikirde değilim çünkü GAM'ların hala bazı dedektiflik çalışmalarına ihtiyacı var (Umarım kimse bunu söylediğim için beni öldürmez).

Ekolojik açıdan bakıldığında, bu güvenilmez değişken çılgın-kompleks yumuşatıcılardan kaçınmak için R paket dolandırıcılığını kullanmanızı tavsiye ederim . Natalya Pya ve Simon Wood tarafından geliştirildi ve iki yönlü etkileşimler için bile pürüzsüz eğrilerin istenen şekillerle (örneğin, tek modlu veya monotonik) kısıtlanmasına izin veriyor. Bence GLM, pürüzsüz fonksiyonların şeklini kısıtladıktan sonra küçük bir alternatif haline geliyor, ancak bu sadece benim kişisel görüşüm.

Pya, N., Wood, SN, 2015. Şekil kısıtlı katkı modelleri. Stat. Comput. 25 (3), 543-559'da açıklanmaktadır. 10.1007 / s11222-013-9448-7

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.