Bir GLM'nin model ortalamasını almak için, bağlantı veya yanıt ölçeğindeki tahminleri ortalıyor muyuz?


12

Bir GLM'nin tepki ölçeğinde model ortalama tahminleri hesaplamak için "doğru" olan neden ve neden?

  1. Bağlantı ölçeğinde model ortalama tahminini hesaplayın ve sonra yanıt ölçeğine geri dönüştürün veya
  2. Tahminleri yanıt ölçeğine geri dönüştürün ve sonra model ortalamasını hesaplayın

Tahminler yakındır, ancak model bir GLM ise eşit değildir. Farklı R paketleri her ikisi için de seçenekler sunar (farklı varsayılanlarla). Bazı meslektaşlar # 1'in yanlış olduğunu çünkü herkesin # 2 yaptığı için titizlikle tartıştılar. Sezgim # 1 'in "doğru" olduğunu söylüyor çünkü bütün lineer matematiği doğrusal tutuyor (# 2 lineer ölçekte olmayan şeylerin ortalamasını alıyor). Basit bir simülasyon, # 2'nin # 1'den biraz daha küçük bir MSE'ye sahip olduğunu bulur. # 2 doğruysa nedeni nedir? Ve eğer # 2 doğruysa, neden (doğrusal matematiği doğrusal tut) nedenim akıl yürütmüyor?

Düzenleme 1: GLM'de başka bir faktörün seviyeleri üzerinde marjinal yolların hesaplanması, yukarıda sorduğum soruya benzer bir sorundur. Russell Lenth, GLM modellerinin marjinal araçlarını # 1'in (emmeans paketinde) "zamanlamasını" (sözlerini) kullanarak hesaplar ve argümanı sezgime benzer.

Düzenleme 2: Bir tahminin (veya bir katsayının) tümünün ağırlıklı ortalaması veya "en iyi" iç içe modellerin bir alt kümesi olarak tahmin edildiği model seçimi alternatifine atıfta bulunmak için model ortalamasını kullanıyorum (aşağıdaki referanslara ve R paketlerine bakın) .

Verilen iç içe modelleri, birey için (bağlantı alanı) lineer öngörü model ve model ağırlığı , bağlantıyı ortalama (yukarıdaki 1 kullanılarak model ortalama tahmini ölçek ve sonra yanıt ölçeğine geri dönüşüm):Mηbenmbenmwmm

Y^ben=g-1(Σm=1Mwmηbenm)

ve yukarıdaki # 2 kullanan model ortalamalı tahmin (tüm tahminlerini geri dönüştürür ve daha sonra yanıt ölçeğinde ortalama):M

Y^ben=Σm=1Mwmg-1(ηbenm)

Bazı Bayes ve Frequentist model ortalaması yöntemleri şunlardır:

  • Hoeting, JA, Madigan, D., Raftery, AE ve Volinsky, CT, 1999. Bayesli model ortalaması: bir öğretici. İstatistik bilimi, s.382-401.

  • Burnham, KP ve Anderson, DR, 2003. Model seçimi ve çok modelli çıkarım: pratik bir bilgi-kuramsal yaklaşım. Springer Bilim ve İşletme Medya.

  • Hansen, BE, 2007. En küçük kareler model ortalaması. Econometrica, 75 (4), s.1175-1189.

  • Claeskens, G. ve Hjort, NL, 2008. Model seçimi ve model ortalaması. Cambridge Books.

R paketleri arasında BMA , MuMIn , BAS ve AICcmodavg bulunur . (Not: Bu daha genel olarak model ortalamasının bilgeliği hakkında bir soru değildir.)


1
Sorunuzun cevap almamasının nedeninin, benim gibi diğer okuyucuların sorunuzu anlamadığıdır. Tam olarak "model ortalama" ile ne demek istiyorsun? Lütfen bir bağlamı ayrıntılı olarak açıklayın, böylece hangi sorunu çözmeye çalıştığınızı anlıyoruz. Görebildiğim kadarıyla, emmeans paketi farklı modellerden ortalama tahminler değil.
Gordon Smyth

1
Bunu sorduğunuz için teşekkürler ve Russell Lenth notunu eklemenin sorumu karıştırdığını görebiliyorum. Bunu yukarıda açıklığa kavuşturmaya çalıştım. Emmeans paketi, başka bir faktörün seviyeleri üzerinde marjinal ortalamaları ve SE'yi hesaplar ve bu istatistikler bağlantı ölçeğinde hesaplanır ve daha sonra geri dönüştürülür. "Model en iyi rehberimizdir" bölümüne bakın .
JWalker

Bu sorunun cevaplarıyla gerçekten ilgilenirim. Bu arada, bir yorum. Bu MSE sonucu geri dönüştürülmüş ölçekte hesaplanır. Aynı simülasyon sonuçlarıyla MSE'nin bağlantı ölçeğinde hesaplandığında # 2 ile # 2'den daha küçük olacağını iddia ediyorum. Bunun nedeni, numune ortalamasının popülasyon ortalamasının en küçük kareler tahmincisidir, yanlış ölçekte bile.
Russ Lenth

Yanıtlar:


6

Tahmin edicileri veya yordayıcıları birleştirmenin en iyi yolu, simge durumuna küçültmeye çalıştığınız kayıp işlevine (veya simge durumuna getirmeye çalıştığınız yardımcı program işlevine) bağlıdır.

Genel olarak konuşursak, kayıp fonksiyonu yanıt ölçeğindeki tahmin hatalarını ölçerse, yanıt ölçeğindeki tahmin edicilerin ortalamasının düzeltilmesi doğrudur. Örneğin, yanıt ölçeğinde beklenen kare tahmin hatasını en aza indirmeye çalışıyorsanız, posterior ortalama prediktör en uygun olacaktır ve model varsayımlarınıza bağlı olarak, yanıt ölçeğinde ortalama tahminlere eşdeğer olabilir.

Doğrusal tahmin ölçeğinde ortalamanın ayrık modeller için çok kötü performans gösterebileceğini unutmayın. İkili yanıt değişkeninin olasılığını tahmin etmek için lojistik regresyon kullandığınızı varsayalım. Modellerin herhangi biri tahmini sıfır olasılığı verirse, o model için doğrusal tahminci eksi sonsuz olacaktır. Herhangi bir sayıda sonlu değerle sonsuzluğun ortalamasını almak yine de sonsuz olacaktır.

Listelediğiniz referanslara danıştınız mı? Hoeting ve arkadaşlarının (1999), örneğin çok ayrıntılı olmasa da, kayıp fonksiyonlarını tartıştıklarından eminim.


1
Mükemmel. Bu yanıt için teşekkürler (başkalarına hoş geldiniz!). "O zaman ortalamanın tahmin edicilerinin optimal veya ona yakın olması muhtemel" yanıt ölçeğinde ortalamaların tahmin edileceğini varsayıyorum. Lojistik not özellikle yararlıdır.
JWalker

1
@rvl Kayıp fonksiyonunun doğrusallığı ile ilgili olarak, zararın etki fonksiyonu açısından düşünüyordum. Bunun biraz şifreli olduğunu kabul ediyorum, bu yüzden yorumlarımı düzenledim. Diğer sözlerinize katılmıyorum. GLM'ler, kare hata kaybıyla değil, ML ile tahmin edilir. İsme rağmen, GLM'ler için popüler olan IRLS algoritması toplam kareleri en aza indirmez ve IRLS çalışma değişkeni, bağlantı ölçeğinde değil, yanıt ölçeğinde standart kalıntılar içerir. Her durumda, tahmin ve tahmin aynı değildir ve aynı kayıp fonksiyonlarına sahip olmaları gerekmez.
Gordon Smyth

@rvl Tam olarak sıfır olan değerler lojistik regresyonda sıklıkla görülür ve bu forumda birkaç kez tartışılmıştır.
Gordon Smyth

@rvl Kayıp bağlantı ölçeğinde değerlendirilmez. Bu tartışma size GLM'ler hakkında bir eğitim sunmak için doğru yer değil - bunun yerine Springer'in yaklaşık bir ay içinde yayınlayacağı GLM'ler hakkındaki kitabımdan bahsediyorum. Bu tartışma, orijinal soruya alternatif bir cevap sunmanız için de doğru yer değildir. Bunu yapmak istiyorsanız uygun bir cevap yazın.
Gordon Smyth

GLM'ler hakkındaki kitabımızın bağlantısı: doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.