Genelleştirilmiş doğrusal modellerin gizli değişken yorumu (GLM'ler)

Kısa versiyon:

Lojistik regresyon ve probit regresyonunun, gözlemden önce bir miktar sabit eşiğe göre ayrıklaştırılan sürekli bir gizli değişken içerdiği şeklinde yorumlanabileceğini biliyoruz. Poisson regresyonu için benzer bir latent değişken yorumu mevcut mu? İkiden fazla farklı sonuç olduğunda Binom regresyonuna (logit veya probit gibi) ne dersiniz? En genel düzeyde, herhangi bir GLM'yi gizli değişkenler açısından yorumlamanın bir yolu var mı?

Uzun versiyon:

İkili sonuçlar için probit modelini motive etmenin standart bir yolu (örneğin Wikipedia'dan ). öngörüsüne bağlı olarak normal dağılmış gözlemlenmemiş / gizli sonuç değişkenimiz $Y$ vardır . Söz konusu gizli değişken aslında gözlemlemek ayrık sonuçtur böylece, bir eşikleme işlemine tabi tutulur eğer , eğer . Bu, verilen değerinin olan Normal CDF biçimini alma olasılığını artırır, ortalama ve standart sapma eşik değerinin bir fonksiyonu $X$ $u=1$ $Y \ge \gamma$ $u=0$ $Y < \gamma$ $u=1$ $X$ $\gamma$ ve $Y$ üzerinde regresyonunun eğimi sırasıyla. Bu yüzden probit modeli, üzerindeki bu gizli regresyonunun eğimini tahmin etmenin bir yolu olarak motive edilir . $X$ $Y$ $X$

Bu, Thissen & Orlando'dan (2001) aşağıdaki çizimde gösterilmektedir. Bu yazarlar, amaçlarımız için probit gerilemesine çok benzeyen normal yanıt modelini, madde yanıtı teorisinden teknik olarak tartışıyorlar (bu yazarların yerine kullandıklarını ve olasılıkların her zamanki yerine ile yazıldığını unutmayın ). $\theta$ $X$ $T$ $P$

Lojistik regresyonun aynısını hemen hemen aynı şekilde yorumlayabiliriz . Tek fark, şimdi gözlemlenmeyen sürekli , verilen normal bir dağıtımı değil, bir lojistik dağıtımı izlemesidir . neden normal bir dağıtım yerine bir lojistik dağılımı takip edebileceğine dair teorik bir tartışma biraz daha az açıktır ... ancak ortaya çıkan lojistik eğrisi, pratik amaçlar için (normalde yeniden hesapladıktan sonra) normal CDF ile aynı göründüğü için Uygulamada hangi modeli kullandığınızın önemi yoktur. Mesele şu ki, her iki model de oldukça basit bir gizli değişken yorumuna sahip. $Y$ $X$ $Y$

Benzer görünümlü (veya cehennem, birbirine benzeyen görünümlü) gizli değişken yorumlarını diğer GLM'lere veya hatta herhangi bir GLM'ye uygulayabilir miyiz bilmek istiyorum .

olan Binom sonuçlarını hesaba katmak için yukarıdaki modelleri genişletmek bile (yani, sadece Bernoulli sonuçlarını değil) benim için tamamen açık değil. Muhtemelen , tek bir eşik olması yerine, birden fazla eşiğimiz olduğunu (gözlemlenen ayrık sonuçların sayısından bir tanesi) hayal ederek bunu başarabiliriz . Ancak eşiklere, eşit aralıklarla yerleştirilmişler gibi bir sınırlama getirmemiz gerekir. Ayrıntıları çözememiş olsam da, bunun gibi bir şeyin işe yarayacağından eminim. $n>1$ $\gamma$

Poisson regresyonu örneğine geçmek benim için daha da net görünmüyor. Eşikler kavramının bu durumda model hakkında düşünmenin en iyi yolu olup olmayacağından emin değilim. Gizli sonuçtan ne tür bir dağıtım alabileceğimizi de bilmiyorum.

Buna en çok arzu edilen çözüm, herhangi bir GLM'yi bazı dağılımlar veya başka gizli değişkenler açısından yorumlamanın genel bir yolu olacaktır - bu genel çözüm, logit / probit regresyonu için normal olandan farklı bir gizli değişken yorumu anlamına gelse bile . Tabii ki, genel yöntem logit / probit'in olağan yorumları ile aynı fikirde olsa, aynı zamanda diğer GLM'lere doğal olarak genişletildiyse daha iyi olurdu.

Ancak, bu tür gizli değişkenlerin genel GLM vakasında genel olarak mevcut olmasa bile, yukarıda bahsettiğim Binom ve Poisson vakaları gibi özel vakaların gizli değişken yorumlarını da duymak isterim.

Referanslar

Thissen, D. ve Orlando, M. (2001). İki kategoride puanlanmış kalemler için madde cevap teorisi. D. Thissen & Wainer, H. (Eds.), Test Puanlama (s. 73-140). Mahwah, NJ: Lawrence Erlbaum Ortakları, Inc.

Düzenle 2016-09-23

Herhangi bir GLM'nin gizli değişken bir model olduğu, yani "gizli değişken" olarak tahmin edilen sonuç dağılımının parametresini her zaman tartışmalı bir şekilde görebildiğimiz bir tür önemsiz duyum vardır - yani doğrudan gözlemlemiyoruz Örneğin, Poisson oran parametresi, biz onu veriden çıkardık. Bunu oldukça önemsiz bir yorum olarak görüyorum ve tam olarak aradığım şey değil çünkü bu yorumlamaya göre herhangi bir doğrusal model (ve elbette birçok başka model!) "Gizli değişken modeli" dir. Örneğin, normal regresyonda, verilen normal "gizli" değerini tahmin ediyoruz. $\mu$ $Y$ $X$ . Bu yüzden gizli değişken modelleme sadece parametre kestirimi ile bağlantılı görünmektedir. Örneğin, Poisson regresyon örneğinde aradığım şey, daha önce gözlemlenen sonucun (sizin tarafınızdan doldurulacak!) Bazı varsayımlar göz önüne alındığında neden Poisson dağılımına sahip olması gerektiğine dair teorik bir model gibi görünecektir. gizli dağılımı, eğer varsa seçim süreci vb. Öyleyse (belki de kritik olarak?) tahmin edilen GLM katsayılarını bu gizli dağılımların / işlemlerin parametreleri açısından yorumlayabiliriz. eşik latent, normal değişken ve / veya vardiya ortalama kaymaların açısından probit regresyonundan katsayıları yorumlama . $Y$ $\gamma$

— Jake Westfall
kaynak

Sorunuzu "lineer tahminde hangi GLM ailelerinin hangi sürekli dağıtım için bir konum parametresine ve bir seçim modeline karşılık geldiğini gösterir?" Olarak değiştirebilir miyiz? Probit ve Logistic regresyon için, lineer öngörücü sırasıyla Gauss ve Logistic dağılım lokasyon parametresidir. Seçim modeli 0'da eşik ediyor (FWIW, başkalarının olacağını sanmıyorum - ve aslında Probit / Lojistik aynı aile, ancak farklı bağlantı işlevleriyle ...)

— Andrew M

@AndrewM Bence, yeniden yapılanmanın muhtemelen farklı sonuçlara sahip GLM'ler için işe yarayacağını düşünüyorum. Ancak, tüm soruyu bu soruna indirgeme konusunda tereddüt ediyorum, çünkü böyle bir yer + seçim modelinin GLM'ler için sürekli sonuçlarla nasıl çalıştığını gerçekten göremiyorum. Öyleyse, bu rephrasing neredeyse bu GLM'ler için bir cevabı engelliyor gibi görünüyor

— Jake Westfall

Gizli sınıf modeller sonlu karışım modelleri kategorisine girer. Onları düşünmenin basit bir yolu, onların arka ucunda, kalıntıdaki heterojenliği modelden gruplara ayıran denetimli öğrenme modelleri olmasıdır. Benzer bir mantık ve bölümleme, GLM'ler de dahil olmak üzere herhangi bir modeldeki kalıntılarda bulunan heterojenliğe uygulanabilir. Tabii ki, bu bölümleme yaklaşımı önemsiz bir seçim olabilir ve bir kluge çözümü olabilir, ancak çalışmak için yapılabilir.

— Mike Hunter

f (y_{i} | η_{i})

$f(y_i|\eta_i)$

g (θ_{i} | η_{i})

$g(\theta_i|\eta_i)$

f (y_{i} | η_{i}) = \int f (y_{i} | η_{i}, θ_{i}) g (θ_{i} | η_{i}) d θ_{i}

$f(y_i|\eta_i) = \int f(y_i|\eta_i, \theta_i) g(\theta_i|\eta_i) d\theta_i$

— Andrew M

Sipariş edilen probit benzer bir yorumu olabilir. ET'deki Becker ve Kennedy makalesine bakın .

— Dimitriy V. Masterov

Birden fazla ayrık sonucu olan modeller için, birkaç model logit modeli vardır (örn. Koşullu logit, çok terimli logit, karışık logit, iç içe logit, ...). Konuyla ilgili Kenneth Train'in kitabına bakınız: http://eml.berkeley.edu/books/choice2.html

$y$ $J$ $j$ $x_j$ $i$ $u_{ij} = x_j \beta + \varepsilon_{ij}$ $j$ $\varepsilon_{ij}$ $j$

Pr (y = j) = \frac{\exp (x_{j} β)}{Σ_{k = 1}^{J} \exp (x_{k} β)}

$\Pr(y=j) = \frac{\exp(x_j \beta)}{\sum_{k=1}^J \exp (x_k \beta)}$

$u_{ij}$ $\beta$

$u$ her seçim yapma gizli "yardımcı" olarak. Mikroekonomide, fayda teorisi üzerine önemli bir çalışma alanı vardır: bkz. Örneğin, https://en.wikipedia.org/wiki/Utility .

Burada "eşik" parametresi bulunmadığını unutmayın: bunun yerine, bir yardımcı program öncekinden daha büyük hale geldiğinde, tüketici bu alternatifi seçmeye geçecektir.

$x_j \beta$

— Superpronker
kaynak