Tanımladığınız sorun, gizli sınıf regresyonu ya da küme bazında regresyon ya da daha geniş bir sonlu karışım modelleri ailesinin üyesi olan genelleştirilmiş doğrusal modellerin ya da gizli sınıf modellerin uzatma karışımıyla çözülebilir .
Sınıflandırma (denetimli öğrenme) ve kendi başına regresyonun bir kombinasyonu değil, kümelenme (denetimsiz öğrenme) ve regresyonun bir birleşimidir . Temel yaklaşım, eşlik eden değişkenleri kullanarak sınıf üyeliğini tahmin etmenizi, aradığınızı daha da yakınlaştıracak şekilde genişletilebilir. Aslında, sınıflandırma için gizli sınıf modellerinin kullanılması, bunu böyle bir amaç için tavsiye eden Vermunt ve Magidson (2003) tarafından tanımlanmıştır.
Gizli sınıf regresyonu
Bu yaklaşım temel olarak form olarak sonlu bir karışım modelidir (veya gizli sınıf analizi ).
f( y∣ x , ψ ) = ∑k = 1Kπkfk( y∣ x , ϑk)
burada , tüm parametrelerin bir vektörüdür ve , tarafından parametreleştirilmiş karışım bileşenleridir ve her bir bileşen gizli oranlarla görünür . Bu nedenle fikir, verilerinizin dağılımının , her birinin olasılık ile görünen regresyon modeli ile tanımlanabilecek olan bileşenlerinin bir karışımı . Sonlu karışım modelleri bileşenlerinin seçiminde çok esnektir ve farklı model sınıflarının (örneğin faktör analizörlerinin karışımları) diğer formlarına ve karışımlarına genişletilebilir.f kψ = ( π , ϑ )fkπ k K f k π k f kθkπkKfkπkfk
Yandaş değişkenlere dayalı olarak sınıf üyeliğinin olasılığını tahmin etmek
Basit gizli sınıf regresyon modeli, sınıf üyeliğini öngören eş değişkenleri içerecek şekilde genişletilebilir (Dayton ve Macready, 1998; ayrıca bkz: Linzer ve Lewis, 2011; Grun ve Leisch, 2008; McCutcheon, 1987; Hagenaars ve McCutcheon, 2009). Bu durumda model olur
f( y∣ x , w , ψ ) = ∑k = 1Kπk( a , a )fk( y∣ x , ϑk)
burada tekrar tüm parametrelerin bir vektörüdür, ancak eşzamanlı değişkenleri temel alan değişkenleri temel alarak tahmin etmek için kullanılan ve eşzamanlı değişkenleri ve bir işlev (örneğin lojistik) içerir. Böylece, önce sınıf üyeliğinin olasılığını tahmin edebilir ve tek bir modelde kümelenme regresyonunu tahmin edebilirsiniz.w π k ( w , α )ψwπk( a , a )
Lehte ve aleyhte olanlar
Bunun güzel yanı, model tabanlı bir kümeleme tekniği olması, verilerinize modellere uymanızın ne anlama geldiği ve bu modellerin model karşılaştırması için farklı yöntemler kullanarak karşılaştırılması (olasılık oranı testleri, BIC, AIC vb.). ), bu nedenle nihai model seçimi, genel olarak kümelenme analizinde olduğu kadar öznel değildir. Sorunu iki bağımsız kümelenme problemine frenlemek ve daha sonra regresyon uygulamak önyargılı sonuçlara yol açabilir ve her şeyi tek bir modelde tahmin etmek, verilerinizi daha verimli kullanmanıza olanak sağlar.
Dezavantajı ise, modeliniz hakkında bir takım varsayımlar yapmanız ve bunun hakkında biraz düşünmeniz gerekmesidir, bu yüzden verileri basitçe ele alacak ve sizi rahatsız etmeden bir sonuç veren bir kara kutu yöntemi değildir. Gürültülü veriler ve karmaşık modellerle model tanımlanabilirlik sorunlarınız da olabilir. Ayrıca, bu tür modeller o kadar popüler olmadığı için yaygın olarak uygulanmamaktadır (büyük R paketlerini kontrol edebilirsiniz flexmix
ve poLCA
bildiğim kadarıyla SAS ve Mplus'ta da bir dereceye kadar uygulandığını biliyorum).
Örnek
Aşağıda, bu modelin örneklerinden flexmix
kütüphaneden (Leisch, 2004; Grun ve Leisch, 2008) iki regresyon modelinin skeç uydurma karışımına ait telafi verilerini görebilirsiniz.
library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
##
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
##
## prior size post>0 ratio
## Comp.1 0.506 100 141 0.709
## Comp.2 0.494 100 145 0.690
##
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09 BIC: 1332.775
parameters(m1, component = 1)
## Comp.1
## coef.(Intercept) 14.7171662
## coef.x 9.8458171
## coef.I(x^2) -0.9682602
## sigma 3.4808332
parameters(m1, component = 2)
## Comp.2
## coef.(Intercept) -0.20910955
## coef.x 4.81646040
## coef.I(x^2) 0.03629501
## sigma 3.47505076
Aşağıdaki grafiklerde görselleştirilmiştir (nokta şekilleri gerçek sınıflardır, renkler sınıflandırmadır).
Referanslar ve ek kaynaklar
Daha fazla ayrıntı için aşağıdaki kitapları ve belgeleri kontrol edebilirsiniz:
Wedel, M. ve DeSarbo, WS (1995). Genelleştirilmiş Doğrusal Modeller İçin Karışım Olabilirlik Yaklaşımı. Sınıflandırma Dergisi, 12 , 21–55.
Wedel, M. ve Kamakura, WA (2001). Pazar Bölümlendirme - Kavramsal ve Metodolojik Temeller. Kluwer Academic Publishers.
Leisch, F. (2004). Flexmix: R. , İstatistiksel Yazılım Dergisi, 11 (8) , 1-18'de sonlu karışım modelleri ve gizli cam regresyonu için genel bir çerçeve .
Grun, B. ve Leisch, F. (2008). FlexMix sürüm 2: eş zamanlı değişkenler ve değişken ve sabit parametrelerle sonlu karışımlar
İstatistiksel Yazılım Dergisi, 28 (1) , 1-35.
McLachlan, G. ve Peel, D. (2000). Sonlu Karışım Modelleri. John Wiley ve Oğulları.
Dayton, CM ve Macready, GB (1988). Eşzamanlı Değişken Latent-Class Modelleri. Amerikan İstatistik Kurumu Dergisi, 83 (401), 173-178.
Linzer, DA ve Lewis, JB (2011). poLCA: Çok değişkenli latent sınıf analizi için bir R paketi. İstatistiksel Yazılım Dergisi, 42 (10), 1-29.
McCutcheon, AL (1987). Gizli Sınıf Analizi. Adaçayı.
Hagenaars JA ve McCutcheon, AL (2009). Uygulamalı Latent Sınıf Analizi. Cambridge Üniversitesi Basını.
Vermunt, JK ve Magidson, J. (2003). Sınıflandırma için gizli sınıf modelleri. Hesaplamalı İstatistik ve Veri Analizi, 41 (3), 531-537.
Grün, B. ve Leisch, F. (2007). Regresyon modellerinin sonlu karışımları uygulamaları. Flexmix paket skeç.
Grün, B. ve Leisch, F. (2007). Genelleştirilmiş doğrusal regresyonların sonlu karışımlarının R'ye takılması. Hesaplamalı İstatistik ve Veri Analizi, 51 (11), 5247-5252.