Sınıflandırma ve regresyonu birleştiren bir algoritma var mı?


25

Aynı zamanda sınıflandırma ve regresyon yapabilen herhangi bir algoritma olup olmadığını merak ediyorum. Örneğin, algoritmanın bir sınıflandırıcı öğrenmesine izin vermek istiyorum ve her bir etiketin içinde aynı zamanda sürekli bir hedef öğreniyor. Bu nedenle, her eğitim örneği için kategorik bir etikete ve sürekli bir değere sahiptir.

Önce bir sınıflayıcıyı eğitebilirim, sonra da her etiketin içine bir regresör yetiştirebilirdim, ama sadece her ikisini de yapabilen bir algoritma varsa harika olacağını düşünüyorum.


Tarafsız özyinelemeli bölümlendirme
adrian1121

@Tim, [sonlu sabitleme modeli] (burada kullandığınız bir etiket) bir alıntıya sahip değildir. Bir tane sağlamak ister misin?
amip diyor Reinstate Monica

Shudong, "sınıflandırma" mı demek istedin yoksa "kümeleme" mi demek istedin? Sınıflandırma hakkında sorular sordunuz ancak Tim'in kümelemeyle ilgili cevabını kabul ettiniz.
amip diyor Reinstate Monica

@ amoeba yapılır, belki de biri tarafından mükemmel değildir, bir gün alıntıyı geliştirir.
Tim

@ amoeba Ben sınıflandırma demek. Timlerin cevabı yakın bir şey. Başka cevap yok. Belki biraz beklemeliyim?
Shudong

Yanıtlar:


35

Tanımladığınız sorun, gizli sınıf regresyonu ya da küme bazında regresyon ya da daha geniş bir sonlu karışım modelleri ailesinin üyesi olan genelleştirilmiş doğrusal modellerin ya da gizli sınıf modellerin uzatma karışımıyla çözülebilir .

Sınıflandırma (denetimli öğrenme) ve kendi başına regresyonun bir kombinasyonu değil, kümelenme (denetimsiz öğrenme) ve regresyonun bir birleşimidir . Temel yaklaşım, eşlik eden değişkenleri kullanarak sınıf üyeliğini tahmin etmenizi, aradığınızı daha da yakınlaştıracak şekilde genişletilebilir. Aslında, sınıflandırma için gizli sınıf modellerinin kullanılması, bunu böyle bir amaç için tavsiye eden Vermunt ve Magidson (2003) tarafından tanımlanmıştır.

Gizli sınıf regresyonu

Bu yaklaşım temel olarak form olarak sonlu bir karışım modelidir (veya gizli sınıf analizi ).

f(yx,ψ)=k=1Kπkfk(yx,ϑk)

burada , tüm parametrelerin bir vektörüdür ve , tarafından parametreleştirilmiş karışım bileşenleridir ve her bir bileşen gizli oranlarla görünür . Bu nedenle fikir, verilerinizin dağılımının , her birinin olasılık ile görünen regresyon modeli ile tanımlanabilecek olan bileşenlerinin bir karışımı . Sonlu karışım modelleri bileşenlerinin seçiminde çok esnektir ve farklı model sınıflarının (örneğin faktör analizörlerinin karışımları) diğer formlarına ve karışımlarına genişletilebilir.f kψ=(π,ϑ)fkπ k K f k π k f kϑkπkKfkπkfk

Yandaş değişkenlere dayalı olarak sınıf üyeliğinin olasılığını tahmin etmek

Basit gizli sınıf regresyon modeli, sınıf üyeliğini öngören eş değişkenleri içerecek şekilde genişletilebilir (Dayton ve Macready, 1998; ayrıca bkz: Linzer ve Lewis, 2011; Grun ve Leisch, 2008; McCutcheon, 1987; Hagenaars ve McCutcheon, 2009). Bu durumda model olur

f(yx,w,ψ)=k=1Kπk(w,α)fk(yx,ϑk)

burada tekrar tüm parametrelerin bir vektörüdür, ancak eşzamanlı değişkenleri temel alan değişkenleri temel alarak tahmin etmek için kullanılan ve eşzamanlı değişkenleri ve bir işlev (örneğin lojistik) içerir. Böylece, önce sınıf üyeliğinin olasılığını tahmin edebilir ve tek bir modelde kümelenme regresyonunu tahmin edebilirsiniz.w π k ( w , α )ψwπk(w,α)

Lehte ve aleyhte olanlar

Bunun güzel yanı, model tabanlı bir kümeleme tekniği olması, verilerinize modellere uymanızın ne anlama geldiği ve bu modellerin model karşılaştırması için farklı yöntemler kullanarak karşılaştırılması (olasılık oranı testleri, BIC, AIC vb.). ), bu nedenle nihai model seçimi, genel olarak kümelenme analizinde olduğu kadar öznel değildir. Sorunu iki bağımsız kümelenme problemine frenlemek ve daha sonra regresyon uygulamak önyargılı sonuçlara yol açabilir ve her şeyi tek bir modelde tahmin etmek, verilerinizi daha verimli kullanmanıza olanak sağlar.

Dezavantajı ise, modeliniz hakkında bir takım varsayımlar yapmanız ve bunun hakkında biraz düşünmeniz gerekmesidir, bu yüzden verileri basitçe ele alacak ve sizi rahatsız etmeden bir sonuç veren bir kara kutu yöntemi değildir. Gürültülü veriler ve karmaşık modellerle model tanımlanabilirlik sorunlarınız da olabilir. Ayrıca, bu tür modeller o kadar popüler olmadığı için yaygın olarak uygulanmamaktadır (büyük R paketlerini kontrol edebilirsiniz flexmixve poLCAbildiğim kadarıyla SAS ve Mplus'ta da bir dereceye kadar uygulandığını biliyorum).

Örnek

Aşağıda, bu modelin örneklerinden flexmixkütüphaneden (Leisch, 2004; Grun ve Leisch, 2008) iki regresyon modelinin skeç uydurma karışımına ait telafi verilerini görebilirsiniz.

library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
## 
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
## 
##        prior size post>0 ratio
## Comp.1 0.506  100    141 0.709
## Comp.2 0.494  100    145 0.690
## 
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09   BIC: 1332.775 
parameters(m1, component = 1)
##                      Comp.1
## coef.(Intercept) 14.7171662
## coef.x            9.8458171
## coef.I(x^2)      -0.9682602
## sigma             3.4808332
parameters(m1, component = 2)
##                       Comp.2
## coef.(Intercept) -0.20910955
## coef.x            4.81646040
## coef.I(x^2)       0.03629501
## sigma             3.47505076

Aşağıdaki grafiklerde görselleştirilmiştir (nokta şekilleri gerçek sınıflardır, renkler sınıflandırmadır).

Gizli sınıf regresyon örneği

Referanslar ve ek kaynaklar

Daha fazla ayrıntı için aşağıdaki kitapları ve belgeleri kontrol edebilirsiniz:

Wedel, M. ve DeSarbo, WS (1995). Genelleştirilmiş Doğrusal Modeller İçin Karışım Olabilirlik Yaklaşımı. Sınıflandırma Dergisi, 12 , 21–55.

Wedel, M. ve Kamakura, WA (2001). Pazar Bölümlendirme - Kavramsal ve Metodolojik Temeller. Kluwer Academic Publishers.

Leisch, F. (2004). Flexmix: R. , İstatistiksel Yazılım Dergisi, 11 (8) , 1-18'de sonlu karışım modelleri ve gizli cam regresyonu için genel bir çerçeve .

Grun, B. ve Leisch, F. (2008). FlexMix sürüm 2: eş zamanlı değişkenler ve değişken ve sabit parametrelerle sonlu karışımlar İstatistiksel Yazılım Dergisi, 28 (1) , 1-35.

McLachlan, G. ve Peel, D. (2000). Sonlu Karışım Modelleri. John Wiley ve Oğulları.

Dayton, CM ve Macready, GB (1988). Eşzamanlı Değişken Latent-Class Modelleri. Amerikan İstatistik Kurumu Dergisi, 83 (401), 173-178.

Linzer, DA ve Lewis, JB (2011). poLCA: Çok değişkenli latent sınıf analizi için bir R paketi. İstatistiksel Yazılım Dergisi, 42 (10), 1-29.

McCutcheon, AL (1987). Gizli Sınıf Analizi. Adaçayı.

Hagenaars JA ve McCutcheon, AL (2009). Uygulamalı Latent Sınıf Analizi. Cambridge Üniversitesi Basını.

Vermunt, JK ve Magidson, J. (2003). Sınıflandırma için gizli sınıf modelleri. Hesaplamalı İstatistik ve Veri Analizi, 41 (3), 531-537.

Grün, B. ve Leisch, F. (2007). Regresyon modellerinin sonlu karışımları uygulamaları. Flexmix paket skeç.

Grün, B. ve Leisch, F. (2007). Genelleştirilmiş doğrusal regresyonların sonlu karışımlarının R'ye takılması. Hesaplamalı İstatistik ve Veri Analizi, 51 (11), 5247-5252.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.