Lojistik regresyon için verileri bölmenin bir aracı olarak kümeleme


11

Lojistik regresyon modeline sahip bazı özelliklere dayanarak öğrencilerin başarı veya başarısızlıklarını tahmin etmeye çalışıyorum. Modelin performansını artırmak için, öğrencileri bariz farklılıklara dayanarak farklı gruplara ayırmayı ve her grup için ayrı modeller oluşturmayı düşündüm. Ancak bu grupları sınavla tanımlamanın zor olabileceğini düşünüyorum, bu yüzden öğrencileri özellikleri üzerinde kümelenerek ayırmayı düşündüm. Bu, bu tür modellerin yapımında yaygın bir uygulama mıdır? Bunu bariz gruplara ayırmamı (örneğin, ilk dönem öğrencileri - geri dönen öğrenciler) ve daha sonra bu gruplar üzerinde kümelenme yapmayı veya baştan kümelenmeyi önerir misiniz?

Açıklığa kavuşturmak için:

Demek istediğim, lojistik regresyon için eğitim setimi gruplara ayırmak için bir kümeleme algoritması kullanmayı düşünüyorum . O zaman bu grupların her biri için ayrı lojistik regresyonlar yapacağım. Daha sonra bir öğrencinin sonucunu tahmin etmek için lojistik regresyonu kullanırken, hangi gruba en uygun olduklarına bağlı olarak hangi modeli kullanacağımı seçerdim.

Belki aynı şeyi bir grup tanımlayıcısı da ekleyerek yapabilirim, örneğin, öğrenci dönüyorsa 1 ve değilse 0.

Şimdi, eğitim veri setini kümelendirmenin ve küme etiketlerini her nüfus için ayrı lojistik regresyon modelleri oluşturmak yerine lojistik regresyonda bir özellik olarak kullanmanın avantajlı olup olmadığını düşünmemi sağladınız.

Öğrencileri yeni öğrencilere karşı geri döndürenler için bir grup tanımlayıcısı eklemek yararlıysa, grup listesini genişletmek de yararlı olabilir mi? Kümeleme bunu yapmanın doğal bir yolu gibi görünüyor.

Umarım bu açıktır ...


Sanırım “kümelenmenin” ve lojistik regresyon modelinin birbiriyle nasıl etkileşime gireceğini veya birbirini nasıl etkileyeceğini kavrayamıyorum. Bu bağlamda "kümeleme" ile regresyonda açıklayıcı bir değişken olarak bir grup tanımlayıcısı eklemek arasındaki farkı açıklayabilir misiniz?
whuber

Yanıtlar:


4

Kümeleriniz arasında bağımlı değişkeninizde önemli bir fark varsa, önce kümelenme yaklaşımının KESİNLİKLE yardımcı olacağına inanıyorum. Seçtiğiniz öğrenme algoritmasından bağımsız olarak.

Benim düşünceme göre, bir temelde bir öğrenme algoritması çalıştırmanın, daha düşük bir toplama düzeyindeki anlamlı farklılıkları kapsayabileceği.

Simpson paradoksunu duyan herkes, daha büyük örnek gürültüsü ve / veya daha büyük bir grubun zayıf korelasyonları tarafından kapsanan farklı gruplarda farklı korelasyonlara sahip olduğunuz daha derin bir problemdir.


Haklı olabilirsin, ama tartışmanı takip etmiyorum. OP'nin bulunan kümelerde ayrı LR'ler çalıştırmasını , ortak değişkenlere ek olarak veya ortak değişkenler yerine küme dizinini eklemesini mi düşünüyorsunuz? Değişkenlerin gözlemsel araştırmalarda değişkenlerle karıştırılabileceği kesinlikle doğrudur, ancak CA'nın üzerinde çalıştığı değişkenlerde olmayan bilgiler üretebileceğini mi söylüyorsunuz? Simpson paradoksuna gelince, eğer ilgileniyorsanız, burada CV üzerinde tartışılmaktadır .
gung - Monica'yı eski haline getirin

Gözetimsiz analizin, keyfi bir dizi IV (bağımsız değişkenler) içeren homojen grupları ortaya çıkarmasını öneriyorum. Bunu takiben, LR ile modellemenizin bir sonraki aşaması için aynı değişken grubu veya yeni bir set veya birleşik set ile ilerleyip ilerlemediğinize kendiniz karar verebilirsiniz. Amaç, küme başına 1 LR oluşturmak ve ayarlamaktır (kümenin önemli ölçüde farklı DV değerleri veya frekansları olduğu göz önüne alındığında).
clancy

Aslında kendimi çapraz satış Hayat Sigortası ürünleri için bir alma modeli bağlamında gerçekleştirdim ve 3. küme tarafından seyreltilmiş kümelerin 2'si üzerinde gelişmiş tahmin buldum.
clancy

Modelin spline terimi gerektirip gerektirmediğini merak ediyorum. Bazı verilerin simülasyonunu, temel uyum, CA ve küme ile son (geliştirilmiş) uyum göstergesini ekleyebilir misiniz? Bunu görmek ve neler olduğunu anlamak için biraz oynamak isterim.
gung - Monica'yı eski haline getirin

Merhaba Gung, çok isterdim ama zamanı bulamıyorum. MARS modelleme ile çalışmaya yeni başladım ve bunun açıklanan küme + LR topluluğu ile aynı sonucu tatmin edip etmeyeceğinden emin değilim.
clancy

8

Önerdiğiniz genel yaklaşım - farklı temel sınıflandırıcılara farklı veri noktaları atamak için gizli bölümleri kullanma - sınıflandırmaya yönelik iyi araştırılmış bir yaklaşımdır.

Bu yöntemlerin yaygın olarak kullanılmamasının nedeni, nispeten karmaşık olmaları ve lojistik regresyon veya SVM'lerden daha uzun çalışma sürelerine sahip olmalarıdır. Birçok durumda, daha iyi sınıflandırma performansına yol açabilecekleri görülmektedir.

İşte bazı referanslar:

  • Shahbaba, B. ve Neal, R. "Dirichlet proses karışımlarını kullanan doğrusal olmayan modeller"

  • Zhu, J. ve Chen, N. ve Xing, EP "Sınıflandırma ve Çok Amaçlı Öğrenme için Sonsuz Gizli SVM"

  • Rasmussen, CE ve Ghahramani, Z. "Gauss süreç uzmanlarının sonsuz karışımları"

  • Meeds, E. ve Osindero, S. "Gauss süreç uzmanlarının alternatif sonsuz bir karışımı"


1

Kümeleme hakkında nispeten az şey bildiğimi en başından kabul etmek istiyorum. Ancak, tarif ettiğiniz prosedürün amacını görmüyorum. Örneğin, ilk dönemin geri dönen öğrencilere karşı farklı olabileceğini düşünüyorsanız, neden dizine ekleyen bir değişken içermiyorsunuz? Aynı şekilde, öğrencilerin başka bir özelliğinin alakalı olduğunu düşünüyorsanız, bunu da dahil edebilirsiniz. Birincil ilgi öngörücünüz ile başarı oranı arasındaki ilişkinin farklı olabileceğinden endişe ediyorsanız , bu öngörücü ile ilk dönem ile geri dönüş arasındaki etkileşimi de dahil edebilirsiniz. modeldeki terimler.

Öte yandan, sadece bu özellikleri kümelediğiniz ve ilk önce (yanıta bakmadan) yaptığınız sürece, herhangi bir sorun görmüyorum. Her bir modelin daha düşük güce sahip olması nedeniyle bu yaklaşımın verimsiz olacağından şüpheleniyorum çünkü sadece verilerin bir alt kümesine sığıyor, ancak parametrelere ağırlık vereceğini veya testleri geçersiz kılacağını düşünmüyorum. Bu yüzden eğer gerçekten isterseniz bunu deneyebilirsiniz.

Güncelleme:

Benim tahminim, tüm verilerle bir modele uymanın en iyi (yani en verimli) olacağıdır. Birincil ilgi alanınızın ötesinde bazı ek ortak değişkenler (örneğin, geri dönüp dönmeme gibi) ve önceden bir küme analizi gerçekleştirerek keşfettiğiniz bir gruplama göstergesi ekleyebilirsiniz. Bununla birlikte, küme analizine giren ortak değişkenler de lojistik regresyon modeline sunulmuşsa, LR modelindeki tüm ortak değişkenleri de dahil etmeden ne kazanacağımı görüp göremeyeceğimden emin değilimküme göstergesi. Küme analizi konusunda uzman olmadığım için, aşina olmadığım bir avantaj olabilir, ancak bunun ne olacağını bilmiyorum. Bana öyle geliyor ki CA, ortak değişkenlerde henüz mevcut olmayan ek bilgiler üretmeyecek ve bu nedenle LR modeline hiçbir şey eklemeyecek. Deneyebilirsiniz; belki de ben hatalıyım. Ama tahminimce fazladan birkaç serbestlik daha yakacaksınız.

Küme göstergesinin dayandığı ortak değişkenler yerine LR modeline girilmesi farklı bir yaklaşım olacaktır . Bunun yararlı olacağından şüpheliyim. CA mükemmel olmayacak, herhangi bir diğer analizden daha fazla olmayacak ve bu nedenle orijinal ortak değişkenlerden türetilmiş küme göstergesine geçişin bir miktar bilgi kaybına neden olması muhtemeldir . (Yine, bunu bilmiyorum, ama bunun doğru olduğundan şüpheliyim.) Yine de, her ikisini de deneyebilir ve akademik bir egzersiz olarak karşılaştırabilirsiniz, ancak sadece çok fazla şey denemek ve en iyi görünen sonuca karar vermek kaşlarını çattı sonuçlarınızı ciddiye almak istiyorsanız.

Sadece küme analizlerine değinmek istemiyorum. Genel olarak birçok faydaları olabilir ve burada onlar için iyi bir kullanım olabilir. Ancak, durumunuzu anladığım için, sadece alakalı olabileceğini düşündüğünüz ortak değişkenlerle bir LR modeli oluşturmak için yol olduğunu düşünüyorum.


1

Lojistik regresyona bağlı değilseniz, rastgele bir orman sınıflandırıcısı kullanmanızı öneririm, çünkü bir tür yerleşik kümeleme vardır. Fikir kümelenmek için yakınlık matrisini kullanmak olacaktır. Yakınlık matrisi, aynı terminal düğümünde gözlemlerin olduğu torba dışı ağaçların kesri için N_Obs tarafından N_Obs matrisidir. Daha sonra bunu, unsurların yakınlık matrisindeki kesirin ortalaması olduğu özellik seviyesi matrisine göre bir özellik düzeyinde toplayabilirsiniz. Daha sonra bir eşiği geçtiklerinde tüm seviyeleri bir araya toplarsınız ve bunun tahmininizi iyileştirip iyileştirmediğini görürsünüz. En iyi kümelemeyi bulmak için adım adım yinelemeli bir yaklaşım benimsemek en iyisidir, ancak başka şekillerde bir eşik seçebilirsiniz. Bu kümeleme tamamlandığında, özelliği küme etiketleriyle değiştirebilir veya küme etiketlerini yeni bir özellik olarak ekleyebilirsiniz. Sanırım bu noktada gerçekten isterseniz lojistik regresyona geri dönebilirsiniz.


0

Çok bölümlü modeller oluştururken, en iyi yaklaşımın temeldeki dağıtımlardaki gerçek farklılıklarla konuşan segmentler oluşturmak olduğunu düşünüyorum. İlk dönem öğrencileri ile geri dönen öğrencilerin karşılaştırması, tahminci dağılımlarının bu iki popülasyon için muhtemelen çok farklı olacağı için harika bir örnektir. Daha da önemlisi, bu farklılıkların sezgisel bir açıklaması vardır.


Sezgisel bir açıklamanın değerini alıyorum - modelinizi yorumlamanıza yardımcı oluyor. Ancak, insanları benzerliklerine dayanarak gruplara ayırırsanız, sahip olduğunuz özellikler açısından, aynı yorumlanabilirlikle olmasa da benzer bir fayda elde edeceğinizi düşünmek için bir neden yok mu? Kümelenmenin kullanılmasının arkasındaki fikir, günlük yaşamda kullandığımız kategorilerle düzgün bir şekilde uyuşmayan grupları belirleme söz konusu olduğunda, makinelerin insanlardan daha iyi olduğudur ...
dave

Buna ek olarak, bir grup benzer öğrenci üzerinde bir regresyon modeli geliştirirseniz, bu model, bu öğrencilerin başarısına ilişkin tahminlerinde daha geniş bir öğrenci seti ile eğitilmiş bir modelden daha doğru olacaktır.
dave
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.