Sürekli değişken için optimum ayrıklaştırma nasıl bulunur ve değerlendirilir


9

Sürekli değişken ve ikili hedef değişken (0 ve 1) ile bir veri kümesi var.

Sürekli değişkenleri (lojistik regresyon için) hedef değişkene göre ayırmak ve her aralıktaki gözlem sıklığının dengelenmesi gerekir. Chi Merge, karar ağaçları gibi makine öğrenme algoritmalarını denedim. Chi merge bana her aralıkta çok dengesiz sayılarla aralıklar verdi (3 gözlemli bir aralık ve 1000 ile başka bir aralık). Karar ağaçlarını yorumlamak zordu.

İdeal bir ayrıklaştırmanın , ayrıklaştırılmış değişken ile hedef değişken arasındaki istatistiği maksimuma çıkarması ve kabaca aynı miktarda gözlem içeren aralıklar olması gerektiği sonucuna vardım .χ2

Bunu çözmek için bir algoritma var mı?

R'de bu şekilde görünebilir (def, hedef değişken ve x değişkenin ayrıklaştırılmasıdır). Dönüştürülen ve hedef değişken arasındaki "korelasyonu" değerlendirmek için Tschuprow'un değerini hesapladım çünkü istatistikleri aralıkların sayısı ile artma eğilimindedir. Bunun doğru yol olup olmadığından emin değilim.Tχ2

Benim diskretizasyon Tschuprow en dışındaki optimum ise değerlendirirken başka yolu var mı (artar sınıf sayısı azalır)?T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
Belki bunu biliyorsunuzdur; ancak kayıt için, (1) lojistik regresyon için öngörücülerin ayrıklaştırılması ne gerekli ne de genellikle arzu edilir, ve (2) öngörücülerin tanımlanması için verilen yanıtın kullanılması, modelinizin öngörücü performansının tahminine iyimser bir önyargı getirir ve bu nedenle, tüm montaj prosedürünü doğrulamak önemlidir (yani, öngörücüler oluşturmak için kullandığınız yöntem dahil).
Scortchi - Eski durumuna getirin Monica

Tamam, takdir yetkisini nasıl doğrulayabilirim, bu nasıl çalışır?
Charlotte

Örneğin çapraz doğrulama kullanıyorsanız, her bir katmanda sadece tüm numuneden belirlenen öngörücülerin "optimal" ayrıklaştırmasını kullanarak lojistik regresyonu gerçekleştirmezsiniz, ancak "optimal" ayrıklaştırmayı da yeniden hesaplarsınız.
Scortchi - Monica'yı eski durumuna getirin

Yanıtlar:


8

Sürekli bir değişkeni takdir etmenin birçok olası yolu vardır: bkz. [Garcia 2013]

739 Sayfasında ki-kare dayalı en az 5 yöntem görebiliyordu. Ayrıklaştırmanın iyimserliği, aslında ayrıklaştırılmış değişkeni kullanmak istediğiniz göreve bağlıdır. Sizin durumunuzda lojistik regresyon. Ve Garcia2013'te tartışıldığı gibi, bir görev verilen optimal ayrıklaştırmanın bulunması NP-tamamlandı.

Yine de çok fazla buluşsal yöntem var. Bu yazıda en az 50 tanesini tartışıyorlar. Makine öğrenim geçmişim göz önüne alındığında (sanırım istatistikteki insanlar başka şeyleri tercih ediyor) Fayyad ve İran'ın Minimum Açıklama Uzunluğu (MDL) yöntemine karşı önyargılıyım. R paketinin takdirinde mevcut olduğunu görüyorum

Söylediğiniz gibi, Ki-kare çok sayıda aralığa doğru eğilimli ve diğer birçok istatistik (MDL yönteminde kullanılan bilgi kazancı gibi). Bununla birlikte, MDL, takdirsiz değişkenin bilgi kazancı ile takdirsiz değişkenin sınıfı ve karmaşıklığı (aralık sayısı) arasında iyi bir denge bulmaya çalışır. Bir şans ver.


Garcia 2013 bağlantınız kopmuş gibi görünüyor ... Bu makale hakkında daha fazla ayrıntı yayınlamak veya yeniden bağlantı kurmak ister misiniz?
Kiran K.

2
@KiranK. Bilmeme izin verdiğin için teşekkürler. Bağlantıyı düzelttim.
Simone
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.