Belirli bir yanıt (hedef) ikili değişken ve sürekli olarak parametre olarak aralıkların maksimum sayısı ile sürekli değişken en iyi binning yöntemi (ayrıklaştırma) arıyorum.
örnek: "yükseklik" (sürekli sayısal) ve "has_back_pains" (ikili) değişkenleri olan insanların gözlemleri bir dizi var. Yüksekliği en fazla 3 aralıkta (grup) ayrıştırmak istiyorum, bu yüzden algoritma gruplar arasındaki farkı en üst düzeye çıkarır, böylece algoritma gruplar arasındaki farkı en üst düzeye çıkarır (örneğin, her aralığın en az x gözlemi olduğu).
Bu soruna bariz çözüm, karar ağaçlarını (basit bir tek değişkenli model) kullanmak olacaktır, ancak parametre olarak "maksimum dal sayısı" olan herhangi bir işlevi bulamıyorum - hepsi değişkeni böler 2 gropusa (<= x ve> x) eklenir. SAS madenci bir "maksimum şube" parametresi var ama ticari olmayan bir çözüm arıyorum.
Değişkenlerimden bazılarının sadece birkaç benzersiz değeri vardır (ve ayrık değişkenler olarak ele alınabilir), ancak bunları daha az sayıda aralığa da ayırmak istiyorum.
Sorunuma en yakın çözüm, R'deki smbinning paketinde (parti paketinden ctree işlevine dayanan) uygulanır, ancak iki dezavantajı vardır: aralık sayısını ayarlamak imkansızdır (ancak, değiştirerek bunun etrafında bir yol bulabilirsiniz) p parametresi) ve veri vektörü 10'dan az benzersiz değere sahip olduğunda çalışmaz. Her neyse, burada örnek çıktıyı görebilirsiniz (Kesme Noktası ve Oran sütunları çok önemlidir):
Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV
1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596
2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 0.0068
3 <= 335 2986 163 2823 20608 578 20030 0.0616 0.9454 0.0577 -2.8518 0.4608 0.0163
4 Missing 27852 1125 26727 48460 1703 46757 0.5747 0.9596 0.0421 -3.1679 0.1447 0.0129
5 Total 48460 1703 46757 NA NA NA 1.0000 0.9649 0.0364 -3.3126 0.0000 0.0956
Ah, binning'in bilgi kaybıyla sonuçlandığını ve daha iyi yöntemler olduğunu tamamen biliyorum, ancak veri görselleştirme için kullanacağım ve bu değişkenleri bir faktör olarak ele alacağım.
SPSS Algorithms Optimal Binning
.