Bu prosedürü kullanmanızı tavsiye etmem. Benim tavsiyem: Bu projeden vazgeç. Sadece vazgeç ve uzaklaş. Bu çalışma umudunuz yok.
görüntü kaynağı
Kademeli seçim ile ilgili standart problemleri bir kenara bırakarak (bkz. Burada ), sizin durumunuzda, böyle yüksek boyutlu bir boşlukta ayrılma nedeniyle mükemmel tahminlere sahip olma olasılığınız yüksektir.
Durumunuzla ilgili ayrıntılı bir bilgim yok, ancak "yalnızca birkaç 10 örneğiniz" olduğunu belirtiyorsunuz. Hayırsever olalım ve 90'a sahip olduğunuzu söyleyelim. Ayrıca "birkaç bin özelliğiniz" olduğunu da söylüyorsunuz. 2.000 tane 'sadece' olduğunu düşünelim. Basitlik adına, tüm özelliklerinizin ikili olduğunu varsayalım. "Sınıf etiketinin yalnızca birkaç özellik kullanılarak doğru bir şekilde tahmin edilebileceğine inanıyorsunuz", en fazla 9 özellik kümesini arayacağınızı varsayalım. Son olarak, ilişkinin deterministik olduğunu düşünelim, böylece gerçek ilişki her zaman verilerinizde mükemmel bir şekilde mevcut olacaktır. (Bu sayıları ve varsayımları değiştirebiliriz, ancak bu sadece sorunu daha da kötüleştirmelidir.) Şimdi, bu (cömert) koşullar altında bu ilişkiyi ne kadar iyi kurtarabilirdiniz? Yani, mükemmel doğruluk sağlayan tek set ne kadar doğru set olur? Ya da başka bir deyişle, kaç özellikten oluşan kaç set yalnızca şans eseri sığar?
Bazı (aşırı) basit matematik ve simülasyonlar bu soruya bazı ipuçları sağlamalıdır. İlk olarak, her biri 0 veya 1 olabilecek 9 değişkenle, bir gözlemin gösterebileceği desen sayısı , ancak yalnızca 90 gözleminiz olacaktır. Bu nedenle, belirli bir 9 ikili değişken kümesi için, her gözlemin farklı bir tahmin değeri kümesi olması mümkündür - tekrar yoktur. Bazılarının y = 0 ve bazı y = 1 olduğu aynı yordayıcı değerlerine sahip kopyalar olmadan, tam bir ayrılmaya sahip olacaksınız ve her gözlemin mükemmel tahmini mümkün olacaktır. 29= 512
Aşağıda, hem 0 hem de 1s ile x-değerleri kalıplarının ne sıklıkta bulunmadığını görmek için bir simülasyon (R kodlu) var. Çalışma şekli, olası desenleri temsil eden 1'den 512'ye kadar bir sayı kümesi almam ve ilk 45'teki desenlerden herhangi birinin (0'lar olabilir) ikinci 45'teki desenlerden herhangi biriyle eşleşip eşleşmediğini görmemdir. (bu 1'ler olabilir). Bu, mükemmel bir şekilde dengelenmiş yanıt verisine sahip olduğunuzu varsayar ve bu da bu soruna karşı mümkün olan en iyi korumayı sağlar. Farklı y değerlerine sahip bazı çoğaltılmış x-vektörlere sahip olmanın sizi gerçekten ormandan çıkarmayacağına dikkat edin, sadece veri setinizdeki her bir gözlemi mükemmel bir şekilde tahmin edemeyeceğiniz anlamına gelir, ki bu çok sıkı standart I Burada kullanıyorum.
set.seed(7938) # this makes the simulation exactly reproducible
my.fun = function(){
x = sample.int(512, size=90, replace=TRUE)
return(sum(x[1:45]%in%x[46:90])==0)
}
n.unique = replicate(10000, my.fun())
mean(n.unique) # [1] 0.0181
Simülasyon, bu sorunu 9 x-değişkenli kümelerin yaklaşık% 1.8'i ile karşılaştıracağınızı göstermektedir. Şimdi, kaç tane 9 set var? Kesinlikle, bu (çünkü gerçek 9 deterministik nedensel değişkenin setinizde olduğunu şart koştuk). Ancak, bu kümelerin çoğu örtüşecektir; olacaktır örtüşmeyen (mümkünse bu tür birçok bölümleri ile) değişkenlerin belirli bir bölüm içinde 9 setleri. Bu nedenle, belirli bir bölümde, veri kümenizdeki her gözlemi mükemmel bir şekilde tahmin edecek set 9 x-değişken olmasını bekleyebiliriz . 1991 / 9 ≈ 221 221 x 0.018 ≈ 41991 tercih 9 = 1.3 x 10241991 tarihli / 9 ≈ 221221 × 0.018 ≈ 4
Bu sonuçların yalnızca göreceli olarak daha büyük bir veri kümesine ("onlarca" dahil), nispeten daha az sayıda değişkene ("binlerce" dahil) sahip olduğunuz durumlar için olduğunu, yalnızca her bir gözlemin mükemmel bir şekilde tahmin edilebileceği durumları ( neredeyse mükemmel olan çok daha fazla set olacak ) vb. Gerçek durumunuzun 'bu kadar iyi' çalışması muhtemel değildir. Dahası, ilişkinin mükemmel deterministik olduğunu şart koştuk. İlişkide rastgele bir gürültü olursa ne olur? Bu durumda, verilerinizi mükemmel şekilde tahmin eden ~ 4 (null) setiniz olacaktır , ancak doğru set bunların arasında olmayabilir .
Tl; dr , buradaki temel nokta, değişken kümenizin çok büyük / yüksek boyutlu olması ve veri miktarınızın mümkün olan her şey için çok küçük olmasıdır. "Onlarca" örneğiniz, "binlerce" değişkeniniz olduğu ve hangi değişkenlerin doğru olabileceği konusunda dünyevi bir fikriniz olmadığı gerçekten doğruysa, herhangi bir prosedürle hiçbir yere gitme umudunuz yoktur. Git vaktinle başka bir şey yap.