Bir sınıflandırma bağlamında ilginç öngörücüler izole etmek olduğunda küçük örnek klinik çalışmalarda Rastgele Ormanlar veya cezalandırılmış regresyon (L1 veya L2 cezası veya bunların bir kombinasyonu ile) gibi makine öğrenme tekniklerini uygulamak hakkında ne düşünüyorsunuz? Model seçimi ile ilgili bir soru değil, değişken etki / önem için en uygun tahminlerin nasıl bulunacağını da sormuyorum. Güçlü bir çıkarım yapmayı değil, sadece çok değişkenli modellemeyi kullanmayı planlıyorum, böylece her bir öngörücüyü birer birer ilgi sonucuna karşı test etmekten ve karşılıklı ilişkilerini hesaba katmaktan kaçınıyorum.
Sadece bu özel durum için böyle bir yaklaşımın uygulanıp uygulanmadığını merak ediyordum, örneğin 10-15 kategorik veya sürekli değişkenler hakkında veri bulunan 20-30 denek. Tam olarak durumu değil ve buradaki sorunun açıklamaya çalıştığımız (genellikle iyi dengelenmemiş) sınıfların sayısı ve (çok) küçük n ile ilgili olduğunu düşünüyorum. Biyoenformatik bağlamında bu konudaki büyük literatürün farkındayım, ancak psikometrik olarak ölçülen fenotiplerle (örneğin nöropsikolojik anketler boyunca) biyomedikal çalışmalarla ilgili herhangi bir referans bulamadım.
Herhangi bir ipucu veya ilgili makaleye işaret eden var mı?
Güncelleme
C4.5 algoritması veya türevleri, ilişkilendirme kuralları yöntemleri ve denetimli veya yarı denetimli sınıflandırma için herhangi bir veri madenciliği tekniği gibi bu tür verileri analiz etmek için başka çözümlere açığım.