Rastgele Ormanları ( randomForest ) denemeye değeceğini düşünüyorum ; ilgili sorulara cevap olarak bazı referanslar sağlandı: Makine öğrenmesinde çapraz doğrulama yapılırken “son” model için özellik seçimi ; CART modelleri sağlam hale getirilebilir mi? . Yükseltme / torbalama, onları küçük bozulmalara karşı çok hassas oldukları bilinen tek bir CART'tan daha stabil hale getirir. Bazı yazarlar cezalandırılmış SVM veya Gradient Arttırıcı Makinelerin yanı sıra performans gösterdiğini iddia etti (bakınız örneğin Cutler ve diğerleri, 2009). Bence kesinlikle NN'lerden daha iyi performans gösteriyorlar.
Boulesteix ve Strobl, Optimal sınıflandırıcı seçimindeki birkaç sınıflandırıcıya ve hata oranı tahminindeki olumsuz önyargıya genel bir bakış sunar : yüksek boyutlu tahmin üzerine ampirik bir çalışma (BMC MRM 2009 9: 85). Ben de başka bir iyi çalışmanın duydum IV EAM toplantısında inceleme altında olmalıdır, Tıpta İstatistik ,
João Maroco , Dina Silva, Manuela Guerreiro, Alexandre de Mendonça. Rastgele Ormanlarda Sinir Ağları, Destek Vektör Makineleri ve Ayırt Edici Analiz sınıflandırıcılarından daha iyi performans gösteriyor mu? Bilişsel şikayetleri olan yaşlı hastalarda demans evriminde bir vaka çalışması
Ayrıca şapka paketini de severim : iyi belgelenmiştir ve aynı veri setindeki farklı sınıflandırıcıların tahmin doğruluğunu karşılaştırmaya izin verir. Birkaç kullanıcı dostu fonksiyonla eğitim / test örnekleri, hesaplama doğruluğu vb.
Glmnet Friedman ve coll gelen paket,., Uygular cezalandırılmış GLM (inceleme bakınız İstatistiksel Journal of Software ), bir tanınmış modelleme çerçevesinde kalması böylece.
Aksi takdirde, ilişkilendirme kurallarına dayalı sınıflandırıcıları da arayabilirsiniz ( bazılarına yumuşak bir giriş yapabilmek için Makine Öğrenimi Üzerine CRAN Görev Görünümü'ne veya veri madenciliğindeki İlk 10 algoritmaya bakınız ).
Hervé Abdi'den Ayırt Edici Yazışma Analizi olan R'de (aslında, Matlab kodu) yeniden uygulamayı planladığım başka ilginç bir yaklaşımdan bahsetmek istiyorum . Her ne kadar başlangıçta çok sayıda açıklayıcı değişkenli (nihayetinde tutarlı bloklar halinde gruplandırılmış) küçük örneklemli çalışmalarla başa çıkmak için geliştirilmiş olsa da, klasik DA'yı veri azaltma teknikleriyle verimli bir şekilde birleştiriyor gibi görünmektedir.
Referanslar
- Cutler, A., Cutler, DR ve Stevens, JR (2009). Ağaç Tabanlı Yöntemler , Kanser Araştırmalarında Yüksek Boyutlu Veri Analizinde , Li, X. ve Xu, R. (ed.), S. 83-101, Springer.
- Saeys, Y., Inza, I. ve Larrañaga, P. (2007). Biyoinformatikte özellik seçim tekniklerinin gözden geçirilmesi . Biyoinformatik, 23 (19): 2507-2517.