Topluluk öğrenimi oldukça farklı yöntemlere işaret eder. Arttırma ve torbalama muhtemelen en yaygın olanlardır. Öyle görünüyor ki, istifleme adı verilen bir topluluk öğrenme yöntemi uygulamaya çalışıyorsunuz . Yığınlama, çeşitli öğrenme algoritmalarından tahminleri birleştirerek doğruluğu artırmayı amaçlamaktadır. Çok titiz bir teori değil, istiflemenin birkaç yolu vardır. Yine de sezgisel ve popüler.
Arkadaşınızın yaklaşımını düşünün. İlk kat modellerini beş katın dördüne takıyorsunuz ve daha sonra aynı dört katlamayı kullanarak ikinci kat (oylama) modelini takıyorsunuz. Sorun, ikinci katmanın en düşük eğitim hatasına sahip modeli desteklemesi. Modellere uymak ve bu modelleri birleştirmek için bir prosedür tasarlamak için aynı verileri kullanıyorsunuz. İkinci kat, modelleri örnek dışı tahminler kullanarak birleştirmelidir . Metodunuz daha iyi, ama daha da iyisini yapmanın bir yolu var.
Test amacıyla bir kat bırakmaya devam edeceğiz. Dört kat alın ve dört katın her birinde ilk katman modellerinizin her biri için örnek dışı tahminler almak üzere 4 kat CV kullanın. Yani, dört kıvrımdan birini dışarıda bırakın ve modelleri diğer üçe sığdırın ve ardından uzaktaki verileri tahmin edin. Dört katın tümü için tekrarlayın, böylece dört katın tümü için örnek dışı tahminler alın. Ardından, ikinci katman modelini bu örnek dışı tahminlere takın. Ardından ilk kat modellerini dört katın hepsine tekrar takın. Şimdi henüz dokunmadığınız beşinci kata gidebilirsiniz. Bekletilen verilerdeki hatayı tahmin etmek için ikinci kat modeliyle birlikte dört katın tümüne uyan ilk katman modellerini kullanın. Bu işlemi, birinci ve ikinci kat model bağlantısının dışında kalan diğer kıvrımlarla tekrarlayabilirsiniz.
Performanstan memnunsanız, beş katın hepsinde ilk katman modelleri için örnek dışı tahminler oluşturun ve ardından ikinci katman modelini bunlara takın. Ardından, ilk katman modellerini tüm verilerinize son bir kez yerleştirin ve bunları ikinci katman modeliyle yeni verilerde kullanın!
Son olarak, bazı genel tavsiyeler. İlk katman modelleriniz birbirinden oldukça farklıysa daha fazla avantaj elde edersiniz. Birbirinden oldukça farklı olan SVM ve karar ağaçlarını kullanarak burada doğru yoldasınız. İkinci katman modelinden ortalama bir etki olduğu için, özellikle çok fazla varsa ilk katman modellerinize kademeli olarak takılmayı deneyebilirsiniz. İkinci katman genellikle basit bir şeydir ve ağırlıkların negatifliği ve monotonluk gibi kısıtlamalar yaygındır. Son olarak, istiflemenin sadece gerçek riskin bir tahmini olan çapraz doğrulamaya dayandığını unutmayın. Kıvrımlar arasında çok farklı hata oranları ve çok farklı model ağırlıkları alırsanız, cv tabanlı risk tahmininizin yüksek varyansa sahip olduğunu gösterir. Bu durumda, basit bir karışımıİlk katman modelleriniz. Veya, her bir ilk katman modeline yerleştirilen maksimum / dakika ağırlığı üzerindeki kısıtlamalarla istifleyerek ödün verebilirsiniz.