k-fold Topluluk öğreniminin çapraz doğrulaması

Topluluk öğreniminin k-kat çapraz doğrulaması için verilerin nasıl bölümleneceği konusunda kafam karıştı.

Sınıflandırma için bir topluluk öğrenme çerçevem olduğunu varsayarsak. İlk katmanım svm, karar ağaçları gibi sınıflandırma modellerini içeriyor.

İkinci katmanım, ilk katmandaki tahminleri birleştiren ve son tahmini veren bir oylama modeli içeriyor.

5 kat çapraz doğrulama kullanırsak, 5 kat kullanmayı aşağıdaki şekilde düşünüyorum:

İlk kat eğitimi için 3 kat
İkinci kat eğitimi için 1 kat
Test için 1 kat

Bu doğru yol mu? Birinci ve ikinci katman için eğitim verileri bağımsız olmalı mı? Topluluk öğrenme çerçevesinin sağlam olması için bağımsız olmaları gerektiğini düşünüyorum.

Arkadaşım, birinci ve ikinci katmanın eğitim verilerinin aynı olması gerektiğini, yani

Birinci ve ikinci kat eğitimi için 4 kat
Test için 1 kat

Bu şekilde, topluluk öğrenme çerçevesinde daha doğru bir hata yapacağız ve çerçevenin yinelenen olarak ayarlanması, tek bir eğitim verilerine dayandığı için daha doğru olacaktır. Ayrıca, ikinci katman bağımsız eğitim verilerine karşı önyargı olabilir

Herhangi bir tavsiye büyük beğeni topluyor

classification cross-validation ensemble

— Michael
kaynak

Topluluk öğrenimi oldukça farklı yöntemlere işaret eder. Arttırma ve torbalama muhtemelen en yaygın olanlardır. Öyle görünüyor ki, istifleme adı verilen bir topluluk öğrenme yöntemi uygulamaya çalışıyorsunuz . Yığınlama, çeşitli öğrenme algoritmalarından tahminleri birleştirerek doğruluğu artırmayı amaçlamaktadır. Çok titiz bir teori değil, istiflemenin birkaç yolu vardır. Yine de sezgisel ve popüler.

Arkadaşınızın yaklaşımını düşünün. İlk kat modellerini beş katın dördüne takıyorsunuz ve daha sonra aynı dört katlamayı kullanarak ikinci kat (oylama) modelini takıyorsunuz. Sorun, ikinci katmanın en düşük eğitim hatasına sahip modeli desteklemesi. Modellere uymak ve bu modelleri birleştirmek için bir prosedür tasarlamak için aynı verileri kullanıyorsunuz. İkinci kat, modelleri örnek dışı tahminler kullanarak birleştirmelidir . Metodunuz daha iyi, ama daha da iyisini yapmanın bir yolu var.

Test amacıyla bir kat bırakmaya devam edeceğiz. Dört kat alın ve dört katın her birinde ilk katman modellerinizin her biri için örnek dışı tahminler almak üzere 4 kat CV kullanın. Yani, dört kıvrımdan birini dışarıda bırakın ve modelleri diğer üçe sığdırın ve ardından uzaktaki verileri tahmin edin. Dört katın tümü için tekrarlayın, böylece dört katın tümü için örnek dışı tahminler alın. Ardından, ikinci katman modelini bu örnek dışı tahminlere takın. Ardından ilk kat modellerini dört katın hepsine tekrar takın. Şimdi henüz dokunmadığınız beşinci kata gidebilirsiniz. Bekletilen verilerdeki hatayı tahmin etmek için ikinci kat modeliyle birlikte dört katın tümüne uyan ilk katman modellerini kullanın. Bu işlemi, birinci ve ikinci kat model bağlantısının dışında kalan diğer kıvrımlarla tekrarlayabilirsiniz.

Performanstan memnunsanız, beş katın hepsinde ilk katman modelleri için örnek dışı tahminler oluşturun ve ardından ikinci katman modelini bunlara takın. Ardından, ilk katman modellerini tüm verilerinize son bir kez yerleştirin ve bunları ikinci katman modeliyle yeni verilerde kullanın!

Son olarak, bazı genel tavsiyeler. İlk katman modelleriniz birbirinden oldukça farklıysa daha fazla avantaj elde edersiniz. Birbirinden oldukça farklı olan SVM ve karar ağaçlarını kullanarak burada doğru yoldasınız. İkinci katman modelinden ortalama bir etki olduğu için, özellikle çok fazla varsa ilk katman modellerinize kademeli olarak takılmayı deneyebilirsiniz. İkinci katman genellikle basit bir şeydir ve ağırlıkların negatifliği ve monotonluk gibi kısıtlamalar yaygındır. Son olarak, istiflemenin sadece gerçek riskin bir tahmini olan çapraz doğrulamaya dayandığını unutmayın. Kıvrımlar arasında çok farklı hata oranları ve çok farklı model ağırlıkları alırsanız, cv tabanlı risk tahmininizin yüksek varyansa sahip olduğunu gösterir. Bu durumda, basit bir karışımıİlk katman modelleriniz. Veya, her bir ilk katman modeline yerleştirilen maksimum / dakika ağırlığı üzerindeki kısıtlamalarla istifleyerek ödün verebilirsiniz.

— MichaelJ
kaynak

Çok faydalı önerileriniz için teşekkür ederiz. Dördüncü paragrafınızı anlamıyorum. Bana öyle geliyor ki yeniden eğitim alıyor mu? Üçüncü paragrafınızın önerilen yönteminizi özetlediğini sanıyordum?

— Michael

Her zamanki gibi çapraz doğrulama ile, modelden memnun kaldığımızda tüm verileri kullanarak yeniden eğitiyoruz. Üçüncü paragrafta açıklanan modeller, tutulan verilere uymaz. Verileri dağıtmak, model değerlendirme ve seçimine rehberlik eden bir araçtır. Son modeli her zaman tüm verilere uymalısınız.

— MichaelJ

Bana öyle geliyor ki bu yaklaşım ileriye dönük bir sinir ağına benziyor

— Michael

Harika bir açıklama. Eksik olan tek şey bir diyagramdır;)

— josh