K-kat çapraz doğrulaması ile, tüm modellerini nihai modeli oluşturmak için ortalama mı kullanıyorsunuz?


13

K-kat çapraz doğrulaması gerçekleştirirken, bir kat dışındaki tüm katları işaret ederek doğruluk metriklerini elde ettiğinizi ve tahminlerde bulunduğunuzu ve bu işlemi kez tekrarladığınızı anlıyorum . Daha sonra tüm örneklerinizde doğruluk metrikleri çalıştırabilirsiniz (kesinlik, hatırlama, doğru olarak sınıflandırılan%), her seferinde bunları hesaplayıp aynı zamanda sonucun ortalamasını almanız gerekir (yanlışsam beni düzeltin).k

İstediğiniz sonuç nihai bir modeldir.

Yukarıdaki yöntemle elde edilen doğruluk metriklerine sahip modelle sonuçlanmak üzere tahminlerinizi yapmak için elde edilen modelleri ortalama mı buluyorsunuz?k

Yanıtlar:


15

katlı çapraz validasyonun amacı bir model üretmek değildir; o etmektir karşılaştırmak modelleri.k

Çapraz doğrulama deneyinin sonuçları, Destek Vektör Makinelerinin verileriniz üzerinde Naive Bayes gerçekleştirdiğini veya sınıflandırıcının hiper parametrelerinin bu belirli veri seti için c olarak ayarlanması gerektiğini söyleyebilir. Bu bilgiyle donanmış, daha sonra mevcut verilerin TÜMÜ ile bir "üretim" sınıflandırıcısı eğitiyor ve probleminize uyguluyorsunuz.

Birçok durumda, birkaç modelin ortalamasını nasıl alacağınız bile net değildir. Örneğin, üç karar ağacının veya en yakın komşu sınıflandırıcıların ortalaması nedir?

Çapraz doğrulama sonuçlarının garanti değil tahmin olduğunu ve üretim sınıflandırıcısı benzer kalitede (ve miktarda) verilerle eğitildiyse bu tahminlerin daha geçerli olduğunu akılda tutmak önemlidir. Çıkarım yapmak için bu tahminleri kullanmanın yollarını geliştirme konusunda oldukça fazla çalışma yapılmıştır; yani istatistiksel olarak sağlam bir şekilde, A yöntemi genellikle bu verilerdeki B yönteminden daha üstündür.


2
Çıkarım için k-kat çapraz doğrulama tahminlerinin kullanımına ilişkin iyi bir referans nedir? Eğer iyi bir payınız varsa bunu okumak isterim.
tentaclenorm

1
Başlamak için iyi bir yer iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/… olabilir, ancak bir takım farklı yaklaşımlar vardır.
Matt Krause

1
açıklığa kavuşturulması gereken bir şey daha var: "üretim" sınıflandırıcısını tüm verileri kullanarak eğittiğimizde ne zaman duracağımızı nasıl anlarız?
Anton
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.