K-katlı çapraz validasyondan karışıklık matrisi nasıl rapor edilir?


18

K = 10 kat ile K-kat çapraz doğrulaması yaptığımı varsayalım. Her kat için bir karışıklık matrisi olacaktır. Sonuçları bildirirken ortalama karışıklık matrisinin ne olduğunu hesaplamalı mıyım yoksa sadece karışıklık matrislerini toplamalı mıyım?

Yanıtlar:


11

Bir modelin performansını test ediyorsanız (yani parametreleri optimize etmiyorsanız), genellikle karışıklık matrislerini toplarsınız. Bunu şöyle düşünün, verilerinizi 10 farklı katlama veya 'test' setine böldünüz. Modelinizi kıvrımların 9 / 10'unda eğitiyorsunuz ve ilk kıvrımı test edip bir karışıklık matrisi elde ediyorsunuz. Bu karışıklık matrisi, verilerin 1 / 10'unun sınıflandırılmasını temsil eder. Analizi bir sonraki 'test' seti ile tekrar edersiniz ve verilerin 1 / 10'unu temsil eden başka bir karışıklık matrisi elde edersiniz. Bu yeni karışıklık matrisini ilkine eklemek, verilerinizin% 20'sini temsil ediyor. Tüm kıvrımlarınızı çalışana kadar devam edersiniz, tüm karışıklık matrislerinizi toplarsınız ve son karışıklık matrisi, bu modelin tüm veriler için performansını temsil eder. Karışıklık matrislerini ortalayabilirsiniz, ancak bu kümülatif matristen herhangi bir ek bilgi sağlamaz ve kıvrımlarınız aynı boyutta değilse önyargılı olabilir.

Not - bu, verilerinizin tekrar tekrar örneklenmediğini varsayar. Bunun tekrarlanan örnekleme için farklı olup olmayacağından emin değilim. Bir şey öğrenirsem veya birisi bir yöntem önerirse güncellenir.


Teşekkürler, cdeterman. Model seçimi (ayar parametrelerini ieoptimize etme) ne olacak?
John M

@JohnM sonra tam modeli için en iyi parametrelerin ne olması gerektiğine dair bir gösterge almak için bağımsız olarak her katlamaya bakıyorsunuz. Her ikisini de birleştirmek istiyorsanız iç içe CV'ye bakmak isteyebilirsiniz.
cdeterman
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.