Çapraz doğrulama: K-katına karşı Tekrarlanan rastgele alt örnekleme


10

Sınıflandırma problemi için hangi model çapraz doğrulamayı seçeceğinizi merak ediyorum: K-katlamalı veya rastgele alt örnekleme (bootstrap örneklemesi)?

En iyi tahminim, veri setinin 2 / 3'ünü (~ 1000 öğedir) ve 1/3'ü doğrulama için kullanmaktır.

Bu durumda K-katlama sadece üç iterasyon (katlama) verir, bu da kararlı ortalama hatayı görmek için yeterli değildir.

Öte yandan rastgele alt örnekleme özelliğini sevmiyorum: bazı öğeler eğitim / doğrulama için seçilmeyecek ve bazıları birden fazla kullanılacak.

Kullanılan sınıflandırma algoritmaları: rastgele orman ve lojistik regresyon.


1
Sanırım bir önceki soru: Bu seçim değerlendirilmekte olan algoritmaya (esas olarak davranışı) bağlı değil mi?
Rubens

1
@Rubens, şu soruyu güncelledim: RF ve lojistik regresyona
karıştım

Yanıtlar:


7

Yeterli sayıda örneğiniz varsa ve tüm verileri kullanmak istiyorsanız, k-kat çapraz doğrulaması gitmenin yoludur. ~ 1.500 olması çok gibi görünmektedir, ancak k-kat çapraz doğrulamanın yeterli olup olmadığı da verilerin boyutluluğuna (özellik sayısı ve özellik değerlerinin sayısı) bağlıdır. Örneğin, her gözlemin 100 özelliği varsa, 1.500 gözlem düşüktür.

K-kat çapraz doğrulamanın bir diğer potansiyel dezavantajı, sonuçları aşan tek bir aşırı uçtan aykırı değerdir. Örneğin, sınıflandırıcınızı ağır bir şekilde önyargıya sokabilecek aşırı bir aykırı değer varsa, o zaman 10 kat çapraz doğrulamada, 10 bölümden 9'u etkilenecektir (rastgele ormanlar için, bu soruna sahip olacağını düşünmüyorum) ).

Rastgele alt örnekleme (örneğin, önyükleme örneklemesi), yetersiz örneklendiğinizde veya her bir gözlemin k-1 katlarında görünmesini istemediğiniz yukarıdaki duruma sahip olduğunuzda tercih edilir.


4

Verileriniz hakkında bir şey bildiğiniz için 3 kat çapraz doğrulamayı kullanmak istediğinizi söylüyorsunuz (k = 10 kullanmanın aşırı sığdırmaya neden olacağını mı düşünüyorsunuz? Bunu bildiğinizden emin değilim, eğer değilse daha büyük bir k kullanabilirsiniz.

Hala standart k-kat çapraz doğrulamayı kullanamayacağınızı düşünüyorsanız, algoritmayı biraz değiştirebilirsiniz: verileri 30 katlara böldüğünüzü ve her seferinde eğitim için 20 ve değerlendirme için 10 kullandığınızı (ve sonra yukarı kaydırdığınızı) bir kat ve ilk ve son 9'u değerlendirme ve geri kalanını eğitim olarak kullanın). Bu, tüm verilerinizi kullanabileceğiniz anlamına gelir.

K-kat çapraz doğrulamayı kullandığımda, yeterli veriye sahip olduğumdan emin olmak için işlemi genellikle farklı bir randomizasyon ile birden çok kez çalıştırırım, eğer yoksa, randomizasyona bağlı olarak farklı performanslar göreceksiniz. Bu gibi durumlarda örneklemeyi öneririm. O zaman hile bunu yeterince sık yapmaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.