Çapraz doğrulama kullanırken tahmin aralıklarının hesaplanması

Standart sapma tahminleri şu şekilde hesaplanıyor mu?

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}.$

( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation )

kat çapraz geçerlemeden örneklenen tahmin doğrulukları için? Her bir kat arasında hesaplanan tahmin doğruluğunun, eğitim setleri arasındaki önemli örtüşme nedeniyle bağımlı olduğundan endişe ediyorum (tahmin kümeleri bağımsız olmasına rağmen). Bunu tartışan kaynaklar çok yardımcı olacaktır.

— Christopher Dorian
kaynak

Olası bir ilgi alanı: K katı çapraz doğrulama öngörü hatası için bir matematiksel formül? , K katlama çapraz doğrulamasında varyans tahminleri .

— chl

Ayrıca olası ilgi alanları: doğrusal-regresyon-tahmin-aralığı .

— gung - Monica'yı eski durumuna döndürün

Her bir kat arasında hesaplanan tahmin doğruluğunun, eğitim setleri arasındaki önemli örtüşme nedeniyle bağımlı olduğundan endişe ediyorum (tahmin kümeleri bağımsız olmasına rağmen).

IMHO eğitim setleri arasındaki örtüşmenin burada büyük bir endişe kaynağı olmasına gerek yok. Yani, modellerin kararlı olup olmadığını kontrol etmek elbette önemlidir. Kararlılık, çapraz doğrulama vekil modellerinin tahminlerinin eşdeğer olduğunu (yani bağımsız bir vaka tüm bu modeller tarafından aynı tahmini alacaktır) ve aslında çapraz validaton genellikle sadece vekil modeller arasında değil, aynı zamanda tüm eğitimli model arasında denklik olduğunu iddia eder. vakalar. Dolayısıyla bu bağımlılık, sahip olmak istediğimiz şeyin bir sonucudur.

Bu tipik soru için geçerlidir: eğer bu veriler üzerinde bir model geliştirirsem , tahmin aralıkları nelerdir? Bunun yerine soru şuysa, $n$ Bu nüfusun vakaları, tahmin aralıkları nelerdir ?, cevaplayamayız çünkü eğitim setlerindeki çakışma bilinmeyen bir miktarda varyansı küçümsediğimiz anlamına gelir.

Bağımsız bir test seti ile yapılan testlere kıyasla sonuçları nelerdir?

Çapraz doğrulama tahminleri, son modeli aynı boyutta bağımsız bir test seti ile test etmekten daha yüksek varyansa sahip olabilir, çünkü test durumlarından kaynaklanan varyansa ek olarak, vekil modellerin dengesizliği nedeniyle varyansla karşılaşırız.
Bununla birlikte, modeller kararlıysa, bu varyans küçük / ihmal edilebilir düzeydedir. Ayrıca bu tip bir kararlılık ölçülebilir.
Ne olabilir değil ölçülebilir bütün veri seti ondan çekildi nüfusa kıyasla ne kadar temsilcisidir. Bu, son modelin yanlılığının bir kısmını içerir (bununla birlikte, küçük bir bağımsız test setinin bir önyargısı olabilir) ve bu, ilgili varyansın çapraz doğrulama ile tahmin edilemeyeceği anlamına gelir.
Uygulama uygulamasında ( bu veriler üzerinde eğitilmiş modelin performansı ), tahmin aralığı hesaplaması IMHO'nun varyans çapraz doğrulamasının hangi bölümünün tespit edemediğinden daha önemli olduğu sorunlarıyla karşılaşacaktır: ör.
- çapraz doğrulama, zaman içinde bağımsız vakalar için performansı test edemez (genellikle gelecekte ölçülecek vakalar için tahminler gereklidir)
- veriler bilinmeyen kümeler içerebilir ve küme dışı performans önemli olabilir. Kümelenmiş veriler çapraz doğrulamada açıklayabileceğiniz bir şeydir, ancak kümelenme hakkında bilmeniz gerekir.
Bunlar sadece bir çapraz doğrulamaya karşı bağımsız test seti şeyinden daha fazlasıdır: temel olarak bir doğrulama çalışması tasarlamanız gerekir, aksi takdirde "bağımsız" test setinin o kadar bağımsız olmaması riski yüksektir. Bu yapıldıktan sonra, hangi faktörlerin pratik açıdan önemli ve hangilerinin ihmal edilebileceği düşünülebilir. Bağımsız değerlendirmenin olası bilgi kazanımına kıyasla çok pahalı olacağı için, kapsamlı değerlendirmeden sonra çapraz validasyonun yeterince iyi ve mantıklı bir şey olduğu sonucuna varabilirsiniz.

Her şey bir araya getirildiğinde, standart sapma için normal formülü kullanırdım, onu ara $s_{CV}$ benzer şekilde $RMSE_{CV}$ ve testin nasıl yapıldığını ayrıntılı olarak rapor edin.

— SX ile mutsuz cbeleites
kaynak