Çapraz doğrulama aşırı takmayı önlemek için yeterli mi?


17

Bir veri varsa ve çapraz doğrulama (diyelim ki 5 kat) ile bir sınıflandırma (bu veriler üzerinde rastgele orman diyelim) çalıştırırsanız, benim yöntemime fazla uygun olmadığı sonucuna varabilir miyim?

Yanıtlar:


20

Bir şey değil. Ancak, çapraz doğrulama, yönteminizin ne kadar fazla olduğunu değerlendirmenize yardımcı olur.

Örneğin, bir regresyonun R-karesi antrenman verileriniz 0.50 ve çapraz-onaylanmış R-karesi 0.48 ise, neredeyse hiç uyumsuzluk hissedersiniz ve kendinizi iyi hissedersiniz. Öte yandan, çapraz doğrulanmış R kare burada sadece 0,3 ise, model performansınızın önemli bir kısmı gerçek ilişkilerden değil aşırı uyumdan kaynaklanır. Böyle bir durumda ya daha düşük bir performansı kabul edebilir ya da daha az takma ile farklı modelleme stratejileri deneyebilirsiniz.


8
Bu cevabın ruh açısından doğru olduğunu düşünüyorum, ancak ikinci paragrafta aşırı uydurmanın karakterizasyonuna katılmıyorum. Tren hatası - test hatası> bazı sınırlar olduğunda aşırı uydurmanın gerçekleştiğine inanmıyorum, bunun yerine, modelin karmaşıklığının artmasının hafifletme hatasını arttırma eğiliminde olduğu bir durum olarak aşırı uydurmayı karakterize ederim . Tren ve test hatalarınızın karşılaştırılabilir olmasını zorunlu kılmak genellikle çok uygun olmayan modellerle sonuçlanır .
Matthew Drury

7

Çapraz Doğrulama, aşırı uyumu en aza indirgemek için iyi, ama mükemmel olmayan bir tekniktir.

Sahip olduğunuz veriler tahmin etmeye çalışacağınız verileri temsil etmiyorsa Çapraz Doğrulama dış verilere iyi performans göstermez!

Çapraz doğrulamanın kusurları olduğu iki somut durum şunlardır:

  • Geçmişi geleceği tahmin etmek için kullanıyorsunuz: geçmiş gözlemlerin gelecekteki gözlemlerle aynı dağılıma sahip aynı popülasyondan geleceğini varsaymak çoğu zaman büyük bir varsayımdır. Geçmişten çizilen bir veri kümesinde çapraz doğrulama, buna karşı koruma sağlamaz.
  • Topladığınız verilerde bir önyargı var: gözlemlediğiniz veriler sistematik olarak gözlemlemediğiniz verilerden farklı. Örneğin, anket yapmayı seçenlerde katılımcıların yanlılığını biliyoruz.

3
Veri kümenizin gerçek nüfusun zayıf bir temsili olmaması, genellikle ayrı bir aşırı uyum konusu olarak kabul edilir. Tabii ki, çapraz doğrulamanın onlara hitap etmemesi doğrudur.
Cliff AB

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.