Araştırmacılar neden bir doğrulama setinde test yapmak yerine 10 kat çapraz doğrulama kullanıyor?


23

Duygusal sınıflandırma ve ilgili konular hakkında birçok araştırma makalesi okudum.

Çoğu, sınıflandırıcıları eğitmek ve test etmek için 10 kat çapraz doğrulama kullanır. Bu, ayrı bir test / doğrulama yapılmadığı anlamına gelir. Neden?

Özellikle araştırma yapanlar için bu yaklaşımın avantajları / dezavantajları nelerdir?


3
Ayrı bir test yapılmadığından emin misiniz?
Douglas Zare

Yanıtlar:


17

CV iç içe geçmişse bu bir problem değildir , yani tüm optimizasyonlar, özellik seçimleri ve model seçimleri, kendileri CV kullanıyor olsun veya olmasın, tek bir büyük CV'ye sarılır.

Bu, ekstra bir onaylama setine sahip olmakla nasıl karşılaştırılır? Doğrulama seti genellikle tüm verinin az çok rastgele seçilmiş bir parçası olsa da, sadece CV'nin bir yinelemesine eşdeğerdir. Bu amaçla, aslında daha kötü bir yöntemdir, çünkü kolayca (şans eseri) şans eseri / şanssız bir şekilde seçilen veya kirazlı bir validasyon doğrulama setiyle önyargılı olabilir.

Bunun tek istisnası, nesne sırasının önemli olduğu zaman serileri ve diğer verilerdir; ancak her iki şekilde de özel tedavi gerektiriyorlar.


16

Ana sebep, k-katlama çapraz doğrulama tahmin edicisinin, tek bir tutma çıkışı tahmin edicisine göre daha düşük bir varyansa sahip olmasıdır; mevcut veri miktarı sınırlıysa, çok önemli olabilir. Verilerin% 90'ının eğitim için kullanıldığı ve% 10'unun test için kullanıldığı tek bir uzatma setiniz varsa, test seti çok küçüktür, bu nedenle farklı veri örnekleri için performans tahmininde çok fazla değişiklik olacaktır. veya eğitim ve test setleri oluşturmak için verilerin farklı bölümleri için. k-katlamalı doğrulama, k farklı bölümlerin ortalaması alınarak bu varyansı azaltır, böylece performans tahmini verilerin bölünmesine karşı daha az hassastır. Tekrarlanan k-kat çapraz doğrulama ile daha da ileri gidebilirsiniz, burada çapraz onaylama k alt kümeleri oluşturmak için verilerin farklı bölümlerini kullanarak gerçekleştirilir,

Bununla birlikte, model uygunluk prosedürünün tüm adımlarının (model seçimi, özellik seçimi vb.) Çapraz onaylama prosedürünün her katında bağımsız olarak yapılması gerekir, aksi takdirde elde edilen performans tahmini iyimser bir şekilde önyargılı olacaktır.


9

[Yorum ışığında EDİT]

Birden fazla model arasından seçim yapmak için CV sonuçlarını kullanırsanız bir sorun olduğunu düşünüyorum.

CV, bir modeli / yöntemi eğitmek ve test etmek için tüm veri setini kullanmanıza izin verirken, ne kadar genelleştirileceğine dair makul bir fikir edinir. Ancak, birden fazla modeli karşılaştırıyorsanız, içgüdüm, model karşılaştırmasının CV'nin size sunduğu ekstra tren testi izolasyonu seviyesini kullanmasıdır, bu nedenle nihai sonuç seçilen modelin doğruluğunun makul bir tahmini olmayacaktır.

Bu nedenle, birkaç model oluşturup CV'sine dayanarak bir model seçerseniz, bulduklarınız konusunda aşırı iyimser olduğunuza inanıyorum. Kazananların ne kadar iyi genelleştiğini görmek için başka bir doğrulama seti gerekli olacaktır.


Teşekkür ederim. Doğru. Ama benim sorum özellikle araştırma araştırmalarının niçin son bir onaylama eksikliği olduğuydu? Uygun bir sebep var mı? Daha az veri mi yoksa CV iyi bir iş çıkardığından ve ayrı bir doğrulama gerekmediğinden mi?
user18075

5
Veri bölme yaklaşımı oldukça verimsizdir. Hem eğitim hem de test setleri muazzam hale gelinceye kadar, öngörücü bir model için gelecekteki olası performans tahmini için ortalama kare hatası, önyükleme ya da yeniden örnekleme prosedürlerinin tüm modelleme adımlarına erişebildiğini varsayarak, 10 tekrarlı çapraz doğrulama işleminin 100 tekrarı ile daha küçüktür. karışanlar . Ölçüm sürecini, anket aracını veya verinin anlamı ile ilgili diğer prosedürleri de doğrulamanız gerektiğinde veri bölme kullanın. Veri bölmenin iyi bir kullanımı, enstrümantasyonun ülkeye göre değiştiği durumdur. Y
Frank Harrell

7
  • Tecrübelerime göre, temel sebep genellikle yeterli örneklere sahip olmamanızdır.
    Alanımda (biyolojik / tıbbi numunelerin sınıflandırılması), bazen bir test seti ayrı tutulur, ancak çoğu zaman sadece birkaç vakadan oluşur. Bu durumda, güven aralıkları genellikle herhangi bir kullanım için çok geniş.

  • Tekrarlanan / yinelenen çapraz onaylama veya önyükleme dışı onaylamanın başka bir avantajı, bir grup "vekil" model oluşturmanızdır. Bunların eşit olduğu varsayılmaktadır. Değilse, modlar dengesizdir. Bu kararsızlığı (birkaç eğitim durumu değiş tokuşuyla ilgili olarak) vekil modellerin kendileriyle veya farklı vekil modellerin aynı durum için yaptıkları öngörüleri karşılaştırarak ölçebilirsiniz.

  • Esbensen & Geladi'nin bu makalesi , çapraz onaylama konusunda bazı sınırlamalar hakkında güzel bir tartışma sunar.
    Bunların çoğuna bakabilirsiniz, ancak yeniden doğrulama doğrulamasıyla ele alınamayan önemli bir nokta, mqq'nın noktasıyla ilgili olan sürüklenmedir:

    Bunun tek istisnası, nesne sırasının önemli olduğu zaman serileri ve diğer verilerdir

    Kayma, örneğin bir cihazın yanıt / gerçek kalibrasyonunun zaman içinde yavaşça değiştiği anlamına gelir. Dolayısıyla, bilinmeyen vakalar için genelleme hatası, bilinmeyen gelecek davaları ile aynı olmayabilir . Doğrulama sırasında sapma bulursanız "günlük / haftalık / ... kalibrasyonu yeniden yap" gibi talimatlara ulaştınız, ancak bunun için eğitim verilerinden sonra sistematik olarak alınan test setlerine ihtiyacı var.
    (Denemeniz uygun şekilde planlanırsa, edinim süresini hesaba katan "özel" bölmeler yapabilirsiniz, ancak bu genellikle sapma saptaması için test etmek istediğiniz süreyi kapsamaz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.