Çapraz doğrulama uygulaması sonuçlarını etkiler mi?


9

Bildiğiniz gibi, iki popüler çapraz doğrulama türü vardır: K-katlama ve rastgele alt örnekleme ( Wikipedia'da açıklandığı gibi ). Bununla birlikte, bazı araştırmacıların K-katlamalı CV olarak tanımlanan bir şeyin gerçekten rastgele bir alt örnekleme olduğu kağıtları hazırladığını ve yayınladığını biliyorum, bu yüzden pratikte okuduğunuz makalede gerçekten ne olduğunu asla bilemezsiniz.
Genellikle elbette fark göze çarpmaz ve sorumu gider - bir türün sonucu diğerinden önemli ölçüde farklı olduğunda bir örnek düşünebilir misiniz?

Yanıtlar:


4

Farklı örnekler üzerinde çalıştığınız için kesinlikle farklı sonuçlar alabilirsiniz. İkisinin sonuçlarının tahmin edilebilir bir şekilde farklı olacağı bir algoritma veya sorun alanı olduğundan şüphe duyuyorum.


Çok farklı sonuçlar demek istedim. Bence hiç yok, en azından gerçek dünya örneği. Yine de biraz daha bekleyeceğimi düşünüyorum.

3

Genellikle elbette fark göze çarpmaz ve sorumu gider - bir türün sonucu diğerinden önemli ölçüde farklı olduğunda bir örnek düşünebilir misiniz?

Farkın hiç fark edilmediğinden emin değilim ve sadece özel örnekte farkedilir. Hem çapraz doğrulama hem de önyükleme (alt örnekleme) yöntemleri, kritik olarak tasarım parametrelerine bağlıdır ve bu anlayış henüz tam değildir. Genel olarak, k-kat çapraz doğrulaması içindeki sonuçlar kritik olarak kat sayısına bağlıdır, bu nedenle alt örneklemede gözlemlediğinizden her zaman farklı sonuçlar bekleyebilirsiniz.

Burada örnek: sabit sayıda parametreye sahip gerçek bir lineer modeliniz olduğunu varsayalım. K katlama çapraz doğrulaması kullanırsanız (belirli, sabit k ile) ve gözlemlerin sayısının sonsuzluğa geçmesine izin verirseniz, k katlama çapraz doğrulaması model seçimi için asimptotik olarak tutarsız olacaktır, yani, yanlış bir modeli tanımlayacaktır. olasılık 0'dan büyüktür. Bu şaşırtıcı sonuç Jun Shao, "Çapraz Doğrulamayla Doğrusal Model Seçimi", Amerikan İstatistik Derneği Dergisi , 88 , 486-494 (1993), ancak bu damarda daha fazla makale bulunabilir.

Genel olarak, saygın istatistiksel belgeler tam olarak sonuçlar değişmez olduğu için çapraz doğrulama protokolünü belirtir. Büyük veri kümeleri için çok sayıda kat seçtikleri durumlarda, model seçimindeki önyargıları belirtir ve düzeltmeye çalışırlar.


Hayır, hayır, hayır, model seçimi değil makine öğrenimi ile ilgilidir .

1
İlginç bir ayrım. Model seçiminin, terimin neredeyse tüm anlamlarında, makine öğrenmesinin merkezi olduğunu düşündüm.
gappy

Bütün bunlar önemsiz (çoğunlukla doğrusal) modeller için çalışır ve çok az parametreniz varsa ve sadece y ve x'iniz olduğu ve y = x ^ 2 veya y =, x. Burada binlerce parametreye sahip olabilen ve hala karmaşık sezgisel tarama nedeniyle fazla uymayan SVM'ler veya RF'ler gibi modellerin hatalarını tahmin etmekten bahsediyorum.

Bu sonuçlar, keyfi sayıda bağımsız değişkenli genel doğrusal modellerin gerilemesi için geçerlidir. Değişkenler keyfi öğreniciler olabilir. Önemli varsayım, gözlem sayısı sonsuzluğa ulaştıkça, gerçek modeli tanımlayan öğrenci sayısının sınırlı kalmasıdır. Tüm bunlar regresyon için çalışıyor, bu yüzden sizinki gibi bir sınıflandırma görevi için yardımcı olduğundan emin değilim.
gappy

O değil; GLM makine öğrenimi değildir. Gerçek makine öğrenme yöntemleri, karmaşıklık düzeylerini artan sayıda nesneden bağımsız tutacak kadar akıllıcadır (elbette yeterli ise); doğrusal modeller için bile, bu teori, yakınsama zayıf olduğu için oldukça kötü çalışır.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.