Çapraz doğrulama, fazla kullanma sorununun üstesinden nasıl gelir?

Neden bir çapraz doğrulama prosedürü bir modele aşırı uyum sağlama problemini aşmaktadır?

regression model-selection cross-validation

— user3269
kaynak

Alain Celisse'nin eserlerine bak . Okuduğum kadarıyla (çok az ne yazık ki) eserleri, çapraz onaylamanın haklarıyla ilgili.

— mpiktas

@mpiktas Aslında, ve makalesi zaten CVJC için teklif edildi, mendeley.com/groups/999241/crossvalidated-journal-club/papers .

— chl

Yanıtlar:

Şu anda yeterince açık bir açıklama düşünemiyorum, bu yüzden bunu başkasına bırakacağım; Bununla birlikte, çapraz doğrulama, model seçiminde aşırı uydurma sorununun tamamen üstesinden gelmez, sadece azaltır. Çapraz doğrulama hatası, özellikle veri kümesinin boyutu küçükse, ihmal edilebilir bir varyansa sahip değildir; Başka bir deyişle, kullandığınız veri örneğine bağlı olarak biraz farklı bir değer elde edersiniz. Bu, model seçiminde çok fazla serbestlik dereceniz varsa (örneğin, küçük bir alt kümeyi seçmek için birçok özellik, ayarlamak için birçok hiper-parametre, seçim için pek çok model) çapraz onaylama kriterine aşırı uyum sağlayabileceğiniz anlamına gelir. Model, performansı gerçekten geliştiren yöntemlerden ziyade, bu rasgele değişime uğrayan şekillerde ayarlandığı için, ve kötü performans gösteren bir model ile bitebilir. Bunun hakkında bir tartışma için bkz.Cawley ve Talbot "Model Seçiminde Aşırı Uygunluk ve Performans Değerlendirmede Sonraki Seçim Yanlılığı", JMLR, vol. 11, s. 2079-2107, 2010

Maalesef çapraz doğrulama, küçük bir veri kümeniz olduğunda sizi hayal kırıklığına uğratma olasılığı yüksektir, bu tam olarak en çok çapraz doğrulamaya ihtiyacınız olduğunda olur. K-kat çapraz onaylamanın genellikle daha düşük bir varyansa sahip olduğu için bir kez dışarı çapraz çapraz onaylamaya göre daha güvenilir olduğunu, ancak bazı modeller için hesaplanması daha pahalı olabileceğine dikkat edin (bu nedenle LOOCV bazen model seçimi için kullanılır, yüksek bir varyansa sahip olmasına rağmen).

— Dikran Marsupial
kaynak

Sahip olduğum bir düşünce, çapraz onaylamanın sadece veriler için farklı (örtük) bir model uygulamak olduğu yönünde. Bunu, parametrik olmayan bootstrap olan CV'nin "kuzeni" ile (kesinlikle konsantrasyon parametresi 0 olan Dirichlet Process modeline dayanan) gösterebilirsiniz.

— olasılık

İlginç fikir. Benim görüşüme göre (ilgilendiğim modeller için) parametrelere ve hiper parametrelere ayrılmanın mantıksal değil hesaplamalı olduğu; Hiper-parametreler hala verilere takılması gereken parametrelerdir ve bunu dolaylı olarak çapraz onaylama kullanarak yapmanın bunu gerçekten değiştirmesi gerekmez. Geçtiğimiz yazıda, eğitim kriterini kullanarak bir çekirdek modelin normalde hiper parametresi olanları ayarlamak ve model seçim kriterini (LOOCV) fazladan önlemek için ek bir düzenlileştirme terimi ekleyerek araştırdım ve gayet iyi çalıştı.

— Dikran Marsupial

Neden k-katlı CV bir-bir-bir-dışardan daha pahalıdır? Tecrübelerim (ve sezgilerim) başka türlü söylüyor. K-katlama CV'de k testleri yapıyoruz, L1O'nun neresinde olursak N (>> k) testleri yapıyoruz ve eğitim bölümü bazı matris inversiyonları nedeniyle daha uzun sürüyor, L1O pahalı seçenek değil mi?

— jeff

Bir tanesini, modelin tüm veri setine sığdırmasının bir yan ürünü olarak gerçekleştirilebilir (veya yaklaşık olarak), çok çeşitli modeller için (örneğin doğrusal regresyon) çok az ek maliyetle gerçekleştirilebilir. Bunu daha net hale getirmek için cevabı düzenleyeceğim.

— Dikran Marsupial

Dışarıda bırakma anlayışım, bunun k-katlamalı CV olduğu - k = veri kümesi büyüklüğünün en iyi fakat en hesaplı olarak pahalı olan k-katlamalı CV olduğu.

— Daniel Winterstein

Cevabım çok daha sezgisel, ama belki yardımcı olabilir ...

Anladığım kadarıyla, fazla esneklik aynı verileri kullanarak eğitim ve testlere dayanan model seçiminin sonucudur, burada esnek bir fitting mekanizmasına sahip olursunuz: veri örneğinize o kadar sıkı uyursunuz ki, gürültü, aykırı değerler ve diğerleri diğer varyans.

Verileri bir eğitim ve test setine bölmek, bunu yapmanıza engel olur. Ancak statik bir bölünme verilerinizi verimli kullanmıyor ve bölünmenizin kendisi de bir sorun olabilir. Çapraz doğrulama, eğitim testi bölümünün eğitim verisine tam olarak uymayan bir yararı olurken, elinizdeki verileri mümkün olduğu kadar verimli bir şekilde kullanıyor (örneğin, verilerinizin tümü kullanılır) eğitim ve test verileri olarak, sadece aynı çalışmada değil).

Esnek bir montaj mekanizmasına sahipseniz, model seçiminizi “mükemmel” değil de karmaşık bir şekilde uyması için kısıtlamanız gerekir. Doğrudan AIC, BIC veya doğrudan uygunluk karmaşıklığını cezalandıran diğer bazı ceza yöntemleriyle yapabilir veya CV ile yapabilirsiniz. (Ya da çok esnek olmayan, doğrusal modellerin iyi olmasının bir nedeni olan bir montaj yöntemi kullanarak yapabilirsiniz.)

Buna bakmanın bir başka yolu da öğrenmenin genelleştirme ile ilgili olduğu ve çok dar bir uyumun bir anlamda genelleme olmadığıdır. Öğrendiklerinizi ve test ettiklerinizi değiştirerek, yalnızca belirli bir soru grubunun cevaplarını öğrendiğinizden daha iyi genellersiniz.

— Wayne
kaynak

Bayesian perspektifinden bakıldığında, çapraz onaylamanın "uygun" bir Bayesian analizinin modelleri karşılaştırmak için yapmadığı bir şey yaptığından emin değilim. Fakat bunun% 100 kesin olduğundan emin değilim.

$M_A$ $M_B$ $D$ $I$

\frac{P (M_{bir} | D, ben)}{P (M_{B} | D, ben)} = \frac{P (M_{bir} | ben)}{P (M_{B} | ben)} x \frac{P (D | M_{bir}, ben)}{P (D | M_{B}, ben)}

$\frac{P(M_A|D,I)}{P(M_B|D,I)}=\frac{P(M_A|I)}{P(M_B|I)}\times\frac{P(D|M_A,I)}{P(D|M_B,I)}$

$P(D|M_A,I)$

P (D | M_{bir}, ben) = \int P (D, θ_{bir} | M_{bir}, ben) d θ_{bir} = \int P (θ_{bir} | M_{bir}, ben) P (D | M_{bir}, θ_{bir}, ben) d θ_{bir}

$P(D|M_A,I)=\int P(D,\theta_A|M_A,I)d\theta_A=\int P(\theta_A|M_A,I)P(D|M_A,\theta_A,I)d\theta_A$

Önceden tahmine dayalı dağılım olarak adlandırılan . Temel olarak, modelin gerçekte gözlemlenen verileri ne kadar iyi tahmin ettiğini, bu da tam olarak çapraz doğrulamanın yapıldığını, "önceden" takılan "eğitim" modeliyle değiştirildiğini ve "verilerin" "test" ile değiştirildiğini belirttiğini söylüyor. veri. Eğer B modeli verileri A modelinden daha iyi tahmin ederse, arka olasılığı A modeline göre artar. Bundan Bayes teoreminin aslında bir alt kümeden ziyade tüm verileri kullanarak çapraz doğrulama yapacağını görüyoruz. Ancak, bu konuda tam olarak ikna olmadım - hiç bir şey için bir şey elde etmiyoruz gibi görünüyor.

Bu yöntemin bir başka temiz özelliği de, her model için önceki dağılımların normalizasyon sabitlerinin oranıyla verilen, yerleşik bir "occam's ustura" 'ya sahip olmasıdır.

Bununla birlikte, çapraz onaylama, korkmuş eski "başka bir şey" veya bazen "model yanlış tanımlaması" olarak adlandırılan şey için değerli görünmektedir. Bu “başka bir şeyin” önemli olup olmadığına sürekli olarak çarpılıyorum, çünkü önemi olması gerektiği gibi görünüyor - ancak görünüşte önemli olduğu zaman sizi hiçbir çözüm olmadan felç ediyor. Sadece size bir baş ağrısı verecek bir şey, ama bu konuda yapabileceğiniz hiçbir şey - “başka bir şeyin” ne olabileceğini düşünmek ve onu modelinizde denemek dışında (artık “başka bir şeyin” bir parçası olmayacak şekilde) .

Ve ayrıca, çapraz doğrulama, yukarıdaki integraller gülünç zor olduğunda, aslında bir Bayesian analizini yapmanın bir yoludur. Ve çapraz doğrulama hemen hemen herkes için “mantıklı” olur - “matematiksel” değil “mekanik” tir. Bu yüzden neler olduğunu anlamak kolaydır. Ve ayrıca kafanızı modellerin önemli kısımlarına odaklanmasını sağlıyor - iyi tahminler yapıyor.

— probabilityislogic
kaynak

Modelin yanlış tanımlanması sorunu anahtardır. Bayesian yöntemleri (özellikle "yoksullar" delillerinin maksimize edilmesinin Bayes'i) modelin yanlış tanımlanması altında çok kötü bir performans sergileyebiliyor, oysa çapraz doğrulama neredeyse her zaman oldukça iyi çalışıyor gibi görünüyor. Varsayımların (öncelikler) "doğru" olduğu zaman kazançlar, "yanlış" olduklarında genellikle cezadan çok daha küçüktür, bu nedenle çapraz doğrulama ortalama olarak kazanır (neredeyse hiç varsayım yapmadığından). Neredeyse zihinsel olarak tatmin edici değil! ; o)

— Dikran Marsupial

@dikran - ilginç. Ne söylediğinle aynı fikirde olduğumdan pek emin değilim. Yani model yanlış tanımlanmışsa, aynı model ile yapılan çapraz doğrulama Bayes teoremini kullanmaktan daha mı iyidir? Bunun bir örneğini görmek istiyorum.

— probabilityislogic

@probabiltyislogic Bence bu özellikle yeni bir gözlem değil, Rasmussen ve Williams, mükemmel Gauss Süreci kitaplarının 118. sayfasında bahsetti (esasen Grace Wahba'nın spline'daki monografisinde benzer bir yoruma atıfta bulunmasına rağmen). Temel olarak, marjinal olasılık, modelin varsayımlarına verilen verinin olasılığıdır; oysaki XVAL olabilirliği, model varsayımlarına bakılmaksızın, varsayımlar geçerli olmadığında daha güvenilirdir. Uygun bir ampirik çalışma faydalı olacaktır.

— Dikran Marsupial

@probabilityislogic Model seçimine Bayesian yaklaşımını sevdiğimi eklemeliyim, ancak pratikte neredeyse her zaman çapraz doğrulama kullandım, çünkü genellikle (istatistiksel olarak) Bayesian yaklaşımlarından daha iyi veya daha iyi sonuçlar veriyor.

— Dikran Marsupial

X_{i}

$X_i$

y_{i}

$y_i$

X_{i}

$X_i$

p (y_{i} | X_{i}, θ_{y}) p (X_{i} | θ_{X})

$p(y_i|X_i, \theta_y)p(X_i|\theta_X)$ . İkinci terimin olasılığa çok daha büyük bir katkısı vardır, bu yüzden eğer bir model orada başarılı olursa ve marjinal olasılığın umursamayacağı tahmininde ısırırsa.

— JMS