“En iyi uyum” ve çapraz geçerlilik teriminde kullanılan “en iyi” tanımı nedir?


16

Bir dizi noktaya doğrusal olmayan bir işlev takarsanız (her apsis için sadece bir koordinat olduğu varsayılarak) sonuç aşağıdakilerden biri olabilir:

  1. küçük kalıntılarla çok karmaşık bir fonksiyon
  2. büyük artıklarla çok basit bir fonksiyon

Çapraz doğrulama genellikle bu iki uç arasındaki "en iyi" uzlaşmayı bulmak için kullanılır. Peki "en iyi" ne anlama geliyor? "Büyük olasılıkla" mı? En olası çözümün ne olduğunu kanıtlamaya nasıl başlayabilirsiniz?

İç sesim CV'nin bir tür minimum enerji çözümü bulduğunu söylüyor. Bu beni hem istatistiklerde hem de fizikte belirsiz bir şekilde bildiğim entropiyi düşündürüyor.

Bana öyle geliyor ki, "en iyi" uyum, karmaşıklık ve hata işlevlerinin toplamını en aza indirerek üretilmektedir.

minimising m where m = c(Complexity) + e(Error)

Bu bir anlam ifade ediyor mu? C ve e fonksiyonları ne olurdu?

Lütfen matematiksel olmayan bir dil kullanarak açıklayabilir misiniz, çünkü fazla matematik anlamayacağım.


1
En iyisi, gelecekteki en düşük hataya sahip modeldir ve çapraz doğrulama size bu tahmini verir. C (Karmaşıklık) + e (Hata) formüllerinin nedeni, eğitim verisinde hatayı gelecekteki hatanın tahmini olarak kullanabilmenizdir, ancak bu aşırı iyimserdir, bu nedenle bu tahminin tarafsız olması için bir terim eklersiniz. model karmaşıklığı
Yaroslav Bulatov

Diğer yandan, Runge fenomeni (tekrar fizik ilhamları) ışığında akıl yürütme, gelecekteki hatanın Karmaşıklık / Train_Error ile ilgili olduğu sonucuna götürür.

Matt Krause, benzer bir soruya mükemmel bir cevap verdi: stats.stackexchange.com/a/21925/14640 Cevabından yorumlama: Amaç, model karmaşıklığını modelin açıklayıcı gücü ile dengelemektir ve bu nedenle parsimony kavramı daha iyidir bir modelin hataya en uygun olandan daha uygun olduğunun ölçüsüdür. Bunun nedeni, oldukça karmaşık bir modelin, yeni sonuçları daha iyi tahmin edemeden veya açıklayabilmeden verileri geçersiz kılabilmesidir.
Esed Ebrahim

Yanıtlar:


6

Bence bu mükemmel bir soru. Bunu doğru yaptığımdan emin olmak için parafaz yapacağım:

Karmaşıklık ceza fonksiyonu seçmek için birçok yol vardır gibi görünüyor ve hata ceza fonksiyonu e . Hangi seçim `` en iyi ''. En iyisi ne demek olmalı ?ce

Sanırım cevap (eğer varsa), sadece çapraz doğrulamanın ötesine geçecektir. Bu sorunun (ve genel olarak konunun) Occam'ın Razor'una ve bilimin temelini oluşturan genel parsimony kavramına nasıl güzelce bağlandığını seviyorum . Hiçbir şekilde bu alanda uzman değilim ama bu soruyu oldukça ilginç buluyorum. Bu tür sorular hakkında bildiğim en iyi metin Marcus Hutter'ın Evrensel Yapay Zeka'dır (bununla ilgili herhangi bir soru sormayın, çoğunu okumadım). Hutter ve birkaç yıl önce bir konuşmaya gittim ve çok etkilendim.

Orada bir yerde minimum entropi argümanı olduğunu düşünmekte haklısınız (bir şekilde karmaşıklık cezası fonksiyonu için kullanılır ). Hutter , entropi yerine Kolmogorov karmaşıklığının kullanılmasını savunur . Ayrıca, Hutter'ın `` en iyi '' tanımı (hatırladığım kadarıyla) (gayri resmi olarak) geleceği en iyi tahmin eden modeldir (yani gelecekte gözlemlenecek verileri en iyi tahmin eder). Bu kavramı nasıl biçimlendirdiğini hatırlayamıyorum.c


Soruyu anlıyorsunuz. Bağlantıları takip edeceğim.
bart

Bu bağlantıların sizi “pratik” herhangi bir yere götürme olasılığının düşük olduğunu bilmelisiniz. Çapraz doğrulama (veya başka bir model seçimi) kullanarak bir şey oluşturmaya çalışıyorsanız , pratikte her zaman sezgisel ve biraz ad-hoc bir şeye düşmesi muhtemeldir (her ne kadar bu tatmin edici olmadığına katılıyorum).
Robby McKilliam

Şimdi bir yerlere varıyoruz. en.wikipedia.org/wiki/Minimum_message_length düşündüğüm gibi görünüyor. Teşekkürler!
bart

Telaşa gerek yok. Bu sadece yansıma, pratik değil.
bart

9

Başka biri tarafından daha iyi bir cevap verilene kadar (oldukça soyut bir düzeyde) kısa bir sezgisel cevap sunacağım:

İlk olarak, karmaşık fonksiyonların / modellerin, küresel olarak mevcut olmayan veri kümesinin bazı yerel özelliklerinden (düşünme gürültüsü) yararlandıklarından (sistematik modelleri düşünün) daha iyi uyum sağladıklarını (yani daha düşük kalıntılara sahip olduklarını) unutmayın.

İkincisi, çapraz doğrulama yaparken verileri iki sete ayırırız: eğitim seti ve doğrulama seti.

Bu nedenle, çapraz doğrulama gerçekleştirdiğimizde, karmaşık bir model çok iyi tahmin etmeyebilir, çünkü tanım gereği karmaşık bir model eğitim setinin yerel özelliklerinden faydalanacaktır. Bununla birlikte, eğitim setinin yerel özellikleri, doğrulama setinin yerel özelliklerine kıyasla çok farklı olabilir ve bu da düşük tahmin performansına neden olur. Bu nedenle, eğitimin ve doğrulama veri kümelerinin küresel özelliklerini yakalayan modeli seçme eğilimindeyiz.

Özetle, çapraz doğrulama, veri kümesinin genel modellerini yakalayan modeli seçerek ve bir veri kümesinin yerel özelliklerinden yararlanan modellerden kaçınarak aşırı sığmaya karşı korur.


@Srikant Bütün bunları biliyorum. CV "en iyi" yi bulmak için bir araçtır. "Best "'nin tanımı nedir?
bart

@bart 'en iyi model' = bir verinin yerel özelliklerinden kaçınırken 'en iyi' global modelleri yakalayan bir model. Matematik olmayan bir açıklama için yapabileceğim en iyisi bu. Belki başka biri biraz daha ayrıntı verebilir veya daha spesifik olabilir.

@bart: "en iyi", eğitim verilerine en iyi uyan ve doğrulama / görünmeyen test seti verileri için "genel" olan işlev anlamına gelir. Bence bu Srikant'ın cevabından oldukça açık. İyi bir genelleme davranışını resmi olarak tanımlamanın birçok yolu vardır. Biçimsel olmayan bir anlamda, bunu "pürüzsüz" ve çok da tuhaf olmayan bir işlev bulmak olarak düşünebilirsiniz. Sadece egzersiz verilerine uymaya çalışmak, kıvrımlı görünümlü işleve neden olabilirken, pürüzsüzlük genellikle işlevin hem eğitim hem de doğrulama / test verileri üzerinde makul şekilde iyi olmasını sağlar.
ebony1

@ebony: Konuyu kaçırıyorsunuz. Umarım daha açık hale getirmek için soruyu yeniden ifade ettim
bart

5

Genel bir makine öğrenimi görünümünde cevap oldukça basittir: yeni verileri tahmin ederken en yüksek doğruluğa sahip olacak bir model oluşturmak istiyoruz (eğitim sırasında görülmez). Bunu doğrudan test edemediğimiz için (gelecekten verilerimiz yok) böyle bir testin Monte Carlo simülasyonunu yapıyoruz - ve bu temelde çapraz validasyonun altında yatan fikir.

Doğruluğun ne olduğu konusunda bazı sorunlar olabilir (örneğin, bir iş müşterisi, birim başına 5 € ve birim başına 0,01 € aşabileceğini söyleyebilir, bu nedenle daha az doğru ancak daha az cesur bir model oluşturmak daha iyidir), ancak genel olarak sınıflandırmadaki gerçek cevapların oldukça sezgisel ve regresyondaki yaygın olarak kullanılan varyans.


3

Bir çok insanın mükemmel cevapları var, işte benim 0.02 $.

İstatistiksel olarak "en iyi model" veya "model seçimi" ne bakmanın iki yolu vardır:

1 Mümkün olduğunca basit ama daha basit olmayan bir açıklama (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 Tahmin, mühendislik gelişimine benzer bir ilgi alanıdır.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

Yaygın (yanlış) anlayışı:

Model Seçimi en iyi modeli seçmeye eşdeğerdir

Açıklama için birkaç (kabaca) eşit derecede iyi açıklayıcı model olma olasılığı olduğunun farkında olmalıyız. Sadelik, hem modelde yer alan kavramların iletilmesine hem de psikologların genelleme dediği şeylere, modelin üzerinde çalışıldığından çok farklı senaryolarda 'çalışma' yeteneğine yardımcı olur. Bu yüzden birkaç modelde bir prim var.

Tahmin için: (Dr Ripley) iyi benzetme, uzman görüşleri arasında seçim yapmaktır: geniş bir uzman paneline erişiminiz varsa, fikirlerini nasıl kullanırsınız?

Çapraz Doğrulama, tahmin yönüyle ilgilenir. Özgeçmiş hakkında detaylar için lütfen Dr. BD Ripley'nin sunumuna bakınız Dr. Brian D. Ripley'in model seçimi sunumu

Atıf: Lütfen bu cevaptaki her şeyin yukarıda belirtilen sunumdan geldiğini unutmayın. Bu sunumun büyük bir hayranıyım ve beğendim. Diğer görüşler değişebilir. Sunumun başlığı: "Büyük Model Sınıfları Arasında Seçim Yapmak" ve John Nelder'in 80. doğum günü, Imperial College, 29/30 Mart 2004, Dr. Brian D. Ripley tarafından verilen Sempozyumda verildi.


3

Burada büyük bir tartışma var, ancak çapraz doğrulamayı şu ana kadar cevaplardan farklı bir şekilde düşünüyorum (mbq ve ben aynı sayfadayız). Bu yüzden, iki sentimi suları çamurlama riski altına sokacağım ...

Çapraz doğrulama, bir modelin verilere uyma ve tahmin etme yeteneğinde örnekleme hatası nedeniyle değişkenliği ve yanlılığı değerlendirmek için istatistiksel bir tekniktir. Dolayısıyla, "en iyi" değişkenlik ve sapma birimlerinde en düşük genelleme hatasını sağlayan model olacaktır. Bayesian ve Bootstrap Model Ortalaması gibi teknikler, çapraz doğrulama çabasının sonuçlarına dayalı olarak bir modeli algoritmik bir şekilde güncellemek için kullanılabilir.

Bu SSS , fikrimi neyin bilgilendirdiğiyle ilgili daha fazla bağlam için iyi bilgiler sağlar.


1

Hata işlevi, modelinizin (işlevinizin) egzersiz verilerindeki hatadır. Karmaşıklık, öğrenmeye çalıştığınız işlevin bazı normudur (örneğin, kare l2 normu). Karmaşıklık terimini en aza indirmek, esasen sadece eğitim verilerinde değil, test verilerinde de iyi olan pürüzsüz fonksiyonları destekler. İşlevinizi bir dizi katsayı ile temsil ederseniz (örneğin, doğrusal regresyon yapıyorsanız), karmaşıklığı kare norm ile cezalandırmak, işlevinizde küçük katsayı değerlerine yol açar (diğer normları cezalandırmak farklı karmaşıklık kontrolü kavramlarına yol açar).


1

(p,q)1,λ>0

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

eşittir

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

Hangi basitçe objektif fonksiyonuna dahil önceki bilgileri ||β||qλq=1,2β^β^

(bu durumda, çözelti trivially için azaltacaktır üzerinde iyileştirilmeyen bir sözde meta parametresi (ya da latent parametresi) λ = ), fakat bunun yerine, örnek olarak bulunmayan bilgileri yansıtanλλ=(x,y)(1)(2)λβ^|λ

Sorularınızla ilgili olarak (neden e()=||ym(x,β)||pp=1p=2m()


1
λ

@Robby:> teşekkürler. Parametreler ve hiperparametreler arasındaki ayrımı netleştirmek için metni biraz ekledim.
user603

@kwak: Bunun ne anlama geldiğini bilmediğimi söylediğim için üzgünüm. P, q, lambda, x, y, m ve beta sembolleri ne anlama geliyor?
bart

@bart:> Cevabım esasen Srikant'ınkiyle aynı. Sezgisel bir açıklama sağladığı yerde, gelecekteki ziyaretçilerin yararları için sizinle aynı soruya sahip olabilecek, ancak matematikle yaygın dilden daha famil olan daha titiz bir açıklama eklemek istedim. Bahsettiğiniz tüm semboller cevabımda tanımlanmıştır (yine de, bu resmi olarak yapılır).
user603

@kwak: Örneğin p nerede tanımlanır?
bart
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.