“Bootstrap validation” (diğer bir deyişle “çapraz doğrulamayı yeniden örnekleme”) prosedürü nedir?

"Önyükleme doğrulaması" / "çapraz doğrulamayı yeniden örnekleme" benim için yeni, ancak bu sorunun cevabı ile tartışıldı . 2 tür veri içerir: Simüle edilmiş veriler gerçek verilerle aynı boyuta ulaşıncaya kadar değiştirilerek yeniden örnekleme ile gerçek verilerden belirli bir simüle edilmiş veri kümesi oluşturulduğu gerçek veriler ve simüle edilmiş veriler. Bu tür veri türlerini kullanmanın iki yaklaşımını düşünebilirim: (1) modele bir kez sığdır, birçok simüle edilmiş veri setinde birçok kez değerlendirir; (2) birçok simüle edilmiş veri setinin her birini kullanarak modeli birçok kez sığdırın, her seferinde gerçek verilere göre değerlendirin. Hangisi (eğer varsa) en iyisidir?

— Mike Lawrence
kaynak

Kısa cevap: Her iki validasyon tekniği bir dizi modelin eğitimini ve testini içerir.

En iyi nasıl yapılacağı hakkında uzun cevap: Elbette buna bağlı. Ancak burada, yeniden örnekleme ile ilgili kararlarımı yönlendirmek için kullandığım bazı düşünceler. Ben kemometrikçiyim, bu yüzden bu stratejiler ve terimler az çok analitik-kimyasal problemlerle yakından ilgilidir.

Düşüncelerim biraz açıklamak gerekirse, ben olarak doğrulama düşünüyorum ölçmek gibi model kalitesi ve eğitimin ölçülmesi oldukça güçlü benzetme bu potansiyel ölçüm diğer her türlü - Model parametrelerini.

Validasyon konusunda bu yaklaşımlara iki farklı bakış açısı vardır:

yeniden örnekleme doğrulaması için geleneksel bir bakış açısı: yeniden örneklenen veri kümesi (bazen vekil veri kümesi veya altkümesi olarak da adlandırılır) pratik olarak orijinal (gerçek) veri kümesiyle aynıdır.
Bu nedenle, vekil veri setine uyan bir "vekil model" pratik olarak tüm gerçek veri setine uyan modelle aynıdır. Ancak bazı örnekler vekil veri kümesinin dışında bırakılır, model bunlardan bağımsızdır. Bu nedenle, dışarıda bırakılan veya önyükleme dışı örnekleri, vekil model için bağımsız doğrulama seti olarak alıp sonucu tüm veri modelinin yaklaşımı olarak kullanıyorum.
Bununla birlikte, vekil model genellikle tüm veri modeliyle gerçekten eşdeğer değildir: eğitim için daha az örnek kullanıldı (bootstrap için bile, farklı örneklerin sayısı daha azdır). Öğrenme eğrisi arttığı sürece, vekil model ortalama olarak tüm veri modelinden biraz daha kötüdür. Bu, yeniden örnekleme doğrulamasının iyi bilinen kötümser önyargısıdır (iyimser bir önyargı ile sonuçlanırsanız, genellikle sol / oob test setinin modelden bağımsız olmadığının bir göstergesidir).
İkinci bakış açısı, yeniden örneklenen veri kümesinin, tüm veri kümesinin bozuk bir versiyonu olduğudur. Vekil modellerin (ya da dışarıda bırakılan / oob örnekleri için tahminlerinin) tüm veri modelinden nasıl farklı olduğunu incelemek, eğitim verilerine göre model istikrarı hakkında bir şeyler söyler.
Bu açıdan bakıldığında, vekil modeller tekrarlanan ölçümlere benzer. Senin görevin bütün bir cevher treninin bazı mineral içeriğini ölçmek olduğunu varsayalım. Cevher homojen değildir. Böylece farklı konumlardan fiziksel örnekler alıyorsunuz ve daha sonra genel içeriğe ve trendeki varyasyonuna bakıyorsunuz. Benzer şekilde, modelinizin istikrarlı olmayabileceğini düşünüyorsanız, yedek modellerin genel performansına ve varyasyonuna bakabilirsiniz.

$n$
Genellikle vakaları yeniden örneklendiririm, örneğin bir vaka = bir hastanın tüm ölçümleri. O zaman çanta dışı tüm hastalar eğitim verilerinde hiçbir ölçüm yapılmaz. Bu, bir vakanın ölçümlerinin, diğer vakaların ölçümlerine kıyasla daha benzer olduğunu biliyorsanız (veya en azından bu olasılığı hariç tutamazsanız) faydalıdır.

Yeniden örnekleme doğrulaması, bilinmeyen örnekler için performansı ölçmenize izin vermez . Ek olarak, gelecekteki bilinmeyen numunelerin (enstrümantal sürüklenme!) Performansını ölçmek istiyorsanız, "gelecekte" ölçülen bir test setine ihtiyacınız vardır, yani tüm eğitim örnekleri ölçüldükten belirli bir süre sonra. Analitik kimyada buna, örneğin enstrümanınızın kalibrasyonunu ne sıklıkta yeniden yapmanız gerektiğini öğrenmek istiyorsanız (her belirleme için günlük, haftalık, aylık, ...)

Önyükleme ve çapraz doğrulama terminolojisi :

değiştirme ile yeniden örnekleme genellikle bootstrap olarak adlandırılır,
yedek çapraz doğrulama olmadan yeniden örnekleme.

Her ikisinde de bir çeşit tabakalaşma olabilir. Tarihsel olarak, çapraz validasyon için ayırma (en azından kemometride) çoğu zaman rastgele olmayan bir şekilde, örneğin kalibrasyon için abcabc..abc (veri kümesi olarak sıralanmış veri seti) 3 kat çapraz validasyonunda yapılmıştır. çok az vakanız varsa (fiziksel örnekler) ve tüm veri aralığınızın kapsandığından emin olmak istiyorsanız.

Her iki teknik de genellikle birkaç kez tekrarlanır / tekrarlanır. Yine tarihsel nedenlerden dolayı ve en azından kemometride, k-kat çapraz doğrulama genellikle k modellerinin eğitimi ve test edilmesi anlamına gelir (her biri eğitimde yer almayan verilerin 1 / k'ı ile test edilmiştir). Böyle rastgele bir bölünme tekrarlanırsa, insanlar yinelenen veya yinelenen çapraz doğrulama olarak adlandırılır.

$k$ $k$ $n$ $n$ $n$

Önyükleme işleminin, ilk önce yinelenen ölçümleri kaldıran bazı model uydurma teknikleri için uygun olmadığını unutmayın.
Bazı bootstrap varyantları vardır, örneğin .632-bootstrap ve .632 + -bootstrap

$k$ $k$

— cbeleites Monica'yı destekler
kaynak

Uzun cevap güzel.

— Momo

(+1) harika bir bakış açısı. Eminim vekil terimi yapışacaktır.

— steffen

@steffen, teşekkürler. Ben hiçbir şekilde terimin mucidiyim. Sanırım ilk olarak U. Braga- Neto'nun bir gazetesinde tanıştım (muhtemelen bu: ncbi.nlm.nih.gov/pubmed/14960464 ) ama terimin hemen ikna oldum ...

— cbeleites Monica

Simüle edilmiş veriler hakkında sorudaki açıklama ile ilgili olarak. Bootstrap kendi başına simüle edilmiş veri içermez. Simüle edilmiş veriler, önyükleme yönteminin belirli bir sorun üzerinde çalışıp çalışmadığını değerlendirmenin bir yolu olarak kullanılacaktır. Ancak bootstrap'in kendisi, bootstrap örneğine dayanan verilerin yeniden kullanılmasıdır. Orijinal veri kümesinden değiştirilerek rastgele seçilen örnekler. Bu genellikle n'nin orijinal numunenin büyüklüğü olduğu n örneklerinin alınmasını içerir. Monte Carlo, aslında bilgisayarda bootstrap örnekleri oluşturarak bootstrap dağılımını yaklaşıklaştırmanın bir yolu olarak girer.

— Michael R. Chernick

"En iyi" (muhtemelen ne için kullandığınıza bağlıdır) hakkında bilmiyorum, ama yeni şekilde aşağıdaki gibi hata tahmin etmek için bootstrap doğrulama kullanın (isterseniz üçüncü şekilde):

Değiştirilen orijinal verilerden (N boyutunda) bir N gözlem seti eğitim seti çizin.
Modeli eğitim verilerine uydurun.
Torbalı (oob) örneklerdeki modeli değerlendirin

Çantadan çıkanlar her zaman açıkça tanımlanmamıştır. Genellikle eğitim setinin bir parçası olmayan tüm gözlemler budur. Daha sıkı (sadece bu şekilde kullanıyorum) oob örneğinde sadece eğitim setinin bir parçası olmayan tüm tahmin vektörünü gerçekleştiren gözlemlere sahip olmak olurdu (özellikle birçok faktörünüz varsa yararlıdır). Hatta daha katı, yalnızca modelde seçilen öngörücüler üzerinde öngörme değişkenini farklı şekilde gerçekleştiren gözlemleri içeren bir oob örneği kullanmaktır (özellikle model, örneğin ağaçlar gibi bazı değişken seçim prosedürleriyle bulunursa yararlıdır).

Sonra bunu genellikle birkaç kez tekrarlarım ve k-katları üzerinde sonuçları toplarım (ortalama veya medyan veya hangi istatistik varsa). Bu şekilde seçilen model, daha sonra hala fazlalık eğilimi varsa (performans ölçüsü bootstrap örneklerinden çok uzakta olmamalıdır) ek olarak ölçmek için genel veri setine (seçenek 2'deki gibi) takılabilir.

Daha fazla modelim veya parametre ızgaram veya benzerlerim varsa, hepsini her eğitim setine sığdırırım ve hepsini her bir oob örneğinde değerlendiririm. Ayrıca, bir eğitim setini iki kez kullanmak mümkün değildir, ancak her model veya ayar parametresi kombinasyonu için yeni bir eğitim / oob çifti çizmek mümkündür.

Bkz. Örneğin Kıyaslama Deneylerinin Tasarımı ve Analizi .

— Momo
kaynak