Çapraz doğrulamada ortalama (skorlar) vs Skor (birleştirme)

TLDR:

Veri setim oldukça küçük (120) örnektir. 10 kat çapraz doğrulama yaparken aşağıdakileri yapmalıyım:

Her test katından çıktıları toplayın, bunları bir vektöre birleştirin ve daha sonra bu tam tahmin vektöründeki hatayı hesaplayın (120 örnek)?
Ya da bunun yerine her katta aldığım çıkışlardaki hatayı hesaplamalıyım (kat başına 12 örnekle) ve son hata tahminimi 10 kat hata tahminlerinin ortalaması olarak almalı mıyım ?

Bu teknikler arasındaki farkları tartışan herhangi bir bilimsel makale var mı?

Arkaplan: Çoklu etiket sınıflandırmasında Makro / Mikro skorlarla Potansiyel İlişki:

Bu sorunun, çok etiketli bir sınıflandırma görevinde sıklıkla kullanılan mikro ve Makro ortalamaları arasındaki farkla ilgili olabileceğini düşünüyorum (örneğin 5 etiket).

Çoklu etiket ayarında, mikro ortalama puanlar , 120 numunedeki 5 sınıflandırıcı tahmininin tümü için gerçek pozitif, yanlış pozitif, gerçek negatif, yanlış negatif birleştirilmiş olasılık tablosu oluşturularak hesaplanır . Bu beklenmedik durum tablosu daha sonra mikro hassasiyet, mikro geri çağırma ve mikro f ölçümü hesaplamak için kullanılır. Dolayısıyla, 120 numunemiz ve beş sınıflandırıcımız olduğunda, mikro ölçüler 600 tahmin üzerinde hesaplanır (120 örnek * 5 etiket).

Makro varyantını kullanırken, her etikette ölçümleri (hassasiyet, geri çağırma vb.) Bağımsız olarak hesaplar ve son olarak bu ölçümlerin ortalaması alınır.

Mikro ve Makro tahminler arasındaki farkın ardındaki fikir , bir ikili sınıflandırma probleminde K-katlamalı ortamda yapılabilecek olan şeylere genişletilebilir. 10 kat için 10 değerin üzerinde ortalama ( Makro ölçüm) yapabilir veya 10 deneyi birleştirebilir ve mikro ölçümleri hesaplayabiliriz .

Arka Plan - Genişletilmiş örnek:

Aşağıdaki örnek soruyu göstermektedir. Diyelim ki 12 test örneğimiz var ve 10 katımız var:

Kat 1 : TP = 4, FP = 0, TN = 8 Hassas = 1.0
Kat 2 : TP = 4, FP = 0, TN = 8 Hassas = 1.0
Kat 3 : TP = 4, FP = 0, TN = 8 Hassas = 1.0
Kat 4 : TP = 0, FP = 12, Hassasiyet = 0
Kat 5 .. Kat 10 : Hepsi aynı TP = 0, FP = 12 ve Hassasiyet = 0'a sahiptir

Aşağıdaki notasyonu kullandım:

TP = Gerçek Pozitiflerin Sayısı, FP = # Yanlış Pozitif, TN = Gerçek Negatiflerin Sayısı

Sonuçlar:

10 kat boyunca ortalama hassasiyet = 3/10 = 0.3
10 kıvrımın tahminlerinin birleştirilmesinde hassasiyet = TP / TP + FP = 12/12 + 84 = 0.125

0.3 ve 0.125 değerlerinin çok farklı olduğunu unutmayın !

classification cross-validation small-sample

— user13420
kaynak

CV gerçekten gelecekteki performansı tahmin etmek için mükemmel bir ölçü değildir. Varyans çok küçük. Modelinizi doğrulamak için bootstrap ile gitmek daha iyidir.

— user765195

@ user765195: Talebinizi bazı alıntılarla yedekleyebilir misiniz?

— Zach

Aradım ama toplu CV yöntemiyle ilgili literatür bulamadım. Daha az sapmaya sahip olduğu için ölçüyü hesaplamanın daha uygun bir yolu gibi görünüyor.

— user13420

@Zach, Harrell'in kitabında burada bazı tartışmalar var: tinyurl.com/92fsmuv (sayfa 93'teki son paragrafa ve sayfa 94'teki ilk paragrafa bakın.) Daha açık olan diğer referansları hatırlamaya çalışacağım.

— user765195

k

$k$

Yanıtlar:

Tarif edilen fark IMHO sahte.

Sadece gerçekten pozitif vakaların dağılımı (yani referans yöntem pozitif bir vaka olduğunu söylüyor) kıvrımlar (örnekteki gibi) ve ilgili test vakalarının sayısı (performans ölçüsünün paydası ) üzerinde çok eşit değilse gözlemleyeceksiniz . bahsettik, burada gerçekten olumlu) kat ortalamalarının ortalaması alınırken dikkate alınmaz.

İlk üç kat ortalaması ile tartarsanız $\frac{4}{12} = \frac{1}{3}$

edit: orijinal soru da doğrulama yineleme / tekrar hakkında sordu:

$k$

Birkaç eğitim örneği alışverişi yapılarak egzersiz verileri bozulursa tahminler ne kadar değişir?
Yani, aynı "test örneği" için farklı "vekil" modellerin tahminleri ne kadar değişir?

Sen soran bilimsel makale :

arama terimleri yinelenen veya tekrarlanan çapraz doğrulamadır.
"Bunu yapmalısın" yazılı bildiriler:
- Dougherty, ER; Sima, C .; Hua, J .; Hanczar, B. & Braga-Neto, UM: Mevcut Biyoinformatik Sınıflandırması için Hata Tahmincilerinin Performansı, 2010, 5, 53-67. iyi bir başlangıç noktasıdır.
- Spektroskopik veriler için bazı simülasyonlar yaptım Beleites, C .; Baumgartner, R .; Bowman, C .; Somorjai, R .; Steiner, G .; Salzer, R. & Sowa, MG: Seyrek veri kümeleri kullanılarak sınıflandırma hatasını tahmin etmede varyans azalması. Chem.Intell.Lab.Syst., 2005, 79, 91-100.
  ön baskı
Ben kullanmak düzenli olarak, örneğin Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. & Salzer, R .: Astrositoma dokularının Raman spektroskopik derecelendirmesi: yumuşak referans bilgileri kullanarakAnal Bioanal Chem, 2011, 400, 2801-2816

Varyasyonu küçümseme Sonuçta, veri setinizin önyükleme veya çapraz doğrulama yinelemelerinden bağımsız olarak sonlu (n = 120) örnek boyutu vardır.

Yeniden örnekleme (çapraz doğrulama ve önyükleme dışı) doğrulama sonuçlarında (en az) 2 varyans kaynağınız var:
- (test) numunesinin sonlu sayısından dolayı varyans
- vekil modellerin tahminlerinin istikrarsızlığı nedeniyle varyans
Modelleriniz kararlıysa,
- $k$
- Bununla birlikte, performans tahmini, sınırlı sayıda test örneği nedeniyle hala değişime tabidir.
- Veri yapınız "basit" ise (yani her istatistiksel olarak bağımsız vaka için tek bir ölçüm vektörü), test sonuçlarının bir Bernoulli işleminin (bozuk para atma) sonuçları olduğunu varsayabilir ve sonlu test seti varyansını hesaplayabilirsiniz.
$\frac{n}{k}$

— cbeleites Monica'yı destekler
kaynak

Ayrıca, dört sınıflandırıcı ile çoklu etiket sınıflandırması yapıyorum. Bu yüzden 4 görev boyunca Mikro ve Makro F-ölçümlerine bakmak istiyorum. Bu durumda "birleşik" çapraz validasyonun gerekli olacağını varsayıyorum? Ayrıca, bootstrap dışı yukarıda yukarıda bahsettiğim "birleşik" CV yöntemi ile aynı olup olmadığından emin değilim. Stats.stackexchange.com/questions/4868/…

— user13420

@ user13420: kombine CV ile ne demek istediğinizden emin değilim ... İşte bootstrap ve çapraz doğrulamanın benim için ne anlama geldiğini yazdığım bir cevap: stats.stackexchange.com/a/26548/4598

— cbeleites destekliyor Monica

@ user13420: Terminoloji farklı alanlarda çok farklı. Cevabınızı Mikro ve Makro F-önlemlerinin ne olduğu bilgisiyle güncelleyebilir misiniz? Bununla birlikte, çapraz validasyon çok genel bir tekniktir: model test sonuçlarını hesaplamak için bir şemadır. Her vaka için referans değeri ve her vaka için öngörülen değer olarak girilmesi gereken herhangi bir performans ölçüsünü hesaplayabilirsiniz.

— cbeleites Monica

birleşik CV, her bir yayının tahminini toplamanız ve 10 yayınlamanın tamamından sonra hesaplamayı hesaplamanız anlamına gelir. Bu nedenle, hassasiyeti ölçersem, bir sınıflandırma görevi için hatırlarsam, tek bir hassasiyete sahip olur, 10 değerin ve ortalama (normal CV'de olduğu gibi) aksine hatırlanır

— user13420 20:12

Teşekkürler cbeleites - Bu açıklamaları ekledim çünkü orijinal sorunun ifadesini biraz kafa karıştırıcı buldum. Umarım düzenlemelerim daha iyiydi - İkilemi daha iyi vurgulamaya çalıştım - ama lütfen bana başka türlü bildirin. Tüm bunlar, fark sahte bulduğunuzu belirttiğinizde - @ user13420'nin 1 veya 2 yaklaşımlarını takip ederken OP'sinin altında iki farklı sonuç aldığını belirtmek isterim . Kendimi bu ikilemle karşı karşıya buldum. 2. yaklaşımın daha yaygın olduğuna inanıyorum , ancak bunun üstesinden gelmek harika olurdu.

— Josh

Skor yapmalısınız (birleştirme). Alandaki yaygın bir yanlış anlama (puanların) en iyi yol olduğu anlamına gelir. Sizin durumunuzda olduğu gibi, özellikle nadir sınıflarda, tahmininize daha fazla önyargı getirebilir. İşte bunu destekleyen bir kağıt:

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

Bu makalede, "ortalama (puan)" yerine "Favg" ve "puan (birleştirme)" yerine "Ftp, fp" kullanırlar.

Oyuncak Örneği:

10 kat çapraz doğrulamanız ve 10 kez görünen ve her katta bir kez görünecek şekilde atanmış bir sınıfınız olduğunu düşünün. Ayrıca sınıf her zaman doğru tahmin edilir, ancak verilerde tek bir yanlış pozitif vardır. Yanlış pozitif içeren test katı% 50 doğruluğa sahipken, diğer tüm kıvrımlar% 100 olacaktır. Yani ortalama (puan) =% 95. Öte yandan, puan (birleştirme) 10/11, yaklaşık% 91'dir.

Gerçek popülasyonun verilerle iyi temsil edildiğini ve 10 çapraz doğrulama sınıflandırıcısının son sınıflandırıcıyı iyi temsil ettiğini varsayarsak, gerçek dünya doğruluğu% 91 olur ve% 95 ortalama (%) tahmini çok taraflıdır .

Uygulamada, bu varsayımları yapmak istemeyeceksiniz. Bunun yerine, verileri rasgele olarak izin vererek ve skoru yeniden birleştirerek (birleştirme) ve önyüklemeyle güveni tahmin etmek için dağıtım istatistiklerini kullanabilirsiniz.

— user2255970
kaynak

Bu harika bir kağıt! Bence orijinal sorunun dilinde (makalede kullanılmayan) sonuç F puanı hesaplanırken "mikro ortalama" yaklaşımı kullanılmasıdır; spesifik olarak, tek bir karışıklık matrisi elde etmek için tüm kıvrımlardan TP, TN, FP, FN'yi toplayın ve sonra F skorunu (veya istenen diğer metrikleri) hesaplayın.

— travelingbones