TLDR:
Veri setim oldukça küçük (120) örnektir. 10 kat çapraz doğrulama yaparken aşağıdakileri yapmalıyım:
Her test katından çıktıları toplayın, bunları bir vektöre birleştirin ve daha sonra bu tam tahmin vektöründeki hatayı hesaplayın (120 örnek)?
Ya da bunun yerine her katta aldığım çıkışlardaki hatayı hesaplamalıyım (kat başına 12 örnekle) ve son hata tahminimi 10 kat hata tahminlerinin ortalaması olarak almalı mıyım ?
Bu teknikler arasındaki farkları tartışan herhangi bir bilimsel makale var mı?
Arkaplan: Çoklu etiket sınıflandırmasında Makro / Mikro skorlarla Potansiyel İlişki:
Bu sorunun, çok etiketli bir sınıflandırma görevinde sıklıkla kullanılan mikro ve Makro ortalamaları arasındaki farkla ilgili olabileceğini düşünüyorum (örneğin 5 etiket).
Çoklu etiket ayarında, mikro ortalama puanlar , 120 numunedeki 5 sınıflandırıcı tahmininin tümü için gerçek pozitif, yanlış pozitif, gerçek negatif, yanlış negatif birleştirilmiş olasılık tablosu oluşturularak hesaplanır . Bu beklenmedik durum tablosu daha sonra mikro hassasiyet, mikro geri çağırma ve mikro f ölçümü hesaplamak için kullanılır. Dolayısıyla, 120 numunemiz ve beş sınıflandırıcımız olduğunda, mikro ölçüler 600 tahmin üzerinde hesaplanır (120 örnek * 5 etiket).
Makro varyantını kullanırken, her etikette ölçümleri (hassasiyet, geri çağırma vb.) Bağımsız olarak hesaplar ve son olarak bu ölçümlerin ortalaması alınır.
Mikro ve Makro tahminler arasındaki farkın ardındaki fikir , bir ikili sınıflandırma probleminde K-katlamalı ortamda yapılabilecek olan şeylere genişletilebilir. 10 kat için 10 değerin üzerinde ortalama ( Makro ölçüm) yapabilir veya 10 deneyi birleştirebilir ve mikro ölçümleri hesaplayabiliriz .
Arka Plan - Genişletilmiş örnek:
Aşağıdaki örnek soruyu göstermektedir. Diyelim ki 12 test örneğimiz var ve 10 katımız var:
- Kat 1 : TP = 4, FP = 0, TN = 8 Hassas = 1.0
- Kat 2 : TP = 4, FP = 0, TN = 8 Hassas = 1.0
- Kat 3 : TP = 4, FP = 0, TN = 8 Hassas = 1.0
- Kat 4 : TP = 0, FP = 12, Hassasiyet = 0
- Kat 5 .. Kat 10 : Hepsi aynı TP = 0, FP = 12 ve Hassasiyet = 0'a sahiptir
Aşağıdaki notasyonu kullandım:
TP = Gerçek Pozitiflerin Sayısı, FP = # Yanlış Pozitif, TN = Gerçek Negatiflerin Sayısı
Sonuçlar:
- 10 kat boyunca ortalama hassasiyet = 3/10 = 0.3
- 10 kıvrımın tahminlerinin birleştirilmesinde hassasiyet = TP / TP + FP = 12/12 + 84 = 0.125
0.3 ve 0.125 değerlerinin çok farklı olduğunu unutmayın !