Çapraz onaylı sınıflandırma doğruluğu için güven aralığı


11

İki giriş x-ray görüntüleri arasında benzerlik metriği hesaplayan bir sınıflandırma sorunu üzerinde çalışıyorum. Görüntüler aynı kişiden geliyorsa ('sağ' etiketi), daha yüksek bir metrik hesaplanır; iki farklı kişinin giriş görüntüleri ('yanlış' etiketi) daha düşük bir metrikle sonuçlanır.

Yanlış sınıflandırma olasılığını hesaplamak için tabakalı 10 kat çapraz doğrulama kullandım. Şu anki örnek boyutum yaklaşık 40 doğru eşleşme ve 80 yanlış eşleme, burada her veri noktası hesaplanan metrik. 0.00 olarak yanlış sınıflandırma olasılığı alıyorum, ancak bu konuda bir çeşit güven aralığı / hata analizine ihtiyacım var.

Ben binomial oran güven aralığını (burada benim başarı sayısı için doğru etiketleme veya yanlış etiketleme olarak çapraz doğrulama sonuçlarını kullanmak istiyorsunuz) kullanarak bakıyordu. Bununla birlikte, binom analizi arkasındaki varsayımlardan biri her deneme için aynı başarı olasılığıdır ve çapraz validasyonda 'doğru' veya 'yanlış' sınıflandırmasının arkasındaki yöntemin, aynı başarı olasılığı.

Düşünebileceğim diğer tek analiz, çapraz doğrulama X kez tekrarlamak ve sınıflandırma hatasının ortalama / standart sapmasını hesaplamaktır, ancak verileri benim birkaç kez nispeten küçük numune boyutu.

Düşüncesi olan var mı? Tüm analizlerim için MATLAB kullanıyorum ve İstatistikler araç kutum var. Her türlü yardımı takdir ediyorum!


0.00'ın yanlış sınıflandırma olasılığı, 10 çapraz doğrulama katlamasının her birinde% 100 sınıflandırma doğruluğu elde ettiğiniz anlamına mı geliyor?
amoeba

Evet bu doğru. Kıvrımların her biri yanlış sınıflandırmalara yol açmamıştır; rapor ettiğim 0.00 toplam test vakası sayısından (120) toplam yanlış sınıflandırma sayısını (0) temsil etmektedir.
Sean

BTW, "tabakalı" çapraz doğrulamayla tam olarak ne demek istiyorsun? Her CV katında her zaman 4 eşleşme ve 8 eşleşmeyen 120/10 = 12 test örneği var mı?
amoeba

Evet, aynen öyle - en azından MATLAB içinde nasıl yapıldığını anlıyorum. Her kat, 1: 2 olan 'sağ' / 'yanlış' sınıf etiketlerinin aynı oranını içermelidir.
Sean

Yanıtlar:


7

Farklı vekil modellerin öngörülerinde istikrarsızlığın etkisi

Bununla birlikte, binom analizi arkasındaki varsayımlardan biri her deneme için aynı başarı olasılığıdır ve çapraz validasyonda 'doğru' veya 'yanlış' sınıflandırmasının arkasındaki yöntemin, aynı başarı olasılığı.

Genellikle bu eşitlik, farklı vekil modellerin sonuçlarını bir araya getirmenize izin vermek için gereken bir varsayımdır.

Uygulamada, bu varsayımın ihlal edilebileceği sezgileriniz çoğu zaman doğrudur. Ancak durumun böyle olup olmadığını ölçebilirsiniz. Burada yinelenen çapraz doğrulamayı yararlı bulduğum yer: Farklı vekil modeller tarafından aynı durum için tahminlerin istikrarı, modellerin eşdeğer (kararlı tahminler) olup olmadığını yargılamanıza izin verir.

k
yinelenen k-kat çapraz doğrulaması

ik

Ayrıca her bir yineleme için performansı hesaplayabilirsiniz (çizimde 3 satırlık blok). Bunlar arasındaki herhangi bir fark, vekil modellerin (birbirlerine ve ayrıca tüm durumlarda inşa edilen "büyük model" e eşdeğer olduğu varsayımının karşılanmadığı anlamına gelir. Ancak bu aynı zamanda ne kadar dengesizliğe sahip olduğunuzu da gösterir. Binom oranı için, gerçek performans aynı olduğu sürece (yani her zaman aynı vakaların yanlış tahmin edilip edilmediğinden veya aynı sayı ancak farklı vakaların yanlış tahmin edilip edilmediğinden bağımsız) düşünüyorum. Yedek modellerin performansı için belirli bir dağılımı makul bir şekilde kabul edip edemeyeceğini bilmiyorum. Ancak, bu dengesizliği rapor ederseniz, her durumda yaygın olarak sınıflandırma hatalarının raporlanmasına göre bir avantaj olduğunu düşünüyorum.kk


nki

Çizim, şek. Bu yazıda 5: Beleites, C. & Salzer, R .: Küçük örnek boyutu durumlarında kemometrik modellerin kararlılığının değerlendirilmesi ve geliştirilmesi, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6 Makaleyi
yazdığımızda, burada açıkladığım farklı varyans kaynaklarını henüz tam olarak fark etmediğimi unutmayın - bunu aklınızda bulundurun. Bu yüzden tartışmanınEtkili örneklem büyüklüğü tahmini için, her hastadaki farklı doku tiplerinin belirli bir doku tipine sahip yeni bir hasta kadar genel bilgiye katkıda bulunduğu sonucuna rağmen doğru olmayabilir (tamamen farklı bir tipim var) bu yolu gösteren kanıtlar). Ancak, bu konuda henüz tam olarak emin değilim (ne daha iyi nasıl yapılacağını ve böylece kontrol edebiliyorum) ve bu sorun sorunuzla ilgisiz.


Binom güven aralığı için hangi performans kullanılır?

Şimdiye kadar, ortalama gözlemlenen performansı kullanıyorum. Gözlenen en kötü performansı da kullanabilirsiniz: gözlenen performans 0,5'e yaklaştıkça, varyans ve dolayısıyla güven aralığı artar. Böylece, gözlenen performansın 0,5'e yakın güven aralıkları size bazı muhafazakar "güvenlik payı" verir.

Binom güven aralıklarını hesaplamak için bazı yöntemlerin, gözlenen başarı sayısı bir tamsayı değilse de işe yaradığını unutmayın. Ross, TD'de anlatıldığı gibi "Bayesyan posterior olasılığın entegrasyonu"
nu kullanıyorum: Binom oranı ve Poisson oranı tahmini için kesin güven aralıkları, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2

(Matlab için bilmiyorum, ancak R'de binom::binom.bayesher iki şekil parametresi 1'e ayarlanmış olarak kullanabilirsiniz).


n

Ayrıca bakınız: Bengio, Y. ve Grandvalet, Y .: K-Katlı Çapraz Doğrulamanın Varyansının Tarafsız Tahmincisi, Makine Öğrenim Araştırmaları Dergisi, 2004, 5, 1089-1105 .

(Bunlar hakkında daha fazla düşünmek araştırma yapılacaklar listemde ... ama deneysel bilimden geldiğimde, teorik ve simülasyon sonuçlarını deneysel verilerle tamamlamayı seviyorum - bu büyük bir ihtiyaç duyduğum için burada zor referans testi için bağımsız vakalar seti)


Güncelleme: Biyomiyal dağılım varsayımı haklı mı?

k

n

npn


Merhaba @cbeleites, sadece CV analizimin o belirli veri kümesi için 2 benzersiz değerle sonuçlandığını yorumladım (diğer bazı veri kümelerinin N benzersiz değerleri vardır, N genellikle 5'ten azdır), tıpkı yukarıda tarif edilen amip gibi. Bu göz önüne alındığında, yalnızca tek bir veri kümesi ve CV'mi kullanarak tahminlerimin sabit olduğunu nasıl gösterebilirim? Bir binom dağılımı ile ilgili olarak, Agresti-Coull aralığını düşünüyordum (hata yapmadan yüksek başarı oranı /% 100 başarı oranı için çalışabilir). Görünüşe göre bir binom dağılımı kullanabileceğimi söylüyorum, ancak yine de aynı başarı probleminin varsayımını nasıl haklı çıkarabileceğimden emin değilim.
Sean

p

1
@amoeba: Binom dağılımını, dengesizlik nedeniyle bilinmeyen dağılımla nasıl birleştireceğimi bilmiyorum. Bu yüzden (in) stabilitesi için gözlenen persantilleri ve sonlu test numunesi boyutu için binom ci'yi rapor ediyorum. Onları nasıl birleştireceğim kafamda sakladığım araştırma sorularından biri, ama şimdiye kadar ne bir çözüm bulamadım ne de biriyle tanıştım. Sanırım araştırmanın ön saflarına
vardık

1
@Sean: İlgili konularla ilgili son sorumu gördünüz mü ? Yorumlarda çok ilginç (benim için) bir tartışma var ve şu anda bazı simülasyonlar üzerinde çalışıyorum. Binom varsayımının çok yanlış olduğuna inanmaya başladım! Ayrıca, aynı şeyi iddia eden çeşitli referanslarla da ilgilenebilirsiniz.
amip

1
@Sean: Bu iki konuyu güncel tutmaya çalışacağım, yani sorun daha da netleştikten sonra orada durumu özetlemeye ve burada yeni bir cevap vermeye çalışacağım. Şimdilik, bu makalenin diğer evreye bağlı olduğunu fark ettiniz mi? Yazarlar sorunuzu tam olarak tartışıyor ve iyi çalıştığını iddia ettikleri bir önyükleme prosedürü sağlıyorlar. Sorunuza şu anda bir cevap yazsaydım, onların prosedürünü tavsiye ederim. Ama önce bu makaleye atıfta bulunan 24 bildiriyi kontrol etmek mantıklı olacaktır.
amip

3

Sanırım çapraz doğrulamayı birçok kez tekrarlama fikriniz doğru.

CV'nizi, her zaman bölme farklı bir şekilde (10 katlı CV için) 10 bölüme veri (do 1000 kez diyelim tekrarlayın değil etiketleri karıştır). Sınıflandırma doğruluğu hakkında 1000 tahmin alacaksınız. Tabii ki aynı verileri tekrar kullanacaksınız, bu yüzden bu 1000 tahmin bağımsız olmayacak. Ancak bu önyükleme prosedürüne benzer: bu doğruluk tahmincinizin ortalamasının standart hatası olarak bu doğruluklardan standart sapmayı alabilirsiniz . Veya% 95 güven aralığı olarak% 95 persentil aralığı.

Alternatif olarak, çapraz doğrulama döngüsünü ve önyükleme döngüsünü birleştirebilir ve basitçe verilerinizin% 10'unu bir test seti olarak rastgele (belki de katmanlı) seçebilir ve bunu 1000 kez yapabilirsiniz. Yukarıdaki ile aynı akıl yürütme burada da geçerlidir. Ancak, bu tekrarlar üzerinde daha yüksek varyans ile sonuçlanacaktır, bu yüzden yukarıdaki prosedürün daha iyi olduğunu düşünüyorum.

Eğer yanlış sınıflandırma oranınız 0.00 ise, sınıflandırıcınız sıfır hata yapar ve bu her önyükleme yinelemesinde gerçekleşirse, sıfır geniş güven aralığı elde edersiniz. Ancak bu, sınıflandırıcınızın neredeyse mükemmel olduğu, sizin için çok iyi olduğu anlamına gelir.


Merhaba @ amoeba, yanıtınız için teşekkürler. Örneklere rasgele izin vererek CV'yi 1000 kez tekrarlamak için ilk önerinizle ilgili biraz daha açıklamak ister misiniz? Önceden belirlenmiş bir test seti oranı olmalı mı: eğitim seti (örneğin 10 kat çapraz doğrulama için 10:90)? Sanırım 10 kat validasyonun tekrarlanmasının zamanla varyansı nasıl artıracağı biraz belirsiz.
Sean

1
Korkarım ki @amoeba'nın önerdiği ikinci prosedür çok iyimser: mükemmel olmayan bir sınıflandırıcı belirli bir veri kümesinde mükemmel bir performansa sahip olabilir (örneğin, sadece 4 örneğiniz olduğunu varsayın - hepsini sınıflandırmak için 1: 8 şans eseri doğru). Amipin belirttiği gibi, tren testi kıvrımlarının farklı tahsisleri üzerindeki varyansın ölçülmesi, bu durumda açıkça yanlış olan 0 genişlik güven aralığı üretecektir.
Trisoloriansunscreen

1
Nihayetinde, bu sorunun, daha önce gözlemlemediğimden farklı verileri gözlemleme olasılığını bulmaya geldiğini düşünüyorum. Örneğim için güven aralıkları elde etmek, orijinal sorum için @amoeba'nın önerdiği şeydir (her CV yinelemesi için rastgele kıvrımlar kullandım) ve sonuç daha gerçekçi görünüyor (% 95 CI: [0.0028, 0.0033]). Ancak, gelecekteki veri tahmini için daha iyi olacak başka bir teknik olup olmadığını bilmiyorum. Belki de verilerime eğriler yerleştirip örtüşmelerini hesapladığım bir çeşit model tabanlı yaklaşım?
Sean

3
@amoeba: Açıklık için teşekkür ederim, sanırım cevabınızı yeterince dikkatli okumadım. Yine de, hala bu yaklaşımın iyimser bir önyargısından rahatsızım (her iki prosedür). Farklı CV bölümlerini denerken doğruluğu ölçerek, rastgele bölünmenin neden olduğu değişkenliği tahmin edersiniz. Yine de, tüm verilerinizin daha büyük gözlem popülasyonunun (toplanmadığınız) rastgele bir örneği olduğu gerçeğini görmezden geliyorsunuz. Şans eseri mükemmel performans elde eden küçük bir veri kümeniz varsa (CV bölmelerine bakılmaksızın), güven aralığınız sıfırdır ve bu yanlıştır.
Trisoloriansunscreen

1
@amoeba: Zor, çünkü gözlemleri kendiniz başlatamazsınız (bu durumda en yakın komşu sınıflandırıcıyı düşünün). Bu problemle kendim mücadele ediyorum, bakalım başka biri bir fikir bulur mu?
Trisoloriansunscreen

2

Sınıflandırma hatası hem süreksiz hem de yanlış bir puanlama kuralıdır. Düşük hassasiyete sahiptir ve optimize etmek yanlış özellikleri seçer ve onlara yanlış ağırlıklar verir.


% 99-100 çapraz onaylı sınıflandırma doğruluğu elde ederse, bu OP için pek sorun olmayabilir.
amip

1
@amoeba:% 100 veya% 0'a yakın doğru oranlar gözlenirse de bir sorun olabilir: sürekli puanlara dayanan performans ölçümlerinin aksine, sürekli sınıflandırma puanının ikiye ayrılmasından (sertleşmesinden) sonra ölçülen her türlü performans tahminler hâlâ doğru tarafta oldukları sürece karar sınırına yaklaşmaktadır. Bununla birlikte, IMHO oran-tip performans ölçümlerini bildirmek için geçerli nedenler vardır (örneğin, okuyucularınız / ortak çalışanlarınız bunları anlıyor, ancak anlamıyorsa, örneğin Brier skorları). Bunu açmak istemedim ...
SX

... tartışmada optimizasyonun bir göstergesi olmadığından tartışma konusu (bunun gerçekten önemli olduğu yer).
SB

Eğer "doğru" olarak sınıflandırılan bir oran hesaplıyorsanız, bunu bir sebepten dolayı yapıyor olmalısınız, örneğin bir karar vermek ya da bir işlem yapmak. Oran bu amaçlar için yanıltıcıdır.
Frank Harrell

1
@FrankHarrell: Sanırım bunun nedeni bir raporda bildirmek. İnsanların sınıflandırma doğruluklarını rapor etmeyi bırakmaları gerektiğini düşünüyor musunuz?
amip
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.