Bir defaya mahsus çapraz doğrulama için ROC eğrilerini nasıl üretiyorsunuz?


10

5 kat çapraz doğrulama gerçekleştirirken (örneğin), 5 katın her biri için ayrı bir ROC eğrisi ve genellikle std ile ortalama bir ROC eğrisinin çarpımı tipiktir. dev. eğri kalınlığı olarak gösterilmiştir.

Bununla birlikte, her katta sadece tek bir test veri noktasının bulunduğu LOO çapraz doğrulaması için, bu tek veri noktası için bir ROC "eğrisi" hesaplamak mantıklı görünmemektedir.

Tüm test veri puanlarımı alıyorum (ayrı ayrı hesaplanan p değerleri ile birlikte) ve bunları tek bir ROC eğrisini hesaplamak için büyük bir sette bir araya getirdim, ancak bu istatistiksel olarak koşutucu bir şey mi?

Her kattaki veri noktası sayısı bir olduğunda (LOO çapraz doğrulamasında olduğu gibi) ROC analizini uygulamanın doğru yolu nedir?


Neden? Böyle bir yaratıkla ne başarmak istiyorsun?

Bir dizi p-değeri eşiği genelinde genel tahmin performansını analiz etmem gerekiyor ve ROC eğrileri geleneksel olarak her türlü çapraz doğrulama için kullandığım şey. Temelde ROC analizinin herhangi bir k-kat çapraz doğrulaması için yararlı olmasının aynı nedenleri. LOO xval için farklı, benzer bir yaklaşım varsa, bunu bilmek de harika olacaktır. Ayrıca, yeterli veriye sahip olsaydım 10 kat xval gibi bir şey yapardım ve bu bir sorun olmazdı.
user1121

1
Sana (bu durumda nerede Ambarı) sadece her vaka için geçerlidir etikel ve tahmin değeri kullanılarak tek bir ROC eğrisi oluşturmak, makul bunu yapıyor söyleyebilirim
B_Miner

Yanıtlar:


15

Sınıflandırıcı olasılıklar çıkarıyorsa, tek bir ROC eğrisi için tüm test noktası çıkışlarını birleştirmek uygundur. Değilse, sınıflandırıcının çıktısını sınıflandırıcılar arasında doğrudan karşılaştırılabilir bir şekilde ölçeklendirin. Örneğin, Doğrusal Diskriminant Analizi kullandığınızı varsayalım. Sınıflandırıcıyı eğitin ve ardından eğitim verilerini sınıflandırıcıya koyun. İki ağırlık öğrenin: ölçek parametresiσ (sınıf araçlarının çıkarılmasından sonra sınıflandırıcı çıktılarının standart sapması) ve bir shift parametresi μ(birinci sınıfın ortalaması). Ham parametreleri normalleştirmek için bu parametreleri kullanınr her LDA sınıflandırıcısının çıktısı n=(rμ)/σve normalleştirilmiş çıktılar kümesinden bir ROC eğrisi oluşturabilirsiniz. Bu, daha fazla parametre tahmin ettiğiniz konusunda uyarıcıdır ve bu nedenle sonuçlar, ayrı bir test setine dayanarak bir ROC eğrisi oluşturduğunuzdan biraz farklı olabilir.

Sınıflandırıcı çıktılarını normalleştirmek veya olasılıklara dönüştürmek mümkün değilse, LOO-CV'ye dayalı bir ROC analizi uygun değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.