önsöz
Bu uzun bir yazı. Bunu tekrar okuyorsanız, arka plan materyali aynı kalmasına rağmen, soru bölümünü gözden geçirdiğimi lütfen unutmayın. Ek olarak, soruna bir çözüm geliştirdiğime inanıyorum. Bu çözüm gönderinin altında görünür. Özgün çözümümün (bu yazıdan düzenlenmiş; bu çözüm için düzenleme geçmişine bakın) mutlaka yanlı tahminler ürettiğine işaret ettiği için CliffAB sayesinde.
Sorun
Makine öğrenmesi sınıflandırma problemlerinde, model performansını değerlendirmenin bir yolu ROC eğrilerini veya ROC eğrisi altındaki alanı (AUC) karşılaştırmaktır. Bununla birlikte, ROC eğrilerinin değişkenliği veya AUC tahminleri hakkında çok küçük bir tartışma olduğuna dair gözlemim; yani, verilerden hesaplanan istatistiklerdir ve bu nedenle bunlarla ilişkili bazı hatalar vardır. Bu tahminlerde hatanın tanımlanması, örneğin bir sınıflandırıcının gerçekten diğerinden üstün olup olmadığını karakterize etmeye yardımcı olacaktır.
Bu sorunu gidermek için, Bayesian ROC eğrilerinin analizini dediğim aşağıdaki yaklaşımı geliştirdim. Sorun hakkında düşüncemde iki önemli gözlem var:
ROC eğrileri verilerden tahmin edilen miktarlardan oluşur ve Bayesian analizine uygundur.
ROC eğrisi, gerçek pozitif oran nın her biri verilerden hesaplanan yanlış pozitif oran karşı çizilmesiyle oluşur . Ben düşünün ve fonksiyonlarını (bir lojistik regresyon vb SVM bir altdüzlemden rastgele ormanda ağaç oy mesafe, tahmini olasılığı), karar B'den sıralama sınıfı A'ya kullanılan eşik. Karar eşiğinin değerini değiştirmek için farklı ve tahminleri verecektir . Dahası, göz önünde bulundurabilirizF P R ( θ ) T P R F P R θ θ T P R F P R , T P R ( θ )Bernoulli denemelerinin bir dizisindeki başarı olasılığının bir tahmini olmak. Aslında, TPR bu, aynı zamanda, başarıları ve toplam denemeleriyle yapılan bir deneyde binom başarı olasılığının .TPTP+FN>0
Bu yüzden ve nın çıktısını rastgele değişkenler olarak değerlendirdiğimizde, başarı ve başarısızlıkların tam olarak bilindiği bir binom deneyinin başarı olasılığını tahmin etme problemiyle karşı karşıya kalıyoruz (verilen tarafından , , ve I) tüm sabit olduğunu varsayıyorum. Geleneksel olarak, biri basitçe MLE'yi kullanır ve TPR ve FPR'nin belirli değerleri için sabit olduğunu varsayar.F P R ( θ ) T P F P F N T N θ θ. Ancak, Bayesian ROC eğrileri analizinde, ROC eğrileri üzerindeki posterior dağılımdan örnekler çizerek elde edilen ROC eğrilerinin arka simülasyonlarını çiziyorum. Bu problem için standart bir Bayesan modeli, başarı olasılığından önce beta ile ikili bir olasılıktır; başarı olasılığındaki posterior dağılım da beta, yani her bir , TPR ve FPR değerlerinin posterior dağılımına sahibiz. Bu bizi ikinci gözlemime getiriyor.
- ROC eğrileri azalmıyor. Dolayısıyla, bir miktar ve değeri örneklendikten sonra, örneklenen noktanın "güneydoğusundaki" ROC alanında bir noktayı örnekleme olasılığı sıfırdır. Fakat şekil kısıtlı örnekleme zor bir problemdir.F P R ( θ )
Bayesian yaklaşımı, çok sayıda AUC'yi tek bir tahmin setinden simüle etmek için kullanılabilir. Örneğin, 20 simülasyon orijinal verilere kıyasla bu şekilde görünüyor.
Bu yöntemin bir takım avantajları vardır. Örneğin, bir modelin AUC'sinin diğerinden daha büyük olma olasılığı, posterior simülasyonlarının AUC'lerini karşılaştırarak doğrudan tahmin edilebilir. Varyans tahminleri, yeniden örnekleme yöntemlerinden daha ucuz olan simülasyon yoluyla elde edilebilir ve bu tahminler yeniden örnekleme yöntemlerinden kaynaklanan korelasyonlu örnekler sorununu ortaya çıkarmaz.
Çözüm
Yukarıda belirtilenlerin yanı sıra, sorunun niteliği hakkında üçüncü ve dördüncü bir gözlem yaparak bu soruna bir çözüm geliştirdim.
F P R ( θ ) ve , simülasyona uygun marjinal yoğunluklara sahiptir.
Eğer (yardımcısı ) parametreleri ile bir beta-dağıtılmış rastgele değişkendir ve (yardımcısı ve ), biz de TPR yoğunluğu birkaç farklı değerler üzerinde ortalama ne düşünebiliriz analizimize karşılık gelen . Yani, örneklem dışı model tahminlerimizin elde ettiği değerleri koleksiyonundan bir değerini örnekleyen ve daha sonra bir değeri örnekleyen hiyerarşik bir süreci düşünebiliriz. . Elde edilen örnekleri üzerinde bir dağılımF P R ( θ ) T P F N F P T N θ ˜ θ θ T P R ( ˜ θ ) T P R ( ˜ θ ) θ T P R ( θ ) c θ 1 / cdeğerler, üzerinde koşulsuz olan gerçek pozitif oranın yoğunluğudur . Çünkü için bir beta model varsayıyoruz , sonuçta elde edilen dağılım, beta dağılımlarının bir karışımı , koleksiyonumuzun büyüklüğüne eşit , ve karışım katsayılarının bir karışımı .
Bu örnekte, TPR'de aşağıdaki CDF'yi elde ettim. Özellikle, parametrelerden birinin sıfır olduğu beta dağılımlarının dejenerasyonu nedeniyle, karışım bileşenlerinin bazıları 0 veya 1'de Dirac delta işlevidir. Bu, 0 ve 1'deki ani yükselmelere neden olan şeydir. Bu yoğunluklar ne sürekli ne de ayrık değildir. Her iki parametrede de pozitif olan bir öncelik seçimi, bu ani yükselmeleri (gösterilmemiştir) "düzgünleştirme" etkisine sahip olacaktır, ancak ortaya çıkan ROC eğrileri öncekine doğru çekilecektir. Aynı şey FPR için de yapılabilir (gösterilmemiştir). Marjinal yoğunluktan numuneler çizmek ters dönüşüm örneklemesinin basit bir uygulamasıdır.
Şekil kısıtlaması gereksinimini çözmek için, sadece TPR ve FPR'yi bağımsız olarak sıralamamız gerekir.
Azalmayan gereksinim, TPR ve FPR'den alınan marjinal örneklerin bağımsız olarak sıralanması gerekliliği ile aynıdır - yani ROC eğrisinin şekli, en küçük TPR değerinin en küçük FPR ile eşleştirilmesi şartı ile tamamen belirlenir. değer ve benzeri, bu, şekli kısıtlı rastgele bir örneğin yapısının burada önemsiz olduğu anlamına gelir. Daha önce uygunsuz simülasyonlar, bu şekilde bir ROC eğrisi oluşturmanın, çok sayıda numune sınırında orijinal AUC'ye yakınlaşan ortalama AUC'li örnekler ürettiğine dair kanıtlar sağlar. Aşağıda 2000 simülasyonunun bir KDE'si var.
Bootstrap ile Karşılaştırma
@AdamO ile uzun bir sohbet görüşmesinde (teşekkürler, AdamO!), İki ROC eğrisini karşılaştırmak ya da aralarında tek bir ROC eğrisinin değişkenliğini karakterize etmek için çeşitli başlangıç yöntemleri olduğunu belirtti. Bu yüzden bir deney olarak , çıkma kümesinde gözlem olan örneğimi önyüklemeye ve sonuçları Bayesian yöntemiyle karşılaştırmaya çalıştım . Sonuçlar aşağıda karşılaştırılmıştır (Buradaki önyükleme uygulaması basit önyüklemedir - orijinal örneğin boyutuyla değiştirilerek rastgele örnekleme. Önyükleme okumalarına ilişkin cursory okuma, yeniden örnekleme yöntemleri hakkındaki bilgilerimde önemli boşluklar ortaya çıkarmaktadır, bu yüzden belki de bu bir uygun yaklaşım.)
Bu gösterim, önyükleme ortalamasının orjinal örnek ortalamasının altında bastırıldığını ve önyükleme parçasının KDE'sinin iyi tanımlanmış "kıskaçlar" verdiğini göstermektedir. Bu humps'ın oluşumu pek gizemli değildir - ROC eğrisi her noktanın dahil edilmesine karşı hassas olacaktır ve küçük bir örneğin etkisinin (burada, n = 20) etkisi, altta yatan istatistiğin her birinin dahil edilmesine karşı daha duyarlı olmasıdır. puan. (Kesinlikle, bu desen, çekirdek bant genişliğinin bir eseri değildir - halı grafiğine dikkat edin. Her şerit, aynı değere sahip birkaç önyükleme kopyasıdır. Önyükleme, 2000 kopyaya sahiptir, ancak farklı değerlerin sayısı açıkça daha azdır. humps'ın bootstrap prosedürünün kendine özgü bir özelliği olduğu sonucuna varabilir.) Buna karşılık, ortalama olarak Bayesian AUC tahminleri, orijinal tahminlere çok yakın olma eğilimindedir,
Soru
Gözden geçirilmiş sorum, değiştirilen çözümümün yanlış olup olmadığıdır. İyi bir cevap, ortaya çıkan ROC eğrilerinin örneklerinin önyargılı olduğunu kanıtlar (veya kanıtlamaz) ya da benzer şekilde bu yaklaşımın diğer özelliklerini kanıtlar veya kanıtlar.