Genelleme performans dağılımlarının karşılaştırılması

ve sınıflandırma problemi için iki öğrenme yöntemim olduğunu ve genelleme performanslarını tekrarlanan çapraz doğrulama veya önyükleme gibi bir şeyle tahmin ettiğimi varsayalım. Bu işlemden , bu tekrarlar boyunca her yöntem için ve puanlarının bir dağılımını elde ederim (örneğin, her model için ROC AUC değerlerinin dağılımı). $A$ $B$ $P_A$ $P_B$

Bu dağılımlara bakıldığında, ancak (yani beklenen genelleme performansı daha yüksek olabilir , ancak bu tahmin hakkında daha fazla belirsizlik vardır). $\mu_A \ge \mu_B$ $\sigma_A \ge \sigma_B$ $A$ $B$

Bence bu regresyondaki yanlılık sapması ikilemi .

ve karşılaştırmak ve nihayetinde hangi modelin kullanılacağı hakkında bilinçli bir karar vermek için hangi matematiksel yöntemleri kullanabilirim? $P_A$ $P_B$

Not: Basitlik açısından, burada iki ve yöntemine atıfta bulunuyorum , ancak ~ 1000 öğrenme yönteminin (örneğin bir ızgara aramasından) puanlarının dağılımını karşılaştırmak ve sonunda yapmak için kullanılabilecek yöntemlerle ilgileniyorum. hangi modelin kullanılacağına dair nihai bir karar. $A$ $B$

cross-validation model-selection

— Amelio Vazquez-Reina
kaynak

Önyargı-varyans toleransı terimi burada geçerli olmadığını düşünüyorum , çünkü ortalama bir kare hatasını bir yanlılığa ve bir varyansa ayrıştırmıyorsunuz ve bir tahmincinin varyansı hakkında değil, bir puanın varyansı hakkında konuşuyorsunuz.

— Lucas

Teşekkürler @Lucas. Benim sınıflandırıcılardan puanı hesaplamak çalışıyorum ve üzerinde görünmeyen verileri. Bunun için ben üzerinde puanlarının ortalaması sürebilir düşünce görülen (yani benim kestiricisini verilerine ve için ve sırasıyla). Bu tahmin edicilerin varyansı ve puanlarının varyansından farklı ?

A

$A$

B

$B$

E (P_{A})

$E(P_A)$

E (P_{B})

$E(P_B)$

A

$A$

B

$B$

P_{A}

$P_A$

P_{B}

$P_B$

— Amelio Vazquez-Reina

@ user815423426 Bence karşılaştırma sahip olduğunuz kayıp fonksiyonuna bağlıdır. Diebold ve Mariano (2002) sorunuzu inceleyen güzel bir makaleye sahiptir. "Genelleme" performansını karşılaştıran bazı istatistiksel testler önerdiler. Yorumlarda nasıl bağlantı kuracağımı bilmiyorum. Makale: Diebold, Francis X. ve Robert S. Mariano. "Öngörülü Doğruluğun Karşılaştırılması." İşletme ve Ekonomik İstatistikler Dergisi 20.1 (2002): 134-144.

— semibruin

Sadece iki yöntem varsa, A ve B, keyfi bir eğitim / test bölümü için model A için hatanın (bazı uygun performans metriklerine göre) model B'den daha düşük olma olasılığını hesaplıyorum. 0,5'ten büyükse, model A ve başka türlü model B'yi seçerdim (cf Mann-Whitney U testi?) Ancak, performans istatistiği dağılımları çok düşük olmadığı sürece, modeli daha düşük ortalama ile seçeceğinizden şüpheleniyorum. -simetrik.

Öte yandan ızgara arama için durum, farklı yöntemleri gerçekten karşılaştırmamanızdan ziyade, aynı modelin (hiper-) parametrelerini sınırlı bir veri örneğine uyacak şekilde ayarladığınızdan (bu durumda dolaylı olarak çapraz -validation). Bu tür bir ayarın aşırı takmaya çok eğilimli olabileceğini buldum, makaleme bakın

Gavin C. Cawley, Nicola LC Talbot, "Performans Seçiminde Model Seçimi ve Sonraki Seçim Yanlılığı Üzerine Aşırı Uyum Üzerine", Makine Öğrenimi Araştırmaları Dergisi, 11 (Tem): 2079−2107, 2010. ( www )

İncelemede, model seçim ölçütüne fazla uymamak için çekirdek makineleri (örn. SVM'ler) için nispeten kaba bir ızgara kullanmanın muhtemelen en iyi olduğunu gösteren bir makalem var. Başka bir yaklaşım (araştırmadım, bu yüzden uyarı lector!) Izgara aramada bulunan en iyi modele göre istatistiksel olarak daha düşük olmayan en yüksek hataya sahip modeli seçmek olacaktır (ancak bu oldukça karamsar bir yaklaşım olabilir, özellikle de küçük veri kümeleri için).

Ancak gerçek çözüm, büyük olasılıkla ızgara aramasını kullanarak parametreleri optimize etmek değil, Bayesian yaklaşımında veya sadece bir topluluk yöntemi olarak parametre değerlerini ortalamaktır. Optimize etmiyorsanız, fazla takmak daha zordur!

— Dikran Keseli
kaynak

Teşekkürler Dikran. Bunu "average over the parameter values"bir topluluk yöntemi (örneğin sınıflandırıcı çıktılarının ortalaması olarak topluluk çıktısını oluşturmak) ile nasıl yapacağınızı anladığınızı düşündüğünüzde, ancak ayrımcı bir modelle çalışırken bunu Bayesci bir yaklaşımla nasıl yapacağınızdan emin değilim. Tamamen Bayesci bir yaklaşımın teorisini anlıyorum (yani nokta tahminlerinden kaçının ve son posterioru oluşturmak için parametreleri marjinalleştirin), ancak parametrelerdeki önceliğimin tekdüze olduğunu varsayarsak, bu, ortalama topluluğun oluşturulmasına eşdeğer olmaz ?

— Amelio Vazquez-Reina

Bayesçi yaklaşımda modeller, marjinal olasılıkları (yani Bayes kanıtı) ve daha önce hiper parametreler üzerine yerleştirilen ağırlıklarına göre ağırlıklandırılacaktır, bu nedenle modelleri ağırlıklandırmak için belirli bir yöntemle bir topluluk üzerinde ortalama alma özel bir durum olacaktır.

— Dikran Marsupial