Uygun olmayan bir puanlama kuralının kullanılması ne zaman uygundur?


27

Merkle & Steyvers (2013) yaz:

Resmen uygun bir puanlama kuralı tanımlamak için izin Bernoulli deneme bir olasılık tahmini olmak gerçek bir başarı olasılığı ile . Doğru puanlama kuralları, ise beklenen değerleri en aza indiren metriklerdir .fdpf=p

Bunun iyi olduğunu biliyorum çünkü tahmincileri gerçek inançlarını dürüst bir şekilde yansıtan tahminler oluşturmaya teşvik etmek istiyoruz ve onlara başka türlü yapmalarını engelleyen teşvikler vermek istemiyoruz.

Uygun olmayan bir puanlama kuralının kullanılmasının uygun olduğu gerçek dünyadan örnekler var mı?

Referans
Merkle, EC ve Steyvers, M. (2013). Kesinlikle uygun bir puanlama kuralı seçmek. Karar Analizi, 10 (4), 292-304


1
Sanırım Merkle ve Steyvers'in (2013) bahsettiği Winkler & Jose "Scoring rules" (2010) ' un son sayfasının ilk sütununda bir cevap var. Diğer bir deyişle, eğer fayda skorun afin bir dönüşümü değilse (riskten kaçınma ve buna benzer şekilde haklı gösterilebilirse), beklenen fayda maksimizasyonu, beklenen skorun maksimize edilmesiyle çelişir
Richard Hardy

Yanıtlar:


25

Amaç gerçekte tahmin edilirken uygunsuz çıkarım kuralı kullanmak uygundur, ancak çıkarım yapılmaz. Tahmin yapmayı planlayan kişi olduğumda başka bir tahmincinin aldatması veya aldatması umrumda değil.

Uygun puanlama kuralları, tahmin sürecinde modelin gerçek veri üretme sürecine (DGP) yaklaştığını garanti eder. Bu umut vericidir, çünkü gerçek DGP'ye yaklaştıkça, herhangi bir kayıp fonksiyonu altında tahmin etme konusunda da iyi olacağız. Buradaki yakalamak, çoğu zaman (aslında gerçekte neredeyse her zaman) model arama alanımızın gerçek DGP'yi içermemesidir. Gerçek DGP'ye önerdiğimiz bazı fonksiyonel formlarla yaklaşıyoruz.

Bu daha gerçekçi ortamda, tahmin etme görevimiz gerçek DGP'nin tüm yoğunluğunu bulmaktan daha kolaysa, aslında daha iyisini yapabiliriz. Bu, özellikle sınıflandırma için geçerlidir. Örneğin, gerçek DGP çok karmaşık olabilir ancak sınıflandırma görevi çok kolay olabilir.

Yaroslav Bulatov blogunda şu örneği verdi:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

Aşağıda görebileceğiniz gibi, gerçek yoğunluk çok gariptir ancak bununla oluşturulan verileri iki sınıfa ayırmak için bir sınıflandırıcı oluşturmak çok kolaydır. Basitçe eğer çıkış sınıfı 1 ise ve çıkış sınıfı 2 ise.x0x<0

görüntü tanımını buraya girin

Yukarıdaki tam yoğunluğu eşleştirmek yerine, gerçek DGP'den oldukça uzakta olan aşağıdaki ham modeli öneriyoruz. Ancak mükemmel bir sınıflandırma yapar. Bu, uygun olmayan menteşe kaybı kullanılarak bulunur.

görüntü tanımını buraya girin

Öte yandan, gerçek DGP'yi log-loss ile bulmaya karar verirseniz (hangisi uygunsa), o zaman hangi işlevsel formda ihtiyacınız olduğunu tam olarak bilmediğiniz için bazı fonksiyonlara uymaya başlarsınız. Ancak, eşleşmek için daha çok ve daha çok uğraşırken, şeyleri yanlış sınıflandırmaya başlarsınız.

görüntü tanımını buraya girin

Her iki durumda da aynı işlevsel formları kullandığımızı unutmayın. Uygun olmayan kayıp durumunda, sırayla mükemmel sınıflandırma yapan bir basamak fonksiyonuna dönüşmüştür. Uygun durumda, yoğunluğun her bölgesini tatmin etmeye çalışırken çılgına döndü.

Temel olarak, doğru tahminlere sahip olmak için her zaman gerçek modele ulaşmamız gerekmez. Ya da bazen yoğunluğun tüm alanı üzerinde gerçekten iyi bir performans göstermemize gerek yoktur, ancak yalnızca belirli kısımlarında çok iyi olun.


13
Bu etkileyici bir örnek, düşünce için gerçekten bir şeyler.
Matthew Drury

7

Doğruluk (yani, yüzde doğru şekilde sınıflandırılmış) uygunsuz bir puanlama kuralıdır, bu nedenle bir anlamda insanlar her zaman yaparlar.

Daha genel olarak, tahminleri önceden tanımlanmış bir kategoriye zorlayan herhangi bir puanlama kuralı uygunsuz olacaktır. Sınıflandırma bunun aşırı bir örneğidir (izin verilen tek tahminler% 0 ve% 100'dür), ancak hava durumu tahminleri de biraz uygunsuz - yerel istasyonlarım% 10 veya% 20 aralıklarla yağmur yağma ihtimalini rapor ediyor gibi görünüyor. Bahse girerim, temel model daha kesindir.

Uygun puanlama kuralları ayrıca tahmincinin risk açısından tarafsız olduğunu varsaymaktadır. Bu, genellikle risk açısından olumsuz olan gerçek insan tahminciler için geçerli değildir ve bazı uygulamalar bu önyargıyı üreten bir puanlama kuralından faydalanabilir. Örneğin, bir şemsiye taşıdığından P'ye (yağmur) biraz fazla ağırlık verebilirsiniz ancak buna ihtiyaç duymamak, sağanak yağıştan çok daha iyidir.


3
Üçüncü paragrafını anladığımı sanmıyorum. Yüksek miktarlarda öngörücü yoğunlukları doğru almak için daha fazla konsantre olmak isteyebileceğimiz çizgiler boyunca benzer bir cevap yazıyordum, ancak böyle bir kayıp fonksiyonunun uygunsuz bir puanlama kuralı kullanmamızı nasıl motive ettiğini görmüyorum. Ne de olsa gelecekteki doğru dağılımı tahmin etmek için hala motive olacağız. Ayrıntılı misiniz?
S. Kolassa - Monica

1
Tahminci beklenen faydasını maksimuma çıkarırsa (değer yerine), uygun puanlama kuralları aslında doğru olmayabilir (örneğin, eğer program skorun doğrusal bir fonksiyonu değilse). Bununla birlikte, fayda fonksiyonunu biliyor veya tahmin edebiliyorsanız, tersini uygulayarak özel olarak uyarlanmış bir puanlama kuralı bulabilirim.
Matt Krause,

3
Ancak, puanlama kuralının doğruluğu ya da olmama özelliği, yalnızca öngörülen ve gerçekleşen gelecek dağılımla ilgili hizmet programı ile ilgili değildir, bu yüzden yorumunuzun ilk cümlesini ve neden yanlış bir puanlama kuralı kullanmak istediğimizi anlamıyorum. . Bununla birlikte, bana Ehm tarafından iptal edilen cevabımı yazarken gözden kaçırdığım JRSS-B'de görünmesi için bana bir makaleyi hatırlatıyorsunuz , ancak mevcut soru için yararlı bir şey bulamadım - daha yakın okuma daha yararlı olabilir.
S. Kolassa - Monica

@StephanKolassa, belki de Winkler & Jose'nin son sayfasının ilk sütunu olan "Puanlama kuralları" (2010) açıklıyor mu?
Richard Hardy

Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .
gung - Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.