Günlük kaybını ve nasıl çalıştığını daha iyi anlamaya çalışıyorum ama bulamadığım bir şey, günlük kaybı numarasını bir çeşit içeriğe koymaktır. Modelimin günlük kaybı 0.5 ise, bu iyi mi? İyi ve kötü puan nedir? Bu eşikler nasıl değişir?
Günlük kaybını ve nasıl çalıştığını daha iyi anlamaya çalışıyorum ama bulamadığım bir şey, günlük kaybı numarasını bir çeşit içeriğe koymaktır. Modelimin günlük kaybı 0.5 ise, bu iyi mi? İyi ve kötü puan nedir? Bu eşikler nasıl değişir?
Yanıtlar:
Mantık basitçe burada p sadece gerçek sınıfa atfedilen olasılıktır.
Yani iyi, olasılık 1'i doğru sınıfa, L ( p ) = + ∞ kötü, çünkü olasılık 0'ı gerçek sınıfa bağladık.
Bu nedenle, sorunuzu cevapladığınızda, ortalama olarak doğru sınıfa örnekler arasında p ≈ 0.61 atfedildi demektir .
Şimdi, bunun yeterince iyi olup olmadığına karar vermek aslında uygulamaya bağlıdır ve bu nedenle argümana bağlıdır.
Herhangi bir metrik gibi, iyi bir metrik de, gözlemler hakkında hiçbir bilgi olmadan tahmin etmek zorunda kalırsanız, "aptal", şans eseri tahmin etmenin daha iyi bir metriktir. Buna istatistiklerde sadece yakalama modeli denir.
Bu "aptal" tahmin 2 faktöre bağlıdır:
Durumunda LogLoss metrik, bir zamanki "tanınmış" metrik yani 0,693 Bilgilendirici olmayan bir değerdir. Bu rakam, p = 0.5
herhangi bir ikili problem sınıfını tahmin ederek elde edilir . Bu sadece dengeli ikili problemler için geçerlidir . Çünkü bir sınıfın yaygınlığı% 10 olduğunda, p =0.1
o sınıf için her zaman tahmin edersiniz . Bu, aptal, tesadüfi tahminin temeliniz olacaktır, çünkü tahmin etmek aptalca 0.5
olacaktır.
I. Sınıf sayısının N
dilsiz mantık üzerine etkisi:
Dengeli durumda (her sınıf aynı yaygınlığa sahiptir), p = prevalence = 1 / N
her gözlem için tahmin ederseniz , denklem basitçe olur:
Logloss = -log(1 / N)
log
varlık Ln
bu kuralları kullanmıyorsa olanlar için, neperian logaritma.
İkili durumda, N = 2
:Logloss = - log(1/2) = 0.693
Yani aptal-Loglosses şöyledir:
II. Sınıfların yaygınlığının aptal-Logloss üzerindeki etkisi:
a. İkili sınıflandırma durumu
Bu durumda, her zaman tahmin p(i) = prevalence(i)
ederiz ve aşağıdaki tabloyu elde ederiz:
Yani, sınıflar çok dengesiz olduğunda (yaygınlık <% 2), 0.1'lik bir mantık aslında çok kötü olabilir! Bu durumda% 98'lik bir doğruluk gibi bir durum kötü olur. Bu yüzden belki Logloss kullanmak için en iyi metrik olmaz
b. Üç sınıf çanta
"Aptal" - yaygınlığına bağlı olarak lolog - üç sınıf vaka:
Burada dengeli ikili ve üç sınıflı durumların değerlerini görebiliriz (0.69 ve 1.1).
SONUÇ
0.69'luk bir mantık çok sınıflı bir problemde iyi olabilir ve ikili taraflı bir durumda çok kötü olabilir.
Durumunuza bağlı olarak, tahmininizin anlamını kontrol etmek için kendinizi sorunun temelini hesaplamanız daha iyi olur.
Önyargılı durumlarda, mantığın doğruluk ve diğer kayıp fonksiyonları ile aynı soruna sahip olduğunu anlıyorum: performansınızın yalnızca global bir ölçümünü sağlıyor. Bu nedenle, anlayışınızı azınlık sınıflarına (hatırlama ve kesinlik) odaklanan metriklerle daha iyi tamamlarsınız veya hiç mantık kullanmazsınız.
Yani bu aslında Firebugs yanıtından daha karmaşıktır ve hepsi tahmin etmeye çalıştığınız sürecin doğal varyasyonuna bağlıdır.
Varyasyon dediğimde 'bir olay bilinen ve bilinmeyen aynı koşullar altında tekrarlanacaksa, aynı sonucun tekrar ortaya çıkma olasılığı nedir?
Mükemmel bir yordayıcıda olasılık kaybı olur: P: Kayıp = Pln P + (1-P) ln (1-P)
Bir şeyi tahmin etmeye çalışıyorsanız, en kötüsü, bazı olayların 50/50'lik bir sonuçla tahmin edileceği, ardından ortalama kaybın entegre edilmesi ve alınmasıyla: L = 0.5
Tahmin etmeye çalıştığınız şey biraz daha tekrarlanabilir ise, mükemmel bir modelin kaybı daha düşüktür. Yani, örneğin, yeterli bilgi ile mükemmel bir modelin, tüm olası olaylarda söyleyebileceği en kötü şeyin 'bu olay% 90 olasılıkla gerçekleşecek' olduğu bir olayın sonucunu tahmin edebildiğini, ortalama kaybın L = 0.18 olduğunu söyleyebildiğini varsayalım .
Olasılıkların dağılımı eşit değilse de bir fark vardır.
Yani sorunuzun cevabında cevap 'tahmin etmeye çalıştığınız şeyin doğasına bağlıdır'
Standart istatistik cevabının sadece kesişme modeliyle karşılaştırmak olduğunu söyleyebilirim. (bu, diğer yanıtlarda belirtilen dengesiz sınıfları ele alır) cf mcFadden'in sözde r ^ 2. https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-pseudo-r-squareds/
Şimdi sorun maksimum değerin ne olduğudur. temelde sorun, bir olayın olasılığının olayın modeli dışında tanımlanmamış olmasıdır. önerebileceğim, bir olasılık tahmini almak için test verilerinizi alıp belirli bir seviyeye toplamanızdır. sonra bu tahminin mantığını hesaplayın.
örneğin, tıklama oranını (web_site, ad_id, tüketici_kimliği) temel alarak tahmin ediyorsanız, tıklamaları, gösterimleri örneğin web_site düzeyine toplar ve her web sitesi için test kümesindeki ctr değerini hesaplarsınız. ardından bu test tıklama oranlarını tahminler olarak kullanarak test veri kümenizdeki log_loss değerini hesaplayın. Bu, yalnızca web sitesi kimlikleri kullanan bir model için test kümenizdeki optimum mantıktır . Sorun şu ki, her bir kayıt benzersiz bir şekilde tanımlanana kadar daha fazla özellik ekleyerek bu kaybı istediğimiz kadar küçük yapabiliriz.