Sınıflandırmada farklı kayıp fonksiyonlarını seçmenin etkileri yaklaşık 0-1 kayıptır.


27

Bazı objektif fonksiyonların optimize edilmesinin daha kolay, bazılarının ise zor olduğunu biliyoruz. Ve kullanmak istediğimiz ancak kullanması zor olan birçok kayıp fonksiyonu var, örneğin 0-1 kayıp. Yani işi yapmak için bazı proxy kaybı işlevlerini buluyoruz . Örneğin, 0-1 kaybını "yaklaşık" yapmak için menteşe kaybı veya lojistik kaybı kullanıyoruz.

Ardından arsa Chris Bishop'un PRML kitabından geliyor . Menteşe Kaybı mavi renkte, Log Kaybı kırmızı, Yeşil Kare Kaybı ve siyahta 0/1 hatası ile gösterilir.

görüntü tanımını buraya girin

Böyle bir tasarıma sahip olmamızın nedenini (menteşe ve lojistik kaybı için) amaç fonksiyonunun dışbükey olmasını istiyoruz.

Menteşe kaybına ve lojistik kaybına bakarak, çok sınıflandırılmamış örneklerde daha fazla cezalandırır ve ilginç bir şekilde, eğer zayıf sınıflandırılmışlarsa doğru sınıflandırılmış örnekleri cezalandırır . Bu gerçekten garip bir tasarım.

Sorum şu ki, menteşe kaybı ve lojistik kaybı gibi farklı "vekil zarar fonksiyonları" kullanarak ödeyeceğimiz fiyatlar nelerdir?


Regresyonda, karesel zararın seçilmesi, mutlak değer kaybına kıyasla optimizasyon yapmak için daha kolaydır. Ancak kareler kaybı, aykırı değerlere karşı daha hassastır. Yani, belirli veri türlerine karşı da duyarlı olmalı?
Haitao Du

4
Daha kolay bir çözüm, fayda fonksiyonu gerektirmeyen en uygun tahmini olasılıkları geliştirmektir. Fayda / zarar fonksiyonu gerçek karar vericinin daha sonra uygulanabilir. Sınıflandırma karar vericinin karar vermesine eşdeğerdir ve çok fazla bilgi gerektirir.
Frank Harrell

@ FrankHarrell Teşekkürler, ben de işyerinde bahsettiğim yaklaşımı kullanıyorum, tahmin ve iş operasyonunu ayırıyoruz. Ancak, bu hala bir bütün olarak değil, açgözlü bir evre-yerel yerel çözüm olarak optimize edilmiş değil mi? Bir "devekuşu politikası" mı?
Haitao Du

2
Optimal kararlara yol açmayabilir. Kayıp / fayda / maliyet fonksiyonu model belirleyiciden gelmez.
Frank Harrell

1
+1. Lojistik kaybını minimize etmek binom olasılığını maksimize etmek anlamına gelir. Kare hata kaybını en aza indirmek, Gauss olasılığını en üst düzeye çıkarmak anlamına gelir (bu sadece OLS regresyonudur; 2 sınıflı sınıflandırma için aslında LDA'ya eşdeğerdir). Menteşe kaybını en aza indirmenin, başka bir olasılığın en üst düzeye çıkarılmasının uygun olduğunu biliyor musunuz? Menteşe kaybına karşılık gelen herhangi bir olasılıksal model var mı?
amip diyor Reinstate Monica

Yanıtlar:


16

Bazı düşüncelerim olsa doğru olmayabilir.

Böyle bir tasarıma sahip olmamızın nedenini (menteşe ve lojistik kaybı için) amaç fonksiyonunun dışbükey olmasını istiyoruz.

Dışbükeylik kesinlikle güzel bir özelliktir, ancak bence en önemli sebep, nesnel fonksiyonun sıfır olmayan türevlere sahip olmasını istememizdir , böylece türevlerden onu çözmek için faydalanabiliriz. Amaç, dışbükey olmayabilir, bu durumda genellikle bazı yerel optima veya eyer noktalarında dururuz.

ve ilginç bir şekilde, eğer zayıf sınıflandırılmışlarsa doğru sınıflandırılmış örnekleri de cezalandırır. Bu gerçekten garip bir tasarım.

Bence bu tür bir tasarım, modele sadece doğru tahminleri yapmakla kalmayıp aynı zamanda tahminler konusunda da kendinden emin olmayı tavsiye ediyor. Doğru sınıflandırılmış örneklerin cezalandırılmasını istemiyorsak, örneğin, menteşe kaybını (mavi) sola doğru 1 hareket ettirebiliriz, böylece artık kayıp olmazlar. Ancak bunun genellikle uygulamada daha kötü sonuçlara yol açacağına inanıyorum.

menteşe kaybı ve lojistik kaybı gibi farklı "vekil zarar fonksiyonları" kullanarak ödememiz gereken fiyatlar nelerdir?

IMO, farklı kayıp fonksiyonlarını seçerek, modele farklı varsayımlar getiriyoruz. Örneğin, lojistik regresyon kaybı (kırmızı) bir Bernoulli dağılımını varsayar, MSE kaybı (yeşil) bir Gauss gürültüsünü alır.


PRML'deki en küçük karelere karşı lojistik regresyon örneğini takiben karşılaştırma için menteşe kaybını ekledim. görüntü tanımını buraya girin

Şekilde gösterildiği gibi, menteşe kaybı ve lojistik regresyon / çapraz entropi / log olasılığı / yumuşak artı çok yakın sonuçlara sahiptir, çünkü objektif işlevleri yakındır (aşağıdaki şekil), MSE genellikle aykırı değerlere karşı daha hassastır. Menteşe kaybı her zaman benzersiz bir çözüme sahip değildir, çünkü kesinlikle dışbükey değildir.

görüntü tanımını buraya girin

Bununla birlikte, menteşe kaybının önemli bir özelliği, karar sınırından uzaktaki veri noktalarının, kayıplara hiçbir şey katkısı olmadığı, çözümün kaldırılan noktalarla aynı olacağıdır.

Kalan noktalara SVM bağlamında destek vektörleri denir. SVM, maksimum marj özelliğini ve benzersiz bir çözümü sağlamak için bir düzenleyici terim kullanır.


Cevap için teşekkürler. Sezgisel olarak farklı kayıpların etkisini göstermek için bazı demolar oluşturmak mümkün mü? Tıpkı en az mutlak kayıp ile karesel zarar kullanarak regresyon dışlayıcılarının etkisini gösterdiğimiz gibi.
Haitao Du

@ hxd1011 rica ederim, sonradan bazı demolar eklemeye çalışacağım.
dontloo

2
Menteşe kaybı dışbükey ...
Mustafa S Eisa

1
@ MustafaM.Eisa haklı, teşekkürler, kesinlikle dışbükey demek istemedim ..
dontloo 14

@dontloo harika bir simülasyon! Teşekkür ederim. Ayrıca simülasyonlarımın bir kısmını daha sonra yüklemeye çalışacağım.
Haitao Du

6

Henüz cevaplanmamış çok basit bir cevap olduğundan, geç cevap gönderme.

menteşe kaybı ve lojistik kaybı gibi farklı "vekil zarar fonksiyonları" kullanarak ödememiz gereken fiyatlar nelerdir?

Eğer değiştirmek ne konveks bir yan 0-1 kayıp fonksiyonunu dışbükey taşıyıcı (örneğin, menteşe kaybı), aslında hemen (sınıflandırma hataları en aza indirmek için) çözmek için amaçlanan farklı bir problem çözme. Böylece hesaplanabilir izlenebilirlik kazanırsınız (sorun dışbükey olur, yani dışbükey optimizasyon araçlarını kullanarak etkili bir şekilde çözebilirsiniz), ancak genel durumda "proxy" kaybını en aza indiren sınıflayıcı hatasını düzeltmenin bir yolu yoktur. 0-1 kaybını en aza indiren sınıflandırıcı hatası . Ne olursa gerçekten yaklaşık yanlış sınıflandırılması sayısını minimize edilmiş bakım, bunu gerçekten ödeme için büyük bir fiyat olduğunu savunuyorlar.

D


1

İdeal olarak, kayıp fonksiyonunuz işyerinde oluşan gerçek zararı yansıtmalıdır. Örneğin, hasar görmüş ürünleri sınıflandırıyorsanız, yanlış sınıflandırma kaybı şu şekilde olabilir:

  • zarar görmemiş ürünleri işaretleme: potansiyel satıştan kar kaybı
  • Zarar görmüş hasarlı malları işaretlememek: iade işlem maliyeti
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.