Lojistik regresyon neden iyi kalibre edilmiş modeller üretir?


13

Lojistik regresyonun web'deki tıklama oranlarını tahmin etmek için sıklıkla kullanılmasının nedenlerinden birinin, iyi kalibre edilmiş modeller üretmesi olduğunu anlıyorum. Bunun için iyi bir matematiksel açıklama var mı?


2
olasılıkları tahmin etmek için yapılan lojistik regresyon -> fazlalık değilse kalibre edilmiş tahminlere yol açar. çoğu makine öğrenimi modeli olasılıkları değil, bir sınıfı öngörür - ve bu tahminlerden türetilmiş sözde probabilitlere bir miktar bükülme vardır -> bu nedenle iyi kalibre edilmiş bir not
charles

2
Soruda açıklığa kavuşmalıydım, ama sorum daha çok LR'nin olasılıkları tahmin etmek için neden bu kadar yararlı olduğu hakkındaydı.
lsankar4033

Kalibre edilmiş bir model elde etmek için, zayıf kalibre edilmiş bir sınıflandırıcının çıkışına basitçe bir lojistik regresyon uygulayabileceğinizi belirtmek gerekir. Buna Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

Yanıtlar:


15

Evet.

Lojistik regresyondan tahmin edilen olasılık vektörü matris denklemini karşılarp

Xt(py)=0

Burada , tasarım matrisi ve , yanıt vektörüdür. Bu, tasarım matrisinin her bir sütunundan kaynaklanan bir lineer denklem koleksiyonu olarak görülebilir .XyX

Kesişme sütununa (transpoze edilen matristeki bir satır olan) uzmanlaşmış, ilişkili doğrusal denklem

i(piyi)=0

dolayısıyla, ortalama ortalama tahmin edilen olasılık, yanıtın ortalamasına eşittir.

Daha genel olarak, ikili özellik sütunu için ilişkili doğrusal denklemxij

ixij(piyi)=ixij=1(piyi)=0

dolayısıyla, tahmin edilen olasılıkların toplamı (ve dolayısıyla ortalama), olan kayıtlar için uzmanlaşırken bile yanıtın toplamına eşittir .xij=1


1
@MatthewDrury ilk denkleminizi nasıl yorumlayabilirim? bir formu ? Bununla birlikte, bu doğrusal ilişki tutar? Teşekkür ederim! p1/(1+exp(x))
Ric

1
Evet, p bu formda. İlk denklem, kayıp fonksiyonunun türevini sıfıra ayarlamaktan gelir.
Matthew Drury

1
Bu sadece istediğimiz gibi olmayan büyük kalibrasyona yöneliktir: küçük kalibrasyon.
Frank Harrell

1
@FrankHarrell Ayrıntılara dikkat etmek ister misiniz? Bu terimleri daha önce duymadım.
Matthew Drury

3
Olasılık tahmini literatüründe ABD Hava Servisi 1950'ye dayanan uzun bir geçmiş var - Brier skorunun ilk kullanıldığı yer burası. Küçük kalibrasyon, 0.01, 0.02, ..., 0.99 tahmin edilen risklere bakıldığında bunların her birinin doğru olduğu anlamına gelir, yani, tahmin edilen riskin 0.4 olduğu her zaman, sonucun yaklaşık 0.4 zaman. Bir sonraki adıma "minik kalibrasyon" diyorum: tahminin 0.4 olduğu erkekler için zamanın 0.4'ünün sonucu, daha sonra kadınlar için.
Frank Harrell

2

Sanırım aşağıdaki gibi anlaşılması kolay bir açıklama sağlayabilirim:

Biz biliyoruz bunun kaybı işlevi aşağıdaki fonksiyonu olarak ifade edilebilir: Tüm eğitim örneklerinin sayısını temsil ettiği yerde , i örneğinin etiketi, i örneğinin tahmini olasılığı: . ( burada önyargıya dikkat edin )

J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

Eğitimin amacı kayıp fonksiyonunu en aza indirgemek olduğundan, kısmi türevini her parametre (detaylı türev burada bulunabilir ) ile değerlendirelim: Ve sıfıra sıfıra ayarlar:θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)
m Σ i = 1 saat θ ( x ( i ) ) x ( i ) j = m Σ i = 1 y ( i )

i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

Bu, eğer model tamamen eğitilmişse, eğitim seti için elde ettiğimiz tahmini olasılıklar her bir özellik için o özelliğin ağırlıklı (tüm) değerlerinin toplamının o özelliğin değerlerinin toplamına eşit olacağı anlamına gelir. pozitif örneklerin.

Yukarıdakiler bias gibi her özelliğe uyar . Ayar 1 olarak ve kadar yeilds: Sonra şunu elde ederiz: Burada , i. örnek için tamamen eğitilmiş modelin tahmini olasılığıdır. Ve işlevi kompakt bir şekilde yazabiliriz: αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

Lojistik regresyonun iyi kalibre edildiğini açıkça görebiliriz .

Referans: Log-lineer Modeller ve Koşullu Rastgele Alanlar - Charles Elkan

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.