Lojistik regresyon neden iyi kalibre edilmiştir ve kalibrasyonu nasıl mahvedilir?


9

Scikit'te olasılık kalibrasyonu ile ilgili belgeleri öğrenirler, lojistik regresyonu diğer yöntemlerle karşılaştırırlar ve rastgele ormanın lojistik regresyondan daha az iyi kalibre edildiğini belirtirler.

Lojistik regresyon neden iyi kalibre edildi? Bir kişi, lojistik regresyonun kalibrasyonunu nasıl mahvedebilir (birinin bir egzersiz olarak istemeyeceği değil)?

Yanıtlar:


4

Bu soru ve ilk cevabı lojistik regresyon modeli kalibrasyonunun teorik konularına odaklanmış gibi görünse de,

Lojistik regresyonun kalibrasyonunu nasıl mahvedebilir?

bu sayfanın gelecekteki okuyucuları için gerçek dünyadaki uygulamalara dikkat edilmeyi hak ediyor. Lojistik regresyon modelinin iyi tanımlanması gerektiğini ve bu sorunun lojistik regresyon için özellikle sorun yaratabileceğini unutmamalıyız.

İlk olarak, sınıf üyeliğinin log-olasılıkları modele dahil edilen öngörücülerle doğrusal olarak ilişkili değilse, iyi kalibre edilmeyecektir. Harrell'in İkili Lojistik Regresyon hakkındaki 10. bölümü "Model Uyumun Değerlendirilmesi" ne yaklaşık 20 sayfa ayırır, böylece uygulamada @whuber'ın belirttiği gibi "maksimum olabilirlik tahmincisinin asimptotik tarafsızlığından" faydalanabilir.

İkincisi, model spesifikasyonu lojistik regresyonda özel bir konudur, çünkü sıradan lineer regresyonda arka plana sahip olanlar için şaşırtıcı olabilecek doğal bir atlanmış değişken önyargıya sahiptir. Bu sayfa koyduğu gibi:

Atlanan değişkenler, dahil edilen değişkenlerle katsayıları saptırır; atlanan değişkenler, dahil edilen değişkenlerle ilişkilendirilmemiş olsa bile.

Bu sayfa ayrıca, ilgili, analitik olarak izlenebilir probit modelleri için teorik bir açıklama ile, bu davranışın neden bekleneceğine dair yararlı bir açıklamaya sahiptir . Bu nedenle, sınıf üyeliği ile ilgili tüm tahminleri dahil ettiğinizi bilmiyorsanız, uygulamada yanlış tanımlama ve düşük kalibrasyon tehlikeleriyle karşılaşabilirsiniz.

Model spesifikasyonu ile ilgili olarak, bir dizi öngörücü değer aralığında doğrusallık kabul etmeyen ve doğal olarak tahmin ediciler arasında etkileşimler bulma ve dahil etme imkanı sağlayan rastgele orman gibi ağaç tabanlı yöntemlerin daha iyi bir sonuç vermesi oldukça olasıdır. Uygulamada kalibrasyon modeli, etkileşim terimlerini veya doğrusallığı yeterince dikkate almayan bir lojistik regresyon modelinden daha fazladır. Atlanan değişken önyargı ile ilgili olarak, sınıf-üyelik olasılıklarını değerlendirmek için herhangi bir yöntemin bu konuyla yeterince ilgilenip ilgilenemeyeceği açık değildir.


5

Lojistik regresyon temel olarak bir olasılık fonksiyonunu öğrenen bir sınıflandırma yöntemidir πθ(x) parametreleri yerleştirerek giriş boşluğunun üzerine θ. Öngörülen olasılıklar uygun kayıp fonksiyonu ile öğrenilirse, lojistik regresyon, yeterli kapasiteye sahip olduğunda (girdi özellikleri) ikili olay olasılıklarının tarafsız bir tahminini öğrenme potansiyeline sahiptir.

Kütük kaybı, bu tür tarafsız tahminlere izin verir. Günlük kaybı işlevinin bir Bernoulli dağılımının negatif günlük olasılığı olduğunu düşününz~Ber(p). İçin maksimum olabilirlik tahminip değişken için bir dizi gözlem verildiğinde tarafsızdır z. Bazı girdi alanlarının sınıflandırılması durumundaX, tüm puanlar için bir Bernoulli dağılımı olduğunu düşünebilirsiniz X. Çoğu zaman, sadece 1 gözleminiz olacakyben bulunan Bernoulli dağılımı xben. Gözlemlenen tüm Bernoulli dağılımları için müştereken maksimum olasılık tahmini uygulamakyben~Ber(π(xben)) çeşitli kısıtlamalar uygulayacak πθ. Tüm bu kısıtlamalar, tarafsız tahminlere ve işlevπθ gerçek altta yatan olasılık işlevine uyacak şekilde yeterince esnektir π*, öğrenim prosedürü tutarlıdır ve daha fazla veri aldıkça en uygun modele yakınlaşır. Bu nedenle, model kapasitesini sınırlamak (örneğin daha az özellik), en iyi öğrenilebilir model ile gerçek model arasındaki mesafeyi artırarak lojistik regresyonun kalibrasyonunu engelleyebilir.

Lojistik regresyon ile yanlış bir gözlem modeli kullanılması kalibre edilmemiş olasılıklara yol açacaktır. İkili olayların normal dağılıma göre modellenmesi uygun değildir ve lojistik regresyon ile birlikte kullanılmamalıdır. Normal dağılım gözlem modeline karşılık gelen kayıp fonksiyonu, Ortalama Karesel Hata'dır. Bu nedenle, bir MSE kaybının kullanılması kalibrasyonunu kesin olarak engelleyecektir.


2
Dikkatli lojistik regresyon bu sitede bir sınıflandırma yöntemi çağırmak! Cevabınız için teşekkür ederiz - Görünüşe göre günlük kaybı hedefinin kalibrasyon nedeni olduğunu ima ediyorsunuz (modelin yeterince esnek olduğu varsayılarak)?
kullanici0

1
Bir takip - kalibrasyonun olasılığın tarafsız bir şekilde tahmin edilmesini gerektirdiğini söylüyorsunuz - dolayısıyla cezalandırma kalibrasyonunu mahvediyor mu?
kullanici0

«LogisticRegression, günlük kaybını doğrudan optimize ettiği için varsayılan olarak iyi kalibre edilmiş tahminleri döndürür» - scikit-learn.org/stable/modules/calibration.html
cortax

Tanım olarak, cezalandırma veya düzenleme, genellikle tahmin edicinin varyansını azaltmaya çalışan bir önyargı enjeksiyonudur. Büyük bir düzen, objektif fonksiyonun veri kısmına hâkim olabilir ve kesinlikle kalibrasyonu bozabilir.
cortax

2
"Günlük kaybını optimize eder" hakkındaki scikit-learn teklifi etkili bir açıklama değildir, çünkü bununla tarafsız olmak arasında gerekli bir bağlantı yoktur. Yanılmıyorsam, soruya doğru cevap çağırmak gerekir asimptotik yansızlık içinde maksimum olabilirlik tahmincisi tipik lojistik regresyon prosedürlerinde kullandı.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.