Lojistik regresyon kalıntı analizi


12

Bu soru biraz genel ve uzun soluklu, ama lütfen bana katlan.

Uygulamamda, her biri ~ 50 özellikli ~ 20.000 veri noktasından ve tek bir bağımlı ikili değişkenten oluşan birçok veri setim var. Veri kümelerini düzenli lojistik regresyon (R paket glmnet ) kullanarak modellemeye çalışıyorum

Analizimin bir parçası olarak, aşağıdaki gibi artık grafikler oluşturdum. Her özellik için, veri noktalarını bu özelliğin değerine göre sıralarım, veri noktalarını 100 kepçeye bölerim ve sonra her bir gruptaki ortalama çıktı değerini ve ortalama tahmin değerini hesaplarım. Bu farklılıkları planlıyorum.

İşte bir örnek arsa:

Yukarıdaki grafikte, özellik [0,1] aralığındadır (1'de yoğun bir konsantrasyon ile). Gördüğünüz gibi, özellik değeri düşük olduğunda, model 1-çıkış olasılığını fazla tahmin etmeye eğilimli görünüyor. Örneğin, en soldaki kovada, model olasılığı yaklaşık% 9 fazla tahmin eder.

Bu bilgilerle donanmış olarak, bu önyargıyı kabaca düzeltmek için özellik tanımını basit bir şekilde değiştirmek istiyorum. Değiştirmek gibi değişiklikler

xx

veya

xfa(x)={a if x<a x else

Bunu nasıl yapabilirim? Genel bir metodoloji arıyorum, böylece bir insan tüm ~ 50 parseller arasında hızlı bir şekilde kaydırma yapabilir ve değişiklikler yapabilir ve tüm veri kümeleri için bunu yapabilir ve veriler zamanla geliştikçe modelleri güncel tutmak için sık sık tekrarlayabilir.

Genel bir soru olarak, bu doğru yaklaşım mıdır? Google "lojistik regresyon kalıntı analizi" aramaları, pek çok sonucu iyi pratik tavsiyelerle geri döndürmez. "Bu model iyi bir uyum mu?" ve cevaplamak için Hosmer-Lemeshow gibi çeşitli testler sunuyoruz. Ama modelimin iyi olup olmadığı umurumda değil, nasıl daha iyi hale getireceğimi bilmek istiyorum!

Yanıtlar:


4

Lojistik regresyondaki önyargıyı gerçekten bu şekilde değerlendiremezsiniz. Logisitik regresyonun sadece log oranları veya logit skorları, log (p / (1-p)) ile ilgili olması beklenir. Oranlar eğri olacak ve bu nedenle önyargılı görünecektir. Artıkları günlük oranları cinsinden çizmeniz gerekir.


Günlük-tek artıklarını bir kova içinde nasıl birleştiririm? Aritmetik ortalama? Bu benim için biraz tedirgin edici. Sezgisel olarak, eğer bir artık analiz herhangi bir yanlılık göstermezse, model Pr [y = 1] <0.2'yi tahmin ettiğinde, y'nin 0.2'den düşük bir olasılıkla 1'e eşit olmasını beklerim. Ama cevabınız böyle olmadığını gösteriyor. Doğru mu anlıyorum?
dshin

Bu muhtemelen yorum olarak daha iyi gönderilir.
olasılık

Hayır David, 0.2 olasılıktan başka bir şey ifade etmiyor, belki de düzenlemelerim daha açık hale getiriyor.
John

Üzgünüm, hala biraz kafam karıştı. Tarafsız bir model hakkındaki sezgisel anlayışım, model çok sayıda veri noktasının her birinde p = 0.2 öngörüyorsa, bu veri noktalarının% 20'sinin y = 1 olması gerektiğidir. Bu anlayış doğru mu? Eğer öyleyse, o zaman çizim metodolojim önyargıları doğru bir şekilde göstermelidir. Değilse ... o zaman bu "önyargı" konseptinden pek memnun değilim! Eğer 0.2 tarafsız bir model okuması bana y = 1 olasılığı hakkında bir şey söylemiyorsa, tarafsızlık ne işe yarar?
dshin

Evet,% 20'sinde y = 1 olmalıdır. Ama bu ölü olmayacak, bir miktar kapalı kalacak. Olasılık alanında hangi yöne ve ne kadar gideceğini düşünüyorsunuz? Tarafsızsa, .2: 1 veya 0: .2'de bir yere eşit olarak düşecektir. Bununla birlikte, bu alanların büyüklüğüne göre görebileceğiniz gibi, daha büyük alanda daha fazla olma eğilimindedirler çünkü onlar sadece. Logit alanında uzak mesafe + veya - eşit olmalıdır.
John

2

bunu yapmak için herhangi bir genel yazılım mevcut değildir. büyük olasılıkla regresyondaki sorunları düzeltmek için genel bir teori olmadığı için. bu yüzden bu teorik olarak temellendirilmiş bir prosedürden ziyade "ne yaparım" şeklinde bir cevaptır.

ürettiğiniz çizim temel olarak 100 bölmeli görsel bir HL testidir, ancak binmeyi yapmak için öngörülen olasılık yerine tek bir öngörücü kullanmaktır. Bu, prosedürünüzün HL testinin bazı özelliklerini devralması muhtemel olduğu anlamına gelir.

ölçütlerinize "fazla uymanın" farkında olmanız gerekir, ancak prosedürünüz makul görünebilir. ölçütleriniz bir teşhis olarak daha az kullanışlıdır, çünkü tahmin sürecinin bir parçası haline gelmiştir. ayrıca, sezgiyle bir şey yaptığınızda, karar verme sürecinizi pratik olduğu kadar ayrıntılı olarak yazmalısınız. bunun nedeni, geliştirildiğinde daha iyi bir prosedüre (bazı teoriye göre daha otomatik ve optimal) yol açan genel bir süreç veya teorinin tohumlarını keşfedebilmenizdir.

Ben gitmek için bir yol önce araştırmak için gereken arazilerin sayısını azaltmak olduğunu düşünüyorum. Bunu yapmanın bir yolu, her bir değişkeni kübik bir spline olarak sığdırmak ve daha sonra sıfır olmayan doğrusal olmayan tahminlere sahip grafikleri araştırmaktır. veri noktalarının sayısı göz önüne alındığında, bu aynı zamanda doğrusal olmamaları için kolay bir otomatik düzeltmedir. bu, modelinizi 50'den 200 + 50k'ye genişletecektir, burada k düğüm sayısıdır. bunu "gerçek" dönüşümün "istatistiksel taylor serisi genişlemesi" ni uygulamak olarak düşünebilirsiniz.

tanı fotoğraflarınız bundan sonra kötü görünüyorsa, etkileşim terimleri eklemeyi denerdim.

sorunuzun bazı bölümleri, burada olduğundan daha fazla stackoverflow alanı olan etkileşimli bir program yazmakla ilgilidir. ayrıca "geri pigme" yapabileceğiniz özelliklere sahip olma olasılıkları daha yüksek olduğu için keşifsel veri analiz araçlarını aramak da yararlı olabilir.


Bu yanıt için teşekkürler. Kübik spline fikrine bakacağım. Daha iyi uyuma nasıl ulaşılacağının daha açık göründüğü doğrusal regresyon ortamında bu "parsellere bak ve özellikleri ayarla" yaklaşımını kullanmıştım. Örneğin, bir hokey sopası görürseniz, f_a (x) düzeltmesi uygulamanızın daha iyi bir uyum sağladığı açıktır. Çoğu zaman, sorunlu alandan gelen bilgi bu kararla çakışır: örneğin, gelirin mutluluğunu tahmin ediyorsanız, milyarderlerin milyonerlerden 1000 kat daha mutlu olduğunu düşünmüyorsanız, geliri sınırlamak mantıklı olacaktır.
dshin

Ancak lojistik regresyon ortamına geçtiğimde, metodolojimi nasıl aktaracağımı gerçekten bilmediğimi fark ettim. Dolayısıyla bu teslimiyet.
dshin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.