Bu soru biraz genel ve uzun soluklu, ama lütfen bana katlan.
Uygulamamda, her biri ~ 50 özellikli ~ 20.000 veri noktasından ve tek bir bağımlı ikili değişkenten oluşan birçok veri setim var. Veri kümelerini düzenli lojistik regresyon (R paket glmnet ) kullanarak modellemeye çalışıyorum
Analizimin bir parçası olarak, aşağıdaki gibi artık grafikler oluşturdum. Her özellik için, veri noktalarını bu özelliğin değerine göre sıralarım, veri noktalarını 100 kepçeye bölerim ve sonra her bir gruptaki ortalama çıktı değerini ve ortalama tahmin değerini hesaplarım. Bu farklılıkları planlıyorum.
İşte bir örnek arsa:
Yukarıdaki grafikte, özellik [0,1] aralığındadır (1'de yoğun bir konsantrasyon ile). Gördüğünüz gibi, özellik değeri düşük olduğunda, model 1-çıkış olasılığını fazla tahmin etmeye eğilimli görünüyor. Örneğin, en soldaki kovada, model olasılığı yaklaşık% 9 fazla tahmin eder.
Bu bilgilerle donanmış olarak, bu önyargıyı kabaca düzeltmek için özellik tanımını basit bir şekilde değiştirmek istiyorum. Değiştirmek gibi değişiklikler
veya
Bunu nasıl yapabilirim? Genel bir metodoloji arıyorum, böylece bir insan tüm ~ 50 parseller arasında hızlı bir şekilde kaydırma yapabilir ve değişiklikler yapabilir ve tüm veri kümeleri için bunu yapabilir ve veriler zamanla geliştikçe modelleri güncel tutmak için sık sık tekrarlayabilir.
Genel bir soru olarak, bu doğru yaklaşım mıdır? Google "lojistik regresyon kalıntı analizi" aramaları, pek çok sonucu iyi pratik tavsiyelerle geri döndürmez. "Bu model iyi bir uyum mu?" ve cevaplamak için Hosmer-Lemeshow gibi çeşitli testler sunuyoruz. Ama modelimin iyi olup olmadığı umurumda değil, nasıl daha iyi hale getireceğimi bilmek istiyorum!