Verilerim üzerinde çok doğru olan bir lojistik regresyon sınıflandırıcısı oluşturdum. Şimdi neden bu kadar iyi çalıştığını daha iyi anlamak istiyorum. Özellikle, hangi özelliklerin en büyük katkıyı yaptığını (hangi özelliklerin en önemli olduğunu) sıralamak ve ideal olarak, her özelliğin genel modelin (veya bu damardaki bir şeyin) doğruluğuna ne kadar katkıda bulunduğunu ölçmek istiyorum. Bunu nasıl yaparım?
İlk düşüncem onları katsayılarına göre sıralamaktı, ama bunun doğru olamayacağını düşünüyorum. Eşit derecede kullanışlı iki özelliğim varsa, ancak ilkinin yayılması ikinciden on kat daha büyükse, ilkinin ikincisinden daha düşük bir katsayı almasını beklerdim. Özellik önemini değerlendirmenin daha makul bir yolu var mı?
Özellikte küçük bir değişikliğin sonucun olasılığını ne kadar etkilediğini anlamaya çalışmamaya dikkat edin. Aksine, sınıflandırıcının doğru olması açısından her özelliğin ne kadar değerli olduğunu anlamaya çalışıyorum. Ayrıca, amacım özellik seçimi yapmak veya daha az özelliğe sahip bir model oluşturmak değil, öğrenilen model için bazı "açıklanabilirlik" sağlamaya çalışmaktır, bu nedenle sınıflandırıcı sadece opak bir kara kutu değildir.