Hem Kement hem de Ridge ile bir regresyon modeli kullanıyorum (0-5 arasında değişen ayrı bir sonuç değişkenini tahmin etmek için). Modeli çalıştırmadan önce, kullandığım SelectKBest
yöntemi scikit-learn
gelen özellik kümesi azaltmak için 250 ile 25 . İlk özellik seçimi olmadan, hem Kement hem de Ridge daha düşük doğruluk puanlarına neden olur [bu, küçük örneklem büyüklüğü nedeniyle olabilir 600]. Ayrıca, bazı özelliklerin ilişkili olduğunu unutmayın.
Modeli çalıştırdıktan sonra, tahmin doğruluğunun Lasso ve Ridge ile neredeyse aynı olduğunu gözlemliyorum. Ancak, katsayıların mutlak değerine göre sipariş verdikten sonra ilk 10 özelliği kontrol ettiğimde, en fazla% 50 çakışma olduğunu görüyorum.
Yani, her bir yöntem tarafından özelliklerin farklı önemi verildiği göz önüne alındığında, seçtiğim modele dayalı tamamen farklı bir yorum alabilirim.
Normalde, özellikler bir web sitesindeki kullanıcı davranışının bazı yönlerini temsil eder. Bu nedenle, bulguları daha güçlü öngörme yeteneğine sahip özellikleri (kullanıcı davranışları) ve zayıf özellikleri (kullanıcı davranışları) vurgulayarak açıklamak istiyorum. Ancak, bu noktada nasıl ilerleyeceğimi bilmiyorum. Modeli yorumlamaya nasıl yaklaşmalıyım? Örneğin, her ikisini de birleştirmeli ve çakışanı vurgulamalı mı yoksa daha fazla yorumlanabilirlik sağladığı için Kement ile mi gitmeliyim?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .