tanıtım:
Klasik "büyük p, küçük n problemi" olan bir veri kümem var. Mevcut sayıların sayısı n = 150 iken olası yordayıcıların sayısı p = 400'dür. Sonuç sürekli bir değişkendir.
En "önemli" tanımlayıcıları, yani sonucu açıklamak ve bir teori oluşturmaya yardımcı olmak için en iyi aday olanları bulmak istiyorum.
Bu konuda araştırma yaptıktan sonra, LASSO ve Elastic Net'in büyük n, küçük n. Tahmincilerimden bazıları oldukça koreledir ve gruplandırmalarını önem değerlendirmesinde korumak istiyorum, bu yüzden Elastik Ağ'ı seçtim . Sanırım, regresyon katsayılarının mutlak değerlerini bir önem ölçüsü olarak kullanabileceğimi düşünüyorum (lütfen yanılıyorsam beni düzelt; veri setim standartlaştırıldı).
Sorun:
Numune sayım az olduğu için stabil bir modele nasıl ulaşabilirim?
Mevcut yaklaşımım, veri kümesinin% 90'ında, 10 kat çapraz doğrulama ortalama MSE puanına sahip bir ızgara araştırmasında en iyi ayarlama parametrelerini (lambda ve alfa) bulmaktır. Sonra modeli veri setinin% 90'ında en iyi ayar parametreleriyle eğitiyorum. Veri setimin% 10'luk kesinlikteki R karesini kullanarak modelimi değerlendirebiliyorum (sadece 15 örneğe ait)
Tekrar tekrar bu prosedürü uygulayarak, R kare değerlendirmelerinde çok büyük bir fark buldum. Ayrıca, sıfırlanmayan öngörücülerin sayısı, katsayılarının yanı sıra değişkenlik gösterir.
Prediktörlerin önemi ve son model performansının daha istikrarlı bir şekilde değerlendirilmesini nasıl daha sağlam bir şekilde değerlendiririm?
Birkaç model ve ardından ortalama regresyon katsayıları oluşturma prosedürümü tekrar tekrar çalıştırabilir miyim? Yoksa modellerde bir öngörücünün oluşum sayısını önem puanı olarak mı kullanmalıyım?
Şu anda, yaklaşık 40-50 sıfırlanmayan tahminci alıyorum. Daha iyi istikrar için daha zor tahmin edicileri cezalandırmalı mıyım?