Bu soruyu iki kısımda ele almak istiyorum. Her ikisi de genelleştirilmiş doğrusal bir modelle ilgilenir, ancak ilki model seçimi ile, diğeri de düzenlenme ile ilgilidir.
Arka plan: Hem tahmin hem de açıklama için GLM'leri (doğrusal, lojistik, gama regresyonu) kullanıyorum. " Bir regresyon ile yapılan normal şeylere " atıfta bulunduğumda, büyük ölçüde (i) katsayılar etrafında güven aralıkları, (ii) tahminler etrafında güven aralıkları ve (iii) katsayıların doğrusal kombinasyonları ile ilgili hipotez testleri " tedavi A ve tedavi B?
Aşağıdakilerin her birinin altındaki normal teoriyi kullanarak bunları yapma yeteneğini meşru bir şekilde kaybediyor musunuz? Ve eğer öyleyse, bunlar gerçekten sadece saf tahmin için kullanılan modeller için iyi mi?
I. Bir GLM bazı model seçim sürecine uygun olduğunda (somutluk için bunun AIC'ye dayalı aşamalı bir prosedür olduğunu söyleyin).
II. Bir GLM bir düzenleme yöntemi ile uyduğunda (R'de glmnet kullanarak).
Benim düşüncem, I. için cevap teknik olarak " bir gerileme ile normal şeyler " için bir bootstrap kullanmanızdır , ama hiç kimse buna uymuyor .
Ekleme:
Birkaç yanıt aldıktan ve başka bir yerde okuduktan sonra, işte benim bu konuya almam (diğer herkesin yararlanması ve düzeltme alması için).
I.
A) RE: Genelleme Hatası. Yeni verilerdeki hata oranlarını genelleştirmek için, bekletme ayarlanmadığında çapraz doğrulama çalışabilir, ancak iç içe döngüler kullanarak işlemi her kat için tamamen tekrarlamanız gerekir - bu nedenle herhangi bir özellik seçimi, parametre ayarı vb. her seferinde bağımsız olarak yapılır. Bu fikir, herhangi bir modelleme çabası için geçerli olmalıdır (cezalandırılmış yöntemler dahil).
B) RE: GLM'nin hipotez testi ve güven aralıkları.Genelleştirilmiş doğrusal bir model ve bir tutma seti için model seçimi (özellik seçimi, parametre ayarı, değişken seçimi) kullanıldığında, modeli bir bölüm üzerinde eğitebilir ve ardından modeli kalan verilere veya tam veri kümesine sığdırmaya izin verilir ve hipotez testleri yapmak için bu modeli / verileri kullanın. Bir uzatma seti yoksa, her bir önyükleme örneği için tam işlem tekrarlandığı sürece bir önyükleme kullanılabilir. Bu, belki de her zaman örneğin bir değişken seçilmeyeceğinden yapılabilecek hipotez testlerini sınırlar.
C) RE: Gelecekteki veri kümeleri hakkında tahmin yapmamakdaha sonra teori ve birkaç hipotez testi tarafından yönlendirilen amaçlı bir modele uyun ve hatta tüm değişkenleri modelde (önemli veya değil) bırakmayı (Hosmer ve Lemeshow çizgileri boyunca) düşünün. Bu, küçük değişken setli klasik regresyon modellemesidir ve daha sonra CI ve hipotez testinin kullanılmasına izin verir.
D) RE: Cezalandırılmış regresyon. Hiçbir öneri, belki de sadece öngörü için uygun olduğunu düşünün (veya yukarıdaki B'deki gibi başka bir veri setine uygulanacak bir özellik seçimi türü olarak), çünkü önyargı bootstrap ile bile CI ve hipotez testlerini yanlış yapar.