Model seçimi veya düzenlenmesi sonrasında GLM


12

Bu soruyu iki kısımda ele almak istiyorum. Her ikisi de genelleştirilmiş doğrusal bir modelle ilgilenir, ancak ilki model seçimi ile, diğeri de düzenlenme ile ilgilidir.

Arka plan: Hem tahmin hem de açıklama için GLM'leri (doğrusal, lojistik, gama regresyonu) kullanıyorum. " Bir regresyon ile yapılan normal şeylere " atıfta bulunduğumda, büyük ölçüde (i) katsayılar etrafında güven aralıkları, (ii) tahminler etrafında güven aralıkları ve (iii) katsayıların doğrusal kombinasyonları ile ilgili hipotez testleri " tedavi A ve tedavi B?

Aşağıdakilerin her birinin altındaki normal teoriyi kullanarak bunları yapma yeteneğini meşru bir şekilde kaybediyor musunuz? Ve eğer öyleyse, bunlar gerçekten sadece saf tahmin için kullanılan modeller için iyi mi?

I. Bir GLM bazı model seçim sürecine uygun olduğunda (somutluk için bunun AIC'ye dayalı aşamalı bir prosedür olduğunu söyleyin).

II. Bir GLM bir düzenleme yöntemi ile uyduğunda (R'de glmnet kullanarak).

Benim düşüncem, I. için cevap teknik olarak " bir gerileme ile normal şeyler " için bir bootstrap kullanmanızdır , ama hiç kimse buna uymuyor .

Ekleme:
Birkaç yanıt aldıktan ve başka bir yerde okuduktan sonra, işte benim bu konuya almam (diğer herkesin yararlanması ve düzeltme alması için).

I.
A) RE: Genelleme Hatası. Yeni verilerdeki hata oranlarını genelleştirmek için, bekletme ayarlanmadığında çapraz doğrulama çalışabilir, ancak iç içe döngüler kullanarak işlemi her kat için tamamen tekrarlamanız gerekir - bu nedenle herhangi bir özellik seçimi, parametre ayarı vb. her seferinde bağımsız olarak yapılır. Bu fikir, herhangi bir modelleme çabası için geçerli olmalıdır (cezalandırılmış yöntemler dahil).

B) RE: GLM'nin hipotez testi ve güven aralıkları.Genelleştirilmiş doğrusal bir model ve bir tutma seti için model seçimi (özellik seçimi, parametre ayarı, değişken seçimi) kullanıldığında, modeli bir bölüm üzerinde eğitebilir ve ardından modeli kalan verilere veya tam veri kümesine sığdırmaya izin verilir ve hipotez testleri yapmak için bu modeli / verileri kullanın. Bir uzatma seti yoksa, her bir önyükleme örneği için tam işlem tekrarlandığı sürece bir önyükleme kullanılabilir. Bu, belki de her zaman örneğin bir değişken seçilmeyeceğinden yapılabilecek hipotez testlerini sınırlar.

C) RE: Gelecekteki veri kümeleri hakkında tahmin yapmamakdaha sonra teori ve birkaç hipotez testi tarafından yönlendirilen amaçlı bir modele uyun ve hatta tüm değişkenleri modelde (önemli veya değil) bırakmayı (Hosmer ve Lemeshow çizgileri boyunca) düşünün. Bu, küçük değişken setli klasik regresyon modellemesidir ve daha sonra CI ve hipotez testinin kullanılmasına izin verir.

D) RE: Cezalandırılmış regresyon. Hiçbir öneri, belki de sadece öngörü için uygun olduğunu düşünün (veya yukarıdaki B'deki gibi başka bir veri setine uygulanacak bir özellik seçimi türü olarak), çünkü önyargı bootstrap ile bile CI ve hipotez testlerini yanlış yapar.


1
İnsanlar bazen bunu bilerek yaparlar (yani İstatistikleri kötüye kullanırlar, çünkü istenen sonucu elde ederler) ve bilerek (önyükleme yaparlar ve sonucu önemli ölçüde etkilemezler). Demek istediğin geçerli ve Profesör Harrell, kitabının Önsözünde bootstrap'ın faydalı olduğunu belirtiyor.
suncoolsu

1
İşte (II) noktanız için "evet" gibi bir şey: arxiv.org/abs/1001.0188
Alex

Yanıtlar:


5

David Freedman'ın " Regresyon Denklemlerinin Taranması Hakkında Bir Not " adlı makalesine göz atabilirsiniz (söylenmemiş)

Bir simülasyonda tamamen ilişkisiz veriler kullanarak, gözlem sayısına göre çok sayıda belirteç varsa, standart bir tarama prosedürünün çok sayıda (şans eserinden daha fazla) önemli öngörücüler ve oldukça önemli bir F içeren son bir regresyon üreteceğini gösterir. istatistiktir. Son model, sonucu tahmin etmede etkili olduğunu, ancak bu başarının sahte olduğunu göstermektedir. Ayrıca bu sonuçları asimtotik hesaplamalar kullanarak göstermektedir. Önerilen çözümler arasında bir numunenin taranması ve modelin tüm veri setinde değerlendirilmesi ve öngörücülerden en az bir büyüklükte daha fazla gözlem kullanılması sayılabilir.


Not: Bootstrap'in etkili bir çözüm olması için, herhangi bir tarama gerçekleşmeden önce tüm prosedürü bootstrap etmeniz, bootstrapped örneğini taramanız ve ardından katsayıları hesaplamanız gerekir. Ama şimdi her regresyonda öngörücülerde farklı setleriniz var ve bunlardan herhangi biri için dağılımın nasıl hesaplanacağı artık net değil. Ancak, sonucun tahmin edilen değerleri için önyükleme güven aralıkları etkili olabilir.
Charlie

@charlie: [Sizi doğru şekilde okudum mu, sadece II ile konuşmuyorsunuz (model seçimi). (cezalandırılmış)] Tahmin aralıkları için, model seçimini kullanmanın ve daha sonra bu modelden tahminleri önyüklemenin geçerli olduğunu mu söylüyorsunuz, ancak başka bir şey için tüm süreci yeniden başlatmanız gerekiyor mu?
B_Miner

@charlie Bir numune üzerinde önerilen tarama çözümü ile ilgili olarak. Bu, verileri bölümlere ayırma çizgileri boyunca, (ab) bir set kullanarak (model seçimi vb.) Ve daha sonra bu modeli kalan verilere uygulayarak - ve bu veriler üzerinde hipotez testleri için geleneksel teoriye uygun olan modelle, CI'ler vb?
B_Miner

Sadece model seçimini düşünüyordum, ama bunun nedeni büyük ölçüde cezalandırılmış regresyon hakkında çok fazla şey bilmiyorum. Modelden tahminler çıkarmak için tüm süreci önyüklemeniz gerektiğini söyleyebilirim. Bütün mesele, herhangi bir örnekte, bazı değişkenleri eklediğinizde ve diğerlerini dışarıda bıraktığınızda büyütülen sahte korelasyonlar bulmanızdır. Bunu çözmenin tek yolu birden fazla örneğe bakmaktır --- yani, bootstrap. Tabii ki, aslında kimse bunu yapmıyor.
Charlie

Doğru, model seçim prosedürlerini kullanarak modelinizi bulmak için numunenizin bir bölümünü kullanırsınız, sonra diğer bölüm veya tam örnek üzerinde çıkarım yaparsınız.
Charlie

2

1) Evet, bunu kaybedersiniz. Bkz. Örneğin Harrell Regresyon Modelleme Stratejileri, Wiley tarafından yayınlanan bir kitap veya David Cassell ile birlikte sunduğum "Stepwise Stoppping" adlı bir makale mevcuttur, örneğin www.nesug.org/proceedings/nesug07/sa/sa07.pdf


Bu makaleyi gördüm - çok ilginç. İki soru. 1) Lojistik regresyonu ele alalım. CI veya hipotez testleri yapmanın tek yolu, hosmer ve lemeshow tarzında bir model oluşturmaktır. Yani modeli sadece nokta tahminleri için "kullanarak" kaldınız? 2) Makaleniz diğer alternatiflerin yanı sıra kementi de tartışıyor. Bunun daha sonraki hipotez testlerine izin verdiğini mi yoksa daha iyi bir model seçimi seçeneği olarak "basitçe" verildiğini mi düşünüyorsunuz?
B_Miner
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.