Birden fazla regresyon yaparken neden geriye doğru eliminasyon yapılır?


9

Aşırı takmaya neden olmaz mı? Analizin bir parçası olarak bir jack-knife veya bootstrap prosedürü eklersem sonuçlarım daha güvenilir olur mu?


8
Kim bunun haklı olduğunu söylüyor? Tabii ki aşırı sığmaya yol açmalıdır.
gung - Monica'yı eski

2
Aslında birçok kitapta (hala?) Önerilmektedir , örneğin amazon.com/Statistics- Explained-Introductory-Guide-Scientists/… . Aynı konuyu kendim de düşünüyorum. Birden fazla regresyon getirirken, aşırı uydurma konusunu hiç tartışmayan en az 3-4 istatistik kitabım olduğunu düşünüyorum.
mmh

5
Dürüst olmak gerekirse, bir giriş istatistik kitabı aşırı uydurma ve aşırı test hakkında tartışmazsa, farklı bir kitap okurdum.
Matthew Drury

3
Özellik seçim kriteri olarak bir defaya mahsus çapraz doğrulama (örn. PRESS) kullanılıyorsa, geriye doğru eliminasyon (ve ileri seçim) yine de aşırı uyum eğilimindedir.
Dikran Marsupial

5
@mmh oldukça tanıtıcı değil, ama Frank Harrell'in Regresyon Modelleme Stratejilerinin 4. bölümünü okumanızı şiddetle tavsiye ediyorum (iyi, sadece okumaya değer 4. bölüm değil, bu bölüm özellikle bu tartışma ile ilgili).
Glen_b

Yanıtlar:


2

Bence bir model oluşturmak ve test etmek farklı şeyler. Geriye doğru eliminasyon model yapımının bir parçasıdır. Jack bıçağı ve bootstrap test etmek için daha çok kullanılır.

Önyükleme ve kriko bıçağıyla basit geriye doğru basitleştirme işleminden daha güvenilir tahminlere kesinlikle sahip olabilirsiniz. Ancak eğer aşırı takmayı gerçekten test etmek istiyorsanız, nihai test bir bölünmüş örnektir, bazıları üzerinde eğitir, diğerleri üzerinde testtir. Bir defaya mahsus olmak bu amaç için çok kararsız / güvenilmez: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Bence modelin sağlamlığının daha istikrarlı tahminlerini almak için deneklerin en az% 10'unun dışarıda olması gerekiyor. Ve 20 konunuz varsa, 2 konu hala çok azdır. Ama sonra soru, nüfusun geri kalanına uygulanabilecek bir model oluşturmak için yeterince büyük bir örneğiniz olup olmadığı haline gelir.

Umarım en azından kısmen sorunuza cevap verdi.


Böylece, yalnızca k<n (veya k<<n)?
mmh

İstatistiksel Öğrenme An Introduction to Bölüm 6'da yeniden örnekleme için farklı yaklaşımlar (doğrulama setleri, grupların farklı sayılar, önyükleme ile çapraz doğrulama) Bölüm 5'de ve model seçimi tartışıyor
EDM
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.