Kademeli regresyon kullanımından kaynaklanan uluyanlar


20

Regresyon modellerinde aşamalı / ileri / geri seçim problemlerinin farkındayım. Yöntemleri kınayan ve daha iyi alternatiflere işaret eden çok sayıda araştırmacı vakası vardır. İstatistiksel bir analizde var olan hikayeler olup olmadığını merak ettim:

  • kademeli regresyon kullandı;
  • son modele dayanarak bazı önemli sonuçlar çıkarmıştır
  • sonuç yanlıştı, bireyin, araştırmalarının veya örgütlerinin olumsuz sonuçlarıyla sonuçlandı

Kademeli yöntemler kötü ise, bu konuda düşüncem, o zaman bunları kullanmak için "gerçek dünyada" sonuçları olmalı.


2
Böyle bir hikaye bulamazsanız, bunun nedeni kademeli regresyonun çoğunlukla temel araştırmalarda kullanılmasıdır (ya da ben öyle düşünüyorum). Temel araştırmacılar, verileri sahte bir şey yapmadığı sürece genellikle yanlış olma konusunda sorun yaşamazlar.
Kodiolog

3
Endüstride ve sınıf odasında çok kullanılır. Araştırmada yazarlar muhtemelen kullandıklarını açıklamazlar. Endüstride başlıca iki neden, a) bunu yapanların araştırma eğitimi almamış olmalarıdır, örneğin lisans dereceleri veya b) onlarca yıl önce mezun olmuşlardır.
Aksakal

@Aksakal Başlamayı öğrenmek değil, yine de koyun derisi almak sorun, geçen zaman değil. Örnek gratis , ben. 1971 dolaylarında bir istatistik kursu aldım ve ilk kez 2006 dolaylarında bir yayında istatistikler kullandım.
Carl

Yanıtlar:


1

Birden fazla soru soruluyor. En dar olanı, aşamalı olarak regresyonun ne zaman zarar verdiğine dair bir örnek istemektir, çünkü aşamalı olarak parfümlenir. Bu elbette doğrudur, ancak ancak aşamalı regresyon için kullanılan veriler de yayınlandığında ve birisi yeniden analiz eder ve yayınlanmış birincil yazarların geri çekilmesiyle hakemli bir düzeltme yayınladığında kesin olarak kurulabilir. Diğer bağlamlarda suçlamalar yapmak yasal işlem riskini taşır ve farklı bir veri kümesi kullanırsak, bir hata yapıldığından şüphelenebiliriz, ancak "istatistikler hiçbir zaman hiçbir şeyi kanıtlamaz" ve bir hatanın yapılmış; "makul bir şüphenin ötesinde".

Aslına bakılırsa, kişi regresyon denkleminin aşamalı olarak ortadan kaldırılmasına veya aşamalı olarak oluşturulmasına bağlı olarak sık sık farklı sonuçlar alır, bu da bize her iki yaklaşımın da kullanımını önermek için yeterince doğru olmadığını gösterir. Açıkçası, başka bir şey oluyor ve bu da bizi daha geniş bir soruya getiriyor, yukarıda da soruluyor, ancak mermi biçiminde, "Adım adım gerilemeyle ilgili sorunlar nelerdir, neyse? cevap verdiğim için bana karşı açılan bir dava açmayacağım.

Kademeli MLR için doğru yapmak, 1) fiziksel olarak doğru birimler (aşağıya bakın) ve 2) en iyi korelasyonlar ve hata dağılım tipi (homossedastisite ve fiziksellik için) ve 3) değişken kombinasyonların tüm permütasyonlarını kullanarak uygun değişken dönüşüm anlamına gelir , değil aşamalı, hepsi , ve bir gerçekleştirdiği kapsamlı regresyon teşhis sonra yüksek vif (çoklu bağlantı) aksi yanıltıcı olacaktır değişken kombinasyonları eksik bir kaçınır, daha sonra ödül daha regresyon ise 4).

Yukarıdaki # 1 için söz verildiği gibi, bir sonraki aşamada fiziksel bir sistem için doğru birimleri keşfediyoruz. Regresyondan alınan iyi sonuçlar değişkenlerin doğru tedavisine bağlı olduğundan, fiziksel birimlerin olağan boyutlarına dikkat etmeli ve denklemlerimizi uygun şekilde dengelemeliyiz. Ayrıca, biyolojik uygulamalar için, allometrik ölçeklemenin boyutluluğunun farkındalığına ve muhasebesine ihtiyaç vardır.

Birimlerin biyolojiye dengelenmesinin nasıl genişletileceği hakkında bir biyolojik sistemin bu fiziksel araştırma örneğini okuyun . Bu makalede, yukarıdaki 1) ila 4) adımları takip edildi ve glomerüler filtrasyon hızı olduğu gibi en iyi formül, en iyi formül bulundu. birimler, , ağırlığın dört boyutlu bir fraktal geometrik yapı olduğu ve V, hacminin Öklid veya üç boyutlu değişken olarak adlandırıldığı şekilde fraktal geometri kullanılarak anlaşıldığı bir katabolizmanın işaretleyicisidir . Sonra G F R, W, 1 = 1GFR=kW1/4V2/3GFRW GFR1=1443+23. Böylece formül boyutsal olarak metabolizma ile tutarlıdır. Bunu kavramak kolay bir ifade değil. 1) metabolizmanın bir belirteci olduğu genellikle bilinmemektedir (bilinmiyor) . 2) Fraktal geometri sadece seyrek olarak öğretilir ve sunulan formülün fiziksel yorumunun, matematik eğitimi almış biri için bile kavranması zordur.GFR


2
Bu, spesifik olarak aşamalı regresyondan ziyade genel olarak regresyon ile ilgili bir problemi tanımlamaktadır.
Kazara İstatistikçi

2
Evet, bunlar genel olarak dikkate alınması gereken regresyon unsurlarıdır. Sorunun nereden geldiğini doğru bir şekilde anlarsam, adım adım regresyon genellikle burada verdiğiniz endişeleri ele almayan LASSO'nun beğenilerini kullanmak için kınanır.
Kazara İstatistikçi

4
Bu konudaki dürüstlüğünüzü ve iyi niyetinizi takdir ediyorum, Carl. Oylamanın sorunları olduğunu inkar etmeyeceğim. Bir yazıdaki oylamayı değiştirmeyi bildiğim tek etkili yol, cevabı değiştirmek - ya teknik olarak geliştirmek, genişletmek ya da fikirleri farklı bir şekilde iletmek - ve hatta o zaman istenen yanıtı alacağının garantisi yok (hatta herhangi bir yanıt!). Bazen, aşağıya vuranları anlamak için yapılan saygılı çabalar, herkesin bir gönderiyi geliştirmek için bu tür çabaları takdir etmesine (ve onaylamasına) yardımcı olacak bilgileri ortaya çıkaracaktır.
whuber

3
@Carl Düzenli downvotes alıyorsanız, yapılacak ilk şeyin gönderilerinizi nasıl geliştirebileceğinizi düşünmek olduğunu düşünüyorum (ve genellikle altında iyileştirmeler öneren yorumlarınız var). Kendim için konuşursak, bir yorumcuya katılmıyorum bile, daha iyi bir cevaba yol açan sorunları ortaya çıkarıyorlar. Yanıtlarınızla ilgili olarak beni kendim aşağılamak için neredeyse harekete geçirecek sorunları düzenli olarak fark ettiğimi söyleyeceğim. Bunu yapmak için zamanım olduğunda, bir yorum bırakmaya çalışıyorum.
Glen_b

3
Kademeli regresyon problemlerinin birçoğunun - 0'dan uzaklaşan tahminlerle ilgili sorunlar, 0'a doğru eğilimli standart hatalar, gerçekten çok daha düşük nominal tip I hata oranları ve tüm alt kümelerde çeşitli diğer problemlerin hala mevcut olduğu gibi - - Gerçekten de, neredeyse her tür optimizasyonla ilgili bir konudur (Frank Harrell'in Regresyon modelleme stratejilerinin 4. bölümü faydalı bir referanstır). Büzülme / düzenlileştirme bu sorunların bazılarını hafifletebilir (özellikle seçimin dışa doğru önyargı tahminlerine eğilimi) ve örnek dışı değerlendirme çoğu için önemli bir araçtır.
Glen_b
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.